新聞中心

        EEPW首頁 > 醫療電子 > 設計應用 > 數據挖掘技術在中醫證候學中的應用

        數據挖掘技術在中醫證候學中的應用

        作者:周旭 趙耀 時間:2018-03-29 來源:電子產品世界 收藏
        編者按:中醫證候的研究工作仍然存在一定的困難,證候的規范化和證候診斷的量化是中醫發展必須解決的問題。數據挖掘技術是一種高效的數據分析手段,其在中醫領域的研究也逐步走向熱門。使用數據挖掘技術中的關聯規則和分類算法對早中期慢性腎衰竭的證候和癥狀進行分析:首先對采集的癥狀和證候信息進行數字特征化處理;然后對證候之間的關聯關系進行研究,獲得了高支持度的四組證候組合;最后分類和預測癥狀和證候之間的辯證關系,得到了癥狀的規則集,并計算出其中的重要癥狀。實驗證明,分類結果對早中期慢性腎衰竭的癥狀與證候的辯證論治具有重要的臨床指

        作者 / 周旭1 趙耀2  1. 河北醫科大學 基礎醫學院(河北 石家莊 050017) 2. 中國人民銀行石家莊中心支行(河北 石家莊 050000)

        本文引用地址:http://www.104case.com/article/201803/377635.htm

        *基金項目:河北省中醫藥管理局科研計劃項目(編號:2014012)。

        周旭(1983-),女,碩士,講師,研究方向:

        摘要:中醫的研究工作仍然存在一定的困難,的規范化和診斷的量化是中醫發展必須解決的問題。技術是一種高效的數據分析手段,其在中醫領域的研究也逐步走向熱門。使用技術中的和分類算法對早中期慢性腎衰竭的證候和癥狀進行分析:首先對采集的癥狀和證候信息進行數字特征化處理;然后對證候之間的關聯關系進行研究,獲得了高支持度的四組證候組合;最后分類和預測癥狀和證候之間的辯證關系,得到了癥狀的規則集,并計算出其中的重要癥狀。實驗證明,分類結果對早中期慢性腎衰竭的癥狀與證候的辯證論治具有重要的臨床指導意義。

        0 引言

          證候是醫師通過望、聞、問、切來收集病人四診信息資料,運用相關中醫理論,從整體上對疾病進行分析,歸納、推理、判斷疾病的某一時點病理狀態綜合反映的認識[1]。由于證候是一種非線性的復雜的臨床表現,只有采用與證候復雜性相適應的科學理論及思維方法對其進行研究,才能揭示其科學內涵[2]。運用數據挖掘技術對中醫證候的構成特點及其規律進行分析研究,將對中醫證候的辯證分析起到巨大的促進作用。

        1 數據挖掘技術

        1.1 數據挖掘定義

          數據挖掘是從大量數據中挖掘有趣模式和知識的過程。從廣義上說,數據挖掘是對數據庫知識發現(Knowledge Discovery in Databases,KDD)的一個過程[3]。數據挖掘作為一種通用技術,可以應用于任何類型的數據,包括數據庫、數據倉庫、web信息以及其他信息存儲數據庫和動態的流入系統的數據等。

        1.2 常用的數據挖掘算法

        1.2.1

          關聯分析用于發現隱藏在數據集中的有意義的聯系,所發現的特征變量之間的聯系可以用或頻繁項集的形式表示。關聯規則挖掘作為一種重要的數據挖掘方法,已經廣泛應用于醫學、金融、互聯網等多個領域[4]。Agrawal等人[5]提出了最早的基于頻繁項集的經典關聯規則Apriori算法。發現關聯規則需要經歷兩個步驟:①通過一種逐層搜索的迭代算法,檢索出支持度不低于某一預設閾值(支持度)的頻繁項集;②利用檢索出的頻繁項集構建出強關聯規則(同時滿足最小支持度和最小置信度)。

        1.2.2 分類

          分類任務就是確定對象屬于哪個預定義的目標類。分類問題是一個普遍存在的問題,已經有大量應用,包括目標營銷、性能預測、制造和醫療診斷等[6]。數據挖掘技術中比較成熟且應用廣泛的分類算法有貝葉斯網絡、決策樹以及人工神經網絡等。

          貝葉斯方法最早起源于英國數學家托馬斯.貝葉斯在1763年所證明的一個關于貝葉斯定理的一個特例[7]。經過多位統計學家的共同努力,貝葉斯統計在20世紀50年代之后逐步建立起來,成為統計學中一個重要的組成部分[8-10]。從1763年到現在已有250多年的歷史,這期間,貝葉斯統計方法有了長足的進步[11]

          決策樹模型源于人工智能領域的機器學習技術,用于實現數據的分類和預測。經過多年發展,其核心算法已經逐漸成熟,被各類智能決策系統所采納[12]。其中的C5.0算法作為C4.5算法的商業版本,通過對生成規則及算法精確度方面予以改進,獲得了更準確的生成規則、更快的運行速度以及更低的誤差率[13]。決策樹模型在中醫證候學和診斷學[14-15]等方面的應用研究已經較為成熟。

          人工神經網絡是20世紀80年代發展起來的一門由計算機、信息、工程、醫學、生物學、數學、物理學等多學科交叉的邊緣學科[16]。它包含輸入層、輸出層以及1個或幾個隱含層,各層中處理數據的節點稱為神經元,信息處理是由神經元之間的相互作用來實現的。腦與神經科學、人工智能、計算機科學的深度融合與相互借鑒已成為近年來科學研究領域重要的國際趨勢[17]

        2 數據集的建立

        2.1 數據采集

          本文實驗數據采自早中期慢性腎衰竭患者的病案。病案內容包括患者姓名、性別、年齡、原發病、癥狀、體征、腎功能指標、中醫證候、中藥處方等。本文摘取其中的癥狀和證候信息進行數據挖掘的分析研究。共采集并錄入病案信息223條,其中記錄癥狀共76種,論治證候共16種。

        2.2 數據特征化

          針對要采用的數據挖掘算法,本文將每條數據記錄用布爾值的形式表示,如表1所示。

          其中布爾值0和1表示病人是否具有這種癥狀或證候,0表示病人沒有此癥狀或證候,1表示病人具有此癥狀或證候。

          按照上述方法建成癥狀和證候數據庫,其中包括:包含所有癥狀的數據集,由專業教授診斷判別的證候數據集,統計癥狀和證候頻次的癥狀和證候計數數據集以及主要癥狀數據集和主要證候組合數據集。

        3 關聯分析

          本研究共納入癥狀16種,出現頻數在病案總條數10%以上的的證候有11種,分別是血瘀,脾腎氣虛,濕熱內蘊,脾腎陽虛,濕濁阻滯,風濕,胃氣上逆,肝陽上亢,肝腎陰虛,陰陽兩虛,氣滯胃腸。

          本文采用Apriori算法建模,對這11種主要的證候進行關聯分析。結果見表2(由于篇幅限制,只摘取支持度30%以上的規則顯示)。

          支持度是指所有前項證候同時出現的概率,置信度是在前項證候出現的前提下,后項證候同時出現的概率。結果顯示,血瘀單獨出現的幾率最高,達到98.21%;血瘀與脾腎氣虛同時出現的幾率高于60%;在此基礎上,再同時伴有濕濁阻滯或濕熱內蘊者均在30%左右,而兩者之和則高于60%,充分表明瘀阻、濕壅與脾腎氣虛為慢性腎衰竭虛實夾雜、本虛標實的主要體現。

          使用SPSS Clementine12.0中的網絡圖形建模,該模型可以直觀的體現11種高頻證候兩兩之間關聯關系,連接兩種證候之間的直線越粗,表明兩種證候同時出現在一個病案中的頻率越高。如圖1所示。

          結合網絡關系圖及鏈接數據分析,強鏈接關系主要集中于血瘀、脾腎氣虛、濕熱內蘊、濕濁阻滯和脾腎陽虛之間。其中,位于前三位的鏈接關系分別為血瘀與脾腎氣虛、濕熱內蘊、脾腎陽虛之間,連接條數達389條,占所有連接條數的50%以上,表明血瘀為早中期慢性腎衰最重要的標實證候;脾腎氣虛除與血瘀之外,與脾腎陽虛、濕熱內蘊、濕濁阻滯之間的關系均較密切,故為本病最主要的本虛證候。

        4 分類與預測

        4.1 決策樹模型的建立

          本文使用C5.0算法構建決策樹模型。統計數據庫中患者癥狀出現的頻數,從76個癥狀中篩選出出現次數10次以上的主要癥狀如畏寒、小便黃、腰酸痛、眼瞼、下肢水腫、舌紅、舌暗紅、寒熱不調、寐差、夜尿頻、大便干、雙目干澀、視物模糊、納差、大便粘膩、胃脘不適、口干咽干、關節疼痛、腿麻木脹痛、惡心、干嘔、四末厥冷、咽癢咽痛咳嗽有痰、耳鳴、腹脹、口苦、舌淡、后背沉重、小便量少、小便清長、咽部異物感、潮熱、乳房脹痛、齒痕舌、舌淡暗、汗出、舌淡紅、皮膚瘙癢健忘、尿頻、大便溏、口淡等39個。使用這些主要癥狀參與建模,按其出現次數降序排列。

          據前述關聯規則的結果,出現頻數較高的證候組合(支持度30%以上)共四個,包括:①血瘀、脾腎氣虛;②血瘀、脾腎氣虛、脾腎陽虛;③血瘀、脾腎氣虛、濕熱內蘊;④血瘀、脾腎氣虛、濕濁阻滯。癥狀是疾病所反映的現象,它是判斷病種,辨別證候的主要依據。分別對這四種高頻證候組合及其對應的癥狀進行決策樹建模,每個組合分別獲得若干條癥狀的分類規則。組合1獲得的規則集如表3。

          我們選取分類結果為真的規則集,這些規則集預測的結果就是證候組合為真。組合1(血瘀和脾腎氣虛)共獲得了8條判斷規則,前7條規則都可作為組合1的有效分類規則,而第8條規則中,分類特征的屬性都為0,在實際臨床應用中不具備實際作用,將其忽略。組合2獲得3條有效分類規則;組合3獲得4條有效分類規則;組合4獲得3條有效分類規則。這些有效規則都可以獨立地的預測其對應的證候組合,構成規則的癥狀數量較少,可以簡化診斷過程。

        4.2 計算變量重要性

          不同證候組合所對應的癥狀規則不盡相同,基于對癥狀的信息熵的分析計算,提取每個組合其所對應的重要癥狀,結果如表4,表中癥狀出現的順序按照重要性降序排列。

          表中的癥狀是去除冗余癥狀之后的結果,剔除了不重要的癥狀,保留的癥狀是對證候組合的預測有重要貢獻的癥狀。重要度越高,表明此癥狀對目標證候的預測影響程度越高;反之重要度越低,表明此癥狀對目標證候的預測影響程度越小。

          不同證候組合所對應的預測癥狀不盡相同,通過分析發現,四種最常見證候組合均可出現畏寒的臨床表現,而每一種組合用于鑒別的重要癥狀則主要集中側重后背沉重、寒熱不調、尿頻、舌淡等臨床表現。

        4.3 不同分類模型預測結果對比

          本文對支持率較高的四種證候組合,采用三種常見的數據挖掘分類預測算法:C5.0決策樹、貝葉斯網絡以及人工神經網絡對癥狀進行分類預測,對比分類準確率如圖2。

          三種分類算法中,貝葉斯網絡對本數據集的分類準確率最高,在84.75%到96.41%之間。神經網絡的分類準確率較低,在73.99到91.93%之間,而三種分類算法的平均準確率都達到了82%以上,準確率較為理想。

        5 結論

          本文首先構建了一個基于Apriori算法的模型,進行證候的關聯規則挖掘,發現了在早中期慢性腎病患者中的四組高支持度證候組合,并且與中醫理論較為吻合,同時也為下一步的分類與預測工作提供數據支持。

          其次針對較高支持度的四組證候組合以及患者出現的高頻癥狀采用C5.0算法進行決策樹建模,以期得一些有意義的癥狀規則。結果顯示,這些規則集可以預測患者是否屬于某種證候組合,本文選取預測類別為“真”的規則集(可預測患者確實屬于某種證候組合)作為臨床診斷的參考。預測類別為“假”的規則集(預測患者不屬于某種證候組合)不具備臨床診斷意義,所以不予討論。同時計算出參與預測的癥狀的重要性,判別哪些癥狀對證候組合的預測結果具有重要意義,說明這些癥狀在臨床診斷中值得關注。

          最后分別使用使用貝葉斯網絡,C5.0和神經網絡三種分類算法對癥狀進行建模,分析不同的分類算法分類預測的準確率。貝葉斯網絡對四組證候組合的平均分類準確率最高為89.80%;C5.0和其非常接近,也達到88.34%,說明這兩種分類算法對本數據集中證候組合的分類預測都比較可靠。神經網絡的的準確率為82.85%,相較前兩種算法較低,但由于中醫數據集的樣本數量有限且主觀性較強,獲得的準確率達到百分之八十以上我們就可認為是有效可行的分類預測算法。所以認為這三種算法對于癥狀和證候的分類預測都是可行的,且以貝葉斯網絡和C5.0算法為更優,預測結果都可以作為臨床診斷的參考依據。

          本文采用的算法都是數據挖掘中的經典算法,并沒有對算法進行優化工作,對證候組合的提取以及癥狀的分類預測還需要大量的實驗數據進行進一步驗證,算法的準確率還需要進一步提高,這些都是需要進一步改進的地方。

          綜上所述,利用多種數據挖掘算法對早中期慢性腎病的癥狀與證候進行逐漸深入的知識挖掘,是可行有效的,獲得的高支持度證候組合以及癥狀的分類預測規則對于臨床診斷也是有一定指導意義的。如何在算法上有更多突破,同時將更多新的算法引入到中醫研究中,以期提高挖掘的效率和準確性,是我們下一步的研究方向。

          參考文獻:

          [1]田金洲,王永炎,時晶,等.證候的概念及其屬性[J].北京中醫藥大學學報,2005,28(5):6-8.

          [2]孫安會,袁肇凱,夏世靖.中醫證候系統生物學研究的現狀和展望.[J]中華中醫藥雜志,2016,31(1):200-204.

          [3]JiaWeiHan,MichelineKamber, Jian Pei.數據挖掘概念與技術[M].范明,孟曉峰,譯.北京:機械工業出版社.2012:243.

          [4]Giannella C,Han Jiawei,Pei Jian,et al. Mining frequent patterns in data streams at multiple time granularities[J].Next GenerationData Mining,2006,35(1):61-84.

          [5]AGRWAL R,SRIKAN R.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: MorganKaufmann Publishers,1994:487-499.

          [6]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數據挖掘導論 [M]. 范明,范宏建,譯.北京:人民郵電出版社。2011:92

          [7]Bayes T. An essay towards solving a problem in the doctrine of chances [J]. London: Philosophical Transactions Royal Societv, 1763,53:370-418

          [8]茆詩松.貝葉斯統計[M].北京:中國統計出版社,1999.

          [9]P M Lee.Bayesian statistics: An Introduction[M]. New York: John Wiley & Sons, 2012.

          [10]A Gelman,J Carlin,H Stern,et al.Bayesian Data Analysis[M].Boca Raton:CRC Press,2013.

          [11]Efrou B.Bayes’ theorem in the 21st century[J].Science, 2013, 340(6137):1177-1178.

          [12]N Robert,E John,M Gary.Handbook of statistical analysis and datamining applications[M].USA:Elservier,2009.

          [13]熊平.數據挖掘算法與Clementine 實踐[M].北京:清華大學出版社,2011,26:116-118.

          [14]張琪,周琳,陳亮,等.決策樹模型用于結核病治療方案的分類和預判[J].中華疾病控制,2015,19(5):510-513.

          [15]陳瀟雨,馬利莊,胡義揚.基于決策樹方法的慢性乙型肝炎中醫證候分類[J].上海:中醫藥大學學報,2013,27(1):40-43.

          [16]B D Ripley.Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. 1996.

          [17]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計算機學報,2016,39(1):212-222.

          本文來源于《電子產品世界》2018年第4期第56頁,歡迎您寫論文時引用,并注明出處。



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 如皋市| 陆河县| 宁陵县| 紫阳县| 海晏县| 泰兴市| 电白县| 延边| 卫辉市| 香河县| 双牌县| 潼关县| 温泉县| 香港 | 屯留县| 托克逊县| 中阳县| 长兴县| 黄冈市| 南靖县| 桦南县| 葵青区| 德江县| 南充市| 韶山市| 明水县| 莫力| 仪陇县| 项城市| 威宁| 益阳市| 广平县| 清镇市| 灵璧县| 敦煌市| 陵川县| 武宁县| 九寨沟县| 临湘市| 沙湾县| 襄垣县|