基于文献计量分析的数据挖掘在中医诊断学领域的应用研究*

2021-02-24夏淑洁杨朝阳林雪娟李书楠王洋李灿东

天津中医药 2021年2期

夏淑洁，杨朝阳，林雪娟，李书楠，王洋，李灿东

（1.福建中医药大学中医证研究基地，福州 350122；2.福建省中医健康状态辨识重点实验，福州 350122；3.湖南中医药大学中医学院，长沙 410208）

中医诊断[1]立足于整体观念，分别从望、闻、问、切4个不同方面收集疾病相关信息，通过综合分析以判断当前疾病的内在机制给出相应的辨证，从而指导临床用药，这个过程体现了中医最大的特点，即辨证论治。然而，传统辨证诊断方法也存在一定的局限性。首先，繁杂性。同一证候表现常有不同的辨证方法，面对繁多分类，往往给学习者带来困惑。其次，主观性。中医辨证主要凭借人体感官所获取的病例信息，其主观性较大。再者，模糊性。中医中许多概念都是以定性或半定量为主，诊断相关的症状如频率、严重程度、证候的轻重、转归等都是相对模糊的概念，因此传统中医诊断过程中的规范、客观、量化一直成为近半个世纪以来中医研究领域中亟待解决的关键问题[2]。

自20世纪70年代开始，受计算机新技术的影响，中医学者开始寻求借助计算机技术以解决中医复杂、灵活的辨证问题，这也为后面的数据挖掘技术与中医辨证诊断结合奠定了基础，并促进了中医的现代化发展。数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中通过挖掘隐藏于其中有用信息的过程，它由计算机科学、统计学、机器学习、专家系统和模式识别等诸多方法多个领域相融合而形成的一个交叉学科[3]。可见，数据挖掘技术可充分考虑到真实世界中中医数据繁杂、模糊、非线性的特点，从复杂的临床数据中挖掘繁杂的证、症关系，寻找大数据下的隐藏中医知识和规律[4]，这无疑成为中医诊断客观化进程中有力的催化剂。

虽然有不少文献对近年来常用数据挖掘方法在中医诊断领域进行总结梳理，但参考文献有限，且缺乏基于整体学科发展趋势的科学计量研究。因此，研究运用科学计量方法，通过绘制可视化知识图谱，概括国内数据挖掘在中医诊断学领域应用文章的发表情况、主要研究主题、研究热点及未来的发展趋势等，以期对中国中医诊断与数据挖掘交叉领域研究提供有益参考。

1 研究方法

1.1 文献来源文献资源以国内科技文献中最全的中国知网（CNKI）数据库为检索来源，为保证文献质量，进一步选择中国知网学术期刊网络出版总库，采用高级检索功能，依次对“中医”“诊断”“数据挖掘”及其同义词进行主题检索，并选择在结果中检索，时间范围设置为1915—2019年，文献类型选择“期刊”，排除会议摘要、杂志通知、广告、信件等内容后，将所选文献以“Refworks”文件格式导出以进行可视化分析，同时保存至Endnote软件以进行文献整理和查重。

1.2 数据处理利用CNKI数据库文献分析功能进行描述性分析，利用Endnote对收录文章进行查重处理，并提取相关题录信息进行频数统计分析。利用信息可视化软件CiteSpace（V5.5.R2）和VOSviewer（V1.6.14）进行本研究领域知识图谱绘制。前者是由美国德雷塞尔大学陈超美博士所开发，其特点是能够展示一个学科或知识域在一定时期发展的趋势与动态，并形成若干研究前沿领域的演进历程[5]；后者是由荷兰莱顿大学的Nees Jan van Eck和Ludo Waltman所共同开发[6]，其主要特点是可以对学科主题之间的关系进行清晰的呈现。文章结合两款科学计量软件的优势，通过对发文作者与机构合作网络、关键词共现与时间演变、突现词等进行分析，以进一步探讨数据挖掘技术在中医诊断学领域应用研究中的主题分布与热点演进情况。

2 研究结果

2.1 总体分布特征

2.1.1 年度发文量通过对CNKI所有文献资料检索初步获得1 797篇文献，进一步将文献类型设为“期刊”，获得期刊文献共计693篇文献，并将不符合研究内容的文献如会议摘要、期刊通知等删除，并去除重复文献，最后共得662篇符合研究标准的目标文献，时间跨度从1979—2019年。期刊文献为科研思路和成果的重要载体，发文量可以一定程度上反应科研产出情况。数据挖掘在中医诊断学领域应用的发文量随时间分布见图1，从发文量来看，数据挖掘与中医诊断相关的期刊文献出现5个较明显的发展阶段。

图1 数据挖掘在中医诊断学领域应用的年度发文情况Fig.1 Annual publication of data mining applications in the field of traditional Chinese medicine diagnostics

1）1979—1987年为交叉学科的起源阶段，中医学界开始纷纷探索用科学计算机、统计手段解决中医诊断存在的问题以寻求实现现代化的方法，发文量开始递增，该阶段每年平均发文量9篇。2）1988—2002年为缓慢的科学探索阶段，该时期每年发文量波动不大并维持在相对较低水平，主要基于前期的研究工作进行探索与验证，每年平均发文量6篇。3）2003—2008年期间为发展阶段，该时期在数据挖掘与中医诊断学领域中有较多的新方法和新理论产出，发文量开始呈较快上升速度，2005年论文增长率为92%，2008年发表论文达40篇，该阶段平均每年发文量为23篇。4）在2009—2015年为发展平台期，自2009年相关论文发表量回落后，论文发表保持在相对稳定的水平，曾出现短暂的回落但又快速恢复，平均年度发文量为27篇。5）2016年至今为新的发展阶段，论文发表量至2019年达到历史最高的53篇，平均每年发文量为42篇。可见，目前数据挖掘在中医诊断学领域应用研究有着很好的发展前景，但如何更好实现中医诊断现代化还需要更多的学者予以关注。

2.1.2 学科和期刊分布在CNKI数据库中显示本研究领域发表的文献所属学科集中在医药卫生科技，约占64.5%；其次，是信息科技，约占28.7%。此外还涉及工程科技、社会科学及基础科学等领域，有些文献内容涉及不同学科的交叉，故也会出现同一篇文献归于几个不同学科的现象，这也体现了学科的交叉是科学发展的原始动力之一。1979—2019年间中医诊断与数据挖掘交叉领域研究的文献共计在国内243个期刊发表，发文量前20名的期刊情况如图2所示，发表在《中华中医药杂志》《辽宁中医药杂志》《中国中医药信息杂志》上的数量最多，分别为 34篇（6.25%）、25篇（5.77%）、21篇（4.81%），这些期刊主要为中医领域的核心期刊，说明国内将数据挖掘与中医诊断学交叉领域已有被学术界认可的学术成果。

图2 数据挖掘在中医诊断学领域应用文献主要出版来源Fig.2 The main publication sources of data mining in the field of traditional Chinese medicine diagnostics

2.2 研究主体

2.2.1 主要作者分布本次纳入研究的662篇文献共包含1 749位作者，其中核心作者是活跃在这一研究领域的代表性学者。依据普赖斯定律的计算公式：m=0.749（1）式中nmax为所统计年限中发表论文最多的作者的发文数，而发表论文数在m篇以上的作者即被认为是高产作者。统计发现高产作者发文量最多为13篇，故m=2.7，按照取整原则，高产作者发文量大于或等于3篇。通过数据统计与分析，发文量3篇及以上的作者有35位，其中发文量为前20位作者如表1所示，高产论文学者主要有周小青、李建生、林求诚、胡金亮、朱文峰、晏峻峰、王忆勤、王永炎、袁肇凯、李灿东、王阶等。通过VOSviewer对近20年（1999—2019年）作者主要合作网络进行可视化分析，如图3所示，不同节点颜色代表不同的年份，颜色越接近蓝色，说明该作者发文时间越久，是该研究领域的早期开拓者；节点颜色越接近黄色，说明该作者发文时间越近，是该研究领域的新近活跃者。图中清楚地展现了近20年全国数据挖掘在中医诊断学科领域应用研究的主要团队的合作与发展脉络，并且发文量较多的作者呈现出明显的网络特征，说明中国该领域已形成多个产量较高的作者群。

2.2.2 研究机构分布本领域的发文机构主要集中在中医药大学及附属医院，高产研究机构有上海中医药大学（43）、北京中医药大学（42）、湖南中医药大学（40）等，图4中列出了排名前18位的机构。进一步利用CiteSpace软件对近20年本领域的主要研究机构绘制共现图谱，切片长度（Slice Length）设置为 2，筛选原则（Selection Criteria）为 T50，修剪方法选寻径法（Pathfinder），并将节点阈值（Threshold）设为2次，如图5所示。图中共出现64个节点和40个链接，密度值为0.019 8，从图中知中国该领域的合作多以省内合作为多，跨省合作对象主要是各中医药大学之间，值得注意的是少部分理工类机构也加入其中，主要有厦门大学智能科学与技术系、广东工业大学自动化学院、河南大学数据与知识工程研究等。从合作发文时间来看，早期以湖南中医药大学、北京中医药大学发文为主，而后上海中医药大学、广州中医药大学发展起来，近几年福建中医药大学、山东中医药大学及成都中医药大学也成为后起之秀。

表1 数据挖掘在中医诊断学领域应用研究的高产作者Tab.1 Highly productive authors of data mining application research in the field of traditional Chinese medicine diagnostics

2.3 研究主题与发展趋势

图3 数据挖掘在中医诊断学领域应用研究的主要作者合作网络Fig.3 Main author’s cooperation network of data mining in the field of traditional Chinese medicine diagnostics

图4 数据挖掘在中医诊断学领域应用研究的主要机构分布Fig.4 Distribution of the main institutions of data mining in the field of traditional Chinese medicine diagnostics

2.3.1 关键词共现分析研究的主题的分布及演化过程能够体现不同时序内的热点领域、分析视角、研究方法等的变化。而关键词作为学术论文研究主题的精炼表达，其在一定程度上可以揭示学科领域中知识的内在联系。文章对1979—2019年出现的关键词进行同义词合并，其中出现频数排前28位的关键词分布见于表2。运用VOSviewer软件对中医诊断与数据挖掘交叉领域的文献中作者所给出的关键词进行共现分析，取阈值3后绘制图6。关键词字体越大、结点越大说明该关键词在网络中越重要，不同颜色代表其不同的聚类，从图中可以看出，本交叉学科研究领域围绕“数据挖掘”核心技术主要形成4大关键词类簇，形成4个主题：计算机与中医辨证论治（红色部分），数据挖掘与疾病用药规律（绿色部分），中医计量诊断（蓝色部分），人工智能与中医四诊（黄色部分）。从图中可知这4种聚类之间存在一定的混合部分，如红色区域中的“辨证论治”与蓝色部分“中医辨证”、绿色部分的“数据挖掘”与黄色部分的“人工智能”等存在着有包含和重叠的部分，说明各研究主题之间存在相互交叉、渗透的关系，这也是学术研究中普遍存在的现象，有助于中医诊断与数据挖掘交叉领域研究的深入发展。

2.3.2 主题演变路径分析重要关键词出现的时间演进情况可进一步勾勒本领域研究主题及其发展动向，通过CiteSpace绘制出国内中医诊断与数据挖掘交叉领域文献关键词共现网络的时区图（Timezoneview），时间跨度设置为1979—2019年，将切片长度设置为2，一共得到162个关键词节点和462条连线，见图7。在时区图上，不同时间段首次出现的关键词节点放置在不同的时区中，其所放位置的高度将随着时间的延长依次增加，这样就得到了一个自下而上、从左到右的知识演进图。早期的关键词经过数年的积累，其词频通常要显著高于后面时区的关键词，这体现了应用数据挖掘方法解决中医诊断问题的最早和经典应用场景。例如，由图5得到“计量诊断”及“计算机辅助诊断”是将数据挖掘方法应用在中医诊断的早期和典型场景，但随着科学技术的发展，研究主题也在更新，并在不同时期又呈现出不同特点。

图5 数据挖掘在中医诊断学领域应用研究的主要机构共现网络Fig5 Co-occurrence network of major institutions for the application of data mining in the field of traditional Chinese medicine diagnostics

表2 数据挖掘在中医诊断领域应用研究的高频关键词Tab.2 High-frequency keywords of data mining in the field of traditional Chinese medicine diagnosis

1）1979—1987年为该研究领域的起源阶段，本时期在中医的研究领域产生了大量影响深远的关键词，基于中医的基础理论，采用计量诊断、专家系统、计算机辅助诊断、数学模型、人工智能等方法研究中医辨证诊断成为经典主题。当时受计算新技术的影响，中医界也开始寻求现代化发展方法，将控制论观点与数学模型结合，以计算机为手段，研究中医的辨证论治的规律成为热点[7]。朱文锋教授研制的第一台中医数字辨证机，建立了“加权求和浮动阈值运算”以期实现中医辨证定量[8]，这在中医几千年的历史发展进程中具有革命性的意义，在一定程度上解决了中医学领域中辨证论治这个最关键的问题，它把灵活复杂、富于经验的中医学与标志现代科学技术发展水平的计算机科学结合起来，为后期中医诊断客观、量化研究奠定了基础。

2）1988—2002年为本领域的缓慢探索期，主要在上时期的理论与研究基础上进行验证与方法改良，故该时期文献量较少，也未出现新的高频关键词。从文献发表内容来看，该时期的研究主题多为探索计算机辅助辨证和中医专家系统在临床的应用情况及中医计量诊断的理论与方法研究。如研究者借助电子计算机应用多元分析等数理统计方法对血瘀证宏观的症状、体征组合规律进行探索，以期更好进行临床辨证[9]。有学者对探索胃癌、哮喘、肝病等的中医诊断建立相应的数学统计模型，以进行疾病辨证量化研究[10-12]。

图6 数据挖掘在中医诊断领域应用研究的高频关键词Fig.6 Co-occurrence of high-frequency keywords in the application research of data mining in the field of traditional Chinese medicine diagnosis

图7 数据挖掘在中医诊断领域应用研究的时区图Fig.7 Time zone diagram of data mining application research in the field of traditional Chinese medicine diagnosis

3）2003—2008年为本领域的发展期，随着数据挖掘技术的兴起，有更多的新方法开始引进到中医辨证诊断领域，如“神经网络”“贝叶斯网络”“决策树”“支持向量机”等。2003年龚德平首次在文中以“数据挖掘”作为关键词，介绍了新的数据挖掘技术贝叶斯网络、决策树在中医诊断系统的运用[13]。朱文峰等[14]提出了“证素”及“证素辨证”，将中医辨证过程概括为“根据证候，辨别证素，组成证名”，并研制出“双层频权剪叉”算法以解决证素辨证研究中诊断权值的问题。王阶等[15]将中医诊断方法与复杂算法结合，采用信息熵的关联度和多元对应分析对中医证候中的血瘀证及亚型进行研究。此外，该时期的研究主题还涉及关联规则、证候诊断标准、辨证分型、中医诊断学及相关计算机技术等方面，疾病主要涉及到冠心病、糖尿病等。

4）2009—2015年为本领域发展的平台期，该时期在前期大量的研究基础上，产出较多文献研究与理论探讨的文章，如李灿东等[16]在总结分析了“中医专家系统”和原有辨证模型利弊的基础上，强调模型算法在求解表征参数对状态要素贡献度的基础上，还必须遵循中医理论体系和思维规律，并提出了基于中医辨证思维的中医健康状态辨识模型算法研究的基本框架。该时期的研究主题仍然集中在数据挖掘技术在中医领域的应用，具体还涉及用药规律、模糊数学、聚类算法、分类算法等。如朱小虎等[17]运用模糊数学方法对膝骨关节炎（KOA）的中医证候进行客观量化，初步建立起该病证识别的模糊数学模型；基于方证对应研究，田茸等[18]采用熵聚类与apriori算法对脾虚型泄泻方剂组方用药规律进行探索总结等。

5）2016年至今为本领域的新的发展时期，随着“互联网+”与大数据时代到来，数据挖掘尤其是人工智能的发展得到有力支撑，“健康中国”政策更加有力推动医疗领域的数字化进程不断向纵深方向推进。该时期研究主题主要在中医大数据、状态辨识、名老中医学术经验传承、转化医学及机器学习等方面，尤其是“状态辨识”作为新的理论提出[19]，使中医诊断富有了新的内涵，它将传统中医对疾病的诊断扩大到对生命过程全周期健康状态的把握[20]。李灿东等[21]将中医状态运用到中医健康管理中，利用“融合多源异构数据”和“多标记框架的深度学习”两种人工智能算法有效构建中医健康状态辨识算法模型，以此推动智慧中医的发展。此外，中医的发展前提的有效地继承，故对名老中医学术经验的挖掘也是近年来的主题，如陆施婷等[22]通过“中医传承辅助平台管理系统”分析“疾病-证候-治法-中药”之间的关系，总结名医丁学屏教授诊治糖尿病合并高血压的临证经验等。

2.3.3 前沿趋势预测 2002年Kleinberg提出了突发检测算法，这种算法可以高效地探测学术研究中的“爆发点”，即检测出短时间内频率急剧上升的突变词，由此来确定某个领域的热点问题和新兴趋势[23]。文章利用Citespace软件的Kleinberg突发检测算法（Burst Detection）对中医诊断与数据挖掘交叉研究领域突变词进行检测，并且以突发词成为热点的开始时间作升序排列，共检测到28个热点突发词，如表4所示。“强度”表示关键词的突发强度，强度越高意味着短时间内该词出现次数越多，“起始年”为该词成为热点的时间，“结束年”为该词不再成为热点的时间，时间段下方红色的粗线为热点所延续的时间。由表4可得，计算机、中医学、数学模型、计算机辅助诊断及中医证型在早期的较长时间成为研究关注热点，其中“计算机”为突现强度最大的关键词，说明将计算机技术应用于中医诊断领域成为研究的主要趋势。近10年来，本领域突现的关键词主要有：数据挖掘、关联规则、决策树、中医药、模糊数学、用药规律、聚类算法、大数据、名老中医等。这也指明了现今中医诊断与数据挖掘交叉领域的热点问题：第一，数据挖掘方法技术如关联规则、决策树、聚类算法等在中医诊断领域中的应用值得进一步关注。第二，注重方证对应关系，名医经验传承与用药规律分析也成为研究热点。第三，在如今互联网+及“健康中国”时代，中医诊断也赋予了新的内涵，基于真实世界的健康大数据分析成为新兴热点，如何借助现代科学手段，充分发挥中医药治未病优势与传承名医经验，从海量的大数据中发掘中医诊治中所隐藏的规律成为关键问题。

3 结论

本研究以CNKI中国期刊数据库为数据源，收集自建库以来中医诊断与数据挖掘交叉领域研究文献662篇，充分整合Citepace和VOSviewer 2种科学计量可视化软件的优势，对1979—2019年间数据挖掘在中医诊断学领域应用文献进行了可视化分析。首先，从年度文献发表量、期刊及学科分布、作者及机构共现的不同维度，对本领域研究情况进行的汇总分析。其次，基于关键词出现频次和首次出现时间，分别绘制关键词共现网络和时区图，以展现本领域主要研究主题发展与演变情况。再者，根据关键词突现分析，发掘近年来的数据挖掘在中医诊断学领域研究的热点及未来发展趋势，旨在为本交叉研究领域提供参考和依据。通过对数据挖掘在中医诊断学领域应用的文献计量学分析，得到以下结论：

表4 数据挖掘在中医诊断领域应用的突发词表Tab.4 Emergent vocabulary used by data mining in the field of traditional Chinese medicine diagnosis

1）从科研产出来看，1979—2019年，数据挖掘在中医诊断学领域应用研究经历5个较明显阶段，依次是起源阶段、探索阶段、发展阶段、平台阶段及新的发展阶段。发文量虽然出现短暂的回落现象，但总体上呈现出上升趋势，2019年为该领域年度发表论文数最多年份。

本领域研究主要学科集中在医药卫生科技、信息科技方面，体现了学科交叉的特点。发文期刊主要为中医领域内的核心期刊，以《中华中医药杂志》《辽宁中医药杂志》《中国中医药信息杂志》上的数量最多，说明国内中医诊断与数据挖掘交叉研究领域已有被学术界认可的学术成果。

2）从研究主体分布来看，高产论文学者主要有周小青、李建生、林求诚、胡金亮、朱文峰、晏峻峰、王忆勤、王永炎、袁肇凯、李灿东、王阶等，并且发文量较多的作者呈现出较明显的网络特征发，说明我国该领域已形成多个产量较高的作者群。本领域的发文机构主要集中在中医药大学及附属医院，高产研究机构以上海中医药大学、北京中医药大学、湖南中医药大学科研产出最多，近年来福建中医药大学、山东中医药大学及成都中医药大学也成为后起之秀。该领域的合作多以省内合作为多，跨省合作对象主要是各中医药大学之间，此外也有部分理工类机构也加入其中。

3）从研究主题及演变路径来看，数据挖掘在中医诊断学应用文献中各研究主题之间存在相互交叉、渗透的现象，总体形成4大类聚类主题：计算机与中医辨证论治，数据挖掘与疾病用药规律，中医计量诊断，人工智能与中医四诊。1979—1987年间，研究主题主要为与中医诊断相关的计量诊断、专家系统、计算机辅助诊断、数学模型等；1988—2002年间，主要基于对前期研究的验证与改良，未出现高频的关键词和新的研究主题；2003—2008年间，主要研究主题为数据挖掘技术如神经网络、贝叶斯网络、决策树、支持向量机等在与中医诊断的应用及证素与证素辨证的理论与实践研究。2009—2015年间，研究主题主要涉及数据挖掘技术、模糊数学、文献研究、聚类算法、分类算法等在中医辨证诊断方面的应用及用药规律探索。2016年至今，研究主题主要在中医大数据、状态辨识、名老中医学术经验传承、转化医学及机器学习等方面。

4）从热点突发词分析来看，计算机、中医学、数学模型、计算机辅助诊断及中医证型在早期的较长时间一直成为研究关注热点，并且将计算机技术应用于中医诊断领域成为研究的主要趋势。近10年来，本领域突发的关键词主要有：数据挖掘、关联规则、决策树、中医药、模糊数学、用药规律、聚类算法、大数据、名老中医等。尤其，在现今互联网+及“健康中国”时代背景下，基于真实世界的大数据分析成为新兴热点，如何更好传承名医经验，并借助现代科学手段，从海量的大数据中探求中医临床诊疗中所隐藏的规律成为重要关键问题。