APP下载

神经网络在中医领域应用的文献计量与图谱分析*

2021-11-22匡文轩周婉珠晏峻峰

中医药导报 2021年4期
关键词:证候聚类神经网络

匡文轩,周婉珠,晏峻峰

(湖南中医药大学,湖南 长沙 410208)

中医与现代化技术结合是国家提出的一个长久课题[1]。中医与信息化技术结合,能够完善中医诊断,从而为医生提供辅助治疗、临床决策。而在信息化技术中,神经网络在中医领域是一个很好的辅助技术。近年来有很多学者将神经网络运用在中医领域,并取得了一定的成果。CiteSpace[2]是基于JAVA语言开发的文献数据挖掘和可视化软件。CiteSpace由美国德雷克塞尔大学(Drexel University)陈超美自主研发设计[3]。它的本质主要是采用传统寻径网络来对特定领域的文献数据进行计量分析,联合社会网络分析、聚类分析等方法绘制可视化图谱,对某个领域的发展趋势及演化机制进行总结。

本研究利用CiteSpace软件对神经网络在中医领域应用的文献进行计量与可视化分析,探索在该领域已经取得的成果,并且发现其不足,旨在为促进其应用提供更好的理论支持,也为其未来的发展指明更加清晰的方向。

1 资料与方法

1.1 数据收集 数据来源为中国知网(CNKI)及万方数据库,检索范围为期刊论文、硕士学位论文、博士学位论文、国内会议论文、国际会议论文,检索主题为“中医并含神经网络”,检索式为“SU=神经网络+中医”,检索时间:1980年1月至2020年5月。排除重复文献、文献信息不全及内容与检索主题不相关的文献。最终从数据库共检索到832篇文献,去除不符合要求的文献22篇,最终得到文献810篇。

1.2 分析方法 将筛选清洗之后的文献按CiteSpace所需要的refworks格式导出,并按要求命名,运用CiteSpace V5.2进行发文数量、合作研究机构、突现词、关键词等分析,由于检索得到的文献时间为1980—2020年,故在软件中将时间切片设为1980—2020年,每间隔设置为1年,其他的为默认值,网络裁剪为None。

2 结 果

2.1 文章数量分析 有关中医神经网络主题的文章在1980—2019年之间发文量虽然有波动,但总体呈波浪式增长,所以从大体趋势来看,也可以推测2020年有关中医神经网络的文章还会平稳增长。在2002年之前,该主题的发文量较少(<10),由此可以得知在2002年之前有关神经网络与中医主题的研究并不多。随后在2002—2007年,出现了一个小高峰,可以得知随着计算机技术的发展,中医与计算机的融合也越来越密切,中医的传承与发展有了新的途径。2008—2015年,出现了波浪式的发展,这可能是在探索新的神经网络与中医结合的方法。2016—2019年,文献的发文量持续增加,说明神经网络等计算机技术在中医研究中发挥了越来越大的作用。(见图1)

图1 1980—2019 年文章数量趋势图

2.2 作者分析 对作者进行分析得到表1、图2,连线的颜色代表作者合作时间距今的远、近,浅色调代表的是近,深色调代表的是远。中心位置为该领域发文比较多的作者,周围是与之合作的作者。在中医神经网络主题方面,共有108位作者发表了文章,发文量排前10的是胡金亮(15篇)、王永炎(12篇)、李建生(10篇)、王忆勤(9篇)、孙贵香(8篇)、贺娟(7篇)、韦玉科(7篇)、袁肇凯(7篇)、燕海霞(7篇)、谢雁鸣(6篇)。从作者合作的角度来看,合作网络图最大的是以胡金亮为中心的团队,随后是王忆勤、郭睿、燕海霞,然后是谢雁鸣、张明雪、曹洪欣、翁维良,还有袁肇凯、孙贵香等,可以得知他们合作密切。同时早期的研究主要是胡金亮团队,最近的研究主要是王忆勤团队。

表1 作者发文量

图2 作者分析图谱

2.3 机构分析 对机构进行分析,发现有52所机构,连线31条,得到表2、图3、图4。图中色调表示的含义与作者分析的色调一致,机构之间的连线代表他们之间存在合作关系,节点大小为机构在发文记录中出现的次数。图3显示,在研究中医神经网络主题方面,共有52所研究机构,发文记录出现次数较多的机构有:河南中医学院老年医学研究所(10次)、北京中医药大学(10次)、成都中医药大学(9次)、中国中医科学院(9次)、上海中医药大学(8次)、长江师范学院物理学与电子工程学院(5次)、北京中医药大学基础医学院(5次)、中国中医研究院(5次)、辽宁中医药大学(4次)等。在图3的基础上,加上时间线图分析得到图4,可以得知机构之间的合作大多是地域相同或者较近之间的机构合作,在早期研究该领域的机构是中国中医研究院及河南中医学院老年医学研究所,最近研究的机构是成都中医药大学附属医院。

图3 机构分析图谱(1)

图4 机构分析图谱(2)

表2 研究机构发文次数

2.4 关键词分析 对关键词进行分析,共有171个节点,连线505条,见表3、图5。色调表示的含义与作者分析的色调一致。网络中节点位置为被关注程度。中心性较大的关键词有:神经网络(0.51)、人工神经网络(0.32)、中医(0.28)、BP神经网络(0.20)、数据挖掘(0.19)、中医证候(0.17)、深度学习(0.12)、中药(0.12)、聚类分析(0.10)、证候(0.07)、冠心病(0.06)、舌诊(0.05)、证候要素(0.04)、卷积神经网络(0.03)。出现词频较大的为神经网络、深度学习、卷积神经网络、数据挖掘、人工神经网络、BP神经网络、支持向量机、中医证候、模式识别、中药、证候、舌诊、冠心病,从关键词的中心性及词频可以得知这些关键词即为中医神经网络领域研究的热点及方向。

表3 关键词中心性

图5 关键词分析图

2.5 关键词突现性分析 突现性是指在某一时间段内出现的强度,强度越大,对应的关键词在某一时段内的影响力也越强,也能得知该时间段的研究重点。对关键词突现性进行分析,发现了9个突现词,分别是模式识别、脉象信号、神经网络、舌诊、证候、数据挖掘、BP神经网络、决策树、深度学习。其中,突现强度最大的为证候,从这里得知神经网络在中医领域的研究中证候、证型方向研究得比较多,从最近、最新的年份来看,也可以得知深度学习是最近该领域的主要热点。(见图6)

图6 关键词突现性探讨

2.6 聚类及时间线图分析 对关键词进行聚类,共出现120个节点,连线303条,Q值为0.565 5,S值为0.520 3。模块性值与轮廓值都大于0.5,说明聚类合理。8个代表性聚类标签分别是决策树、冠心病、舌诊、六气、深度学习、脉象、中医证候诊断、中医证候。(见图7)

图7 关键词聚类图

图8为神经网络在中医领域的关键词聚类时间线图,每一个聚类在图中所显示的即为每一行,聚类标签表示为“#”。坐标轴靠左表示距今比较远,靠右表示距今比较近,每一条坐标轴下面的关键词代表着这个聚类相关的研究内容,以及研究主题随着时间的演变规律。

图8 关键词聚类时间线图

聚类“#0决策树”里有关联规则、BP网络等数据挖掘常用的算法,应用在中医按摩机器人、中医体质预测模型上。聚类“#1冠心病”常用的算法为共轭梯度算法,主要分析其证候、证素及用药规律。聚类“#2舌诊”主要运用了模糊神经网络,支持向量机算法,另外专家系统也参与其中。聚类“#3六气”主要是将中医的五运六气与现代气象结合,运用人工神经网络分析其之间联系。聚类“#4关系抽取”涉及了人工智能、深度学习等。聚类“#5脉象”主要有模式识别、脉搏波、特征选择等方法。聚类“#6中医证候诊断”和聚类“#7中医证候”主要是针对疾病的中医证候进行探讨,包括运用比较多的因子分析、聚类分析、随机森林等。

3 讨 论

3.1 作者及机构合作关系 从作者分析结果来看,发文量最多的为胡金亮,为15篇,而后的是王永焱(12篇)、李建生(10篇),他们都为同一个团队。胡金亮团队主要采用了人工神经网络、动态模糊系统、径向基神经网络、聚类分析的RBF网络等方法对中医证候诊断进行研究,涉及的疾病有普通感冒、慢性阻塞性肺疾病、糖尿病等[4-8]。紧随其后的是王忆勤、孙贵香、贺娟、韦玉科、袁肇凯、燕海霞、谢雁鸣等,他们都各自作为自己团队的核心代表运用神经网络来对中医的各个方面进行研究。以王忆勤为代表的团队分析了脉象、血液动力学与冠心病之间的关系[9-11]。谢雁鸣团队则分析了SARS与各种邪气之间的联系[12-14]。

从机构分析结果看,较早研究该领域的机构为中国中医研究院及河南中医学院老年医学研究所。而近些年研究该领域的机构主要为成都中医药大学。成都中医药大学探索了神经网络技术与中医疾病归经的新思维,分析了疾病归经与药物归经的关系。成都中医药大学还用Levenberg-Marquardt算法建立了胃脘痛的双隐含层BP神经网络辨证模型,提高了胃脘痛智能辨证的准确率[15-16]。同时机构之间的合作大多是地域相同或者较近之间的机构合作,比如北京中医药大学与中国中医科学院、广州中医药大学与广东工业大学等。

3.2 主要研究方向与领域热点 从关键词分析结果来看,该领域主要是以神经网络、中医为中心,然后向外辐射,并且运用BP神经网络、决策树、支持向量机等方法对中医各种疾病证候、舌诊、脉诊进行数据挖掘。

从聚类视图的分析来看,虽然有8个代表性的聚类标签,但是神经网络在中医领域的应用可以归纳为6个方向。

3.2.1 神经网络及其相关算法研究 在这个方向里,相关关键词有关联规则、证治规律、中医按摩机器人、体检指标等。随着时代的发展,人口老龄化问题越来越严重,老年病、慢性病也越来越常见,而穴位按摩可以很好地辅助治疗,由此中医按摩机器人自然而然产生。但是机器人往往精准度不够,为了解决这个问题,张秋云等[17]采用了一种遗传算法来弥补BP神经网络的缺陷,并且运用了一种基于遗传算法优化BP神经网络的中医按摩机器人穴位坐标预测方法,得到了预测的最优数值,并且提升了神经网络的预测精准度,保障了中医按摩机器人对患者做出精确的按摩治疗行为。在中医学中,人体在先天禀赋和后天获得的基础上所形成的生理功能、形态结构和心理状态方面综合的、相对稳定的固有特质称作体质。辨识体质是预测疾病的基础,罗悦等[18]构建了中医体质与体检指标关联模型算法,并采用了BPNN技术。但是缺点是样本不足,加大样本数据将有助于提高网络模型正确率,降低误差,使算法收敛加速。疾病的证治规律方面,主要是对疾病的证候和用药规律的研究,如潘一鸣[19]和曾子杰[20]分别针对慢性再生障碍性贫血和大肠癌对中药与中药、四诊、证候进行关联分析,运用神经网络将数据进行建模训练,进行数据挖掘,并且建立了相应的证候预测模型。

3.2.2 中医病证网络模型的构建 主要关键词为冠心病,在这个研究方面,孙贵香等[21-22]基于BP神经网络构建了冠心病中医证候神经网络模型,并且基于临床流行病学构建了冠心病中医证候数据库系统,采用了共轭梯度算法。另外在糖尿病方面,李建生等[8]为了构建基于动态Kohonen网络的自适应模糊推理系统模型,采用了人工神经网络、模糊系统的方法。两者都很好地对疾病证候做出正确判别,但是不足的是由于原始数据的不规范导致建模不顺,所以症状术语规范是建模的前提。且神经网络样本数的不足往往对结果也有一定的影响。刘丽蓉等[23]为了构建荨麻疹证候模型,采用支持向量机与BP神经网络方法,两种方法都很好地构建了模型,但是提示前者比后者精准度要高。而在最近的研究中,孙旭豪等[24]采用了EfficientNet方法对阴虚证的眼象进行模型构建,大大提高了目诊的客观化。

3.2.3 舌诊智能模型的构建 “舌为心之外候,苔乃胃之明徵”,人体是一个有机的整体,五脏六腑通过经络与舌相连接,人体的生理信息可以最直接地反映在舌象上,舌象更是蕴含了人体的机能变化信息。基于此,各位学者通过神经网络对舌诊各个方面都做了相应的研究,为了实现舌诊的客观化,舌图像分割是很重要的,颜建军等[25]采用了Mask R-CNN的方法,解决了分割轮廓不准确的问题;王丽冉[26]根据舌象图的特点,设计了一种基于形态学的优化算法对分割结果做进一步处理,致力于实现鲁棒的舌体分割,并提出一种两阶段卷积神经网络算法用于舌体分割。虽然王丽冉[26]在实验中所使用的数据集主要来源于专业设备与手机两种渠道,但数据总规模较小,不能够充分发挥深度学习算法的优势,且未对网络结构进行进一步的优化和简化,因而可能存在冗余参数,所以对网络进行调参确定更优结构,得到的结果可能会更好。WANG X等[27]提出了一个人工智能框架,使用深度卷积神经网络(CNN)识别牙标记舌头,并进行分类,这对辨证论治有重要意义。刘慧玲等[28]等从中医古籍中整理出患者的八纲辨证的有关数据及舌象信息,借助灰色预测及BP神经网络的组合模型,建立预测平台。该模型能够对输入的舌象病证数据进行分析,得出对应的证候。缺点也是数据量不够。另外还有学者将舌象与光谱学结合起来,如林凌等[29]采用舌诊红外光谱对人体血清总蛋白(TP)含量进行无创检测,运用BP神经网络法结合主成分分析和偏最小二乘算法分别建立预测模型,该无创检测大大减轻了患者的痛苦。

3.2.4 五运六气与疾病关系的模型构建 五运六气理论是基于“天人相应”的整体观,研究自然气象的变动规律及其对生命活动和疾病发生的影响。通过五运六气理论对疾病进行预测,并建立相应的预测模型,对于预防疾病具有重要意义。风、寒、暑、湿、燥、火统称为自然界中的六气,为探讨六气与中医疾病之间的联系,马师雷等[30]在五运六气理论的指导下,探讨了气候变化与病毒性肝炎发病之间的关系,分析诱发或者加重病毒性肝炎的气象条件,并建立了基于BP神经网络的医疗气象预测模型,扩大了气象因子。汤巧玲等[31]从中医运气学说的角度,探讨了百日咳和气象的关联性,并运用神经网络建立了相应的模型,在这个研究方面,如何从中医“六气”的角度看待气候学的指标,如降雨量、气温、水汽压、风速等,是值得未来深入研究和探讨的问题。

3.2.5 深度学习方法的应用研究 深度学习是该领域近年来研究的一个重点,从人工神经网络的研究中可以找到深度学习的概念源头,它可以模仿人脑的机制来解释、分析、学习数据。随着深度学习的快速发展,越来越多的学者将深度学习与中医连接起来,如吴冲等[32]运用深度学习实现了对中药材的评价。胡晓晨[33]提出了一种基于深度强化学习方法的中医序贯诊疗方案优化模型(alpha prescriber),该模型能够根据观察得到的患者症状体征信息,进行处方推荐,动态形成优化的中医序贯诊疗方案,为中医个体化处方推荐的人工智能应用提供基础。若将监督学习、非监督学习及其深度强化学习加入同一个协同框架中进行诊疗方案优化,运用更多的数据集测试协助临床医生判断,将会大大提高中医临床数据的适应性。高甦等[34]根据主流的深度学习模型特点及中医典籍的语料特征,以中医典籍的字向量为输入,采用条件随机场(BiLSTM-CRF)的实体识别模型和基于双向长短时记忆神经网络,对《黄帝内经》中的中医生理、中医认识方法、中医自然、中医病理、治则治法等5种实体进行识别,解决了中医典籍分词难、传统人工构建不准确、知识体系复杂等问题。

3.2.6 脉诊数字化研究 脉诊是中医诊断学中重要的内容。在脉诊的数字化、客观化方面,王逸群等[35]为了实现对脉象的识别,提高对脉象识别的精准度,用MATLAB软件完成了一种脉象实时采集系统,建成了100-40-15-5的四层BP神经网络,采用了滤波、归一化、去基线漂移等方法。李万兵[36]结合支持向量机(SVM)和BP神经网络进行脉象的识别,应用传统测量法测量实际人体的血压数据,并同步采集脉搏动态图像,从动态图像提取特征,采用BP神经网络的方法初步探寻血压与脉搏图像特征信息的关系,但如何将其成果应用于临床也是值得一个探究的问题。

3.3 研究趋势 根据关键词突现性的分析,未来深度学习是研究热点。中医序贯诊疗方案、中医古籍等研究都取得了一定的进展,今后深度学习将会与中医的四诊、中医证候的判定、预测更加紧密的联系起来。治未病、中医健康管理方面也会更加完善。

4 小 结

随着人工智能的发展,中医的数据挖掘越来越成熟,神经网络作为数据挖掘的一种方法,目前已经在中医病证模型的构建,以及舌、脉诊的数字化研究中取得了不错的进展,但是由于数据量不足,模型的准确率还需要提高。而神经网络的算法也需要具体情况具体对待,症状及证候的术语规范化也是一个非常重要的因素。中医学是一个非常复杂的系统,越来越多的研究提示要从大量的数据中提取有意义的隐性知识,做出预测模型,神经网络可以帮助其实现。随着社会的发展,人们的需求也越来越多元化,健康管理也越来越受人重视,通过人工智能,建立相应的中医机器人,包括中医按摩机器人、针灸推拿机器人等,也越来越受到人们的欢迎。各种相应健康咨询、诊断软件如雨后春笋,层出不穷。当然,神经网络的知识处理能力也还需要提高,包括算法的选择,模型的构建,如何更快速、更准确地与中医各个领域结合,还需要更进一步的研究。

猜你喜欢

证候聚类神经网络
肥胖中医证候动物模型研究进展
神经网络抑制无线通信干扰探究
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
昆明地区儿童OSAHS中医证候聚类分析
基于支持向量机回归和RBF神经网络的PID整定
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例