人工智能在中医诊断中的应用进展
2022-05-31罗思言王心舟饶向荣
罗思言,王心舟,饶向荣
1.中国中医科学院广安门医院肾病科,北京 100053;2.北京中医药大学广安门医院,北京 100029;3.同济大学电子与信息工程学院,上海 201804
前言
传统中医通过望闻问切收集病人的病情信息,并以此进行辨证[1]。随着人工智能在如计算机视觉、自然语言处理等领域大放异彩,人工智能也开始用于辅助医学诊断。目前人工智能在中医四诊中的研究热点聚焦在脉诊和舌诊,其主要方法是利用传统机器学习算法或数据挖掘算法模仿进行脉诊、舌诊,从而实现诊断智能化。近年来新兴的深度学习方法,如卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recurrent Neural Network,RNN),在计算机视觉及自然语言处理领域已基本取代传统算法而成为实质上的范式,但在中医四诊领域,上述方法的运用尚处于探索阶段[2]。本研究系统地总结并分析人工智能在中医四诊的现状及发展趋势,包括传统机器学习算法及深度学习算法之间的对比,以期为中医智能化提供参考。
1 人工智能在中医诊断中的运用
中医临床诊断是通过四诊(望闻问切)合参、辨证论治,是针对一类证而非某一特定的病,正所谓“异病同治”、“同病异治”[3],这也是中医特有的整体观;但是四诊和辨证具有很强的主观性,容易受到医生本身的影响[4-5]。
相较于西医诊断,中医诊断的优势在于其方便快捷和无创,其不足在于诊断过程缺乏规范性和精准性。随着人工智能技术的不断进步、应用范围的不断扩大以及其在中医诊断的应用,人工智能辅助中医诊断标准化将成为下一个热点,在中医传承、教学、科研、临床领域发挥着重要作用[6-9]。人工智能在中医领域的应用涉及对大量临床数据的收集、整理及特征提取,其演算过程在关注患者局部性健康信息的同时也保持了对整体的观测。从临床诊断的角度,这是对症状及体征信息进行了空间与时间、动态与静态上的综合与分析,这与中医不谋而合,进一步验证了人工智能应用于中医诊断的必要性和必然性。图1 给出了人工智能在四诊中应用的基本知识框架。
图1 人工智能在四诊中应用的基本框架Figure 1 Basic framework of artificial intelligence applied in 4 diagnostic methods of traditional Chinese medicine
目前运用于中医四诊领域的人工智能算法可分为两类:传统机器学习算法及深度学习算法。传统机器学习算法包括Logistic 回归、主成分分析(Principal Component Analysis,PCA)、多层感知器网络(Multi-Layer Perceptron, MLP)、支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)、AdaBoost、k 近邻(k-Nearest Neighbor,k-NN)、决策树(Decision-making Tree, DT)、多核学习(Multiple Kernel Learning, MKL)、核主成分分析(Kernel PCA)、独立成分分析(Independent Component Analysis, ICA)、贝叶斯算法、聚类算法等[10-12]。而近年来新兴的深度学习方法可视为由MLP演变而来,包括CNN、RNN等。
传统机器学习算法无需大量训练数据即可得到较好的效果。在中医四诊领域,由于算法任务、数据来源较为单一,且训练样本有限,因此传统机器学习算法得到了广泛的运用。如SVM 作为应用最为广泛的传统机器学习方法,其原理是利用非线性映射将低维特征映射到高维之上。当样本数量较少时,SVM 可较好地区分特征之间的非线性关系,但当数据规模较为庞大时,因其计算复杂度为数据规模的平方项,其计算资源消耗将会成平方增长,同时其超参数的调节也变得难以进行[13]。此外,传统机器学习算法对于非结构化数据(如图像、音频)的处理非常依赖人工特征提取器的设计,这无疑在增加使用成本的同时引入人为误差。
相较于传统机器学习算法,深度学习更为灵活。CNN 和RNN 都可对非结构化数据进行端到端的处理,自动感知和理解输入的数据,无需人为干预。在保证局部精确性的同时,其高度的非线性、模糊性、全局性、鲁棒性也非常适合进行中医辨证任务。此外,迁移学习的广泛运用也使得深度学习模型可以在不同的任务之间迁移,如进行街景语义分割的网络可以轻松迁移至舌象分割任务而无需大量训练样本[14]。深度学习相较于传统机器学习算法虽然有诸多优势,但也有局限之处。深度学习中模型的选择、网络结构的设计、超参数的优化都依赖于计算机相关知识,此外深度学习对于训练样本的数量及质量的需求也高于传统机器学习方法,其准确率与数据库的规模、数据采集流程的规范程度直接相关。
如今深度学习发展如火如荼,但传统机器学习方法仍在小样本训练领域保有一席之地。传统机器学习方法受制于其泛化性、通用性的同时,深度学习算法也深受缺乏数据样本的困扰。在中医四诊中,如何选择人工智能诊断方法还需结合具体任务进行分析。
1.1 AI与望诊
在中医中,望诊是总结患者的体征和症状,其中舌诊是通过观察舌的状态得到人体生理病理信息[15]。临床研究表明舌象与疾病病因具有强相关性[16-18],舌诊也成为了人工智能辅助望诊最重要的一个环节[19]。
人工智能对舌象进行分析的主要方法包括MLP、SVM、k-NN、贝叶斯算法、聚类算法等[20-21],其中k-NN和SVM是最常用的方法。一般来说,人工智能舌诊包括4 个步骤:(1)使用标准设备(如舌诊仪)捕获高分辨率的舌头图像以保证舌色分类的可复现性。(2)数据预处理,包括校色、调整对比度等,以提高成像质量,并以此结果构建舌头图像数据集。(3)资深中医对每张图片的舌头属性进行标注,其中舌色和舌苔是两个最常用的特征[22-23],颜色作为低级的图像特征,其对舌象分类任务的信息量有限,因此需要识别更高级的图像语义信息,如舌形等。通常使用人工设计的特征提取器对图像的纹理、颜色空间、边缘等进行检测。(4)利用基于人工智能的分类器进行舌头分类,如RF 算法可以很好地进行舌头颜色分类[20]。上述方法的有效性在很大程度上依赖于特征提取设计的好坏,如果忽略舌象特征的重要细节,而盲目增加网络参数数目,则很容易导致过拟合的发生。除舌色、舌苔等直观信息外,患者的性别、年龄、既往病史等信息也可作为人工智能辅助舌象诊断的舌头特征[23-24]。对舌头图像进行一系列处理之后可以得到图像高层次的语义特征,利用该特征可进行舌象分类,如将数据增加与RF结合对舌色进行分类,其AUC 可达0.98[20]。尽管传统机器学习方法已在舌诊领域做出重大贡献,但仍有各种问题有待探索。首先,基于人工设计的特征提取器鲁棒性受限,同时当任务发生迁移时重新设计特征提取器的成本非常高,且在一定程度上丢失了高层语义信息。此外由于舌象数据集仅来自于某一特定型号的设备,可能会产生过拟合的风险,因此传统机器学习模型精度尚未达到人工分类精度[12,23]。
近年来随着深度学习的迅速发展,CNN 模型被逐渐应用于舌诊领域,其擅长对图像进行分类,并在鲁棒性、可迁移性等方面优于传统机器学习方法[25-27]。利用舌象数据集可以训练CNN 的特征提取层参数,而不必人工设计特征提取器,这大大提高了CNN 的易用性。正是因为CNN 具有诸多优势,在图像分类领域,CNN 正逐渐取代传统机器学习方法。用于舌诊的CNN 包括4 个步骤:(1)与传统方法相同,即进行图像数据的收集与预处理,包括颜色、光照等的校准;(2)对图像进行人工的标注,以此引入先验信息供模型进行学习;(3)模型结构的设计、优化及基于人工标注舌象数据集的网络参数训练;(4)利用训练完成的模型对舌头图像进行特征提取与分类。模型的整体准确率可达93%以上[26],远超传统机器学习方法。此外,基于CNN的鲁棒性,这些模型可以方便地迁移至其他具有不同光照、不同硬件设备的仪器所捕获的图像上。目前CNN已被广泛用于舌色、舌苔的分类,并取得了较好的效果[25-27]。
目前人工智能应用于舌诊能将患者与健康人群区分,包括且不限于胃炎、冠心病和糖尿病等[16-18,28]。中医的辨证方法主要分为八纲辨证、气血津液辨证和脏腑辨证,受到医生水平、知识范围和喜好的影响,临床诊断不具有全面性和精准性,而人工智能在此具有不可代替的优势[25]。
除舌诊外,智能面色识别方面的研究也有所进展,红外热像仪被用来区分面部各个脏腑反应区的热学差异[29]。此外,基于人工智能的图像分析技术,如k-NN、SVM 和贝叶斯算法等也被用于观察患者面部及口唇的颜色、形态、纹理等[30-31]。然而,这方面研究尚未深入,无法有效应用于临床,仍需进一步探索、总结和验证。
近年来得益于深度学习理论的发展,计算机视觉技术也迎来了飞跃式发展,其对图像的处理能力在目标识别等领域已超过人类的平均水准。望诊领域有望成为人工智能在中医领域的一个重要突破点。未来人工智能辅助检查诊断中的数据采集过程将进一步规范化、标准化,这也为构建完善的图像数据库提供了重要保障。相较于传统的图像处理方法及机器学习方法,以深度学习理论为基础的CNN 作为计算机视觉的代表性算法具有更强的鲁棒性和可迁移性。计算机视觉领域中CNN的出色表现证明了CNN 将是一个比传统视觉算法更有潜力的研究方向,而目前限制其广泛运用的因素为计算资源的缺乏及相关图像数据库的缺乏。随着计算机计算能力的增长和医学图像数据集的积累,CNN 有望在人工智能辅助望诊中得到越来越广泛的应用,并最终替代大部分的传统视觉算法。
1.2 AI与闻诊
闻诊分为听声音和嗅气味,就目前的技术而言,气味采集是暂时无法实现的,故人工智能辅助在中医诊断闻诊的重点在于听诊。随着现代技术的飞速发展,对患者声音可利用计算机科学和信息技术进行数字化数据采集和分析,这推动和促进了人工智能辅助听诊的研究,并实现了听诊的客观化、准确化和定量化。2004年,Science 杂志刊登了有关纳米技术开创细胞声学(Sonocytology)的研究[32],这无疑是对中国传统医学的现代诠释。
传统机器学习方法主要用于人工智能辅助听诊,包括k-NN、朴素贝叶斯、DT、SVM、ICA、神经网络和图模型等。如利用二十五音分析仪对患者声学特征进行分析[33],或使用数字超声仪对患者的咳嗽声或说话声进行频谱分析,从而为临床诊断提供依据[34]。该类方法分3 步组成:(1)从患者处收集语音数据。每个受试在带有回声抑制的安静房间中持续发出稳定的元音以提供语音数据。除开单个的元音发音外,亦有利用多标签学习的方法基于多个元音发音进行患者声学分析。(2)音频数据处理,即语音信号的降噪、滤波、变换及特征提取等,包括从分解后的信号中计算各类特征函数,如近似熵(Approximate Entropy, ApEn)、小波包能量熵(Wavelet Packet Energy Entropy, WPEE)等。(3)上述特征经过处理后作为机器学习分类器的输入特征,为患者声学特性提供依据。听诊领域常用的机器学习分类器是SVM,能在性别先验的情况下以超过85%的准确率区分肺气虚、肺阴虚、健康这3 类人群[35]。
深度学习在自然语言处理领域取得了惊人的研究进展,其对音频的识别能力已达到甚至超越人类的平均水平[36]。目前对深度学习辅助听诊的相关研究尚处在初级阶段,但深度学习已逐步展现出超过传统算法的性能,如利用CNN 数据增强技术区分实证和虚证,其精度超过95%[37]。患者声学信号由一系列时域上的波形组成,传统算法关注声学特征在时域、频域等的量化指标,而实际医生进行听诊时并不会关注量化指标,而是关心波形整体的结构特征,如音色、咳嗽咳喘、说话力气、呼吸节律等。深度学习算法如CNN 或长短时记忆网络(Long Short-Term Memory,LSTM)则在分析局部波形的同时也具备全局的感受野,这与医生听诊时的流程不谋而合。
智能听诊的理想状态是实现自动化、标准化和规范化,但是和舌诊或是脉诊相比较,声音信号易受噪声及环境干扰,且缺乏定量指标。若要以声音信号作为基础以区分不同类型的人群以及不同类型患者的声学特征,则需要建立标准化的声音信号采集流程及标准化的音频数据库。
1.3 AI与问诊
传统问诊内容来自于《景岳全书》,而随着中医规范化的推进,现代问诊一般采用通用标准问卷得出相应的证候积分,医生可将这种量化且规范的患者信息应用于临床和科研。
目前的人工智能辅助问诊主要基于数据分析的方法,包括SVM、神经网络、图模型和多标签学习等[38]。利用多标签学习的方法可对数据进行挖掘,并构建智能问诊模型,其对冠心病的分类达到了78%的准确率[39];此外也有利用复杂系统及概率图模型对问诊数据进行建模与划分,其对慢性胃炎的平均准确率达到82.5%[40]。可以看到目前对于人工智能辅助问诊的热点主要侧重于症状与证候的关系,即对数据的分析与挖掘,而对更高层次的文本语义信息、认知智能的研究尚处在初级阶段,有较为广阔的发展空间。目前深度学习中的自然语言处理方法已较为成熟,如循环神经网络等模型在如语音辨识等任务上已达到较高精度。自然语言处理方法同样也可运用于中医问诊,但其面临的最大问题是数据标注及训练数据不足等限制所造成的网络精度不足,因此建立标准化数据采集流程及数据库具有重要意义。此外中医发展历史中的古籍以及古文中一词多义、通假字、歧义词等复杂的语法现象都对计算机理解造成了阻碍,规范中医术语也是亟待解决的问题之一[4]。
1.4 AI与切诊
切诊即脉诊,脉象4 要素包括脉位、脉数、脉形、脉势。脉位分为寸、关、尺,腕后高骨(桡骨茎突)为关,关前为寸,关后为尺;脉数则与脉搏跳动的次数、节律、是否停歇有关;脉形与脉管充盈度、搏动弧度、是否有力有关;脉势是应指强弱、流畅程度的综合体现。有研究表明脉诊与心脏及血管功能有密切联系[41]。
数字传感器技术的发展使得脉象的认知从人为主观感知转化为客观数字信号成为了可能。利用压电式或压阻式压力传感器、多普勒超声传感器、光电脉搏传感器等可将脉象转化为一系列数字信号并记录在计算机中[8],这为使用人工智能技术处理脉诊数据并进行诊断提供了硬件条件。目前的主流脉象分析方法包括时域分析、频域分析、动力学分析等[42]。人工智能辅助脉诊因其标准化和准确性受到了广泛的关注,但目前大多数用于脉诊的人工智能技术仍局限于信号处理算法,如离散傅里叶变换以及传统机器学习算法及其衍生方法,包括SVM、k-NN、DT、聚类算法和基于神经网络的算法等[25]。上述方法一般由3个阶段组成:数据收集和预处理、特征提取、脉象分类或辨证[43]。在传统机器学习方法中,与脉象分类和疾病分类相关的时域特征主要包括脉搏的主波斜率、主波幅值、相位、脉宽周期比等,频域特征包括小波系数、能量特征等。每种学习算法在脉象分类上都有自己的优势,但是为了在数据集上获得最佳性能,通常需要多次修改模型结构及调参。据报道,传统机器学习辅助脉诊可以达到80%的准确率和0.8的AUC[44]。
与传统机器学习方法相比,深度学习由更复杂的多层人工神经元组成,并可自动学习参数进行特征提取,这使得不依赖领域专业知识而进行深度学习成为了可能。CNN 在计算机图形处理领域已经发展成熟,是一种应用广泛、适应性强、能同时挖掘时域与频域信息的深度学习方法,因此CNN 也被引入到中医中进行人工智能辅助的脉象诊断。颜建军等[42]利用VGG-16对冠心病脉象进行分类,其准确率可达98.14%。此外人工智能辅助脉诊可用于区分妊娠或各种疾病,包括胃炎、胆囊炎、胰腺炎、十二指肠球部溃疡、急性阑尾炎高血压、冠心病、糖尿病、急性阑尾炎、动脉硬化和肝硬化等,也可对某些疾病的风险进行定量评估[43-44]。然而截至目前为止,人工智能辅助脉诊的可靠性尚待提高,因此其更适合用于辅助医生进行诊断而非独立识别患者的证候或疾病[44-45]。
传统脉诊标准源自《脉经》、《诊家枢要》、《濒湖脉学》和《诊家正眼》,古籍中对于脉象的描述存在一定的不准确性,但随着对脉象的定量化研究进一步推进及人工智能的运用,脉诊正逐步向精确化、定量化发展。当前的人工智能辅助脉诊技术已趋于成熟,各类传感器、各类算法都提升了脉诊的准确率。此外随着脉象数据库的不断更新及数据采集流程的规范化,人工智能在脉诊上的应用将迎来更加广阔的发展前景。
2 AI与四诊合参辨证
随着传感器技术与计算机技术的发展,传感器多模态融合方面的研究引起了广泛的注意,包括可见光与红外光信息融合、声光信息融合等[46]。在中医领域,基于人工智能方法的四诊合参可视为一种多模态融合方法。多模态融合方法可分为基于模型的融合方法和与模型无关的融合方法两类,分别如图2 及图3 所示。前者在四诊合参领域即为利用规范的数据采集流程,采集同构的舌象、音频、脉象等数据,并利用统一的机器学习方法进行处理。该类方法可以保留完整的数据特征,但对数据采集要求较高。目前该领域尚无统一的数据采集标准,因此该方法难以实现。后者在四诊合参领域,对在不同采集标准下的各类数据进行初步的特征提取,随后利用机器学习方法将特征进行融合与分类,该类方法鲁棒性较强,对数据来源不要求规范化[8,10,47]。目前已有的四诊合参诊断仪将传感器收集到的脉诊、闻诊、舌诊等信息集成到终端形成规范化的四诊数据库,并利用智能算法模拟医生的临床诊断过程,为患者提供实时动态的个性化医疗服务[4,48]。
虽然目前研发的四诊合参辨证系统基于大量临床数据,但缺少独立演算能力,并不是真正具有中医思维的类人智能化产品。目前来说,这一类产品更多的是应用于科研或教学,无法灵活地在临床上使用。随着人工智能技术的发展,人机对话将成为了可能,同时5G 网络的发展也推动了网络大数据平台和云计算的进一步运用,异步、异构、跨平台化的人工智能四诊合参成为了未来发展方向之一。
图2 模型融合的四诊合参流程Figure 2 Model integrated synthesis of 4 diagnostic methods
图3 模型无关的四诊合参流程Figure 3 Model-independent synthesis of 4 diagnostic methods
3 结论
本研究探讨了传统机器学习算法与现代深度学习方法在中医“望闻问切”四诊当中的运用。中医四诊和辨证论治定义的模糊性、对医生水平的依赖性、古文学习的难以理解性都对于中医诊断的接受和认可造成了困扰。而深度神经网络作为一种对人类大脑行为的仿生学结果,其联想性、模糊性、多模态性使得其与中医诊断非常契合。对舌象、脉象这类富含定量化原始信息的数据,深度学习算法能在其中大展身手,在保证具备足够训练数据的前提下有望得到超过人为诊断的准确率。而对闻诊和问诊这两类需要认知智能的问题,人工智能在其中的应用尚处在探索阶段。在当代科学技术飞速发展的基础上,中医亦需取长补短,寻求变革,使中医更好地应用于疾病诊治。人工智能与中医的结合让中医更客观化、定量化,同时人工智能与中医的紧密融合有望真正为医生减负,并为患者提出有效的就医建议和日常护理指导。
尽管人工智能在中医领域的应用前景十分广阔,但也面临着挑战。目前由于中医学本身的专业壁垒及古文阅读的方式,人工智能所需要大量规范、全面、准确的原始数据的获取存在困难,仅仅依靠孤立地收集数据将会阻碍人工智能在中医领域中的运用。中医四诊数据的收集目前还缺乏一个受大家认可的范式,不同学者收集数据、建立数据库的方式各不相同,这造成了不同数据库之间缺乏可迁移性和复用性。此外,中医的辨证原理相较于数理原理而言是模糊的、高度非线性的,如何将艰深晦涩的辨证原理转化为易于计算机理解的语义符号也有待进一步的研究。