中医辨证智能化研究现状及发展趋势
2021-12-24杨涛朱学芳
杨涛,朱学芳
(1.南京大学信息管理学院,江苏 南京 210023;2.南京中医药大学人工智能与信息技术学院,江苏 南京 210023)
证是中医学特有的概念,是对疾病过程中所处特定阶段的病位、病性、病因以及病势等所作出的病理性概括。辨证是在中医学的理论指导下,对病人的各种临床资料进行综合分析,从而对疾病当前的病位与病性等本质做出判断,并概括为完整证名的思维过程[1]。辨证是中医临床立法、处方、用药的前提和基础,辨证准确与否直接影响着临床疗效[2]。近半个世纪以来,众多学者在辨证规范化、数字化和智能化方面进行了深入的探索,为中医辨证智能化发展做出了重要贡献[3-7]。近年来,随着人工智能新技术的飞速发展,中医辨证智能化迎来了新的机遇与挑战。鉴于此,本文就中医辨证智能化研究现状及发展趋势进行总结和探讨,以期为中医辨证的数字化和智能化发展提供借鉴。
1 中医辨证智能化研究背景
在信息技术(特别是人工智能)飞速发展的背景下,多方面因素共同促成中医辨证走上数字化和智能化的发展道路,这其中既有中医发展本身的要求,也有科技发展的客观因素。
1.1 中医现代化发展的迫切需求
中医辨证主要依赖临床专家的感官采集患者的四诊信息,并在中医理论指导下进行分析和判断,因而受到较多主观因素的影响;加上不同医家学术流派、知识结构和临证经验等存在差异,导致临床上常会出现辨证不准、辨证不一等问题。而统一规范的中医辨证模式是中医辨证智能化的基础,也是中医现代化发展的重要内容之一。借助信息技术建立标准化的四诊采集和分析系统,有望实现中医辨证的规范化和标准化。
1.2 名老中医经验传承的迫切需要
名老中医是中医界的楷模,具有较高的理论水平和丰富的实践经验,代表着中医药学术和临床研究的最高水平。然而,名老中医的成长周期漫长,供需严重失衡。学习、总结和传承名老中医经验成为中医传承与发展的重要课题。借助人工智能技术,将名老中医的经验进行数据化存储、分析和利用,构建名老中医专家系统,可以有效解决名老中医经验传承问题。
1.3 现代科技发展的必然选择
随着1956年达特茅斯会议开启人工智能元年,人类进入了人工智能新时代。各个学科走上了数字化和智能化探索之路。美国斯坦福大学在1976年成功研制了用于鉴别细菌感染及治疗的医学专家系统MYCIN[8],开启了医学专家系统研究的序幕。国内也于1978年开始中医专家系统的研制,之后各种专家系统如雨后春笋般出现[9]。随着信息化的发展,中医临床大数据也呈指数级增长,海量的数据推动了中医智能化朝着以数据为驱动的新方向发展。在国家中医药发展政策的大力支持下,现代科技的大力推动下,中医现代化发展的迫切需求下,中医辨证的智能化发展迎来了前所未有的机遇。
2 中医辨证智能化研究现状
中医辨证是一个复杂的思维过程,临床信息与证候之间存在复杂的映射关系[10]。建立科学、精准的中医辨证模型一直是中医诊断领域探索的目标之一。众多专家学者围绕中医辨证问题进行了研究,提出了形式多样的中医辨证数学模型和知识表达方法,包括逻辑符号推理、模糊逻辑运算、数理统计、案例推理、机器学习等[11-15]。纵观整个中医辨证智能化发展脉络,可以将研究方法笼统地归纳为知识工程、数理统计、机器学习和深度学习四大类。
2.1 知识工程
1978年国内掀起了中医专家系统的研究热潮。通过总结名老中医专家的诊疗知识,利用逻辑符号语言将其表示为产生式规则,形成知识库;利用前向推理、反向推理等策略,实现中医知识的推理和决策,进而模拟中医专家思维,实现自动化诊疗。其中比较有代表性的有关幼波诊疗肝病计算机程序、邹云翔中医肾病计算机诊疗系统、姚贞白妇科专家诊疗系统等[16-18]。利用知识工程方法构建中医辨证模型推理逻辑清晰,容易被中医专家认可。然而,将中医知识抽象成规则是一项复杂的工作,经常出现规则不准、规则不全等问题;此外,当规则较多、推理链较长时,容易出现前后矛盾的推理,甚至循环推理等问题[16]。随着科学技术的发展,知识图谱成为知识工程新的研究热点,利用知识抽取、融合、推理等技术,构造较为完善的中医辨证知识图谱,有望实现更为科学的中医智能辨证。
2.2 数理统计
利用加权求和、判别分析、回归分析等模型构建中医辨证模型。这类方法的特点是利用较为简单的函数或者方程模拟中医辨证。例如,朱文锋教授自主设计“双层频权剪叉算法”和“加权求和浮动阈值运算”数学模型,成功研制了“文锋”系列中医辅助诊疗系统[2]。曾聃等利用逐步判别分析法对224例肝病患者的127个指标进行了建模,判别正确率达84.38%[19]。张启明应用Logistic回归分析分别对心病、肺病等进行了建模,实现了上述疾病的辨证分型[20-21]。数理统计方法简单易用,在单一病证上尚可以达到较好的效果,但难以有效模拟非线性复杂病证的映射关系。
2.3 机器学习
随着信息化的飞速发展,数据呈指数级的增长,海量数据为人工智能的发展带来前所未有的数据红利。以数据为基础的机器学习方法逐渐成为人工智能研究的主流方向之一。在中医诊断领域,机器学习方法也被广泛地借鉴和应用,中医智能辨证研究也进入了数据驱动的时代,出现了一大批研究成果。丁亮等[22]利用深度神经网络对976例原发性肝癌病例进行建模,成功建立了原发性肝癌证型诊断分类模型,诊断准确率达82.8%。苏翀等[23]利用决策树算法对230例慢性阻塞性肺病患者数据进行建模,建立了慢性阻塞性肺病辨证模型,诊断准确率超过90%。Xia等[24]利用多标记K近邻算法(ML-KNN)对767例临床病例进行建模,成功建立了代谢综合征的辨证模型。这类方法大多针对单一疾病构建证候分类模型,将复杂的辨证问题转化为几个基本证型的分类问题,难以应对临床复杂的多病证兼夹诊断问题,临床适用性不强。
2.4 深度学习
广义上讲,深度学习属于特殊的机器学习,但其与传统以特征工程为基础的机器学习又有着本质区别。其强大的自主特征学习和表示能力使其成为人工智能领域的新热点。Pang等[25]将深度神经网络与注意力机制相结合,对10 910例艾滋病数据集进行了辨证模型构建,准确率达87.6%,表现优于其他模型。Liu等[26]将RCNN、Text-HAN等多种深度学习模型应用于1 206例肺癌患者的辨证分型,最优的模型F1值达到88.84%。深度学习模型构建需要大量的训练样本,数据的规模和质量影响着模型效果。此外,随着网络层数的增加,模型结构越发复杂,其可解释性也越来越差。医学诊断希望有较强的规律性和可解释性,其黑箱特性也制约了其在医疗领域的应用。在深度学习领域,也有学者开始关注模型的解释性研究,取得了一些成果,随着研究的深入,有望在未来解决深度学习模型的解释问题。
3 中医辨证智能化面临的问题和对策
3.1 中医辨证本身规范化和标准化问题
中医辨证智能化离不开统一规范的辨证理论支撑。历代医家提出了多种辨证方法,它们相互交织、互为补充,共同指导着中医临床实践。而如何有效地甄别选用辨证方法?如何让辨证结果规范统一?如何让辨证可量化、可重复?这些问题严重阻碍了中医辨证的智能化发展。诚然,围绕某一学术流派或者专家构建智能辨证系统也有其生命力,但从中医现代化和国际化发展的角度而言,围绕统一规范的中医辨证理论体系构建智能辨证系统,对中医的发展更有裨益。
因此,应当对中医辨证进行深入研究,在继承以往辨证经验的基础上,充分考虑辨证的灵活性和规范性,以及证的层次性和结构性,实现辨证的规范化和标准化。在这一方面,众多学者做出了杰出工作。例如,朱文锋教授提出“证素辨证学”[2],采用“根据证候、辨别证素、组成证名”的辨证原则,系统总结了常见证素及其组合规律,实现了辨证的规范。周仲瑛教授提出“病机病证学”[27],总结了病机十三条,建立了病机辨证网络及其交叉复合关系,执简驭繁的指导临床辨证。吴承玉教授提出“藏象辨证学”[28],以五脏系统为病位核心,按病性分类立证,采用单一病性和病位组成基础证,再由基础证组成临床上复杂的证型,实现了辨证的灵活和规范。
3.2 中医标准数据集的统一规范问题
当前,人工智能发展进入了以数据为基础的智能时代,模型训练依赖大样本标记数据的学习,海量优质的标准数据集对智能辨证模型构建显得尤为关键。然而,由于客观化的四诊信息采集普及程度不高,中医标准规范的缺位,以及临床数据隐私保护等多方面原因,导致中医领域难以形成大型的标准数据集,特别是涵盖四诊客观化数据的标准数据集。
因此,要进一步普及四诊采集设备,最大限度地采集客观化数据;建立、健全中医数据采集、存储、分析、利用、保护等相关规范和标准,加强规范和标准的执行和落地;依托国家和省级中医药数据中心,构建统一规范的中医标准数据集,为智能辨证模型构建提供优质训练数据。当前,以中国中医科学院为代表的研究机构已经开始尝试建立中医药知识图谱、中医古籍数据平台、中医临床大数据平台等[29-31],为今后统一规范的中医标准数据集建立奠定了基础。
3.3 智能方法的设计和选用问题
中医智能辨证模型的构建大多直接应用较为成熟的人工智能方法。然而,无论是知识工程、数理统计、机器学习还是深度学习等方法都存在各自的局限性。知识工程难以解决推理链过长导致的矛盾推理和循环推理问题;数理统计难以有效模拟中医辨证非线性的复杂映射关系;机器学习过分依赖大样本高质量的标注数据;深度学习的数据依赖性和可解释性也受到行业诟病。
因此,要充分认识到不同分析方法的优缺点,根据具体问题和数据特点,选择合适的方法;此外,可以尝试将多种方法融合起来建模,取长补短,实现更为精准的辨证;最后,要根据中医辨证思维特点(如病证结合、从症辨证等),设计符合中医辨证理论的智能辨证数学模型,兼顾模型的准确性和可解释性,更好地模拟中医辨证思维,服务中医临床。
4 中医辨证智能化发展趋势
中医辨证智能化需要以统一规范的中医理论为指导,设计相应的数学模型,切实处理好先验知识和临床数据之间的关系,实现符合中医“以象测藏,从症辨证”思维的中医辨证模型,实现真正意义上的类脑计算和认知智能。
4.1 多模态数据的相互融合
多模态是指两种以上的来源或者形式的数据,例如四诊通过触觉、听觉、视觉、嗅觉采集的不同类型的数据(图像、文本、声音、视频等)[32]。当前,多模态机器学习已经成为人工智能领域的热点之一,旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习[33]。众所周知,中医辨证讲求望闻问切、四诊合参,这一过程产生多模态数据,将这些数据融合建模,将有效提升中医辨证的客观性和准确性。然而,传统的中医智能辨证模型大多基于病案数据资料进行建模,其四诊数据均为医生的主观记录,缺乏客观数据的支撑。随着数据采集技术的发展,通过舌象仪、脉诊仪等设备,可以有效采集患者的四诊信息,通过多模态机器学习,将多模态数据进行融合,利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示,进而达到更为客观、精准的中医辨证。
4.2 知识和数据的交互增强
中医辨证是一个复杂的思维过程,既有依据中医辨证先验知识的逻辑推理,也有基于临床大量医案的归纳演绎。如何有效地利用中医辨证的先验知识,实现知识增强的中医智能辨证已成为下一阶段中医辨证智能化研究的重要方向。当前,以深度学习为基础的知识表示学习已经开始应用到机器翻译、智能问答等领域,取得了令人瞩目的成绩。将该技术迁移到中医领域,从中医典籍中整理出中医知识,利用表示学习技术将先验知识表示到低维稠密向量,将其与大样本临床数据一道进行训练,实现归一化的语义表示和多尺度知识融合,进而达到知识和数据的交互增强,实现更为精准和智能的中医辨证。
4.3 多决策模型的相互协作
传统的中医智能辨证应用只有单个模型进行辨证,模型准确率往往不高。将多个决策模型进行融合,采用类似专家会诊的模式,可以大大增强辨证的准确性。从技术角度而言,可以从数据层面、特征层面、模型层面等进行模型设计。例如,在数据层面可以采用集成学习的思想,对数据进行多次采样建模,前一个模型的残差作为后一个模型的输入,实现协同决策;在特征层面,可以分别抽取望、闻、问、切相关特征,将这些特征融合后进行建模和决策;在模型层面,可以利用不同的数据抽样规则,或者不同的算法构建决策模型,之后采用加权投票的方式进行模型协同决策,提高辨证的准确率。
4.4 多交互模式的人机协同
中医临床诊疗是医患之间的交互问答过程。这种交互极具针对性和目的性。随着语音识别、文语转换、脑机接口等技术的发展,围绕中医诊疗场景,可以建立智能辨证程序与患者之间的智能语音交互。通过人机之间的问答,实现智能问诊,通过舌脉等采集终端,进行舌脉数据的采集,之后再由算法进行分析,根据分析结论再进行针对性的问诊,进而模拟真实世界的中医诊疗过程,实现更为智能的中医辨证。
5 结语
中医辨证属于思维科学、系统科学、复杂科学范畴,具有丰富的科学内涵。深入研究辨证的原理和规律,建立科学规范的数字化和智能化辨证方法,对中医现代化发展具有重要意义。以中医辨证理论为指导,建立科学合理的数学模型是中医辨证智能化研究的关键。众多学者围绕这一领域进行了深入探索,取得了丰硕成果,也遇到了诸多问题。在新一代人工智能发展的新时代,中医辨证智能化迎来新的机遇和挑战。总结过往研究经验和教训,展望未来发展趋势,可为今后中医辨证的智能化发展提供参考。