APP下载

构建中医医案知识图谱关键技术研究综述

2021-01-06羊艳玲李燕

世界最新医学信息文摘 2021年58期
关键词:医案分词词典

羊艳玲,李燕

(甘肃中医药大学,甘肃 兰州 730000)

0 引言

中医历经几千年发展过程,积累了大量珍贵的临床经验,形成了无数经典理论,产生的医案成为推动学术发展的重要文本载体。近代著名学者章太炎说:“中医之成绩,医案最著”[1]。名老中医是中医学术造诣最深、临床水平最高的群体,是将中医理论、前人经验与当今临床实践相结合的典范。通过对名老中医理论思维与临床实践经验的总结和传播,推动了中医药传承工作的进一步开展,亦是中医药创新发展的新思路[2]。如何借助信息科学技术将潜藏于医案中的理论、实践及辨证方法可视化,是推动中医药信息化进一步发展中值得探究的问题。知识图谱是数据时代的新兴技术,其作为知识管理和服务的工具应用于知识工程领域,可将医学知识嵌入到网络用来指导和丰富文本得以表示,为中医临床知识的关联、整合与分析提供了理想手段[3]。已有学者在中医药知识图谱构建中进行了尝试与探索,袁凯琦等[4]自底向上地对知识图谱应用于医学领域所需的关键技术,就数据存在的跨语种、高技术、多结构等特点进行了全面分析。孙华君[5]研究团队简要论述知识图谱的发展概况,分析知识图谱与本体的关系,最后总结了知识图谱在中医基础、临床、养生保健的典型应用。然而,在知识图谱应用于医学领域的现有研究中,由于数据多结构和高专业性要求的特点,其构建存在着一定困难。本文就中医知识图谱概述、关键技术、目前存在的问题及未来发展趋势进行述评。

1 构建医学知识图谱

1.1 知识图谱的概述

知识图谱是以结构化的方式描述客观世界中概念、实体及其关系,以“语义网络”为框架搭建起来的大型知识库系统,将分散的知识进行汇总与整合,为解决“知识孤岛”问题提供了理想的技术手段[6]。目前医学知识图谱的构建过程主要包括数据获取、知识抽取、知识融合、知识加工4个步骤,其中数据获取是构建过程的基础,数据源包含结构化、半结构化及非结构化数据,其主要来源为医学专业论文、书籍文献、医案和电子病历等;知识抽取是把已有非结构化和半结构化数据中的知识从不同种格式或表示方法中提炼出来,处理为相同形式数据的过程,包括实体抽取、关系抽取和属性抽取3个部分;在获取实体、关系及属性后,要对其进行清理和整合的过程即知识融合,包括共指解析和实体消歧,保证知识的正确性和逻辑性;最后通过知识加工,包括本体抽取、知识推理、知识发现和质量评估,提高医学知识图谱的可信度与准确度[7]。

1.2 知识图谱在中医药领域中的应用

目前,知识图谱在中医药领域主要运用在以下四个方面:

一是检索中医知识,对中医术语及实体指定的路径查询等基本知识检索服务,以交互式图形化的方式展示出检索结果。于彤等[8]以中医药学语言系统作为骨架,集成了中医药领域的一系列知识图谱,并将其嵌入中医药知识服务平台中加以利用;Yu et al.[9]利用中医药领域积累的数字化资源,构建了面向中医养生领域的知识图谱,从而实现术语、文献、数据库等知识资源的相互关联和系统组织,促进中医养生知识的共享、传播与利用。

二是分析中医医案,为医案的临床诊断和理解医案思路打下基础。郑子强[10]以中医在治疗慢性肾脏病方面的医案为数据支撑构建知识图谱,并通过特征发现对知识图谱进行推理,从而实现了对学习的有效指导及对临床的辅助决策。

三是辅助诊疗,基于知识图谱结合多种中医辨证方法进行辨证论治的策略。张莹莹[11]基于构建的中医药知识图谱设计了舌诊系统,根据用户症状辨证论治,为用户提供初步诊断以实现辅助诊疗。

四是分析名老中医个性化知识,基于知识图谱进行渐进式中医学术思想的发现,为进一步的中医经验传承和临床知识总结进行探索。邓宇等[12]基于名老中医医案构建知识图谱,分析蕴涵的知识和关系,将隐含在其中非结构化的诊疗经验系统地显式出来。

2 基于中医医案本体的中文分词

想要在海量的中医医案中更高效地挖掘出重要的诊疗信息就需要对医案文本进行预处理,前提须解决中文序列切分问题——中文分词。中文分词是通过某种方法或方法的组合,将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程。中文分词模型算法主要经历以下三个阶段:

(1)基于字符串匹配算法按照规定策略将分词对象与适用词典进行匹配来确定词的划分,常见的匹配算法包括:正向最大匹配法(Forward Maximum Matching,FMM)、逆向最大匹配法(Reverse Maximum Matching,RMM)、双向最大匹配法、全切分法等。由于算法简单,机械分词具有分词速度快的天然优势;然而,分词准确率与词典的好坏成正相关,在未登录词较多的情况下,算法的准确率无法保证。

(2)基于统计的机器学习算法充分利用汉语组词的规律来分词,该方法需要大量预先分好的语料进行支撑,另外特征选择的好坏是决定结果的关键性因素;传统机器学习算法需要人工设计特征模块,影响分词效率。最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[13-14]和隐马尔可夫模型(Hidden Markov Model,HMM)[15]。最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[16]集成了上述两个模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升。但是模型对每个节点进行独立归一化,存在偏置问题。条件随机场(CRF)[17-18]结合了多方面优势,对所有的特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一,但模型复杂导致分词效率略低。

(3)2011年,Collobert等[19]首次将深度学习算法引入自然语言处理任务中。该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示。随后CNN[20-21]、GRN[22]、LSTM[23]、BiLSTM[24]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进。基于理解的深度学习算法让计算机模拟人类思维,对句子进行结构语义分析,无须进行特征行为选择,可以有效保留长距离句子信息,是对机器学习的有效补充。

中医医案具有明显个体差异性、实用性与地域性等特点[25],故医案具有一定的复杂性。综合现阶段中医分词研究文献来看,我们需要将文本中实体的多种描述方式与标准实体进行对应。目前影响分词精度的主要问题是歧义性和多样性问题[26],同时针对中医医案,大量专业术语的集合亦严重影响着分词性能。此外,古代医案多用晦涩的文言文,属于具有笼统模糊的特性,使得中医医案研究学者既要考虑现代中文语法又要考虑到中文古汉语用词特点,增加了分词难度以及歧义词的消解工作;且中医领域词典不完善,缺乏规范与条理,将传统医案转化为数字医案的过程中,医学术语、计量单位、症状名称等内容受地域、个人影响极大,给数据处理带来极大困难[25]。综上现有问题,王莉军等[27]为解决中医文献内容多,术语杂的问题,使用通用领域分词构建了基于BILSTM-CRF的模型对中医领域文献进行分词,结果表明基于该模型的分词取得了优秀的分类性能和鲁棒性。王冰[28]为解决中医医案中存在组合型歧义字段问题,分别构建了中医文本消歧模型和中医文本分词模型,通过医案验证了模型的有效性和高效性。张帆[29]等基于JAVA实现采用层叠隐马模型的汉语词法分析系统ICTCLAS,通过建立相关中医领域词典及测试语料库,经过分词和评测得出方法的性能。该方法能初步解决中医医案文献的分词问题,对现代医案文献的词性标注也基本正确,但对古代医案文献的词性标注上有待进一步的研究改进。

经过多年努力,中文分词研究已经取得了一定进展,但对于中医医案的分词仍面临诸多挑战。目前的分词方法研究已不再局限于某个单一分词方法的应用,经过实验验证将几种方法融合到一起的分词模型相较于单一分词方法在中医文献分词上具有更高的准确性和强大的泛化能力;同时分词方法的性能要求也从着重追求有效性转变为兼顾高效性。

3 构建实体抽取领域模型

实体抽取是从文本中自动获取实体间关系事实的任务。目前人工提取的代价太大,因此自动获取是目前重点研究方向,也是将来构建知识图谱的趋势。医学领域的实体抽取是从医学数据源中提取出来特定类型的命名实体,将医学实体的抽取方法分为以下三类:

3.1 基于医学词典及规则的方法

该方法通过人工定义规则和模式匹配生成词典,Wu等[30]基于医学词典从医学领域的无结构化数据中提取医疗实体。优点是足够简单,计算复杂度低,且不需要人工标注数据;但缺点也较明显,首先目前没有完整的中医词典囊括所有的命名实体,所以简单的文本匹配是不足以应对实体识别;其次过分依赖专家编写的词典和规则,在通用性和扩展性方面表现较差。因此,该方法只能适用于某些特定的场景下,很难应用到大规模医疗数据中。

3.2 基于医学数据源和数据模型的统计方法

该方法通过使用统计学和机器学习方法,集合医学数据源的特点训练模型进行实体识别。目前常用的方法有支持向量机模型(SVM)、隐马尔可夫模型(HMM)、条件随机场模型(CRF)等。王世昆等[31]基于CRF对明清古医案中症状、病机进行自动识别,不需要医学词典就能取得较满意的结果,并且具有不错的稳定性。然而该方法需要人工定义特征模板,并且某些模板具有较大的局限性,这就会限制模型的泛化能力。

3.3 基于深度学习方法

近年来,深度学习方法被成功应用于实体抽取任务中,能够自动学习有效特征,无需人工定义的特征模板。常见的实体抽取神经网络包括卷积神经网络(CNN)和循环神经网络(RNN)。基于深度学习的抽取需要大量的标注样本,而人工标注费时费力,因此有研究学者提出了远程监督[32]的思想。这种思想类比两个现实世界的实体在某种程度上具有关联,则只要某句子含该实体对,它就会被自动标注为知识库中所对应的实体。远程监督一定程度上不仅免除了繁琐的人工标记,还可以有效地针对大规模数据进行处理,但远程监督也引入了数据噪声问题,使得模型训练效果可能受到一定程度的影响。为了缓解远程监督带来的数据噪声问题,研究学者提出多实例学习[33](Multi-Instance Learning)的方法,它将包含相同实体对的句子放置在同一个包(Bag)内,用包级数据取代原来的句子级别数据对模型进行训练。还有研究学者把远程监督思想与多实例学习方法相结合[33],采用At-Least-One的多实例学习机制,每次从包中选取最大概率的句子进行训练,该机制的应用使得模型取得较好的预测效果。Wang[34]将基于词典和深度学习方法结合,应用于中文电子病例进行命名实体识别,结果达到了最优水平。赵立鹏[35]研究中医文本实体识别的方法,采用了双向长短记忆神经网络和条件随机场相结合的模型来实现对中医文本实体对的识别。综合近几年相关文献研究来看,基于深度学习的实体抽取模型经过不断优化在中医领域实体抽取上表现出了更好的预测性以及更为广泛的适用性。

值得注意的是上述方法都是面向句子级别的实体识别和关系抽取,而中文医疗领域的文本往往是以篇章形式存在,因此本文后续将探索更好的句子切分方法,使得模型在文档级医疗识别任务重取得更好的效果。

4 展望与小结

本文提出了研究与医学任务配对的医学知识图谱,即用知识图谱表示医学文本,这是中医药信息研究的重要方向之一,是通往鲁棒性可解释性人工智能的必由之路,是“互联网+医学”的双向驱动意义所在。我们通过知识图谱可以更加行之有效地对这些临床病例归纳与总结,养成理论联系实际的临床思维模式,构建出临床可用、理论适用的路径体系,从而更好地应用到实际工作中,为祖国医学的传承与发展贡献微薄之力。目前知识图谱主要应用于中医证候分析、计算机辅助治疗等阶段,而有关中医医案挖掘与分析研究较少,且不论是数据还是技术上都存在着一些不足。

(1)在数据层面上,医案数据利用率不高。随着医疗信息化水平的提高,虽然已经积累了大量的医案,但数据停留在浅层面无法推进。中医医学词典和知识库较少,增加了学者研究医学知识图谱的成本和难度。此外,由于中医医案尚未统一、保持着多样化特点,对于医案术语、计量单位等未作明确要求,同一实体有多种表达形式,为医学实体消歧带来困难,也难以适应信息时代的要求。

(2)在技术层面上,中文医疗文本工具相对缺乏,医案数据大多基于非结构化或半结构化为主,需要利用自然语言进行处理。但大量的中医专业术语,缩略语等增加了知识抽取的难度。同时,知识图谱的构建汇集了理、工、医等多学科知识,且围绕着大数据与人工智能、科学与工程计算等重大战略的关键技术问题展开研究,对研究人员各方面能力有较高的要求。

为解决现存问题,我们需要进行多学科交叉融合研究,大力培养兼具计算机和中医知识储备的复合型人才。同时,专业机构应加强中文专业术语词典和知识库的构建,为医学领域提供更多规范化的词典和知识库。人工智能作为数据时代的研究热点,据此产生的新技术新工具不断涌现,今后可利用人工智能相关技术建立更加适合中医领域的有效模型及算法,为中医学理论体系发展提供支撑,为探索中医发展提供新思路。

猜你喜欢

医案分词词典
数据库技术在古代中医医案整理中应用研究进展
基于古今医案云平台探析中医药治疗过敏性鼻炎的组方用药规律
分词在英语教学中的妙用
Network Pharmacology Investigation in the Mechanism of Radix Pseudostellariae-Rhizoma Anemarrhenae Therapy for Diabetes Mellitus
米兰·昆德拉的A-Z词典(节选)
米沃什词典
结巴分词在词云中的应用
结巴分词在词云中的应用
词典引发的政治辩论由来已久 精读
漫画词典