基于中医药学语言系统的知识问答系统的设计与构建
2019-09-11
随着医疗信息化的发展,人们越来越多地希望能够从网络上获得更为准确的疾病诊疗信息。通常情况下,人们通过搜索关键词,利用百度、Google等搜索引擎获得相关的网页信息。但是这些信息还需要用户自行鉴别,要求用户具备一定的鉴别能力。用户如果想利用普通的搜索引擎检索到更准确的信息,需要一定的检索能力,如使用关键词组合表达查询需求而不是用自然语言进行简单检索。由于人们更期望能从简单的提问中直接获得答案,因此智能问答系统应运而生。智能问答系统的优势在于用户可以用自然语言提问,系统返回的是用户所需答案而不是相关网页,因此能更好地满足用户的需求[1]。
中国中医科学院中医药信息研究所从2002年开始研制的中医药学语言系统,借鉴本体论的方法,收录中医药学及其相关学科的概念和术语,建立了大型的中医药学词库及其语义网络,为中医药知识智能化获取奠定了坚实的基础。本文旨在探讨如何以中医药学语言系统为基础构建知识问答系统,利用用户提问和在知识图谱中匹配与用户需求最接近的答案,从而实现中医药知识的智能问答。
1 智能问答系统的发展及其在医学领域的应用
问答系统(Question Answering System, QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题[2]。问答系统的实现涉及自然语言处理、信息检索、数据挖掘等交叉性领域。与传统的搜索引擎相比,问答系统的检索效率更高。用户期望在提出问题后,系统对问题进行语义理解,通过智能数据分析得到问题的答案。智能问答系统可将自然语言与产品交互,改善用户体验,其应用潜力巨大,受到各大IT厂家的追捧。近年来国外知名公司纷纷开发自己的智能问答系统。从表达知识的角度不同可以将智能问答系统分为基于知识库的问答系统、基于受限语言的数据库查询系统、基于常用问答对的问答系统和基于信息检索的问答系统。2010年左右兴起的基于知识图谱的问答,其底层就是一个庞大的知识库,典型的系统有IBM Wason及Wolfram Alpha等。Wolfram Alpha是沃尔夫勒姆研究公司开发出的新一代的计算知识引擎,它以公众和获得授权的资源为数据基础,通过发掘建立了一个异常庞大的经过组织的数据库,最后利用高级的自然语言算法进行处理,给出最后答案。基于知识库的问答是目前问答系统发展的趋势。
现代医学和中医药学领域的智能问答系统目前还处于研究和发展阶段。现代医学方面,主要有以美国国立医学图书馆的统一的医学语言系统(Unified medical language system, UMLS)为基础研究的智能问答系统。UMLS是美国国立医学图书馆开发的一个大型术语集成系统,具有集成性、跨领域和工具化等特点,在信息检索、自然语言处理、电子病历、健康数据标准等方面得到了广泛的研究和应用[3]。其在智能检索中主要应用于扩展检索、语义检索和问答式检索。Wang等[4]设计了引入UMLS的临床医学自动问答系统,比较完整地展示了问答式检索的基本流程和对UMLS的深入应用;Terol等[5]设计开发了基于自然语言处理技术的智能系统推断医学领域的逻辑问题,这个系统使用UMLS和wordNET处理和管理医学领域的术语。
互联网已成为获取知识的重要途径,人们经常利用互联网进行自诊,根据自己的症状搜索可能的疾病。在医生给出诊断之后,又经常在互联网上检索疾病相关的保健、康复等知识。目前国内的医疗问答网站中,“好大夫”“寻医问药”等网站的主要模式是用户公开提问,描述自己的病情,然后医生回复诊断和治疗相关的建议。上述这些网站和平台提供的问答模式都是医生进行在线回复或搜索给出相关检索结果,尚未有智能知识问答系统提供服务。
中医药是我国医疗行业的重要组成部分,也是人们治未病、保健、养生的重要手段,智能知识问答系统在中医药领域的应用也急需研究和发展。近年来有不少专家学者对中医药领域的智能问答系统进行了研究,主要都集中于构建中医药某子领域本体,并基于本体构建智能问答系统。如顾琳等[6]研发了基于本体的亚健康中医辅助诊断系统,该系统采用半自动方式获取知识,构建中医亚健康本体,在领域本体驱动下进行基于模糊推理的方法对亚健康症状中医辅助诊断知识进行推理;温思琦等[7]针对中医治疗冠心病构建自动问答系统,采用文献资料构建中医冠心病本体,然后设计了针对中医冠心病受限领域的自动问答系统的实现方案。但是这些研究都未真正基于中医药领域本体构建出实用的智能问答系统。
本文期望以中国中医科学院信息所长期以来的研究成果——中医药学语言系统为基础,构建实用的中医智能问答系统。
2 整体设计思路
本文以中医药学语言系统为基础,引入自然语言处理、知识库、自动问答、信息检索等技术,结合中医药信息领域专家的经验知识,构建一套智能知识问答系统。该系统将中医药学语言系统中的知识本体、专业概念术语、语义关系等规范的知识表示与医学文献中临床病案有机结合起来,将相关症状、病证、治法、用药等知识实体构建关联知识图谱,通过自动问答技术为疾病的临床诊断治疗提供辅助方案。系统整体设计如图1所示。
图1 系统整体设计思路
3 研究方案
本文以 “月经病”为例介绍研究方案。
3.1 需求调研
目前国内的医疗问答网站中,“好大夫”“寻医问药”等网站的主要模式是用户公开提问、描述病情后,医生回复诊断和治疗相关的建议。除了少量由用户设置为隐私的数据,其他的任何人均为自由访问。“春雨医生”平台的目标则是建立医生和患者之间的离线商务模式,使网站成为医生和患者之间诊断治疗的前台。人群调研也显示普通大众对于常见病、多发病的网络了解需求也日渐增加,不再满足于网页搜索给出的泛泛结果,更倾向于能够获得对自己提问更有针对性的直接回答。
月经病是指月经经量、颜色、周期、经期发生了异常的变化,临床上包括月经先期、月经后期、月经先后无定期、行经期延长、月经过多、月经过少、崩漏、闭经等,是妇科常见病、多发病。虽然给患者带来的痛苦不大,但有些患者因为忙碌等其他原因不能及时去医院就医而比较倾向于在网络中先寻求答案,更希望获得的答案具有针对性,能解决问题。
3.2 文献采集与处理
本文数据内容包括3部分。
第一部分是文献数据。在“中国中医药数据库”中通过主题检索“月经病”进行加权拓展检索,即包括主题词表 “月经病”及其下位词“崩漏”“闭经”“功能性子宫出血”“经前期综合征”“逆经”“痛经”“月经过多”“月经过少”“月经失调”所有主题词的文献,结果返回14 231篇文献;然后通过特征词二次检索“病例报告”,即文献中含有实际病例的文献,结果返回5 653篇文献。以这些文献中的病例记录为本文的数据基础,将筛选出的文献中的病历部分进行文本化。
第二部分是医案数据。本文采集现代妇科专家病案60余本,对其中的月经病医案进行整理。
第三部分是教材。采集中医药院校《中医妇科学》与《方剂学》中关于月经病治疗的文本,作为经典数据。
3.3 知识问答系统的构建
中医药知识问答系统主要分为知识抽取模块,知识库管理模块、自动问答模块、术语反馈模块和信息检索模块五大模块。
3.3.1 知识抽取模块
为实现知识概念、知识属性、知识关系、知识分类等知识实体信息的抽取和融合,系统将基于中医药学语言系统结合中文分词、命名实体抽取、属性抽取、关联关系抽取等自然语言处理关键技术对中医文献进行知识实体信息抽取,为中医药领域知识库的构建提供数据支持。
3.3.2 知识图谱管理模块
基于中医药学语言系统,利用知识抽取模块产生的知识实体信息形成知识图谱,并进行有效的存储和管理。知识图谱是由“节点”和“边”组成的、具有语义相关特性的网络,其中“节点”表示各种知识实体(包括领域基本概念、专业术语、专有名词等,知识实体可以具有多重属性信息),“边”表示知识实体间的多种关系。中医药知识图谱是实现知识问答的基础,知识问答系统基于中医药知识图谱的知识实体及关联关系可以发现用户问题中的关联知识,并通过进一步的推理,利用关键概念和实体的权重获得用户问题的答案。
3.3.3 自动问答模块
在用户输入病情描述后,基于中医药学语言系统的标准化知识表示,利用中文分词、命名实体抽取技术,将患者描述的自然语言转化为症状等规范知识表示;然后基于知识图谱查找关联知识体系,判断用户可能患有的病证及其概率,给出病证的相关信息,并通过与用户交互反馈形成较为可信的结论;同时将利用信息搜索功能,将相似度达到一定比例病案找出来,为用户提供辅助诊疗建议。
3.3.4 术语反馈模块
对知识抽取结果进行分析比对识别新的术语信息,并将其反馈给中医药语言系统,经过专家审核确定是否新术语在语言系统中的添加。由此形成一个良性循环,为中医药学语言系统提供更多的概念术语,同时也为知识库和知识图谱的构建充实更多的语料。
3.3.5 信息检索模块
对中医文献等数据资源和知识图谱数据建立全文索引,提供病案文本和知识图谱的全文检索功能。自动问答模块在获取到用户数据以后,将提炼出的规范知识表示作为输入调用信息检索模块,信息检索模块将根据索引信息获得相关的病案和知识实体信息,并根据相似度进行排序输出。
4 结语
构建基于中医药学语言系统的知识问答系统,有助于帮助人们用更便捷的方式获得中医药诊疗知识,改变传统搜索引擎带来的检索弊端。该系统从语义表达的角度,以知识图谱的形式分析用户自然语言检索的语义逻辑关系,为用户提供精准的信息资源。同时,根据用户自然语言的输入及时反馈,可促进中医药学语言系统的发展、丰富系统内容、优化语义关系,从而进一步提高其效能。