知识图谱及其在医疗领域的应用

2016-03-07张观林欧阳纯萍邹银凤周志锋

湖南科技学院学报 2016年10期

张观林　欧阳纯萍　邹银凤　周志锋

知识图谱及其在医疗领域的应用

张观林欧阳纯萍邹银凤周志锋

（南华大学计算机科学与技术学院，湖南衡阳 421001）

文章首先对知识图谱在过去几年中在国内的发展趋势和研究要点进行了归纳和总结。其次，本文以抽取互联网上的知识构建图谱为背景，对此类知识图谱的类型和构建方法进行了阐述、分类和总结。最后，以医疗领域中知识图谱的应用现状为契机，分析了未来知识图谱的应用趋势。

知识图谱；实体；实体关系；知识库

引　言

近年来，随着计算机科学与互联网技术的飞速发展，人们的生活方式发生了巨大的改变。电子商务以及移动互联网技术的风起云涌，使得人们平时并不在意的一些生活数据正在以洪水之势从互联网的四面八方向各大网站及数据中心汇集，引发了数据规模的爆炸式增长。据不完全预计到2020年左右，全球互联网数据总量将达到35ZB（1ZB=270B），其中7成以上的将来自个人（其中主要由图片、视频、音乐构成），巨大的数据积累将超越人类自印刷术发明以来印刷材料的数据总量。如此大规模数据的形成与发展潜藏着丰富的知识，给知识工程研究领域提供了研究基础，同时也带来不可避免的烦恼。大量冗余、重复、凌乱的数据现存状态，其中所蕴含的知识也呈现出松散和无序，这将严重影响人们日后获取并判断知识的正确性与便捷性。因此一种以动态，清晰，直观，有效的状态展示知识和知识内部结构及知识之间联系的数据研究方式—知识图谱（Knowledge Graph）应运而生[1]。

知识图谱是以知识为对象，显示知识和知识内部结构关系的一种图形，具有“图”和“谱”的双重特性。知识图谱最早的研究源于上世纪40年代的文献计量学和科学计量学。到20世纪末，知识数量、种类和结构呈现快速变化，受复杂网络系统和社会网络分析的引入以及信息可视化技术的突破发展，基因图谱、GIS和超文本的可视化影响，知识图谱被正式提出。近年来随着技术的成熟，知识图谱的应用逐渐在互联网领域得到推广，知识图谱的发展也开始呈现出逐渐由从文本中抽取指定类型的实体、关系、事件等事实信息向从海量数据中发现实体相关的信息方向发展[2，3]。

1　知识图谱的类型

根据不同知识库包含知识的范围划分，目前互联网领域内的知识图谱可以分为：领域无关知识图谱；特定领域知识图谱；跨语言知识图谱[4]。

1.1领域无关知识图谱

这类知识图谱通常不限定特定领域，包含的知识涉及各个领域和行业的各个分支，内容十分广泛。目前影响的最大的谷歌知识图谱就是这类知识图谱的典型代表，它包含5亿实体对象和350亿条实体间关系信息，并且规模随信息的增长在不断扩大。Probase是目前包含概念最多的知识库，其中包含2653872个概念，20757545种关系，并且支持对短文本的语义理解。除此之外，领域无关知识图谱还包括DBPedia，Yago，Freebase，WikiTaxonomy，WordNet，百度知心，搜狗知立方等。

1.2特定领域知识图谱

特定领域知识图谱一般是针对特定的领域，在内容的广度上虽不如领域无关知识图谱宽泛，但是在领域知识的深度上，其包含知识的更加全面和更具针对性。传统的学科知识图谱便是这类是指图谱的典型代表，它们大多也是基于人工编写的小规模的针对学科领域的知识图谱，比如：HowNet,HNC ,同义词林等。除此之外特定领域的知识图谱还有：正在完善和扩展当中的基于RDF的社交知识图谱FOAF,包含全球最全的地理知识的知识图谱Geonames,全球最大的电影知识图谱Linked Movie Database，FaceBook公司推出的基于社交网络人物和兴趣关系的社交知识图谱产品Social Graph等。

1.3跨语言知识图谱

跨语言知识图谱一般是包含两种及两种以上语言的知识库。因其需要跨越多种语言知识，因此其构建难度在领域无关知识图谱和特定领域知识图谱之上。跨语言知识图谱的代表产品有：XLORE，BabelNet，DBpedia，YAGO，Freebase，WordNet等。

2　知识图谱的构建方法

随着知识图谱的类型和应用的多样化发展，知识图谱的构建方式也呈现出发散式的发展状态。按照知识图谱构建过程中知识抽取的数据源和数据源中知识呈现出的方式，将知识图谱的构建方法分为以下几种[5，6]：

2.1基于外部知识库的知识图谱构建方法

基于外部知识库的知识图谱构建方法，主要是以在线百科类网站的数据为研究数据的主要来源。这些数据包含大量高质量的常识性知识，更新速度慢，并且具有一定的格式。以互动百科为例，通过摘要抽取各种相关实体，通过目录模块内子目录对应的内锚链接获得各种相关实体概念的上下位关系；通过开放分类抽取实体所对应的类别；通过信息模块抽取实体所对应的属性-值对和实体-关系对。通过类似互动百科中信息模块抽取实体属性-值和实体-关系对时，常用的一种重要方法是AVP知识抽取（Attribute-value Pairs Mining）。类似地可以从其他的多个在线百科知识网站抽取数据，来弥补单个百科知识网站上抽取知识不足的情况。百科类知识网站除了以上提及的中文在线百科互动百科之外，还有与互动百科并肩的百度百科，包含多种语言的全球在线百科维基百科。Freebase是另外一个重要的百科知识源，它包3900万多个实体和18亿条事实，占据着谷歌知识图谱数据来源的半壁江，规模上远胜于维基百科。Freebase另外一个重要特性是，直接结构化编辑实体及其包含的属性和关系，以及实体所属的类型等信息。使用Freebase作为数据源抽取知识时，不需要实现定制任何规则，便可获得高质量的知识。

2.2基于结构化知识的知识图谱构建方法

结构化知识数据一般都存储在关系型数据库中，基于关系型数据库中数据的存储特点，一个数据表（table）中存储的都是同一个类的不同实例，或者是同一属性的不同值。因此，在抽取信息时，一般是从关系型数据库中选取一个类或者一组相似的类，将选取的记录按列分组进行存储。在知识存储时通常是将存储在关系型数据库中的数据通过D2R转化为RDF描述进行存储。

D2R是一种基于XML语言的能够实现将关系型数据库中的数据转化成Link Data的工具，简而言之就是可以实现数据从关系型数据库到RDF文件的映射。

RDF（Resource Description Framework）资源描述框架，通常将其称为一种“语言”，但RDF实际上是一个数据模型（data-model）它由一系列类似“对象－属性－值”三元组（object-attribute-value tiple）的陈述组成，可以结构化地表示信息，通常用来描述网络语义资源。

2.3基于半结构化知识的知识图谱构建方法

中文类百科网站虽然也包含广泛的跨领域知识，但是在数据结构化程度上远比不上维基百科。中文百科类网站上的大部分属性都是以隐藏形式存储在HTML表格或者列表当中，而且对于同一个站点来说不同的页面一般都是由统一的程序自动生成的，因此它们之间具有相近的布局和数据分布结构。知识抽取时，一般可以通过先定制数据抽取模板，然后再建立面向站点的文本封装器来实现信息自动抽取，这种常用的知识抽取方法叫模式匹配。通过模式匹配实现知识自动抽取的方法，自动学习模式时可能会遗漏部分属性也可能引入一些错误的信息，甚至会得到错误的学习模式，因此需要通过人工方法来调整或附加新模型来进行改进。

2.4基于非结构化知识的知识图谱构建方法

由于Web的去中心化结构，大部分知识都是以分散，异构，自治的形式存在，而不是一个统一的，一致的知识整体。因此对于特定领域知识图谱的构建，采用百科类网站上的数据或者领域垂直网站上的数据并不能达到知识的充分抽取。另一方面，尽管百科类网站上的数据非常庞大，但是对于一些特定领域依旧缺乏相应的知识以满足完整知识图谱的构建需求，因此非结构化的知识的存在变得尤为重要。采用非结构化的知识数据，不但能够满足一部分特定领域的知识抽取来源，而且还可以在一定程度上满足对基于百科类网站建立的知识图谱进行扩展和补充。由于非结构化知识本身的分散性和多源性，在抽取过程中可能会面临知识重叠，复杂的除噪音处理等问题，并且由于非结构化数据的来源大部分都未经过专业人员的鉴定和核实，其置信度普遍很低，因此在知识图谱构建过程中非结构化数据的使用并不广泛。

3　知识图谱在医疗领域的应用

近年来，医疗卫生信息平台、医疗设备在医疗卫生机构迅速普及开来，同时产生了大量的医疗数据。如何利用这些海量的医疗信息资源更好的为人们服务，已成为人们所关注的热点问题。知识图谱技术给解决这个问题，提供了一个新的技术手段。知识图谱能够解决医疗大数据中的知识分散、异构、冗余和碎片化的问题，提供有效的整合和组织医疗知识的途径。

2015年2月，谷歌公司宣布将开始着重医疗资讯在搜索结果页面的地位，将于近期内推出医疗版的“知识图谱”，汇整使用者搜索医疗相关关键字的资讯一并列出，让使用者一目了然。2016年，谷歌的医疗知识图谱正式在印度上线，谷歌公司——Alexa 数据显示，印度访问量最大的两个网站均为谷歌旗下网站——如今将通过谷歌主搜索引擎（全平台）和 iOS、Android 搜索应用在用户搜索疾病或症状时为他们提供超过400种健康状况的数据，支持英语和印地语。谷歌公司把搜索引擎和知识图谱与在线医疗进行了深度整合，对智能医疗的发展提供了重要的借鉴作用。

对于医疗知识图谱，国内研究较国外稍晚点，不过医疗领域的从业者们也开始重视构建各类不同医疗领域的知识图谱。2015年长沙的格尔智慧公司发布了国内首个“护理知识图谱”研究中心，顾名思义，就是面向护理领域所提供的垂直类型的特定知识库。也可以说护理知识图谱是对护理领域的相关知识进行采集，整理和萃取，以满足与该领域相关的各种对于知识服务的需求。它的本体知识库是源自于护理领域专家，所反映的是在该领域内对于各种特定问题进行求解的知识集合，包括了相关的各种基本事实，规则和其他相关信息。北京康夫子科技有限公司则从智能诊断着手，康夫子欲建设“知识图谱+推理逻辑”的医疗大脑。该公司的负责人表示，传统的诊断学思维，大多使用人工编辑的知识库，知识库规模较小，在知识和信息更新上比较滞后，不能以自然语言处理，且采用决策树的结构，在诊断效果上很快就会达到瓶颈。而康夫子基于知识图谱推出的智能诊断系统在技术上会更有优势。从技术原理上来说，康夫子智能诊断是经过三大步骤训练出来的：（1）知识抽取：让计算机阅读理解海量医疗文献，抽取针对某种知识总结出上万条书写规律；（2）知识表示：包括知识向量化表示和知识关系概率化表示；（3）逻辑应用：当用户搜索某种症状后，是否还会有其他伴随症状？这就涉及到查询分析和人机交互，最终呈现搜索结果。

除了工业界的产品研发之外，学术界的学者们也对医疗垂直领域知识图谱的研究产生了浓厚的兴趣。其中，华东理工大学的王昊奋博士在调研国内外通用和医疗行业专用知识图谱的基础上利用文本抽取、关系数据转换以及数据融合等技术，探索中医药知识图谱自动化构建方法与标准化流程，以期实现基于模板的中医药知识问答和基于知识图谱推理的辅助开药[7]。中医科学院的贾李蓉也从数据采集，内容抽取，图形化展示几个方面介绍了他们的中医知识图谱的构建工作，并预计开展基于中医药知识图谱的检索系统、基于中医药知识图谱的知识地图和中医药知识图谱的维基百科等一系列应用研究[8，9]。

基于知识图谱的知识推理，可以发现知识间隐藏的一些新知识，不仅可以扩展当前的知识图谱而且可以让知识图谱包含的知识变得更加饱满和充分[10]。因此，在医疗领域的知识图谱应用在目前取得的成果可以应用到其他领域中，例如，利用知识图谱识别互联网金融的欺诈行为；知识图谱与商业大数据分析结合，可以有效的提取商业领域的知识单元，提供辅助情报分析；知识图谱与搜索引擎和智能问答的结合更加可以给我们的生活带来纯净的信息环境[11]。

4　结　语

根据知识图谱的发展背景和起源，文章首先对知识图谱在过去几年中在国内的发展趋势和研究要点进行了归纳和总结。由于知识图谱是引入的知识概念，在国内发展比较晚，因此到目前为止国内的知识图谱并没有实现统一的标准定义，并且知识图谱的研究领域也集中在类似情报学、教育学、体育学、管理学等为数不多的比较狭窄的知识领域之内，研究对象也多以文献为主，研究方法中的基于监督和半监督的研究方法占据着国内知识图谱研究领域的半壁江山。其次，根据知识图谱发展的新趋势，文章以互联网范围内的知识图谱为背景，对知识图谱的类型，构建方法进行了阐述和总结，并宏观的介绍了知识图谱在医疗领域的应用前景。

随着互联网数据的爆炸式增长，以及国际知识图谱领域研究的向前发展和推进，我国知识图谱的发展将赢来新的转变。另一方面，随着中文分词技术、实体及实体间关系的辨别技术及语义理解等技术研究的进一步成熟，构建大规模的中文知识图谱，实现实体及实体间关系抽取的，多源知识融合与验证的难点突破将成为可能。

[1]Hook PA.Domain maps:Purposes,history,parallels with cartography,and applications[C].Conference Proceedings of 11th Annual Information Visualization International Confe-rence(IV2007), Zurich, Switzerland, 2007:442-446.

[2]Garfield E.Scientography:Mapping the Tracks of Science[J]. Current Contents:Social＆Behavioral Science,1994,(45):5- 10.

[3]Cobo MJ,López- Herrera AG,Herrera-Viedma E.Science mappingsoftware tools:Review,analysis,and cooperative study among tools[J].Journal of the American Society for Information Science and Technology,2011,(7):1382-1402.

[4]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,(4):589-606.

[5]刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,(3):582-600.

[6]袁旭萍.基于深度学习的商业领域知识图谱构建[D].华东师范大学,2015.

[7]阮彤,孙程琳,王昊奋,方之家,殷亦超.中医药知识图谱构建与应用[J].医学信息学杂志,2016,(4):8-13.

[8]于彤,刘静,贾李蓉,张竹绿,杨硕,刘丽红,李敬华,于琦.大型中医药知识图谱构建研究[J].中国数字医学,2015,(3):80- 82.

[9]贾李蓉,刘静,于彤,董燕,朱玲,高博,刘丽红.中医药知识图谱构建[J].医学信息学杂志,2015,(8):51-53.

[10]刘永彬,欧阳纯萍,钟东来,李涓子,袁博志,李奇.基于非线性全局上下文的词嵌入[J].中国科学:信息科学,2015,(12): 1588-1599.

[11]刘永彬,杨炳儒,李广源,刘英华.基于马尔可夫逻辑网的联合推理开放信息抽取[J].计算机科学,2012,(9):202-205.

（责任编校：何俊华）

2016－05－16

湖南省哲学社会科学基金（项目编号14YBA335）；湖南省教育厅科学研究项目一般项目（项目编号16C1378）；衡阳市科技局科技计划项目（项目编号2015KG60）。

欧阳纯萍（1979－），女，副教授，博士，研究方向为知识图谱、命名实体识别与情感分析。邹银凤（1988－），女，硕士，研究方向为数据挖掘与情感分析。