APP下载

基于Neo4j的疾病预防与控制知识图谱研究

2021-03-07肖飞龙张爽胡志凌

电子技术与软件工程 2021年22期
关键词:数据源图谱实体

肖飞龙 张爽 胡志凌

(1.湖北省疾病预防控制中心 湖北省武汉市 430079 2.中国地质大学(武汉) 湖北省武汉市 430074)

1 引言

国家疾病预防控制局的成立是我国疾病预防控制体系的重大改革与调整,我国公共卫生和疾病预防控制的发展在流行病疫情中面临挑战。部分地区的疾病预防控制中心工作人员和相应的卫生人员数出现不对称情况,疾病防控体系存在漏洞,为改善目前的疾病预防现状,地区政府投入的疾病预防与控制相关措施的知识表达非常重要。

知识图谱作为知识管理的重要手段,以通用直观的方式展示疾病预防与控制措施的投入力度。Neo4j图数据库作为非关系型数据库,其查询性能强、设计灵活、易于使用,提升了知识检索的效率和准确度。本文将基于Neo4j图数据库构建疾病预防与控制措施知识图谱,探索疾病预防控制机构的数量、人员等防控措施现状,为防控体系的完善提供建议。

2 研究现状

2.1 知识图谱

自2012年Google正式提出知识图谱概念以来,学者们在研究中给出了不同的定义。刘峤[1]等提出知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。徐增林[2]等认为知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及相互关系进行形式化描述。而维基百科中知识图谱被定义为“Google用于增强其搜索引擎功能的知识库”。因此,对知识图谱的定义强调其本身的可推理性,采用本体实现对知识框架的约束及描述。

一般将知识库表述为G=(E,R,S),其中E={e1,e2,…,e|E|}是知识库中实体的集合,包含|E|种不同的实体;R={r1,r2,…,r|R|}是知识库中关系的集合,包含|R|种不同关系;S⊆E×R×S代表知识库中三元组的集合,一般表示为(h,r,t),其中h和t分别表示头实体和尾实体。

2.2 疾病防控知识图谱

疾病预防与控制领域知识图谱的应用研究主要集中于防控体系及防控机制。姜茂敏[3]等运用知识图谱分析法,采用CiteSpace软件定量研究了传染病防控机制的热点及进展。

疾病防控知识图谱在疾病诊断及治疗领域有广泛的应用。孙敏敏[4]等以医学网站资源为数据基础,构建肺部疾病知识图谱,进一步提高了医学诊断与疾病预测效率。翟姗姗[5]等提出了融合知识图谱和病情画像的在线医疗社区信息推荐,构建了融合知识图谱和病情画像的在线医疗社区信息推荐方案。但目前针对地区政府疾病预防与控制投入力度及措施的相关研究较少,知识图谱的建立完善了疾病防控体系。

3 知识图谱构建

3.1 数据来源及构建思路

本研究选取中国经济与社会发展统计数据库,将指标名称确定为“疾病预防与控制”,根据国民经济和社会发展统计公报提供的年度数据进行筛选。最终确定2018-2020年的疾病防控相关数据作为知识图谱构建的数据源。

图1展示了疾病防控知识图谱的构建思路,对数据源进行知识抽取后,结合存储在非关系型数据库中的数据根据相似度计算结果进行融合,主要包括实体与关系对齐内容。知识应用涉及各地区疾病防控的措施与力度查询,一定程度上完善了疾病防控体系。

图1:疾病防控知识图谱构建路径

3.2 命名实体抽取

疾病防控知识图谱的实体主要包括国家地区与各类防控指标,指标的选取参考疾控机构发布的相关指南与疾病预防控制规范定义六项防控措施指标:疾病预防控制中心数、分地区专业公共卫生机构数、疾病预防控制中心卫生技术人员数、卫生机构注册护士数、卫生机构床位数、卫生机构业务活动费用。根据结构化数据表现形式进行实体抽取,表1列举了部分实体实例。

表1:实体抽取举例

3.3 关系抽取

知识图谱本质为语义网络,关系则是联系实体与实体的重要特征。本文在构建疾病预防与控制知识图谱的过程中,定义三类实体关系:上下位关系、整体与部分关系和并列关系,具体如表2所示。

表2:关系抽取举例

知识图谱的关系建立侧重于实体与实体的内容连接。各地区与防控措施实体的上下位关系指在本文研究的疾病防控知识图谱中,防控措施下属于各地区;防控措施与防控指标的整体与部分关系指防控措施包括各类已定义的防控指标;指标实体间的并列关系则指节点的重要程度。

3.4 属性抽取

知识图谱中的属性抽取难点在于不仅需要识别实体的属性名,还要识别实体的属性值。疾病预防与控制知识图谱面向中国经济与社会发展统计数据库,基于规则进行抽取,实体的属性名与属性值如表3所示。

表3:属性抽取举例

实体的属性值是实体特征的表达,本文建立的疾病防控知识图谱中实体有国家地区、防控措施、各类防控指标等,不同的属性名对应不同的属性值。属性名的确定参考知识图谱中的实体名,属性值的确定则是实体值的另一表达形式。

3.5 实体与关系对齐

实体对齐用于判断知识图谱中的实体是否指向客观世界中的同一实体,其用于消除多结构数据源中的实体冲突、实体歧义导致的指向不明等问题。例如“疾病预防控制中心机构数”又称“疾病预防控制中心数”,可将其表达进行统一。关系对齐则指将实体间的相似关系进行统一,避免指代冲突问题。

实体与关系对齐最常用的方法是相似性度量,将相似程度高的实体与关系统一为同一类型。因此可将来自同源数据或不同源数据中实体e1和e2的相似性函数定义为:

sim(e1,e2)=(1-α)simstructure(e1,e2)+αsimATTR(e1,e2)

其中simstructure(e1,e2)指知识图谱中实体结构的相似性,simATTR(e1,e2)指知识图谱中实体属性的相似度函数,0≤α≤1是调节参数。该式将实体属性映射为向量,通过余弦相似度计算向量间的相似性,最终根据余弦值衡量实体与实体间的相似度,将相似度高的实体或关系根据TF-IDF计算得到的词频高低进行命名统一。实体与关系对齐后的知识图谱能够更高程度地进行知识表达,在疾病预防与控制领域的知识应用也会更加广泛。

3.6 知识图谱存储

Neo4j是一种NoSQL的图数据库[6],它以图的结构形式存储数据及属性关联,采用嵌入式Java软件的持久化引擎,由节点、关系和属性三个要素构成。通过Neo4j图数据库实现对RDF数据的存储,构建疾病预防与控制知识图谱,利用Cypher语言对实体、关系以及属性进行设计,可实现知识图谱的构建、查询与编辑,使其呈现清晰的节点关系结构,并利用该图数据库进行交互式查询和关联化推理,为今后疾病防控体系的完善提供了模型上的借鉴参考。

图2展示了简单的疾病防控知识图谱示例,国家实体与省市地区实体间为包含关系。此处仅以中国湖北省为例,湖北省实体与各类防控措施实体间的关系为防控指标的提出,防控指标也可以根据指标体系进一步细化为子指标维度。通过层次化的图结构将各地区的疾病预防与控制的力度及措施呈现出来,此外Neo4j高效的图查询功能也拓展了疾病防控知识图谱的应用。

图2:疾病防控知识图谱示例

4 疾病防控知识图谱应用

新形势下我国疾控体系改革发展面临着巨大挑战,知识图谱打开了衡量防控措施投入力度及成效的黑匣子。知识应用方面,疾病防控知识图谱直观地呈现出不同省份地区的疾病防控力度及体系完善度,能更好地根据地区差异进行改革,提高突发公共卫生事件以及流行性疾病的预防能力。例如通过不同疾病防控措施的文本相似度计算可以衡量投入力度的差异性,从而针对性地为每个地区提供较为完善的防控措施作为参考。此外Neo4j中通过Cypher语言可实现对中国各地区疾病防控措施的查询,避免出现疾控措施不到位等情况,进一步完善疾病防控体系。同时也可以通过知识管理进一步完善疾病防控知识图谱的网络结构,充分利用Neo4j架构灵活、性能可靠、可扩展性强且可用性高等优势为知识表达与发现提供了极大的帮助。

5 结语

本文通过对中国经济社会大数据研究平台收集的疾病防控措施数据进行实体、关系和属性的提取,在本体构建的基础上,通过Neo4j图数据库进行知识的结构化存储,并实现多种查询检索和推理,对实体与属性进行了细化的关联。疾病预防与控制知识图谱也为各地区的防控力度及措施差异提供了衡量标准,进一步完善疾病防控体系。

本文研究的不足之处在于,选取的数据源较为单一,知识表示存在范围受限等问题,并且疾病预防与控制措施指标归纳仍不够完整,指标维度仍有待进一步加强。下一步工作可以进一步扩大数据源,实现多来源多模态的异构数据源疾病预防与控制知识图谱建立,进一步提高地区防控体系的完善程度和防控措施水平。同时也可以将该知识图谱进行补全,并将其嵌入到疾病预防与控制的研究方法中,共同完成对疾病预防与控制措施发现与制定的知识组织与开发利用。

猜你喜欢

数据源图谱实体
绘一张成长图谱
前海自贸区:金融服务实体
Web 大数据系统数据源选择*
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
基于不同网络数据源的期刊评价研究
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于真值发现的冲突数据源质量评价算法
分布式异构数据源标准化查询设计与实现