COVID19知识图谱构建与应用研究
2021-12-08杨帅王小红赵志刚潘景山武鲁
杨帅 王小红 赵志刚 潘景山 武鲁
摘要: 为方便科研人員了解COVID19的致病机理、人体免疫、药物治疗和疫苗研发等科研动态,本文对COVID19知识图谱进行构建与应用研究。采用半自动化知识图谱构建方法,设计构建流程,搭建COVID19知识图谱模式层。从核心医学期刊、核心中医药期刊、权威药物数据库及百科等数据源获取数据,并采用爬虫爬取和人工结合的方法进行数据获取、解析和存储工作。同时,基于Neo4J构建COVID19科学文献知识图谱、中药治疗知识图谱和西药治疗知识图谱,并实现知识图谱的融合。为保证知识图谱的质量,对知识图谱三元组进行统计与校验,实现知识图谱质量控制,并在COVID19知识图谱的数据基础上,进行中药方剂频次分析、中药材频次分析、中药有效成分频次分析及西药研究热度分析。分析结果表明,麻杏石甘汤、疏风解毒胶囊、连花清瘟方是中医临床中常用于治疗新冠肺炎的中药方剂;而Remdesivir、Chloroquine、Darunavir是研究热度最高的新冠临床治疗西药。说明COVID19知识图谱在中药有效成分挖掘、中药方剂潜在作用机制研究、药物相互作用等方面都具有研究价值。该研究在弘扬传统中医药文化、推进中医现代化、探索中药方剂的有效成分和潜在作用机制等方面具有重要意义。
关键词:新型冠状病毒肺炎; 知识图谱; 本体; 知识融合; 质量评价; 可视化分析
中图分类号: TP182; R181.3 文献标识码: A
基金项目: 山东省自然科学基金项目(ZR2020MF145);山东省重点研发计划(2019JZZY010113);国家发改委重大工程(Z135060000070)
2019年12月以来,全球新型冠状病毒(corona virus disease 2019,COVID19)疫情肆虐,造成了严重的社会和经济损失。截止2021年8月19日,全球累计确诊2.1亿人、死亡440万人。面对如此严峻的疫情,世界各国的科研人员对COVID19展开了深入研究。知识图谱由Google公司2012年提出,旨在实现关系数据的存储与表示,已广泛应用于数据检索、关系推理等方面。目前,医疗医药领域已构建一系列知识图谱[1],例如:蛋白质相互作用知识图谱、中医药知识图谱[2]等。由于在COVID19抗疫过程中暴露出缺乏数据支撑的问题,而知识图谱在抗疫大数据支撑、药物推荐、病患轨迹跟踪等方面发挥着不可替代的作用。国内多家机构相继发布了多个新冠病毒知识图谱;OpenKG共享了多个COVID19知识图谱[35],涵盖诊疗、临床、英雄、物资等方面,而其在COVID19科学文献和药物治疗等方面鲜有涉及。清华大学AMiner和智谱AI团队合作完成了COKG19,其数据规模大、且涵盖众多知识领域,但在知识粒度方面有待细化。基于此,为了便于科研人员探究COVID19的最新进展,了解COVID19的致病机理、临床研究、人体免疫、疫苗研发和药物治疗等科研动态,本文研制了COVID19知识图谱。COVID19知识图谱由COVID19科学文献知识图谱、西药治疗知识图谱和中药治疗知识图谱3部分融合组成,给出了COVID19命名、起源、传播、致病机理、预防、临床研究、人体免疫等方面的知识,可以为医护人员提供临床治疗蓝本、推荐药物治疗方案。同时,图谱收集了国内中医药治疗COVID19的治疗方案,对于弘扬传统中医药文化、推进中医现代化、探索中药方剂的有效成分和潜在作用机制等方面都具有重要意义。
1知识图谱构建
1.1总体流程
COVID19知识图谱涵盖科学文献、中药治疗、西药治疗等方面的知识,数据异构,且来源广泛,因此本文采用半自动化知识图谱构建方法[6]。COVID19知识图谱构建流程如图1所示。
首先进行数据获取和知识融合[7],通过数据爬取和文件解析方法,获取有效数据并进行知识融合;其次基于获取数据进行本体设计[8];再次参照各本体进行知识图谱构建和融合,分别构建COVID19科学文献知识图谱、西药治疗知识图谱和中药治疗知识图谱,并进行知识图谱融合,形成COVID19知识图谱;最后进行知识图谱质量评价[9],借助知识图谱质量评价方法,实现对COVID19知识图谱的数据质量控制。
1.2本体框架设计
本体框架设计主要包括确定构建目标和构建模式层。COVID19知识图谱的构建目标是集成高质量的COVID19科学文献知识,面向科研人员提供高效便捷的知识共享服务;COVID19知识图谱的模式层包括COVID19科学文献、中药治疗、西药治疗3大类,参照本体及本体间关系的设计需求,细化各个子类,知识图谱结构如图2所示。
图2中,白色框表示知识图谱,蓝色框表示本体,绿色框表示属性,黄色框表示本体中的对象。COVID19科学文献是指顶级医学期刊收录的学术论文,其本体包含论文、知识类别、科研人员、科研机构和学术期刊等5个子类。其中,知识类别是对每篇文献所属知识领域的划分,具体包含病毒起源、病毒传播、命名、临床研究、人体免疫、疫苗研发、药物治疗、致病机理等34个知识类别。中药治疗是指临床治疗新冠病患时使用的中药处方,其本体包含中药方剂、中药相关文献、中药材、中药有效成分等4个子类,其中,中药材是中药方剂的成分,中药有效成分是中药材的有效药物成分;西药治疗是指临床治疗新冠患者时使用的西药,其本体包含西药和西药相关论文2个子类。其中,西药相关论文是指药物在研发、临床过程中发表的论文。文中涉及的本体数据均进行了人工审核,以保证数据质量。
1.3数据获取和知识融合
1.3.1数据来源
由于缺乏开源、结构化、细粒度且符合构建需求的数据,COVID19知识图谱需要从核心医学期刊、核心中医药期刊、权威药物数据库及百科等数据源获取数据,数据大多是半结构化和非结构化的数据[10]。
1)COVID19科学文献数据来源。COVID19科学文献数据来源主要是世界顶级医学期刊的论文,COVID19科学文献数据来源如表1所示。预印版主要有arxiv、biorxiv、medRxiv等,Cell及其子刊包含Cell、Cell Discovery、cell research等期刊,Nature及其子刊包含Nature、Nature Medicine等期刊,Lancet及其子刊包含Lancet、The Lancet Infectious Diseases等期刊。总体上,顶级医学期刊的数据源占比达56%,高质量的数据来源保证了知识图谱的质量。
2)西药数据来源。西药数据主要来源于DrugBank(版本5.1.7,20200702版)数据库,其为阿尔伯塔大学运维的一个生物信息学和化学信息学数据库[11],包含13 791种药物条目,其中有2 653种经批准的小分子药物、1 417种经批准的生物技术(蛋白质\肽)药物、131种营养品和6 451种实验药物。为了应对COVID19疫情,DrugBank设计了COVID19专栏,面向科学界提供当前用于临床治疗COVID19药物信息,诸如Remdesivir、Ritonavir、Chloroquine等新冠临床治疗药物都涵盖其中。
3)中药数据来源。中药数据来源主要是《中草药》、《中药材》杂志及百科数据。《中药材》杂志是经国家科委和新闻出版署批准出版的国内外公开发行的国家级中药科技学术性刊物,由天津药物研究院和中国药学会共同主办。百度百科是国内知名的中文百科类知识库,其医学条目由领域专家、各大医药研究所合作编辑,所涵盖的医学条目可信度高、数据完整。本文主要筛选了《中草药》、《中药材》杂志发表的中药治疗COVID19方剂、中药方剂有效成分挖掘方面的文献数据。中药方剂、药材和中药有效成分的细粒度信息来源于百科数据。
1.3.2数据获取
针对半结构化和非结构化数据,本研究采用自动化和半自动化结合的方法[12]获取数据。非结构化数据(例如:权威医学期刊文献、中药文献)来源广泛,且多为PDF格式,采用爬虫爬取和人工结合的方法进行数据获取和存储工作。结构化数据(例如:DrugBank数据、百科数据)采用爬虫爬取和程序解析的数据获取方法。
1.3.3数据解析
对于OWL和XML格式的本体文件,一般采用Jena、Owlready2等工具进行解析,提取本体文件中的实体、属性、实体间关系数据。本文的数据源为科学文献、数据库和百科数据,不包含本体文件,未采用以上本体解析工具。对于结构化数据,本文基于Python编写解析程序,进行数据解析、数据清洗、格式规范工作。对于非结构化数据,由于PDF解析技术发展水平的限制,为保证数据质量,出于数据准确性的考虑,本研究采用人工方法解析PDF数据,并借助领域专家人工提取有效信息。
1.3.4知識融合
通过以上方法获得的多源异构数据,需要进行知识融合。为了提高知识图谱的数据质量,采用人工方法进行知识融合[13]。首先通过实体链接,解决多源异构数据中的实体冲突问题,将表示同一对象的多个实体归并为具有全局唯一标识的实体对象[14]。其次通过知识合并,将多个来源描述同一实体的知识合并在一起。
在COVID19知识图谱构建过程中对中药方剂、中药材、学术期刊、科研机构等实体进行数据规范和实体链接工作。新英格兰医学杂志实体在不同的数据源具备不同的名称,例如:新爱尔兰医学杂志(the new england journal of medicine,NEJM),需要进行实体对齐,避免歧义,实体与对齐实体如表2所示。
由于同种中药材经过不同方法处理会产生多种衍生药材,同类中药方剂由于制剂方法、药材成分的细微差异会衍生出不同的中药产品,需要加以区分。例如:藿香正气水、藿香正气口服液、藿香正气散药效一致,药材成分大致相同,却是不同的中药产品。半夏曲、生半夏、清半夏、姜半夏、法半夏都是由半夏制备而成,炮制方法不同,具备不同功效。
本文采用“实体子实体”知识融合方法,实体子实体知识融合如表3所示。例如:连花清瘟方、连花清
瘟胶囊、连花清瘟片、连花清瘟颗粒是同一中药方剂的不同衍生产品,药材成分、药效和适应症基本相同,仅在制剂工艺和药剂状态上有差别,为保留多个连花清瘟产品的差异性,并保持产品间的共性,本文采用“实体子实体”知识融合方法,实现了中药方剂及其衍生产品、中药材及其衍生药材的实体对齐与知识融合。
1.4知识图谱构建与融合
本研究基于Neo4J,构建COVID19知识图谱。图谱包括COVID19科学文献知识图谱、中药治疗知识图谱、西药治疗知识图谱3部分。中药治疗和西药治疗均属于“药物治疗”的范畴。本研究将中药治疗知识图谱和西药治疗知识图谱作为“药物治疗”知识类别的子类,从而实现知识图谱的融合,知识图谱融合如图3所示。
1.5知识图谱质量评价
知识图谱在构建过程中难免出现错误[15],为了保证COVID19知识图谱的质量,本研究通过人工抽样检测的方法实现知识图谱中三元组质量的校验[16],并制定抽样策略如下:
1)西药治疗数据取自DrugBank的结构化数据,数据质量高,随机采样1/10,人工校验其实体及属性有无错误。
2)中药治疗数据来源于科学文献,该数据在解析过程中更易产生错误,随机采样3/10进行校验。
3)COVID19科学文献数据体量大,数据源质量可靠,随机采样1/10进行校验。
本研究按以上方式采样348条三元组。为了得到准确的质量评价结果,将以上数据分发给6人检验,检验者都是具备专业背景的人员,且对COVID19知识图谱很了解,检验结果有质量保障[17]。采样标注后得到的准确率为96.38%,因此本文构建的知识图谱具有质量保证。
2知识图谱可视化与数据分析
2.1知识图谱可视化展示
对COVID19知识图谱的西药治疗、中药治疗和COVID19科学文献等3种类别三元组数量进行统计,知识图谱三元组数量统计如表4所示。
COVID19知识图谱收录了376篇国际顶级医学期刊文献、93篇中医药核心期刊文献、136篇西药治疗科学文献,同时还包含文献的PDF源文件、文献摘要、中文概要、关键词、文献链接、相关科研报道等内容。此外,还收录了40种中药方剂、112味中药材、86个中药有效成分、32种西药、324名科研人员、62类学术期刊、193个科研机构的数据,并对以上数据进行了细粒度化处理。其中,40种中药方剂是已发表的论文、用于预防或治疗轻症新冠肺炎患者的中药,112味中药材是40种中药方剂的药材成分,86个中药有效成分是文献中已实验证明的。COVID19知识图谱的可视化如图4所示。
2.2知识图谱数据分析
本研究在COVID19知识图谱的数据基础上进行了中药方剂频次分析、中药材频次分析、中药有效成分频次分析和西药研究热度分析。中药方剂频次分析如图5所示。由图5可以看出,麻杏石甘汤[18]、疏风解毒胶囊、达原饮、金花清感颗粒、连花清瘟方、清肺排毒汤、小柴胡汤、玉屏风散是中医临床中常用于治疗新冠肺炎的中药方剂。在最常见的中药材中,用于治疗新冠肺炎的中药方剂有甘草、黄岑、连翘、苍术、柴胡、厚朴、茯苓和金银花,中药材频次分析如图6所示。针对新冠肺炎,最有效的中药有效成分包括槲皮素[19]、山奈酚、黄岑素、刺芒柄花素、汉黄岑素、β谷甾醇、尼泊尔鸢尾异黄酮、豆甾醇、异鼠李素、木犀草素等,中药有效成分频次分析如图7所示。
在治疗新冠肺炎方面,Remdesivir[20]、Chloroquine、Darunavir、Favipiravir、Umifenovir、Bevacizumab是研究热度最高的新冠临床治疗西药。此外,COVID19知识图谱在中药有效成分挖掘、中药方剂潜在作用机制研究、药物相互作用等方面都具有研究价值。
3结束语
本文主要对COVID19知识图谱构建与应用进行研究,该研究提供了新型冠状病毒肺炎本体建模蓝本,为多模态、海量COVID19数据的组织与存储提供了模式支撑,也为下阶段的COVID19知识智能问答、COVID19科学文献细粒度分类、中药有效成分挖掘等应用研究提供了数据支持,其在COVID19科学研究、科学抗疫等方面都具备积极作用。同时,本文工作也存在数据体量偏小、自动化程度较低等问题,需要在今后的工作中扩大知识图谱规模、细化知识粒度、提高自动化构建水平。
参考文献:
[1]Schmidt E, Birney E, Croft D, et al. Reactomea knowledgebase of human biological pathways[C]∥On the Move to Meaningful Internet Systems 2006: OTM 2006 Workshops pt. 1; Lecture Notes in Computer Science. European Bioinformatlss Institute (EMBLEBI), Wellcome Trust Genome Campus, Hinxeon, Cambridgeshire, CBIO ISD, UK, 2006: 710719.
[2]阮彤, 孫程琳, 王昊奋, 等. 中医药知识图谱构建与应用[J]. 医学信息学杂志, 2016, 37(4): 813.
[3]蒋秉川, 游雄, 李科, 等. 利用地理知识图谱的COVID19疫情态势交互式可视分析[J]. 武汉大学学报, 2020, 45(6): 836845.
[4]陈晓慧, 刘俊楠, 徐立, 等. COVID19病例活动知识图谱构建——以郑州市为例[J]. 武汉大学学报: 信息科学版, 2020, 45(6): 816825.
[5]向军毅, 胡慧君, 刘宇, 等. COVID19物资知识图谱的构建[J]. 武汉大学学报: 理学版, 2020, 66(5): 409417.
[6]Luo Z W, Xie R, Chen W, et al. Automatic domain terminology extraction and its evaluation for domain knowledge graph construction[J]. Web Intelligence and Agent Systems, 2018, 16(3): 173185.
[7]阮彤, 王梦婕, 王昊奋, 等. 垂直知识图谱的构建与应用研究[J]. 知识管理论坛, 2016, 1(3): 226234.
[8]Nadeau D, Sekine S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2007, 30(1): 326.
[9]Zhao Y, Li Z Q, Deng W, et al. Learning entity type structured embeddings with trustworthiness on noisy knowledge graphs[J]. KnowledgeBased Systems, 2021, 215(3): 106630106639.
[10]Guo Q Y, Zhuang F Z, Qin C, et al. A survey on knowledge graphbased recommender systems[J]. Scientia Sinica Informationis, 2020, 50(7): 937953.
[11]Marcheggiani D, Titov I. Discretestate variational autoencoders for joint discovery and factorization of relations[J]. Transactions of the Association for Computational Linguistics, 2016, 4(2): 231244.
[12]Jung K, Kim K I, Jain A K. Text information extraction in images and video: a survey[J]. Pattern Recognition, 2004, 37(5): 977997.
[13]杨一帆, 马进, 王海涛, 等. 基于简介文本的中文人物关系图谱属性补全与纠错[J]. 中国科学, 2020, 50(7): 10031018.
[14]Chang C H, Kayed M, Girgis M R, et al. A survey of web information extraction systems[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 14111428.
[15]Wang Q, Chang L. An intelligent maximum power extraction algorithm for inverterbased variable speed wind turbine systems[J]. IEEE Transactions on Power Electronics, 2004, 19(5): 12421249.
[16]Rozenfeld B, Feldman R. Selfsupervised relation extraction from the Web[J]. Knowledge and Information Systems, 2008, 17(1): 1733.
[17]Xu K, Feng Y S, Huang S F, et al. Semantic relation classification via convolutional neural networks with simple negative sampling[J]. Computer Science, 2015, 71(7): 941949.
[18]樊冬麗, 廖庆文, 鄢丹, 等. 基于生物热力学表达的麻黄汤和麻杏石甘汤的寒热药性比较[J]. 中国中药杂志, 2007, 32(5): 421424.
[19]王春, 吴秋华, 王志, 等. 槲皮素与牛血清白蛋白相互作用的研究[J]. 光谱学与光谱分析, 2006, 26(9): 16721675.
[20]Eastman R T, Roth J S, Brimacombe K R, et al. Remdesivir: A review of its discovery and development leading to emergency use authorization for treatment of COVID19\[J\]. ACS Central Science, 2020, 6(5): 672683.
作者简介: 杨帅(1992),男,硕士,研究实习员,主要研究方向为图神经网络、知识图谱和药物研发。
通信作者: 赵志刚(1980),男,硕士,副研究员,主要研究方向为大数据和知识图谱。Email: zhaozhg@sdas.org
Research on the Construction and Application of COVID19 Knowledge Graph
YANG Shuai, WANG Xiaohong, ZHAO Zhigang, PAN Jingshan, WU Lu
(Qilu University of Technology (Shandong Academy of Sciences),
Shandong Computer Science Center(National Supercomputer Center in Jinan), Jinan 250000, China)
Abstract: In order to facilitate scientific researchers to understand the pathogenic mechanism of COVID19, human immunity, drug treatment and vaccine development and other scientific research trends, this article constructs and applies research on the COVID19 knowledge graph. The semiautomated knowledge graph construction method is used to design the construction process and build the COVID19 knowledge graph model layer. We obtain data from data sources such as core medical journals, core traditional Chinese medicine journals, authoritative drug databases and encyclopedias, and use crawler crawling and artificial combination methods for data acquisition, analysis and storage. At the same time, based on Neo4J, we construct a knowledge graph of COVID19 scientific literature, a knowledge graph of traditional Chinese medicine treatment, and a knowledge graph of western medicine treatment, and realize the integration of knowledge graphs. In order to ensure the quality of the knowledge graph, the knowledge graph triples are counted and verified to achieve the quality control of the knowledge graph, and on the basis of the data of the COVID19 knowledge graph, the frequency analysis of traditional Chinese medicine prescriptions, the frequency analysis of traditional Chinese medicine materials, and the effectiveness of traditional Chinese medicine are carried out. Component frequency analysis and western medicine research popularity analysis. The analysis results show that Maxing Shigan Decoction, Shufeng Jiedu Capsules, and Lianhua Qingwen Decoction are commonly used in traditional Chinese medicine to treat new coronary pneumonia; and Remdesivir, Chloroquine, and Darunavir are the most researched Western medicines for the clinical treatment of new crowns. It shows that the COVID19 knowledge graph has research value in the mining of active ingredients of Chinese medicine, the study of the potential mechanism of Chinese medicine prescriptions, and drug interactions. The research is of great significance in promoting the culture of traditional Chinese medicine, advancing the modernization of Chinese medicine, and exploring the effective ingredients and potential mechanisms of Chinese medicine prescriptions.
Key words: covid19; knowledge graph; ontology; knowledge fusion; quality evaluation; visual analysis