面向中医中药的知识图谱构建

2024-01-26张一翀郝泳涛

电脑知识与技术 2023年35期

张一翀郝泳涛

摘要：中医中药蕴藏着中华民族的无限智慧，具有很高的价值，然而其有效整合面临阻碍。引入现代技术，构建中医中药本体，将中医中药信息知识化重构，有助于中医中药领域的数据挖掘和知识发现。本研究探讨了构建中医中药知识图谱的方法和技术，通过关键词提取+人工干预的方式提取实体及关系，在降低人工成本的前提下提高识别准确率，同时引入Neo4j图数据库，以构建全面可视化的中医中药知识图谱。

关键词：知识图谱；Neo4j；命名实体识别；知识抽取；中医中药；跨学科研究

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2023）35-0030-03

开放科学（资源服务）标识码（OSID）

0 引言

中医药（TCM）代表了中华民族在健康、疾病管理和医疗治疗领域所具有的独特智慧[1]。中医药具有重要的学术和实际价值，拥有丰富的理论知识和临床经验。作为中国传统医学的重要组成部分，中医药已经积累了数千年的丰富经验和知识体系。然而，缺乏将中医药整合到现代医疗体系中的策略，阻碍了其知识和信息的有效利用[2]。

鉴于计算机技术及其相关理论的进步，利用现代技术对中医药知识进行重构和利用得到了认可，并取得了实质性成果。将计算机领域的先进本体论理论和技术引入对中医药知识的组织研究，构建了中药本体。这一举措实现了中药信息的知识化重构，从而有助于在中医药领域进行数据挖掘和知识发现[3]。

在大数据时代，知识图谱（Knowledge Graph， KG）成为知识管理和应用的重要资源，在语义检索、知识推理、决策制定、问题解答、系统推荐等多个领域发挥关键作用，提高知识问答、决策支持、可视化分析等功能[4]。2012年，谷歌引入了KG的概念，并将其应用于搜索引擎，随后KG被应用于多个领域。研究领域有很多通用知识图谱、大型公共知识库[5]。本文研究的中医中药知识图谱属于领域知识图谱中的一类。中医中药知识图谱是对中医中药领域的概念、实体和关系进行建模和表示的一种结构化的知识库，它可以帮助医生、研究人员和患者更好地理解并利用中医中药知识。

构建中医中药知识图谱的主要目标是通过对中医中药相关的实体、关系和属性进行结构化表示和链接，从而形成一个全面、准确的中医中药知识网络。这种知识图谱有助于医生进行疾病的辨证施治、辅助临床决策，并为中医研究提供丰富的数据支持。此外，中医中药知识图谱还可以促进中医与现代医学的融合，为跨学科医学研究和应用开辟新的可能性。

尽管在构建中医中药知识图谱方面已经有了一些研究工作，但仍然存在挑战。首先，中医中药领域的知识具有复杂性、多样性和模糊性，如何准确地表示和连接这些知识是一个关键问题。其次，中医中药的知识体系庞大且分散，如何有效地收集、整合和存储中医中药知识是一项具有挑战性的任务。此外，中医中药知识的更新和演进是一个持续的过程，如何保持中医中药知识图谱的时效性和可更新性也是一个重要问题。

因此，本文旨在深入探讨构建中医中药知识图谱的方法和技术，以应对中医中药知识在表示、关联和存储等关键领域面临的挑战，基于图数据库构建全面可视化的中医中药知识图谱，为中医中药领域的医疗实践、研究和教育提供有力支持，促进中医知识的传承和创新。

1 算法实现

中医中药知识图谱的构建过程如图1所示，主要步骤为：知识采集、知识抽取、知识存储。

1.1 数据收集及数据清洗

根据数据存储的形式，数据源可分为3类：结构化数据、半结构化数据、非结构化数据。在中医中药知识图谱的构建过程中，本文的数据来源主要为半结构化数据（如网页中的表格、列表等）、非结构化数据（如网页中的纯文本数据等）。本文的半结构化數据主要来源为百度百科；非结构化数据主要来源于互联网上中医中药相关网页的数据，例如中医中药网。笔者以爬虫的形式获取需要的中医中药相关的文本数据，并将其保存为txt文本。

对于半结构化数据的提取过程如下：根据给定的初始页面，利用类似广度优先的方式爬取网页中可点击的页面信息，并将获取的页面进行关键数据提取，提取页面中InfoBox中的内容，将其中的basicInfo-item name和basicInfo-item value按照对应关系存放到Excel文件中。

对于非结构化的文本数据，笔者选择结构性较强的数据，根据网页格式编写对应的抓取规则，收集需要的页面信息，将其保存为txt文本，用于后续的知识抽取操作。

获取的数据还需要进行数据清洗操作，本文根据一些筛选条件删除数据中的异常值等，为后续的知识抽取操作做准备。

1.2 知识抽取

知识抽取是构建知识图谱中比较重要的一步，从收集的数据中提取结构化的信息，如命名实体、实体属性及实体关系。

1）命名实体识别

命名实体识别是指从文本中识别命名实体，是信息抽取的基础。命名实体识别的结果会直接影响实体关系抽取和属性抽取的结果。

在命名实体识别的算法过程中，首先将获取的数据进行分类，将其根据不同数据类别进行划分。然后，针对每个类别，采用关键词匹配算法进行初步实体提取。这一阶段的关键是通过分割文本，判断是否包含预定义的关键词、短语或模式。这些关键词可以是特定实体类型的名称、属性、上下文相关词汇等。通过匹配和比较，算法能够快速识别出可能的实体候选项。

随后，在大致实体提取的基础上，引入人工干预的二次判别。在这一步中，经过初步提取的实体被提交给人工操作者。人工操作者可以根据领域知识和语境，对提取出的实体进行再次验证和筛选。通过这一环节的人工干预，能够排除虚假识别、纠正误判等问题，提高实体识别的精度和可信度。

这个算法的设计目标是在保证高效性和自动化的基础上，结合关键词匹配和人工判别的方法，实现对命名实体的准确识别。通过将计算机的快速识别能力与人工识别的高准确率结合起来，使算法能够有效应对不同领域和复杂语境下的实体识别挑战，从而为后续的信息提取和分析提供可靠的数据基础。

2）实体规范化

由于爬取的数据来自不同网站，使用同一实体可能会存在不同的术语。因此需要进行实体规范化将原始术语映射到标准术语，并通过继承标准术语来进一步创建实体。

本文面向中医中药领域，通过查阅资料，制定了实体关系识别模型中的实体类型及标识，共有8种：疾病、症状、药物、方药、饮食、器官、治则治法、病因病机，如表1所示。

3）实体关系抽取

实体关系抽取作为信息抽取的重要任务，是指在实体识别的基础上，从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组[e1， r， e2]，其中，e1和e2是实体，r属于目标关系集R{r1 ， r2 ， r3 ， ...， ri}。关系抽取的任务是从自然语言文本中抽取出关系三元组[e1， r， e2]，从而提取文本信息[6]。在实体抽取部分，根据上一步命名实体识别中对数据的分类，初步判断句子中所包含的实体间关系，然后再通过人工干预的方式，进一步确认不同实体间的关系。

本文涉及的各实体间的关系类型有8种：表现、类别、治疗、服用、组成、食疗、诱发、涉及，如表2所示。本文按照实体在文中的出现顺序确定主客体，即先出现的为主体，后出现的为客体。

4）属性抽取

属性抽取是指从文本中提取实体的相关属性或特征的任务。本文的属性提取主要是源于百度百科及中医中药网上的半结构化数据。如图2所示，其中左边是提取到的数据，右边是处理后的结果。其中格式为：实体-属性类型->属性值

图2（a）图是提取InfoBox中的信息，主要包括信息框中“basicInfo-name”和“basicInfo-value”两部分，中间用“：”分割。图2（b）图是将从InfoBox中提取出来的数据处理后的属性三元组，形式为（实体1-关系->实体2）。

1.3 数据存储

本文对数据处理后得到的规范化结果以三元组的形式存储，笔者选择Neo4j图数据库来存储数据。其中图中的节点表示中医中药实体，关系三元组中的关系用图中的边来表示，通过从一个节点指向另一个节点之间的边来表明两个节点间存在某种关系，其中边由主体指向客体；属性三元组则会以<实体，属性类别，属性>的形式存储到图数据库中。

2 实验结果及分析

2.1 知识抽取

通过对收集的数据进行提取，本文共提到实体总数为：17 124个，关系总数为：22 138个，其中表3展示的是各类型实体数量，表4展示了各类型关系的数量。

2.2 数据可视化存储

通过上述实验，可以得到中医中药知识图谱中包含的实体及各实体间的关系。本文将从数据中获得的实体和关系存储在Neo4j图数据库中。图3是以“肝火犯肺型咳嗽”为例，展示了图数据库中的一小部分知识图谱，不同颜色的圆圈代表的是不同实体，箭头上的文字表示两实体间的关系，箭头由主体指向客体。

3 结论

本文展示了中醫中药知识图谱的构造过程。首先介绍了数据的获取，然后给出了如何从获取的数据中得到实体及实体间的关系，通过关键词匹配算法+人工干预的方式，在降低人工工作量的前提下，提高了数据的准确性。最后，使用Neo4j图数据库存储数据，对数据进行可视化展示。

在未来的工作中，笔者将不断优化知识提取过程，提高数据提取的准确性，同时不断更新数据库，继续完善数据库，将数据库的规模不断扩大。

参考文献：

[1] 孙晓生，邢岩.构建中国特色的健康管理体系：“治未病” 健康工程建设构想[J].广州中医药大学学报，2010，27（5）：517-519.

[2] 杨茗茜，袁东超，倪菲，等.《素问》脾藏象理论相关咳类疾病知识本体探究[J].中国中医基础医学杂志，2021，27（2）：199-202.

[3] 刘耀，段慧明，穗志方.非相关文献知识发现的数据基础研究：以中医药古文献语言知识库的构建为例[J].情报杂志，2006，25（9）：104-107.