基于海洋中药知识图谱的数据挖掘与知识补全研究
2023-10-29洪海蓝王书怡李文林杨丽丽
洪海蓝,王书怡,李文林,2✉,杨丽丽
(1.南京中医药大学,江苏 南京 210023;2.江苏省中医外用药开发与应用工程研究中心,江苏 南京 210023)
知识图谱是一种用于表达知识的模型,主要由实体和实体之间的关系组成,其中的三元组(实体、关系、实体)可以通过一系列的操作来表达知识[1-2]。中医药知识图谱是基于中医药知识的专业背景予以构建,主要包括病证、证候、病因、病机、效方配伍等内容[3]。知识图谱在中医药领域不断发展,已经逐渐实现中医药智能搜索、智能问答、诊疗经验挖掘、辅助决策等应用。知识补全可提升知识图谱的质量[3-4]。知识图谱补全是指在知识图谱中,通过预测出三元组中缺失的部分,使知识图谱变得更加完整,该任务可以分为实体补全和关系补全两类[5-7]。根据三元组中的实体和关系是否在已有的知识图谱中,知识图谱补全可以分为静态知识图谱补全和动态知识图谱补全两种[8-9]。静态知识图谱补全是补全已知实体之间的隐含关系或补全存在于知识图谱中的实体属性;动态知识图谱补全是能够建立知识图谱与外界的关联,从而扩大知识图谱的实体集、关系集以及三元组集[9-12]。当前大多数中医药知识图谱实现了图谱的构建,并没有对知识图谱进行补全完善。为此,针对领域知识图谱的特点提出了一种融合知识图谱与数据挖掘方法的领域知识图谱补全方法。并以海洋中药知识图谱(CMMKG)为数据源,获取数据源进行数据挖掘,将挖掘结果补充到海洋中药知识图谱中,以提升海洋中药知识图谱的质量。
1 数据与方法
1.1 海洋中药知识图谱的挖掘技术线路
本研究以海洋中药知识图谱为数据源,按照智能检索、数据清洗、数据挖掘、数据分析等流程实现海洋中药挖掘和海洋中药知识图谱补全。具体流程见图1。
图1 海洋中药知识图谱的数据挖掘流程
智能检索:首先根据输入的检索词对海洋中药知识图谱进行智能检索。检索词可以是功效词、主治词、海洋效方类型等,判断检索词选择对应的nGQL 语句检索海洋效方。其次根据从海洋中药知识图谱中检索出的其他概念类型的数据进行补充,将检索到的所有数据作为数据源。
数据清洗:将从海洋中药知识图谱中检索到的数据源进行清洗。如删除效方配伍中中药的单位属性(g、mL、适量、个、具)等;对异名同义的中药进行术语规范和其他类型术语规范;剔除用药仅为一味中药或一种提取物的海洋中药相关效方等。
数据挖掘:将筛选出来的最终数据利用关联规则算法,根据不同的挖掘需要,设置支持度、置信度进行数据挖掘。如找出具有某种功效或主治某种病症的海洋中药相关效方的药物配伍关系中隐含的规律,或者具有某种功效和治疗某种疾病的海洋中药的性味归经、营养成分。
数据分析:从中医药或者现代医学的角度对关联规则的挖掘结果进行分析,并将关联关系补充到海洋中药知识图谱库中,为海洋中药知识图谱提供更丰富的知识表示方式,形成更为完备的海洋中药知识图谱。
1.2 数据来源
本研究以前期构建的海洋中药知识图谱为数据源,目前海洋中药知识图谱以海洋中药相关效方和海洋中药为核心,包含实体18 744 个,关系30 664 条[13-14]。以补肾功效为例,以“壮阳补肾”“补肾壮阳”“暖肾壮阳”“补肾”“补肾壮腰”“补肾固精”“温肾”“补肾壮骨”“补肾生血”等40 个补肾功效词语为检索词,检索补肾类海洋中药和海洋中药相关效方,并分析海洋中药的性味归经、营养成分、功效、主治和海洋中药相关效方的配伍、功效、主治。
2 海洋中药知识挖掘
知识图谱和关联规则是数据挖掘和人工智能领域的重要工具,它们的有效结合可以提供更丰富的知识表示,从而推断出更多的见解和理解[4,15]。知识图谱可以用作关联规则挖掘的数据源,而关联规则算法挖掘出的关联关系可以补充知识图谱,并帮助验证和修正已有的实体和关系。本研究将关联规则、聚类和知识图谱结合,在海洋中药知识图谱中从功效、主治、成分、配伍、性味归经等角度进行数据挖掘,并对挖掘结果进行分析和对海洋中药知识图谱的知识补全[16]。
2.1 基于知识图谱的海洋中药数据挖掘
每一味海洋中药都具有性味归经、功效主治、化学成分等属性特征。不同中药在配伍应用时,其属性特征之间也形成了多维的配伍关系。为多角度揭示海洋中药配伍应用时隐含的配伍规律,本研究对药物属性特征之间的关联关系进行了分析挖掘。使用nGQL 语句共检索到鮸鱼、乌贼鱼蛋、海狗肾、鲍鱼肉、对虾、海牛、海马等补肾类海洋中药51 味。结果见图2。
图2 补肾类海洋中药
检索51 味补肾类海洋中药的主治经统计分析发现,能够治疗178种疾病或症状。结果见图3。
图3 补肾类海洋中药的主治
检索51味补肾类海洋中药的性味归经见图4。对这些性味归经进行数据清洗,一共获得21 个性味归经词,见表1。对51 味补肾类海洋中药的性味归经进行关联规则,设置支持度大于等于20%和置信度大于等于85%,结果见表2,将挖掘结果提交中医药领域专家评价,表明补肾类海洋中药以性温,味咸,归肝、肾两经为主。
表1 补肾类海洋中药的性味归经关联规则
表2 相关效方的海洋中药表
图4 补肾类海洋中药的性味归经
2.2 基于知识图谱的海洋中药相关效方核心配伍挖掘
海洋中药知识图谱含有大量具有补肾作用的海洋中药相关效方,使用nGQL 语句进行查询,从中检索到补肾类海洋中药相关效方123 首,结果见图5。
图5 补肾类海洋中药相关效方
进一步检索发现123 首补肾类的海洋中药相关效方来自梅花参、海狗肾、海龙、海马、海参等54味海洋中药结果见图6。通过统计分析发现,海马、海狗肾、海参、石首鱼是补肾效方中的常用海洋中药,结果见表2。
图6 补肾类海洋中药及相关效方
分析海洋中药相关效方的主治信息,表明123 首海洋中药相关效方主治147 种病症,频次由高到低的前10个依次为阳痿、遗精、小儿遗尿、早泄、糖尿病、肾虚阳痿、气血双亏、高血压、体虚、淋巴结核等。结果见图7。
图7 补肾类海洋中药相关效方的主治
对123 首海洋中药相关效方的配伍药物进行数据筛选,剔除补肾类仅为一味中药或一种提取物的海洋中药相关效方,最终获得补肾类效方83 首。对效方的配伍进行数据清洗,将中药和食材名称进行规范,结果见表3。
表3 中药名称规范化记录
本研究共纳入与海洋中药相关的补肾类效方83 首,涉及275 味中药,如肉苁蓉、海马、巴戟天、海狗肾、当归、海参、枸杞子、菟丝子、破故纸、杜仲等。频次统计结果表明,海参、海马和海狗肾这3 味海洋中药是较为常用补肾海洋中药,与有多首海洋中药相关效方的海洋中药基本一致。巴戟天、当归、肉苁蓉、菟丝子、枸杞子、破故纸、杜仲常与补肾类海洋中药配伍使用。结果见图8。
图8 补肾类海洋中药相关效方的前10味中药统计图
对83 首补肾类海洋中药效方中出现频次>5 的21 味中药进行层次聚类分析,并生成树状图,结果见图9。图中纵坐标代表中药之间的距离,横标则代表相对应的中药,中药聚为同一集合的距离越短,表明其关联性就越强。当纵坐标坐标距离取2.1 时,得到4 组补肾类海洋中药相关效方的核心中药组合。组1:黄芪、山药、海狗肾;组2:当归、龟甲、牡蛎、海参、粮酒;组3:杜仲、枸杞子、菟丝子、巴戟天、补骨脂、牛膝;组4:肉苁蓉、黑附子、丁香、人参、鹿茸、海马、熟地黄。
图9 药频次大于5的层次聚类分析树状图
设置置信度大于80%,支持度大于等于4.5%,对补肾类效方的配伍进行关联规则挖掘,结果显示:海洋中药知识图谱中共隐含有50 项补肾类关联项集,其中置信度为100%的15项关联项集见表4。
表4 补肾类效方的中药关联规则
将83 首补肾类效方关联规则结果转换成三元组补充到海洋中药知识图谱中,2 项关联关系以丁香->肉苁蓉为例,转换成1个三元组(丁香,补肾核心配伍,肉苁蓉)。3 项关联关系以丁香,巴戟天->肉苁蓉为例,转换成3个三元组[(丁香,补肾核心配伍,巴戟天)(丁香,补肾核心配伍,肉苁蓉)(巴戟天,补肾核心配伍,肉苁蓉)]建立补肾核心配伍关系,形成更为完整的补肾类海洋中药核心配伍关系,结果见图10。结合层次聚类的分析结果,表明补肾类海洋中药相关效方是多以海马、丁香、肉苁蓉;海马、肉苁蓉、熟地黄、鹿茸和杜仲、枸杞子、菟丝子、巴戟天、牛膝等核心药为中心进行药味的加减扩展。
3 小结
知识图谱作为一种能够使领域知识有效管理和应用的新技术,在中医药领域有着广阔的应用前景。当前中医药领域构建了规模不等的领域知识图谱,但大多数研究成果仅实现了图谱的构建,并没有进行知识图谱补全。而对知识图谱进行分析挖掘,知识补全,不仅可提升知识图谱的质量,也可为基于知识图谱形成的语义化数据源有效开展知识服务提供支撑。
本研究以构建的海洋中药知识图谱为数据源,提出了一种针对领域知识图谱的特点提出了一种融合知识图谱与数据挖掘方法的领域知识图谱补全方法。并以补肾功效为例,通过从知识图谱中进行补肾类海洋中药及其效方的检索,对知识图谱中隐含的补肾类海洋中药及其构成的海洋中药相关效方进行了分析。基于这种思路,共从知识图谱中分析出具有补肾功效的海洋中药51 味,以这些海洋中药为中心的补肾类海洋中药相关效方123 首,进一步对这些海洋中药的成分、性味归经分析。通过对海洋中药相关效方中核心方药及其配伍关系的发现,挖掘补肾类效方83 首、涉及相关中药一共275 味。层次聚类和关联规则分析结果表明,83 首补肾类海洋中药相关效方中存在4 组核心药组合。将这些新发现的海洋中药相关效方、效方中的核心药组补充到海洋中药知识图谱中,有效提升了海洋中药知识图谱的完整性及知识图谱的质量,相关结果不仅为中医药领域的数据挖掘及知识图谱补全提供了参考,也为进一步促进海洋中药知识的传播与应用提供了更全面的知识平台。