APP下载

我国苹果产业知识图谱构建研究*

2018-01-31陈亚东鲜国建寇远涛郭淑敏刘现武

中国农业资源与区划 2017年11期
关键词:本体图谱语义

陈亚东,鲜国建,寇远涛,郭淑敏※,刘现武

(1.中国农业科学院农业资源与农业区划研究所,北京 100081; 2.中国农业科学院农业信息研究所,北京 100081; 3.中国农业科学院,北京 100081)

0 引言

苹果是世界四大水果之一,栽培和生产已经遍布世界上93个国家和地区[1]。我国苹果产业的发展历史更为悠久, 4000余年的栽植过程中积累了丰富的数据[2],这些数据形成的“资源仓库”能够为科研提供基于数据支撑的科学决策。我国苹果产业的数据资源虽然内容丰富,但多源异质且结构松散,数据资源的整合性和关联性差[3],难以提供精确规范的行业数据和实现丰富的语义表达,用户获取精品知识的需求无法被满足。因此,从海量数据中提取有用的知识,是苹果产业数据分析的关键点。

知识图谱具备强大的语义处理能力,可从海量文本和图像中抽取结构化知识,将不同来源的数据进行融合,从而形成富含语义关系的知识网络即结构化的百科知识[4-6],是解决我国苹果产业知识表达和语义推理的有效手段。目前,国内外对于苹果产业知识图谱构建的研究鲜少报道,但在农业领域和其他垂直产业已引起关注和重视。刘家玮等[7]通过对知识图谱绘制工具进行分析比较,对农业知识图谱的构建进行了设计。张德政等[8]基于本体工具,对中医产业的知识图谱表示及构建方法进行了研究,实现了中医学领域知识的组织与整合。从构建的技术上来看,与早期的基于词典和规则的知识抽取相比较[9],杨博等[10]研究发现,基于本体推理的抽取更有益于挖掘隐含的数据关系,通过本体和实例来进行知识融合,更有益于知识的融合[11]。基于农业领域和其他垂直行业知识图谱构建的基础以及相关技术,对我国苹果产业知识图谱的构建进行研究和设计,可以深入揭示苹果产业知识之间的关联、优化检索和深度推理,为我国苹果产业的知识组织提供理论框架,同时也为苹果产业的发展提供资源支撑。

1 概述与图谱架构

苹果产业的知识图谱是以苹果产业语言为基础建立起来的网络知识体系,能够发现苹果产业数据之间的关联关系和揭示多维语义关系。通过将零散分布的数据形成知识网格,融合生产数据、科研数据、市场数据等产业链条上的资源,深入发掘苹果产业数据的整体性与关联性。苹果产业知识图谱的架构如图1所示,自下而上包括4个层级,分别是基础资源层、知识单元层、知识组织层和知识表达层。通过将不同来源的数据进行知识抽取,形成苹果产业的知识单元实体,再将抽取出的实体进行知识融合,发掘实体之间的关联关系,可从语义的层面来实现苹果产业知识的组织,发掘知识间隐含的关系,形成我国苹果产业的知识网络。

2 构建方法与解析

2.1 基础资源层——苹果产业知识来源

苹果产业的数据资源是构建知识图谱的基础,深入剖析数据特点与来源组成是构建的必要条件。从数据内容来看,我国苹果产业的数据资源可以分为8个类别,包括生产数据、种质资源数据、育种数据、栽培数据、病虫害数据、采后加工数据、产业经济数据和产业支撑基础数据[12](科研文献、成果专利、领域专家等支撑产业发展的数据); 从数据的结构上看,苹果产业的数据资源包括结构化、半结构化和非结构化数据三大类。基础资源为知识的提取提供了基础,是架构的根基。

图1 苹果产业知识图谱构建框架

2.2 知识单元层——苹果产业的知识获取

苹果产业数据知识获取的目的是从海量的基础资源中抽取出有用的知识,为知识图谱的构建以及关联关系发现提供依据,是承上启下的一个单元层。为更好地实现知识获取,可以以苹果产业的本体框架为组织工具。知识单元层要解决两个问题,一是苹果产业本体的构建; 二是以本体为基础,进行知识抽取。

2.2.1 苹果产业本体构建

基于苹果产业的资源基础与专业知识,对苹果产业的知识结构进行分析,确定苹果产业的核心概念,形成概念体系。通过对苹果产业的类、属性及其之间的关系进行分析,可形成类目结构图(图2),最终形成苹果产业的知识逻辑体系,呈现出具有树形结构的苹果产业知识组织体系,即苹果产业本体框架,苹果产业的本体是开放集成的体系,在知识图谱的构建过程中能够从语义层面来实现知识的关联、共享和重复利用。

图2 苹果产业本体类目结构图

2.2.2 知识抽取

苹果产业的基础资源中包括3种结构的数据。为实现数据的关联,首先要对知识单元进行抽取,抽取的内容包括数据中的实体、属性与关系。基于苹果产业的领域本体架构,可采用多策略学习方法来进行知识的获取[13],其原理是利用不同知识之间的冗余关系,通过较容易抽取的信息来帮助不易抽取的信息。结构化的知识可通过D2R映射来转化成知识图谱中的知识单元; 对于半结构化的数据,可通过Wrapper(数据封装器)来进行抽取[14]; 在抽取的过程中,将这两类知识抽取的结果都加入到种子集中。对于非结构的纯文本知识,可采用远程监督和基于模式相结合的增量迭代抽取方式[15]。远程监督是基于假设两个实体存在某种关系,那么任何包含这对实体的句子都很有可能表达相同的关系[16],利用种子集自动标注文本数据,然后根据标注结果自动地生成高质量的模式。利用这些模式到文本中学习新的知识,并加入到种子集中。这一过程不断迭代,直至没有新的知识被学习出来,采用这种方式可完成苹果产业知识单元的获取,可实现知识的抽取。

2.3 知识组织层——苹果产业知识融合

2.3.1 实体对齐

通过知识获取可以得到不同数据源抽取出的知识单元,形成一个个孤立的抽取图谱。为形成完整的苹果产业知识图谱,需要将这些抽取的结果集成和知识融合。由于数据来源广泛,质量也未经校验,还需要解决多种类型数据冲突的问题,包括一个短语对应多个实体、实体属性名不一致、实体属性缺失、实体属性值不一致、实体属性值一对多映射等。通过实体对齐可以发现具有不同标识但代表真实世界中同一对象的实体,并将这些实体合并为一个具有全局唯一标识的实体对象添加到知识图谱中。目前,实体对齐主要采取基于聚类的实体对齐算法,将相似的实体尽量聚集到一起,再进行实体对齐[17]。

2.3.2 实体关联构建

抽取出的实体(E1,E2……)都具有一定的属性值,如苹果品种的属性包括品种名称、亲本、育种机构等(图3),任何两个实体间只要具有相同的属性值,即可以通过两者之间的行为描述或者属性关系来构建关联[18],多个关联的实体聚合在一起,就会形成多维度的数据关系(图4)。由于苹果产业实体、实体属性和关系的多样性与专业性,一些较为复杂的关联规则除了以苹果本体模型为组织工具,还需人工推理等方法来手动辅助完成。深度的挖掘实体之间的关系和关联,是知识图谱构建的关键点。关联关系构建后,数据资源会形成一个富含语义关系的知识库,包括基础数据、特色数据、生产数据等都会关联和整合到一起,可以根据用户的需求来提供各类知识服务。

图3 实体属性结构图(以品种为例)

图4 苹果产业实体关联结构图

2.4 知识应用层——知识图谱

通过知识融合,可以构建出富含语义关系的知识库,苹果产业的实体及其属性之间的关系会最大程度地在知识库中融合,支持不同形式的应用探索。

2.4.1 苹果产业知识检索

作为苹果产业知识图谱的基本检索服务,可支持苹果产业的术语查询、术语之间的关系发现等服务,检索结果会以可视化的知识地图形式呈现给用户。例如输入“华红”进行检索,可以查询到我国华红苹果的资源分布、文献、育种信息、市场信息等,可以缩短用户通过不同来源获取不同类型数据的时间成本。

2.4.2 知识发现

输入检索词后,基于知识图谱可以实现将具有同一属性关系的知识单元有序联系在一起。如输入专家名字,可以呈现以该专家为中心的知识地图,呈放射状分布,该专家发表的论文、合著者、工作单位、成果、专利等数据会被展示和发现,通过点击论文合作者的发现,还能发现以合作者为中心的知识图谱,以检索词为中心的知识都会被发现,不仅扩大用户的知识检索范围,还能发掘用户的潜在需求。

2.4.3 产业指导

基于苹果产业的知识图谱构建,还能实现产业发展相关的决策与指导,包括苹果产业布局研究、生产服务和指导、产量统计、市场预警等,知识图谱能够以知识为单元重新组合,形成新的知识,发现更多的产业问题。知识图谱的构建能够将理论、实验数据、市场信息、统计数据等进行关联和统一,基于密集数据的分析来形成新的产业研究范式,发现和解决我国苹果产业生产中的问题,同时为重要的决策提供科学依据。

3 结论与讨论

该文旨在对我国苹果产业知识图谱的构建进行设计与研究,基于苹果产业数据知识特点结合知识图谱构建的技术方法,实现知识的抽取和知识融合,初步构建了轻量级的苹果产业知识图谱体系架构,从语义关联的角度实现知识的关联和发掘,为我国苹果产业知识的组织提供科学的框架和奠定理论基础。苹果产业的知识结构随着科学研究的深入不断更新和变化,产业的数据也在不断实时更新,所以本体结构和知识库定期更新,才能保证与时俱进,实现知识图谱的迭代更新。由于苹果产业知识图谱的构建还属于初探,该文也存在不足,因研究目标是对整体的架构进行设计,其中各个层级的研究还不够深入和完善,诸如苹果产业本体的构建只是初步列出三级层级结构,语义关联的组织和挖掘还不够深入和详尽,期望在以后的研究中能够进一步深入。

知识图谱的构建对我国苹果产业知识服务、育种生产、市场贸易和战略决策都具有重大的作用和意义,能够为提升我国苹果产业的竞争力提供科学的知识组织工具。通过苹果产业知识图谱的构建,将产业数据进行整合和复用,最终形成苹果产业知识,从科技资源的角度为我国苹果产业的决策提供支撑,如知识图谱可以分析我国苹果产业的生产布局、统计我国苹果品种的分布,对我国苹果品种结构调整和生产区域规划具有重要的作用和意义; 知识图谱还能够从文献检索服务和论文词频分析的角度来满足科研人员的知识需求,提供一站式的知识服务; 对于苹果种质资源分布、生产指导、病虫害防治等产业问题,知识图谱还可以提供知识工具,助力我国苹果产业的发展,服务于农户和企业。上述的深度知识分析和产业指导功能都是基于知识图谱的构建才能实现,因此,知识图谱对促进苹果产业的健康发展非常必要。该文所构建的知识图谱架构,也可以应用于其他的产业,如小麦、玉米等,但前提条件是深入分析和挖掘产业数据的个性化关联特点,构建出适合的领域本体,期望后续有更多的学者关注和加强不同领域的知识图谱建设研究。

[1] 韩明玉,冯宝荣.国内外苹果产业技术发展报告.杨凌:西北农林科技大学出版社, 2010.315

[2] 陈学森, 韩明玉,苏桂林,等.当今世界苹果产业发展趋势及我国苹果产业优质高效发展意见.果树学报, 2010, 27(4): 598~604

[3] 陈亚东, 孟宪学,赵瑞雪,等.我国苹果产业科学数据整合系统的设计与实现.中国农业科技导报, 2016, 18(3): 210~215

[4] 漆桂林, 高桓,吴天星.知识图谱研究进展.情报工程, 2017, 3(1): 4~25

[5] 邱均平, 韩雷.近十年来我国知识工程研究进展与趋势.情报科学, 2016, 34(6): 3~9

[6] 刘峤, 李杨,段宏,等.知识图谱构建技术综述.计算机研究与发展, 2016, 53(3): 582~600

[7] 刘家玮, 刘波,沈岳.知识图谱在农业信息服务中的应用进展.软件, 2015, 36(3): 26~30

[8] 张德政, 谢永红,李曼,等.基于本体的中医知识图谱构建.情报工程, 2017, 3(1): 35~42

[9] Chinchor N,Marsh E.Muc-7 information extraction task definition//Proc of the 7th Message Understanding Conf.Philadelphia:Linguistic Data Consortium, 1998: 359~367

[10]杨博, 蔡东风,杨华.开放式信息抽取研究进展.中文信息学报, 2014, 4: 1~11

[11]Huber J,Sztyler T,Nößner J,et al.CODI:combinatorial optimization for Data integration-results foroa//international Workshop on ontology Matching,Bonn,Germany, 2011~10

[12]陈亚东, 孟宪学,赵瑞雪,等.我国苹果产业科学数据建设初探.果树学报, 2016, 33(6): 719~726

[13]孙杰, 吴慧中.一种用于知识自动获取的多策略学习方法.南京理工大学学报, 1995, 2: 101~104

[14]王辉, 郁波,洪宇,等.基于知识图谱的Web信息抽取系统.计算机工程, 2017, 43(6): 118~124

[15]丁玉飞, 王曰芬,刘卫江.面向半结构化文本的知识抽取研究.情报理论与实践, 2015, 38(3): 101~106

[16]阮彤, 王梦婕,王昊奋,等.垂直知识图谱的构建与应用研究.知识管理论坛, 2016, 1(3): 226~234

[17]庄严, 李国良,冯建华.知识库实体对齐技术综述.计算机研究与发展, 2016, 53(1): 165~192

[18]白海燕, 朱礼军.关联数据的自动关联构建研究.现代图书情报技术, 2010,(2): 44~49

猜你喜欢

本体图谱语义
真实场景水下语义分割方法及数据集
眼睛是“本体”
绘一张成长图谱
语言与语义
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
主动对接你思维的知识图谱
“吃+NP”的语义生成机制研究
专题