知识图谱在农业中的应用
2019-06-11张青岭李显正李航宇李华健
文/张青岭 李显正 李航宇 李华健
1 引言
1.1 研究背景
知识图谱旨在通过可视化技术对客观世界的概念、实体、事件及各部分之间的关系进行描述,具有直观、定量、简洁、获取隐藏知识和客观等优点。2003年,知识图谱这一概念在美国国家科学院组织的“知识图谱测绘”研讨会上第一次被提出,随后便引起了学者的关注。近几年,随着大数据、物联网和人工智能等新一代信息技术的不断发展,知识图谱逐步进入大规模深入研究阶段,已被广泛应用于生物信息、金融和医疗健康等领域,并在智能搜索、智慧问答、大数据风控、推荐系统等应用中发挥着重要作用。
党的十九大报告中提到,要推动信息化和农业现代化共同发展,而农业信息化已经成为农业现代化的重要组成部分。我国的农业大数据不断发展扩大,结构越来越复杂,大数据可视化可将复杂的数据直观化、定量化和简单化,有利于推动我国农业信息化的发展。
1.2 研究目的与意义
知识图谱可以构造复杂的知识网络,科学地预测前沿的研究热点,拥有非常广阔的研究价值和应用前景。将知识图谱这一可视化技术与农业相结合,对检索到的数据进行展示与分析,有助于农业大数据的展示,有助于发现农业生产规律。
2 知识图谱概述
2.1 知识图谱定义
知识图谱是以科学学为基础,通过将应用数学和信息科学等多门学科的理论方法相结合,通过可视化的形式实现多学科的融合,是科学计量学和信息计量学的新发展。目前,国内研究学者对知识图谱尚未给出统一定义。陈悦等将知识图谱定义为科学计量学范畴内的显示科学知识的发展进程与结构关系的一种图像。借鉴以往学者对知识图谱的定义,本文认为知识图谱是由节点和边构成的能够描述物理世界中复杂关系的图形,其本质上是一种语义网络,表达了各类实体、概念及其之间的语义关系。其中节点表示实体或概念,边表示实体与实体之间的联系。
2.2 知识图谱特征
表1:4种知识图谱绘制工具比较
大多数学者认为知识图谱具有直观化、可视化和形象化的特征,但不同的研究学者对其特征还有不同的理解和解释。
知识图谱作为大数据可视化的一种重要表现形式,具有重要的研究和应用价值。知识图谱把复杂的知识领域用直观简洁的图形展示出来,把有关知识体系系统地展示给用户,进一步为该领域的学科研究提供极有价值的参考和依据。同时,知识图谱具有强大的语义处理能力和开放组织能力。
在知识图谱被提出之前,数据可视化基本停留在实体的客观展示上,知识图谱赋予了数据可视化一个新的方向,即展现实体间的关系,丰富的实体关系提供了一种从关系的视角来看世界的新方向。知识图谱的核心即三元组,它使存储的信息很容易地被人类和计算机解读,并且使计算机具有一定的推理能力,进而让知识图谱具有一定的可解释能力,弥补了之前的缺陷。此外,知识图谱还具有规模庞大、系统性、客观性和全面性等特征。
2.3 国内知识图谱发展现状
近年来,知识图谱作为大数据可视化和人工智能重要组成部分,受到了国内外学者和用户的广泛关注及高度重视。
2012年,谷歌将知识图谱应用于搜索引擎,以此来提升搜索质量,之后在学术界掀起了一股热潮,各大相关企业也推出了自己的知识图谱产品。2017年11月,在北京召开的世界人工智能大会上,百度知识图谱摘得了“AI创新产品”殊荣。2018年3月,苏宁金融企业知识图谱系统成功上线,阿里巴巴集团积极举办知识图谱研讨会,天津大学的科研团队建立起了一套知识图谱管理与推理系统,知识图谱在各领域的交流合作迎来了新的阶段。
3 农业知识图谱概述
3.1 农业知识图谱的必要性
中国是传统的农业大国,但是我国的农业仍处于分散式、半机械化的阶段,存在多种资源利用率低的现象。
图2:利用Gephi绘制的茶叶病害知识图谱
然而大量的农业数据资料是很分散的、不集中的,且存放在结构化、半结构化以及非结构化的数据格式中,很难形成一个相互联系的整体,因此农民及研究学者很难从中获取到直观有价值的信息。
而知识图谱可以将这些离散的信息相互关联,形成一个可视化的语义网络,把复杂的农业知识直观地展示给农民、农业技术人员和相关决策者。知识图谱还可以对市场进行辅助决策,帮助政府对生产合作社、农民及企业之间进行信息管理与数据挖掘,进而将传统的农业转换为精准农业。
3.2 农业知识图谱的研究现状
采用检索式“SU=‘知识图谱’*‘农业’”(SU为主题),于2019年1月20日检索中国知网(CNKI),发现目前国内学者已发表81篇农业知识图谱相关的研究文献,占全部知识图谱研究文献(4569)的1.77%,由此可见,知识图谱中农业上的应用较少。
在国内,湖南省农村农业信息化工程技术研究中心通过对国内外农业信息化相关领域分析,探究知识图谱在农业信息服务中的应用,利用湖南农业产业知识搭建一个农业知识群图谱可视化系统。国内还出现了像Agriculture_KnowledgeGraph一样的搜索查询系统,此系统的主要功能在于利用农业分类的树形结构对某种类型的植物或动物进行查询,但是查询结果较为单一,实用性较小。
4 知识图谱的绘制工具
目前,常用的知识图谱的绘制工具有以下4种,介绍如下。
4.1 CiteSpace简介
CiteSapce是一款用于计量和分析科学文献数据的信息可视化软件,由陈超美教授和他的团队共同研发。
CiteSpace以从各大文献数据库(如Web of Science、CNKI、CSSCI等)导出的纯文本数据为主要的数据来源。如图1所示,导出的纯文本数据中的文献字段主要包括作者姓名、文章名称、所载期刊、关键词、摘要、作者单位和发表时间等信息。
CiteSpace能够绘制施引文献的合作图谱、共现图谱和共被引图谱,并且为图谱的展示提供了三种可视化模式,分别为聚类视图、时间线视图和时区视图。
除此之外,CiteSpace还具有突发检测、网络裁剪、地理空间分析等实用性功能。
4.2 Ucinet简介
Ucinet是一款用于社会网络分析的软件,由L. Freeman编写,后来主要由S. Borgatti和M. Everett进行维护更新。
Ucinet能够处理多种数据格式的数据,主要有初始数据文件(Raw Date File)、Excel数据文件以及数据语言文件(DL File)三种。初始数据文件仅包含数字,只能以矩阵的格式输入。Ucinet支持直接从Excel表导入数据,但数据列数最多只能支持255列。数据语言文件包含一系列数字以及描述数据的很多关键语句等。
与其他软件相比,Ucinet最大的优点是可以将一些原始数据转换成矩阵格式,从而构建各种关系矩阵,如作者共现矩阵、关键字共现矩阵和期刊共引矩阵等。
4.3 Gephi简介
Gephi是一款跨平台的、用于网络分析和可视化的免费开源软件。Gephi支持多种数据格式,包括“.dot”,“.gdf”,“.gml”,“.net”,“.gexf”等;能够处理大量的数据,支持的节点数达50,000个,支持的边达1,000,000条,适合于绘制大型的图谱。
Gephi提供多种对数据的操作方法和展示图谱的方式。Gephi能够实现对图谱中边和节点的属性的调节,也有多种实时的布局算法,能够对图谱进行各种各样的布局;而且能够支持使用者对其二次开发,增加其他算法。
4.4 Pajek简介
Pajek是由斯洛文尼亚卢布尔雅那大学的Vladimir.Batagelj和Andrej.Mrvar应用Pascal语言开发的一款用于分析大型复杂网络的软件,该软件的安装程序是免费的,但不提供源代码。
Pajek可以读取多种纯文本格式的数据以及ASCII码文件,包括Pajek网络格式(PajekNwtworks)、Pajek矩阵格式(Pajek matrices)、UCINET DL f iles格式、Vega格式(Vega Graphs)、GEDCOM格式(GEDCOM Files)等多种数据格式。
相较于其他绘制工具,Pajek具有处理具有数百万个节点的大型网络的能力,还可以从大型网络中提取一些小型网络,以便使用经典算法进行更详细的研究,并通过可视化功能显示网络和分析结果。
4.5 4种绘制工具比较
4种知识图谱绘制工具的比较如表1所示。
CiteSpace是目前国内研究者使用最多的一款软件,软件自身的功能比较完善,在构建知识图谱的整个流程中, 各个步骤的处理都能满足不同研究者的需要,但该软件对内存的消耗大,不适合处理数据量大的数据;Ucinet的优点在于其使用简单,并且具有强大的数据管理和转化功能,但由于识别的数据格式都与矩阵有关,需要花费很多时间和精力用于处理原始数据;Gephi界面美观,能够处理大量的数据,适合绘制大型的图谱,也适用于对动态数据的追踪与表现,且支持运用插件进行扩展,但Gephi对纯数据的处理功能较为薄弱;Pajek在数据与处理和数据规范化处理上有一定的不足,但它支持多种格式的输入,并且提供了多种有效的算法,能将大型的网络分解为多个子网络。
4.6 应用
本文以茶叶病虫害为例,利用Gephi进行茶叶病虫害知识图谱的绘制,结果如图2所示。图2中的红色节点表示病虫害的名称,蓝色节点表示易发生地区,黄色节点表示易发生条件,绿色节点表示防治方法;两个节点之间有连线表示他们之间具有联系,边的粗细表示关系的强弱。
以图2中“黑刺粉虱”节点为例,可以看出它与茶蚜、茶饼病等病虫害之间存在联系,易发生湖北省、浙江省、贵州省等省份,可以用诱虫板、瓢虫等进行防治。以“茶饼病”为例,可以看出其易发生在云南省、江西省等省份,并且和茶炭疽病之间存在联系。
5 总结与展望
本文介绍了知识图谱的基本知识和常用的种工具。利用Gephi工具绘制了茶叶病虫害知识图谱,并进行了相关的分析。随着农业大数据研究的不断深入,知识图谱作为重要的可视化工具有着广阔的应用前景,必将在辅助农业决策中发挥越来越重要的作用。