面向重大活动食品安全的知识图谱构建技术
2021-06-10李书钦史运涛刘召李志军
李书钦,史运涛,刘召,李志军
北方工业大学(北京 100144)
重大活动是由各级政府部门主办的具有一定社会影响力、需要公共卫生监督保障的高规格的政治、经济、文化、体育等活动。近年来,我国积极参与全球治理,国际交往更加密切,相继在各地举办各类重大活动,逐渐成为国际政治、经济、文化交流重要舞台。重大活动政治规模高、参与人数多,重大活动食品安全关系参与人员的健康与安全,关乎重大活动成败。
现代技术、文化冲突、社会割裂裹挟而来的公共风险,极大增加了重大活动中食品安全风险防控和警务保障压力。重大活动食品安全风险防控面临有毒有害危险物难防范、难预警、难处置等难题,一旦发生问题,其政治及社会影响不可估量。根据《中国食品安全发展报告(2018)》,2008—2017年全国食品安全事件达40.8万起,平均每天发生110余起,这些频发的食品安全风险对重大活动食品安全保障提出了更高的要求。亟需借助新技术、新手段开展食品安全风险预测预警研究,变事后处置为事前预防,有效提升重大活动食品安全保障能力。
知识图谱是知识工程的一个分支,以知识工程中语义网络作为理论基础,结合机器学习、自然语言处理、知识表示和推理的最新成果,是用于描述海量实体、实体属性及实体间关系的有效工具[1-5]。针对重大活动食品安全保障中的问题,拟利用知识图谱技术,融合结构化、非结构化和半结构化的多源数据,构建食品安全知识图谱,实现对象认知、知识推理和知识分析,显著提升针对食品安全风险的主动发现能力,这对未来食品安全突发事件的预测及解决预案的提供有积极的参考价值,在一定程度上帮助重大活动食品安全保障的决策者了解过去、把握现在、决策未来。
1 知识图谱
1.1 知识图谱定义
知识图谱(knowledge graph)于2012年5月由Google正式提出,知识图谱包含实体、概念、属性、关系等信息,是一个有向图结构的大规模语义网络(semantic network)和知识库,通过构建基于“结点—边”的结构化语义网络知识库,描述现实世界中的各种实体及其复杂关系,在此基础上实现知识推理和智能推荐,已被广泛应用于智能问答、智能搜索、个性化推荐、内容分发等领域[6]。
知识图谱由G=(E,R)表示,其中E表示知识图谱中多类型的实体,R表示知识图谱的关系集合。知识图谱由大量三元组组成,每个三元组表示客观事实的语义信息,表示形式为T=(vh,r,vt),其中vh表示头实体,vt表示尾实体,r表示头实体和尾实体之间的关系。实体是知识图谱中的最基本元素,比如食品安全中的人员、食品、农产品、添加剂、毒害物等实体,不同的实体间存在不同的关系,比如食品安全中的高风险、较高风险、一般风险等关系。
1.2 知识图谱构造过程
知识图谱的构造过程如图1所示,包含知识抽取、知识表示、知识融合、知识加工和知识推理,知识图谱的构建是一个不断更新迭代的过程。知识图谱在逻辑上分为两个层次:数据层与模式层。数据层选择图数据库作为存储介质,用(实体,关系,实体)和(实体,属性,属性值)来表示。模式层是知识图谱的核心,构建在数据层之上,通常采用本体库来构建模式层[7]。
图1 知识图谱构造过程
1) 知识抽取。知识抽取是知识图谱构造的第一步,面向半结构化数据和非结构化数据(文档、图片、视频),通过自动化或半自动化技术抽取出可用的知识,知识抽取包括实体抽取、关系抽取和属性抽取。实体抽取即自然语言处理中的命名实体识别,从非结构化文本数据中自动识别出命名实体,形成知识图谱中的“结点”,实体抽取是知识抽取中最为基础和重要的部分。在半结构化数据中抽取出命名实体后,采用关系抽取得到实体之间的关联关系,形成知识图谱中的“边”,从而形成网状的知识结构。属性抽取的目标是从不同数据源中获取特定实体的属性信息,例如对于毒害物,可以获取其名称、危害程度、侵入途径、毒性特征、检测方法等信息。
2) 知识表示。知识表示主要以资源描述框架RDF(resource description framework)的三元组SPO(subject,property,object)来描述实体之间的关系,RDF方法通用简单,但在计算效率、数据稀疏性等方面存在诸多问题。知识表示学习的主要模型有双线性模型、距离模型、矩阵分解模型、单层神经网络模型、神经张量模型、翻译模型等。近年来,以深度学习为代表的表示学习技术进展迅速,主要以稠密低维实值向量表示实体的语义信息,从而在低维向量空间中计算实体、关系及实体关系间的复杂语义关联,在知识库的构建、融合、推理、应用方面应用广泛[8]。
3) 知识融合。知识抽取实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息,然而由于数据来源广泛,抽取的结果中往往包含大量的重复和缺失信息,数据缺乏层次性和逻辑性,需要对抽取结果进行清理和整合。知识融合是知识组织的较高层次,通过对来自多源数据的知识进行异构数据整合、消歧、加工、推理验证、更新等过程,达到数据、信息、经验、方法以及人的智慧的有机融合,形成更高质量的知识库。知识融合通过实体链接和知识合并剔除冗余和错误概念,消除概念的歧义,从而确保知识的质量[9]。
4) 知识加工。在知识抽取和知识融合的基础上,可以得到一系列知识图谱的事实表达,然而事实是知识的基本单位,并不等同于知识,要形成高质量的结构化、网络化知识体系,还需要知识加工,知识加工的过程包括本体构建和质量评估。本体是同一领域内不同主体之间交流、连通的语义基础,呈树状结构,本体在知识图谱中相当于知识库的模具,通过本体构建形成的知识库冗余程度较小、层次结构较强。质量评估通过保留高置信度的知识,剔除低置信度的知识,对知识的可信度进行量化,从而有效确保知识的质量。
5) 知识推理。知识推理是知识图谱构建的重要环节,知识推理从已有的实体关系数据出发,能够从已知知识中发现新的未知知识,建立实体间新的关系,从而拓展和丰富知识图谱的网络结构。知识推理的对象包括实体、实体属性、实体间的关系、本体库中概念的层次结构等,常见的知识推理方法可以分为基于图的推理与基于逻辑的推理两种类别。例如已知(毒害物A,高风险,食品A)和(食品A,同类,食品B),可以推理出(毒害物A,高风险,食品B)。
2 研究方法
以重大活动中的相关人员、食品、添加剂、毒害物、快检数据、社会媒体数据、电商平台交易数据等为基础,通过知识抽取形成相关的实体、属性和关系,然后经过知识表示构建相关实体间的三元组,经过知识融合和知识加工,构建重大活动食品安全知识图谱,并进行相关实体间的关系推理。
2.1 实体、属性和关系构建
根据重大活动食品安全场景中的结构化、半结构化和非结构化数据,可以构建食品安全知识图谱。首先,实体类型集合为X={人员,食品,农产品,毒害性物质,传染性病原体,放射性物质},然后构建各个实体的属性特征,人员={姓名,民族,性别,单位,学历,年龄,籍贯},食品={食品名称,食品大类,食品亚类,食品细类,抽检项目},农产品={农产品名称,食品大类,食品亚类,食品品种,食品细类,抽检项目},毒害性物质={名称,毒性类型,侵入途径,健康危害),传染性病原体={名称,分类,危害程度,特性,检测方法},放射性物质={名称,类型,特征,检测方法,检测设备,参考标准},各实体间的关系如图2所示。
图2 食品安全知识图谱实体间关系图
2.2 食品安全知识图谱构建
在已构建的食品安全实体、属性和关系基础上,采用图数据库交互操作框架 Interactive Graph构建食品安全知识图谱,Interactive Graph是采用Java Script开发的开源项目,通过构建本地JSON文件,为大规模图数据三元组提供了一个基于Web的交互操作框架[10]。Interactive Graph提供3个基本功能,分别是图浏览器(Graph Explorer)、图导航器(Graph Navigator)以及关系查找器(Rel Finder),借助这些功能,可以便捷地实现知识图谱数据的可视化展示和知识推理。
食品安全知识图谱包含人员、食品、农产品、毒害性物质、传染性病原体、放射性物质等实体、属性和实体间的关系,该图谱由643个节点和2 859条边构成,食品安全知识图谱的可视化效果如图3所示。通过食品安全知识图谱,输入任一食品的名称,可以方便地查看与其关联的毒害物信息及危害后果,实现知识推理。在此基础上,可以查看食品的分类信息、毒害物危害信息等。
图3 食品安全知识图谱可视化效果图
3 结语
近年来,我国积极参与全球治理,相继举办各类重大活动,逐渐成为国际政治、经济、文化交流重要舞台[11]。重大活动政治规模高、参与人数多,重大活动食品安全关系参与人员的健康与安全,关乎重大活动成败,而现代技术、文化冲突、社会割裂裹挟而来的公共风险,增加了此类活动中食品安全风险防控和警务保障压力。
为解决上述问题,运用Google知识图谱,以重大活动中的相关人员、食品、农产品、毒害性物质、传染性病原体、放射性物质等为切入点,绘制重大活动食品安全知识图谱,对重大活动食品安全数据进行可视化展示,有效解决了食品安全风险预测预警中数据利用不充分、查询统计不直观、信息关联不明确等问题,有效提升了食品安全预测预警的效率和水平,为重大活动食品安全保障决策的科学化提供参考。