电子元器件企业知识图谱构建分析
2021-07-27李国志涂振洲
李国志,涂振洲
(1.四川省青年科技创新与社会实践促进会,四川 成都 610031;2.成都信息工程大学,四川 成都 610225)
0 引言
信息技术的飞速发展推进人类社会进入数字网络时代,从以静态、单向阅读为主Web1.0跨越到以分享为特征的实时网络Web2.0,再进入基于人工智能的Web3.0,信息化全面改善了人们的生活及生产环境,也带来了更加激烈的社会竞争。不断增多的数据信息给传统数据管理及处理方法构成了极大挑战,为充分获得有效数据信息,更好地规避市场经济风险,电子元器件企业必须努力寻找新的管理方式。知识图谱以先进的信息技术及设备为依托,可清晰显示与企业相关的多维关系,可为企业提供强大的风险识别参照,有助于促进电子元器件企业的健康、持续发展。
1 知识图谱的概念及构建方式
1.1 基本概念
知识图谱是显示特定领域内的知识发展进程和与之相关的结构关系的一系列图形,它以可视化技术来描述知识资源及其载体,运用数据挖掘、机器学习、图数据库、图形绘制、关联计算等手段,充分显示各类知识之间的逻辑关系。知识图谱以图为载体,点代表“实体”,边代表“关系”,结合特定行业数据和领域知识,可得到某一领域内的知识图谱(详见图1)。企业风险知识图谱是基于企业发展环境中的各类相关要素分析而形成的系列图谱,可为企业提供详细的关系信息,指导企业安全运营。[1]比如,制造企业+生产数据+销量信息=>(构建)以市场为核心(商业为关系)的知识图谱。通过这一知识图谱企业可以了解到自己的经营发展现状,可以对存在的竞争风险予以分析和提前防控。
图1 知识图谱示意图
1.2 构建方式
知识图谱主要有从上而下(Top-Down)和由下而上(Bottom-Up)的两种构建方式。自上向下的构建方式着重为知识图谱提供本体及数据模型定义,此种构建方式通常用于构建某一领域内的知识图谱。对于本体的定义,一般从全局层面来思考,先形成一个总体概念,随后再对这个概念进行内容上的充实和细化,以形成一个饱满的结构体系;当数据模型成型后,则需要为每个模型实体逐个添加对应的概念,通常情况下自上而下的构建方式需要以充足的结构化数据源为关键支撑。由下而上的构建形式与之正好相反,其从对实体的归纳组织入手,先产生基础概念和数据模型,然后向上逐层发展最终构成一个完整的上层概念。
2 企业风险知识图谱的构建
本文主要采用了自上而下的知识图谱构建方式,以维基百科为结构数据源,将电子元器件企业的风险知识图谱划分成本体构建、知识融合、知识抽取、知识储存四个主要内容(如图2所示)
图2 企业风险知识图谱的构建流程
2.1 企业本体的构建
企业本体构建的主要内容包括:领域核心概念构建、分层概念构建、定义类和属性创建、企业本体需求性分析、本体评价和演化、可复用本体考察几个重要部分。[2]可以通过复用现有的知识本体,实现自动化构建企业本体。当前较为常见的构建方法诸如七步法、Skeletal法、TOVE法等,通过运用这些方法可全面分析电子元器件行业内的相关知识信息,可对企业当前的结构化数据集予以细致、深度分析,能够准确找到知识概念与企业风险属性之间的语义关联,从而构建出科学的企业本体的RDF图(如图3所示)。
图3 企业本体的RDF 图
2.2 企业知识抽取
企业知识抽取主要是对不同的数据源及数据结构信息进行抽取,包括结构化数据、非结构及半结构数据,根据抽取的信息来命名实体识别。一般而言知识抽取一般分为网页信息解析、命名实体识别、实体关系抽取几个关键步骤,对抽取的信息进行技术处理,以此获得构建知识图谱的实体三元组。网页解析以“天眼查”为依托,对电子元器件企业的股权结构、资本信息、组织架构、企业性质、经营状态、存续现状、债务及法律纠纷等信息进行分析。命名实体识别,是对某一句子中有具有特定意义的实体的辨识,明确区分和标识出实体属性,如人名、地名、专业名词等,我们可以依托自定义词典来提高命名实体准确性,在分词序列前提下,我们将电子元器件领域的专业词汇及特殊规则添加到词典中,以便于准确界定未登录词。[3]实体关系抽取是对电子元器件企业内外部关系信息的抽取判定,包括企业运营模式、营销手段、财务状况、产品类型、已知或未知竞争对手、商业环境、政策内容等。通过信息分析发现企业风险因子。
2.3 企业知识融合
企业知识融合针对异构数据实施实体对齐、实体匹配等操作,有效处理数据之间的冲突关系。同时在机器深度学习的帮助下不断完善现有知识内容,以便为企业的战略决策提供充足的数据支撑,尤其是应对市场风险方面发挥出较好作用[4]。依托海量存储的三元组数据,以大数据、人工智能技术为支撑,可实现企业风险知识图谱的智能化回答。
2.4 知识存储
知识图谱构建中的另一个重要环节便是知识存储,知识存储中包括不同类型的海量数据资源,数据信息越大、越精准,为企业提供的决策支持就越强,对规避投融资风险和生产运营风险就越有用。目前图数据信息存储已经成为了企业知识图谱构成的主要存储形式,电子元器件企业应努力构建以“图数据结构”为主的知识图谱,从而提升数据保存、查询使用的便利性[5]。
3 结论
知识图谱一经问世,便受到世界学术界和产业界的普遍关注,如今,在发达国家,知识图谱已经被广泛应用到了各类企业实际中。但我国国内关于企业知识图谱的研究尚处于起步阶段,有效运用的企业仍为少数。本文以电子元器件企业为研究对象,对其企业风险知识图谱构建流程予以分析,希望有助于促进知识图谱的推广利用,有利于帮助电子元器件企业降低风险损失。