标准知识图谱的技术路径与应用场景探讨
2023-03-24方思怡
摘 要:知识图谱技术是实现标准数字化、网络化、智能化和知识化发展的关键核心技术。标准知识图谱对标准数智化转型而言至关重要,目前尚处于起步阶段。本文从概念、应用现状、技术路径、发展趋势和典型应用场景这五方面入手,梳理并总结了标准知识图谱的重要概念,在深入分析其现状后,结合标准的实际发展需求,提出标准知识图谱的主要技术路径和典型的应用场景,探讨了标准知识图谱的理论基础和未来前景,为相关工作者提供技术参考。
关键词:标准知识图谱,数智化,技术路径
DOI编码:10.3969/j.issn.1002-5944.2023.11.001
0 引 言
当前社会正处于大数据、人工智能、物联网等技术掀起的新一轮科技革命中,以知识智能为典型特征的技术浪潮正前所未有地改变着各行各业的生态面貌,数智化转型成为各领域抢占战略制高点和摆脱发展瓶颈的重要途径,标准也不例外。加快推动标准的数字化、网络化、智能化和知识化轉型已逐渐成为标准领域的共识。作为知识智能的热点方向和自然语言处理与理解的重要环节,知识图谱(Knowledge graph, KG)是实现标准数智化转型的关键核心技术。目前标准知识图谱的研究与应用还处于起步阶段,本文梳理并总结了标准知识图谱的概念,分析了标准知识图谱的应用现状,基于标准文本的特性提出了标准知识图谱的技术路径,在此基础上结合标准文本的发展需要研判其发展趋势并预设典型应用场景,以期能为相关工作者提供一定的技术性参考。
1 标准知识图谱的应用现状
1.1 标准知识图谱的定义及相关概念
目前学界和工业界尚未对标准知识图谱的定义取得统一的共识。泽连涛等人[1]将标准知识图谱定义为基于标准文本数据的知识图谱,由标准知识库和推理搜索引擎组成。在杨跃翔等人[2]的研究中,标准知识图谱被视为知识图谱技术在标准文献知识组织中的应用。赵伟等人[3]认为标准知识图谱是用于揭示标准知识关联性的领域知识图谱。郝文建等人[4]对标准知识图谱的概念进行了较为深入的探索,将标准知识图谱概括为源于标准数据和基于标准知识模型,经抽取和链接知识要素所得的知识网络。
综上所述,本文对标准知识图谱的概念做出以下界定:标准知识图谱是领域知识图谱在标准文献领域的一大分支,它是以标准文本及相关数据为来源,经由一定技术所形成的结构化知识库,通过图的形式组织和存储标准知识。与其它类型的知识图谱类似,标准知识图谱在逻辑架构上也可以划分为模式层和数据层,其中数据层是用来存储标准文本中大量知识的实例层,而模式层则是位于数据层之上的概念本体层,由类模式信息组成,用于存储经过提炼的标准知识。
1.2 标准知识图谱的发展现状分析
总体而言,当前标准知识图谱的研究还处于起步阶段,尚未大规模投入应用,在现阶段整体呈现出以下特点:
1.2.1 标准知识图谱的理论体系尚未明晰
已有研究尚未在标准知识图谱的定义和相关概念上取得一致的共识,尤其是在涉及知识图谱核心概念的实体和关系方面,现有的研究结论仍存在一定的争议。部分研究尝试对标准知识图谱及其相关概念进行明确的定义,但其实体的界定和命名方式与标准化领域约定俗成的专业术语存在较大的差异,例如泽连涛等人将标准号作为单独的标准知识图谱实体,并将其命名为“标准文件”,该实体的界定方式也与标准命名实体识别研究中的实体单元不同,后者更倾向于将标准要素视为多个标准实体的组合体。此外,由于标准知识图谱研究和应用的起步较晚,目前也尚未形成演化历程供研究者分析。
1.2.2 标准知识图谱的技术路线尚不成熟
目前标准知识图谱的路径研究多处于理论设想和初步探索阶段。由于标准知识图谱的构建与数据质量和信息抽取技术密切相关,当前我国标准文献数字化程度较低的现状已成为制约标准知识图谱技术快速发展的重要因素。作为标准知识图谱的重要基础,标准命名实体抽取和实体关系抽取研究仍存在大量的空白和不足,这导致了我国标准知识图谱的相关研究只能停留在理论推演和小范围探索的局面。目前只有少数研究团队探索了标准知识图谱的构建方式,且路线各异,未能形成规范化的模式投入大规模量产。郝文建等人在理论层面初步制定了标准知识图谱的构建流程和知识标注模式,具体的落地方向还未明确。李臻等人[5]前瞻性地预设了构建标准知识图谱的关键技术和主要流程。杨跃翔等人基于XML标准标签集的拓展形式解析XML格式的标准文献,开展知识抽取,在自然灾害应急国家标准领域实现了标准知识图谱的落地应用。宋立博[6]根据标准文献共性元素的结构和编排特点,通过文本切分的方式抽取生态环境标准中的信息,构建生态环境标准知识图谱。尹亮等人[7]采用IDEF3方法探索了装备标准知识图谱的构建过程。近年来,深度学习技术开始逐渐在标准知识图谱研究中兴起。张鹏飞等人[8]采用BERTTCNN-LSTM模型构建了绿色标准知识库。吕东东等人[9]采用OREM-AF模型实现了农产品标准的实体关系自动抽取,在此基础上形成了农产品标准知识图谱。杨鹤[10]基于双重注意力机制构建了在渔业领域开展标准知识图谱的核心抽取技术探索。整体而言,基于深度学习的标准知识图谱技术是近年来的研究热点,但与其它领域相比,基于深度学习和机器学习的标准文献自动化信息抽取技术尚未形成产品化的成果。
1.2.3 标准知识图谱的信息和规模有限
现有的标准知识图谱研究大多聚焦于标准共性元素,例如标准号、标准名称、标准发布时间等要素[11],少数研究关注面向重点领域产业的标准知识图谱应用,且目前的应用领域均为相对小众的产业,尚未涉及我国重点领域的产业体系。标准是社会经济发展的重要技术支撑,与产业结合是标准发挥自身效益的必由之路。由此可见,当前标准知识图谱的信息不够全面,在数据规模上也存在明显的局限性。
2 标准知识图谱的技术路径
2.1 标准知识图谱的构建方式
当前知识图谱的构建方式主要包括自上而下(Top-down)、自下而上(Bottom-up)和混合方式。在以往的研究中,通用型知识图谱大多采用自下而上的方式搭建,而专用型知识图谱则更多采用自下而上的方式搭建。近年来,越来越多的研究开始关注混合模式下的知识图谱构建方式,通过“小步快跑、快速迭代”的方式探索构建知识图谱的合理路径[12]。作为领域知识图谱在标准文献领域的应用,标准知识图谱宜采用混合方式构建,可采用自上而下的方式搭建标准知识图谱的模式层,以自下而上的方式半自动化地搭建标准知识图谱的数据层。
2.2 标准知识图谱的技术架构
与其它领域的知识图谱类似,标准知识图谱的构建是一个系统性工程。一个完整的标准知识图谱构建流程涉及多个环节,主要包括标准数据的获取、抽取、存储和应用等,其主要的技术架构如图1所示。
2.2.1 标准知识表示
标准知识表示是标准知識图谱构建的重要基础性工作,其目的在于将标准文献中的知识转化为计算机语言理解的结构化形式[13]。知识表示历来是人工智能领域的核心问题之一。标准知识表示需遵循可处理模糊性知识、达到机器可读水平和具有可供后续知识扩充的模块结构等基本原则。目前知识表示主要有基于网络的方法、基于逻辑的方法和基于分布式表示的方法。
2.2.2 标准知识建模
标准知识建模是构建标准知识图谱模式层的重要基础,包括知识获取和知识结构化两大步骤,旨在确定知识范围后构建机器可解释的知识模型,对标准知识图谱的效益发挥至关重要[14]。在知识建模方法中,基于本体构建的技术适用于数据范围相对较小的领域知识图谱,目前七步法是本体构建中最为常见的知识建模方法,具有步骤清晰、实践性强等优点,适合被应用于标准知识图谱的本体构建。
2.2.3 标准知识抽取
标准知识抽取是构建标准知识图谱数据层的重要基础。知识抽取隶属于信息抽取(InformationExtraction, IE)技术,被视为知识图谱构建的首要任务,其目的在于从多源异构数据中抽取构建知识图谱所需的实体、关系以及实体属性等关键信息。知识抽取主要包括实体抽取、关系抽取、事件或片段抽取、属性抽取等子任务,其中又以实体抽取和关系抽取最为核心[15-17]。知识抽取的具体技术方案需根据数据的结构化程度而定。标准文本是具有明确编写格式的非结构化技术文本,可采用基于规则和深度学习相结合的方法实现标准知识抽取。
2.2.4 标准知识融合
标准知识融合(Standard Knowledge Fusion,SKF)是消除标准知识歧义性、提高标准知识准确性的关键环节,通过高层次的知识组织方式将来自于不同知识源的知识在同一个框架下经冲突检测和一致性检查后整合成结构化知识库[18]。在标准知识图谱的不同层级,作为一个多源异构特点的结构化知识库,需要在不同层级上对标准知识图谱开展知识融合。在标准知识图谱的模式层,可采用本体匹配来发现异构本体之间的匹配关系,而在标准知识图谱的数据层,知识融合的任务主要集中于实体对齐(Entity Alignment, EA)、实体消歧(EntityDisambiguation, ED)、实体链接、关系对齐等[19],近年来基于深度学习的算法逐渐成为知识融合在数据层的主流技术,标准知识融合同样也可借鉴此类技术思路。
2.2.5 标准知识推理
标准知识推理是根据标准知识图谱中已有知识推测出隐含知识或识别错误知识从而对标准知识进行纠错和补全的过程[20]。根据推理的性质,又可将标准知识推理分为标准知识图谱补全和标准知识图谱去噪,主要的方法包括基于逻辑、基于关系路径、基于统计、基于知识表示和基于分布式表示学习的技术。目前标准知识推理研究尚存在大量空白,可根据标准知识图谱的数据现状选取最适宜的标准知识推理方法。
2.2.6 标准知识更新
标准文本数据更新较快,静态知识图谱的管理模式已无法满足标准文本数据日益增长的发展需要。标准知识更新(Standard Knowledge Update,SKU )能实现标准知识图谱全生命周期管理的关键。已有研究认为知识更新需要综合考虑多个因素,包括时序、频率、准确率等。目前已形成三种主要的知识更新机制,分别为全面更新、周期更新和增量更新。研究者可根据实际应用需求选择最适宜的标准知识更新机制。
3 标准知识图谱的应用场景及发展趋势研判
3.1 标准知识图谱的应用场景预设
标准知识图谱能够为标准文献提供更为高效准确的数据检索、治理和存储方式,促使标准文献向智能化和知识化方向发展。结合标准文献的发展需求和知识图谱技术的主要功能,本文预设了以下标准知识图谱的典型应用场景,为相关工作者提供一定的参考。
3.1.1 标准智能检索与推荐
纵观已有的标准文献信息服务平台,大多只能提供基于标准号、标准名称、分类号等标准共性元素的简单信息检索,对于用户所输入的关键词尚无法进行深度的关联性文本加工,导致了现阶段标准文献的检索友好度不够高、检索速度不够快,致使缺乏经验的用户无法在短时间内实现标准文献的精确检索。融入标准知识图谱的标准智能检索能够为用户提供检索关键词的相关重要信息,根据标准知识图谱提供关键词的关联信息,由此在提高用户的标准文献检索精确度和推荐准确度的基础上提高用户的体验感。
3.1.2 标准客服智能问答
问答和对话系统历来是知识图谱的典型应用场景之一,已在电子商务、医疗问诊等领域投入大规模的使用[21],但在标准文献领域还存在大量的应用空白。目前的标准文献服务高度依赖人工问答的模式,以标准知识图谱为基础的标准智能问答系统能够接受用户的自然提问,通过查找和推理标准知识图谱来获取用户所需的精确答案,将在标准知识服务中逐渐成为问答和对话系统的主流模式。
3.1.3 标准用户画像
用戶画像是根据用户的人口学特征、消费动态和历史行为特征等综合形成的标签化模型[22]。近年来,知识图谱技术开始渗入用户画像领域,诞生了用户画像知识图谱研究,以企业用户画像和产品画像知识图谱为代表的用户个性化推荐应用已在金融行业取得了良好的效果[23]。与金融行业类似,标准文献领域同样存在大量的企业用户和专业产品,基于标准知识图谱的标准用户画像有助于标准化服务人员及时掌握用户的需求,从而根据用户的实际情况实现更精准的动态智能服务和个性化推荐[24]。
3.1.4 标准编写辅助
标准是遵循明确编写格式的技术性文本,通常由标准对象的专家和标准化专业从业人员参与制修订,专家群体的标准化经验不一,因不熟悉标准文献的用语体系和编写规则而导致部分标准表述不够严谨、可读性不强等问题。基于标准知识图谱所开发的标准编写平台能够有助于标准编写者快速查询标准制修订的规则、检查内容的冲突、获取引用文件的信息,进而大幅提高编写者的标准编写质量,有效降低审查和评定者的工作成本。
3.1.5 标准查新辅助
标准查新是科技查新在标准领域的一大分支,由标准化工作人员根据委托者的需求,依托权威的标准信息数据来源,基于标准检索和调研方法对查新点的新颖性做出综合分析和审查判断[25],已成为打造标准信息服务竞争力的重要知识产品。当前标准查新服务的质量与查新者的主观判断密切相关,其效率和精准率也受限于人工查询的模式,已日益无法满足标准数据快速发展的需要。近年来,部分研究者开始探索快速标准查新的方法,提升标准查新的自动化水平。聂旭和陈燕林[26]以检验检测标准为例,提出了通过计算机编程来提高标准查新效率的技术。鉴于此,开发基于标准知识图谱的标准查新辅助工具将为标准查新工作提供更为客观的判断依据,也能显著提高标准查新的工作效率和精准性,从而有效突破标准查新的瓶颈性问题。
3.1.6 标准科技咨询
标准是重要的基础性战略资源,构建以标准知识图谱为基础的标准大数据平台将成为标准知识服务的必然选择。新一代的标准大数据平台将基于标准数据,打造标准辅助决策、支撑科创、服务产业的全新范式。在产业发展上,面向重点领域产业的标准知识图谱能有助于相关从业者快速而准确地分析产业发展现状,分析产业链标准化的优势、空缺和短板,明确产业链的标准研制需求和标准体系的完善方向,从而通过标准化手段为产业纵向发展深度赋能。在企业发展上,标准知识图谱能够帮助企业快速掌握核心业务所需的标准要点,包括国内外标准研制情况、重要的标准技术性指标等,同时也能为企业构建自身的企业标准体系提供技术参考。
3.2 标准知识图谱的发展趋势
结合标准知识图谱的应用现状和发展需求,从数据基础、构建技术和应用方向这三方面对标准知识图谱的发展趋势做出如下研判。
3.2.1 标准知识图谱的数据基础发展趋势
标准文本数据是标准知识图谱的重要数据来源,其质量的提升对标准知识图谱的构建至关重要[27]。当前我国国内标准仍处于纸质为主、电子为辅的局面,处于机器可读标准的初级阶段。标准文本数据需经由人工协作的OCR模式获取,在现有技术框架下存在一定的误差率。随着标准数字化、网络化和知识化转型的推进,标准文献的数字文本基础将进一步夯实,标准知识图谱的数据基础也将逐渐向数字化方向发展。与此同时,标准知识图谱作为标准数智化的核心驱动力也将进一步反哺标准的数智化发展,成为机器可读标准的重要载体[28],与标准数智化转型构成相辅相成的关系。
3.2.2 标准知识图谱的构建技术发展趋势
随着大数据和人工智能技术的发展,标准知识图谱构建方式的自动化程度将逐步提升,基于机器学习和深度学习相结合的技术将逐渐成为标准知识图谱构建技术的主流方法。与传统的人工模式相比,基于机器学习和深度学习相结合的构建模式更适用于大规模标准文本数据,在特征工程上极大地节省了人力,在模型迁移性上也表现更为优异,能够满足大数据环境下数字标准快速发展的时代需要。
3.2.3 标准知识图谱的应用方向发展趋势
标准知识图谱能够将标准知识合理组织、挖掘并可视化呈现。作为知识管理和发现的重要方式,标准知识图谱将创新市场监管的科技手段、丰富市场监管的科技箱,其应用方向将在以下两方面深入发展。
(1)改善标准数据管理
在步入大数据时代后,标准数据管理体系也面临全新的挑战和机遇。与传统的关系型数据库相比,存储标准知识图谱数据的图数据库被业内人士称为“大数据时代的高铁”,在关系网处理、应用范围和模型简易性上都享有明显的优势。标准知识图谱能够催生标准数据管理由扁平式的关系型数据迈向多元链接的开放式形式,更有利于打通不同类型标准数据的孤岛,挖掘隐藏的信息,提高并发数据处理的效率。
(2)与垂直领域相结合
标准是融合科技创新链与产业发展链的关键桥梁,被视为加快新技术产业化步伐的重要助推剂。产业标准知识图谱是标准知识图谱与特定垂直领域相结合的应用成果。面向重点产业体系的产业知识图谱能促进相关企业的标准化建设工作,为我国重点领域产业链的数据分析、标准体系构建和相关决策提供支撑。以政府监管和服务流程为应用对象的标准知识图谱能够优化流程的组织和呈现模式,通过打造“智慧标准”助力“智慧政府”,在“一网通办”“一网监管”等场景中或将发挥提效的作用。
(3)优化标准知识服务
近年来,标准文献信息服务的知识化进程获得研究者关注[29]。标准知识服务是标准信息服务在数字经济时代的发展目标。标准知识图谱是标准知识服务的关键核心技术,能为标准知识服务的多项重要功能提供必要的技术支撑,例如优化标准智能搜索引擎、生成用户个性化推荐等。
4 结 语
标准知识图谱是标准数智化转型的关键环节之一,未来将在标准知识服务、标准数据管理、标准智能编写等方面发挥重要的技术性支撑作用。本文系统梳理了标准知识图谱的发展现状,提出了具有一定可操作性的构建路径并预设了若干典型应用场景,在后续研究中将在战略性新兴产业中选取应用落地的垂直领域,验证并调整标准知识图谱技术路线的具体方案。
参考文献
连泽涛,蔡毅,任浩鹏.标准知识图谱构建与推荐算法[J].信息技术与标准化,2022(10):47-50.
杨跃翔,涂新雨,刘文玲.标准文献知识图谱构建与应用研究[J].数字图书馆论坛,2022(6):22-30.
赵伟,张览,望俊成.标准文献知识图谱构建的模型设计与集成方法[J].情报工程,2021,7(6):58-66.
郝文建,魏梅,张浩,等.标准知识图谱的构建与应用[J].信息技术与标准化,2021(8):44-47.
李臻,刘彦林,马小雯,等.基于标准知识图谱构建前瞻性研究[J].标准科学,2021(12):63-68.
宋立博. 生态环境标准图谱构建研究[D].哈尔滨:哈尔滨工业大学,2020.
尹亮,何明利,谢文波,等.装备-标准知识图谱的过程建模研究[J].计算机科学,2018,45(S1):502-505.
张鹏飞,袁志祥,鲍威,等.面向绿色标准的知识图谱构建方法的应用研究[J].标准科学,2020(6):68-73.
吕东东,陈俊华,毛典辉,等.农产品标准领域知识图谱实体关系抽取及关联性分析[J].农业工程学报,2022,38(9):315-323.
杨鹤. 面向渔业标准知识图谱构建的实体识别与关系抽取[D].大连:大连海洋大学,2022.
张慧,侯霞.基于知识图谱的标准文献分析[J].计算机工程與设计,2017,38(4):1103-1109.
付雷杰,曹岩,白瑀,等.国内垂直领域知识图谱发展现状与展望[J].计算机应用研究,2021,38(11):3201-3214..
田玲,张谨川,张晋豪,等.知识图谱综述——表示、构建、推理与知识超图理论[J].计算机应用,2021,41(8):2161-2186.
栾瑞鹏,张静,刘立坤.面向装备试验鉴定领域数据治理的知识图谱本体构建[J/OL].(2022-12-29) [2023-03-02]系统工程与电子技术:1-10.http://kns.cnki.net/kcms/detail/11.2422.TN.20221228.2006.024.html.
董美,常志军.一种面向中医领域科技文献的实体关系抽取方法[J].图书情报工作,2022,66(18):105-113.
李代祎,李忠良,严丽.一种面向中文的实体关系联合抽取方法研究[J].小型微型计算机系统,2022,43(12):2479-2486.
范媛媛,李忠民.中文医学知识图谱研究及应用进展[J].计算机科学与探索,2022,16(10):2219-2233.
杭婷婷,冯钧,陆佳民.知识图谱构建技术:分类、调查和未来方向[J].计算机科学,2021,48(2):175-189.
张富,杨琳艳,李健伟,等.实体对齐研究综述[ J ] .计算机学报,2022,45(6):1195-1225.
官赛萍,靳小龙,贾岩涛,等.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994.
翟姗姗,胡畔,潘英增,等.融合知识图谱与用户病情画像的在线医疗社区场景化信息推荐研究[J].情报科学,2021,39(5):97-105.余传明,田鑫,郭亚静,等.基于行为-内容融合模型的用户画像研究[J].图书情报工作,2018,62(13):54-63.
王杰,谢忠局,赵建涛,等.基于知识图谱和用户画像的金融产品推荐系统[J].计算机应用,2022,42(S1):43-47.
王一禾,吕千千,祝贺.标准数字化转型关键技术及其应用分析[J].信息技术与标准化,2022(10):51-55+59.
赵青青,顾晓虹.浅析知识经济时代的标准查新工作[J].中国标准化,2021(7):101-104.
聂旭,陈燕林.利用计算机编程对检验检测标准进行快速查新[C]//.中国水利学会2021学术年会论文集第三分册,2021:295-297.
李翔宇,傅田,潘鑫,等.标准数字化在航空行业应用探索与实践[J].信息技术与标准化,2022(10):68-72+78.
穆天杨,陈华达,杨玉婷,等.知识图谱技术在机器可读标准中的应用[J].信息技术与标准化,2022(10):56-59.
丁恒,陆伟.标准文献知识服务系统设计与实现[J].现代图书情报技术,2016(Z1):120-128.
作者简介
方思怡,硕士研究生,助理工程师,研究方向为标准文献数据挖掘与分析。
(责任编辑:张佩玉)