金融领域标准文献知识图谱的构建与实现
2022-02-18赵伟张览望俊成
赵伟 张览 望俊成
中国科学技术信息研究所 北京 100038
引言
在大数据和数字经济迅猛发展的大背景下,知识图谱技术已成为科技文献资源服务的重要创新手段,面向标准领域的知识服务已经成为标准信息化发展的前沿热点问题[1]。开展标准文献知识图谱构建和资源服务,有助于有序组织相关领域知识,揭示标准知识的整体关联性,让标准数据发挥更大效用[2]。
然而,总体上国内外针对标准文献知识图谱的相关研究还十分有限。早期研究主要面向标准间的关系关联网络,如李景等[3]采用文献计量学方法,基于相关行业的标准文献规模统计,对比分析国内外同行业标准文献数量的不同;李涛等[4]通过建立标准文献网络,辨析标准文献间的引用关系和相似性,但该阶段的研究仍未达到标准内容知识元的粒度[5-8]。而后又逐渐向标准知识关联领域开展探索[9,10],如计雄飞[11]基于对标准文献内容的分解,通过文本分类、特征提取、内容加工等建立了标准内容比对分析模型。随着语义网技术的推广,进一步面向语义网环境下标准知识关联的理论和方法开展积极探索[1,12-17],如李景等[18]通过获取和标注标准文本和网络信息,构建了实现语料编辑、语义标引、双语翻译功能的标准文献语料库;刘知民[19]在开展标准的信息组织基础上,通过分词技术和信息挖掘技术形成了标准知识库。总体上,相关研究在对标准间关系的抽取深度和广度上仍有所欠缺,并将影响到知识图谱构建的质量和效用。赵伟等[2]提出了用于描述标准知识的标准知识单元五元组,构建了面向标准文献的资源层—描述层—映射层的三层知识图谱模型,提出了基于规则和LDA主题模型的标准文献知识图谱构建的集成式方法,为实践研究提供了有益的参考。
金融标准是实现金融交易信息系统互联互通、降低交易成本的基本条件,为金融相关部门实施有效管理提供了基础性支撑。金融标准通过文献载体将对企业、市场及产业发展产生重要影响,以系统视角分析标准文献间的替代过程、引用关系等,将推动标准情报的有效研究和标准化政策的形成与应用[16]。因此,本文尝试构建金融领域标准文献的知识图谱,以期为金融领域标准化工作实践提供参考和借鉴。
1 金融领域数据的范围和特征
从分类角度,金融业包含了众多细分行业和领域,大类主要包括银行类、证券类、保险类等,细分领域可进一步分为债券、信托、货币、基金等资管计划、要素市场、征信贷款等。金融领域涉及到各行业的数据信息,具有数据量巨大、多维度和完备性等特征,这些信息又以文字、图形、表格等形式存储在大量文档中,格式非标准统一且呈碎片化存在,具有隐蔽性,因此采用集自然语言处理技术、处理非标准化数据和多层级关系挖掘技术,展现数据关联性于一体的知识图谱应用,成为了金融领域数据管理和利用的较好的支撑形式。
构建金融领域知识图谱,不仅将对多源异构数据进行知识化整合,从而为缺乏可解释性的机器学习算法提供有益借鉴,还可以通过建立金融行业海量多源异构数据的关联关系,挖掘数据的深层价值。构建金融领域知识图谱的数据来源主要包括互联网上的舆情数据,期货、股权、股票、上市公司等工商数据,以及行研报告信息等。在金融知识图谱构建的已有应用研究中,最为普遍的是用于信用评估、风控反欺诈、营销推荐和产业链分析等实践,常见的实体包括人物、公司、地名,常见的关系包括投资关系、竞争关系和股权关系等。但在实际相关行业环境里,某种意义下几乎各行各业都与金融或多或少地相关,如某国家标准(或战略文件)的发布,可能影响银行信贷决策,进而影响某地区企业群的融资规模,最终影响相关上市公司的股票价格。我们希望通过构建知识图谱来支撑实现类似的关联分析。
2 标准文献知识图谱的构建模型
如前文所述,赵伟等基于标准文献内容及特征的分析,分解了标准知识结构,提出了标准知识单元五元组,在此基础上设计了标准文献知识图谱RDM模型,从资源层、描述层和映射层三个方面提出了标准知识图谱构建的理论模型。通过识别和挖掘标准之间的关联关系,包括一般性题录关系、相互采用的知识关联关系和基于主题关联的多元关系,充实和扩展标准文献知识关联的已有成果[2]。标准文献中“范围”部分可视为论文文献中的“摘要”,基于提取其中存在揭示主题内容的主题词信息,挖掘标准实体和主题词之间的语义关系,从而构建标准主题之间的关联性。
基于标准文献知识图谱RDM模型,进一步建立了包括标准文献的知识抽取和知识链接两个步骤的集成方法[1],分别作用于不同的章节结构,从而建立起标准文献知识图谱,拓展实体关系类型。
图1 基于RDM模型的知识图谱构建流程
3 金融领域标准数据实体关系的抽取与主题词抽取
3.1 数据采集与预处理
(1)实验环境
系统平台:Windows10 64位;
处理器:Intel(R) Core(TM) i5-8250U,CPU 1.60GHz,4内核8逻辑处理器;
编程环境:Python3.8;
数据库:Neo4j-community-3.4.5。
(2)数据获取与预处理
本文的研究数据采自中国标准服务网,检索范围为现行标准,不包括已废止的标准,时间范围不限定。分别基于国际和中国标准分类号,开展金融领域标准文献的遴选,如表1所示,从而获得73份国家标准和265份行业标准,标准发布时间为1992—2020年。
表1 金融领域标准文献采集表
采用自上而下的方法,从文献文本中采集相关数据,并分别利用不同的数据预处理技术对获取的实体数据进行加工。PDF文件是标准文献编辑生成后的主要形式,本研究根据文献的段落格式并采用相关的信息抽取和逻辑结构转化技术,将原始PDF文件转化为TXT格式或XML文档,以便于更加清楚地显示标准文献的逻辑结构特点,并开展人工核验和校对。
(3)中文分词
在对标准文献范围文本内容进行中文分词的过程中,需要先通过调用Python的jieba分词器,来剔除标点符号以及非专业名词的外文词组;其次将《金融行业主题词表》作为分词组件的自定义领域词典,经过不断迭代,从而获得中文分词结果。
3.2 标准文献实体关系获取
基于针对标准文献前言、范围及规范性引用文件来开展知识抽取,从而获得标准名称、发布年份、ICS、CCS、所属标准、代替标准、采用标准、采用方式、提出单位、归口单位、负责起草单位、参加起草单位、主要起草单位、起草单位、主要起草人、规范性引用文件和参考文献。进一步基于正则表达式规则抽取获得标准文献实体关系。
针对338篇标准文献进行显性知识抽取,获得1534个实体节点和4716条关系,如表2所示。
表2 显性知识抽取实体关系数量表
鉴于部分标准的原文较难获取,面向互联网检索只能得到题录信息,因此范围部分的文本数据量将少于检索标准的总量,故本文将标准文献的标题合并到了范围数据中,并基于LDA主题模型获取的主题抽取过程,采用困惑度计算获得相对适合的主题数。设定的阈值将对困惑度的计算结果产生影响,在阈值分别为10、20、30的条件下,困惑度分别为9、19、29,进一步针对主题划分结果进行人工比对,最终得到19类主题。经过统计合并关键词后共获得136个关键词,从而形成338篇标准文献与主题类别的对应关系,包括289条标准与主题的隐性关系和460条主题与关键词的隐性关系,如表3所示。
表3 金融领域标准文献主题抽取结果
4 金融领域标准文献知识图谱可视化的实现
本研究使用Neo4j创建知识图谱,首先将建立实体节点和实体之间的关系。采用CQL“创建”命令来创建无属性节点、创建属性节点、创建无属性节点之间的关系、创建属性节点之间的关系、创建一个或多个标签节点或关系。通过CQL语句,实现抽取出来的实体关系知识库与Neo4j图数据库之间的链接并推动知识图谱可视化。图2给出了标准文献知识图谱示意图,其中“金融业务”等红色节点代表初始标准文献,“中国人民银行”等粉色节点代表标准提出单位,“全国金融标准化技术委员会”等黄色节点代表归口单位,“GB/T21078”等灰色节点代表初始标准所代替的标准文献,“银行业务证书管理”等绿色节点代表初始标准采用的标准文献。以实体节点Standard类型“金融服务生物特征识别第1部分:安全框架”为例,它与JurisdictionOrg类型“全国金融标准化技术委员会”之间的边关系为归口关系,与AdoptStandard类型“ISO 19092 1:2006《金融服务生物特征识别第1部分:安全框架》”节点之间形成了修改采用关系,展示了本文设计的核心实体与关系。
图2 标准文献知识图谱示意图
(1)标准文献中的归口单位关系。金融领域标准文献归口单位共8个,出现频次排在前5位的相关情况见表4,图3显示了标准与归口单位之间的关系,其中绿色节点代表标准文献,黄色节点代表归口单位,从实体节点的密集程度可以看出,最主要的归口单位是全国金融标准化技术委员会。
图3 归口单位图谱片段
表4 金融领域标准文献归口单位数量Top5排名
(2)标准文献中的提出单位关系。基于本文数据范围,金融领域标准文献提出单位共31个,出现频次排在前5位的情况如表5所示。图4显示了标准与提出单位之间的关系,JR/T 0173—2020《银行业集中营运规范》、JR/T 0146.2—2016《证券期货业信息系统审计指南第2部分:期货交易所》、JR/T 0101—2013《银行业软件测试文档规范》等重要标准的提出单位均为全国金融标准化技术委员会。JR/T 0138—2016《银团贷款业务技术指南》、JR/T 0014—2005《银行信息化通用代码集》的提出单位均为国家开发银行。
图4 提出单位图谱片段
表5 金融领域标准文献提出单位数量Top5排名
(3)标准文献中的采用关系。图5显示了标准与其他标准之间的采用联系,GB/T 27909.2—2011《银行业务密钥管理零售第2部分:对称密码及其密钥管理和生命周期》修改采用了ISO 11568.2:2005《银行业务密钥管理(零售)第2部分:对称密码系统及其密钥管理和生命周期》;GB/T 27911—2011《银行业安全和其他金融服务金融系统的安全框架》修改采用了ISO/TR 17944:2002《银行云安全和其他金融服务金融系统的安全框架》。
图5 采用标准图谱片段
(4)标准文献中的替代关系。图6显示了标准与其他标准之间的替代关系。JR/T 0052—2020《银行卡卡片规范》替代了JR/T 0052—2009《银行卡卡片规范》,JR/T 0025.7—2018《中国金融集成电路IC卡规范第7部分借记/贷记应用安全规范》替代了JR/T 0025.8—2013《中国金融集成电路(IC)卡规范第8部分:与应用无关的非接触式规范》。
图6 代替标准图谱片段
(5)标准文献中的起草关系。基于本文获取数据范围,金融领域标准文献起草单位的共有420个,出现频次排在前5位的情况见表6。图7以金融科技企业为例,显示了标准文献间通过起草单位构成的间接关系,其中红色节点代表标准文献,黄色节点代表起草单位。通过图谱可见,蚂蚁科技集团股份有限公司、京东数字科技控股股份有限公司、百度在线网络技术(北京)有限公司、深圳市腾讯计算机系统有限公司华为技术有限公司共同参与了JR/T 0166—2020《云计算技术金融应用规范技术架构》、JR/T 0167—2020《云计算技术金融应用规范安全技术要求》、JR/T 0168—2020《云计算技术金融应用规范容灾》、JR/T 0193—2020《区块链技术金融应用评估规则》等标准文献的起草。
表6 金融领域标准文献起草单位数量Top5排名
图7 金融科技企业参与起草图谱片段
(6)标准文献的主题关联关系。根据LDA主题模型抽取结果对我国现行金融领域标准文献进行划分,图8显示了不同标准文献间通过主题和关键词建立起来的链接关系,其中绿色节点代表标准文献,黄色节点代表关键词,蓝色节点代表主题,粉色节点代表起草单位。在华为技术有限公司参与起草的标准文献中,有6篇标准文献涉及4类主题,分别是主题1、主题10、主题12、主题13。JR/T 0193—2020《区块链技术金融应用评估规则》与JR/T 0168—2020《云计算技术金融应用规范容灾》同属于主题10,该主题与JR/T 0156—2017《移动终端支付可信环境技术规范》所属的主题13通过关键词设计、规范、安全单元建立了主题关联关系。可见,基于RDM模型的主题关联图谱是可以实现的,但图谱质量仍有待提升,有些关键词没有与之相连接的标准实体节点,这些都有待进一步完善。
图8 金融领域标准文献主题关联图谱(片段)
7 结论
本文采用基于RDM模型的知识图谱构建流程,构建了金融领域标准文献的知识图谱。针对基于中国标准服务网获取到的金融行业标准文献,采取数据预处理、清洗加工、人工干预等手段,进一步开展显性知识和隐性知识的抽取,最后利用Neo4j数据库实现图谱的可视化并进行图谱解读。
图谱给出了标注归口管理、标准的主要提出单位等信息。除了基本信息查询,还通过CQL语句进行了深度查询,在揭示隐性关联的主题关联知识图谱中,实现了标准—主题—关键词之间的相互关联关系,印证了RDM模型的可行性。
但是,本文所构建的金融领域主题关联图谱,但仍有一些无连接的关键词类型的节点,说明LDA主题模型的应用还有待进一步研究,标准文献的主题揭示效果有待进一步提升。