知识图谱基于金融租赁产业方向的分析与建议
2021-12-08司元成温珂朱妍霍方柏
司元成 温珂 朱妍 霍方柏
互联网高速发展带来的是数据井喷式的增加,如何从海量的数据中获取有效信息成为金融机构需要面对的挑战。在此背景下,知识图谱开始崭露头角。知识图谱作为大规模知识工程,涉及到数据库、自然语言处理、知识表示、机器学习、深度学习等相关学科,在金融机构业务应用领域具有十分广泛的应用前景。本文简要分析了行业知识图谱(Domain-specific Knowledge Graph,DKG)落地金融租赁领域时可能遇到的问题,并基于业务层面给出相关分析与建议。
作为一种用图模型来描述知识和建模与世界万物之间关联关系的大规模语义网络,知识图谱支持非线性、多层次、高阶关系的分析,帮助查询端实现理解、解释和推理的能力,而这正好满足金融租赁业务过程中对大量结构化或非结构化数据知识的需求,因此,如何有效构建基于金融租赁行业业务方向的知识图谱,对于提升金融租赁行业的工作效能而言至关重要。
知识图谱(Knowledge Graph)是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。实体是知识图谱中最基本元素,不同的实体间存在不同的关系。每个实体可用一个全局唯一确定的ID来标识,每个属性—属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。简而言之,知识图谱是一种用图模型来描述标的产品和标的属性之间相互关联关系的技术和方法。结合具体实例,参考天眼查的企业图谱或者股权结构图谱,其更倾向于一种以图数据库的形式展现知识内容,并不涉及到知识推理和知识应用的相关过程,而是更多的聚焦在知识抽取和知识融合层面,提供更多的方向是知识展示,而非内容推导和判断,具体的决策过程,更多是由查询机构基于已有先验知识进行主观判断后得出的结论,所以从某种意义上说,我们所要构建的金融租赁行业知识图谱,是结合行业内特定知识属性的图谱,可以理解为是在基础知识图谱的基础上,添加上行业特定的属性关系以后,一种基于租赁这个垂直领域的图数据库(Graph Database)。在知识推理或者规则推理部分,我们更多的是依托图谱查询人员,如业务经理,在接受标的物的图谱相关标的信息展示后,根据个人业务经验,或者业务逻辑判断去做分析,图谱作用更多定位在辅助查询或者业务字典的角色。所以在第二部分,我们主要考虑基于租赁垂直领域的相关业务,我们该如何寻找本体和属性,去构建基于部门业务内容的知识图谱。这里同时也建议,在获得充分的历史数据之后,在图谱的后续版本中加入基于算法或者归纳的推理部分作为信息的补充,但要提前进行风险声明和披露。
业务面结合分析:知识图谱的构建前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司或承租人的數据库,并以结构化的形式存储;另一种则是可以从网络或其他第三方媒介合法公开获取的数据,这些数据通常是以网页、文本、多媒体等形式存在,如公开的公报、研报及新闻的联合抽取等,通常以非结构化的形式存在。前者一般只需要简单预处理即可以作为后续决策系统的知识输入,但后者一般需要借助自然语言处理等技术来提取结构化信息,而且对于金融租赁领域而言尤其需要考虑所获取非结构化信息的时效性。在具体的业务操作当中,我们应该去关注哪些实体和属性,以及通过何种关系去定义实体和属性之间的连接关系,这将在很大程度上影响图谱展示的有效性以及查询人员收集信息的效率。垂直领域的知识图谱并非展示的信息越全越好,过于庞杂的信息反而会掩盖真正有效的属性和关系,因此我们提取了以下和金融租赁全领域业务都密切相关的知识属性作为内容补充。
一、数据收集——基于业务层面的公开数据知识抽取建议
由于不同业务条线对于知识信息获取意愿不同,本文结合前台尽调业务面的基本诉求,提供一些可以作为备选实体和关系的素材,主要聚焦在非实地调查领域的信息收集和获取。其中相关资本充足性、流动性、质量维度、经营管理以及盈利能力方面的财务数据可以从承租人处直接获得,所以这里我们主要聚焦在基于网络或者第三方平台公开数据的获取与知识抽取方面。综合来说,可获取的实体或属性内容(通过第三方接口调用或者爬虫技术)可分为以下几个部分:
(一)承租人基础资料
承租人/担保人营业执照 (国家企业信用信息公示系统、小微企业名录、增值税一般纳税人资格查询、国家工商总局商标局等);行业属性(全国组织机构统一社会信用代码、中国证券投资基金业协会、高新技术企业认定查询等);主体资质及信用信息查询 (人行、信用中国、各省、市级信用网、信用视界、长三角征信链等);法定代表人或实际控制人相关个人或关系属性 (企查查、天眼查、国家企业信用信息公示系统等);股东,高管及关联企业情况;知识产权 (国家知识产权局、中国版权保护中心等);法律诉讼 (裁判文书网、人民法院诉讼资产网、全国法院被执行人信息查询系统等)。
(二)租赁物资料
租赁物清单,评估报告,权属关系材料(全国金融租赁企业管理信息系统,公司内部数据库等)。
(三)担保资料
抵押物权属证明文件,处置权情况查询,抵押物价值预评估(动产融资统一登记公示系统,中证登股票质押信息等)。
(四)基于第三方企业风控信息系统提供的次级数据
基于特定业务规则的风险模型输出(基于业务规则下的不一致性验证、基于规则下的特征提取等),基于特定算法的风险概率模型结果输出(社区挖掘、标签传播等)。
需要注意的是以上来源的知识结构更加复杂,通常包含较为复杂的本体知识工程和规则型知识,同时对知识抽取的质量要求更高,很多情况下需要结合企业内部的结构化数据和第三方以及网络数据进行联合抽取,同时通过人工进行审核校验,保证知识抽取质量。
二、图谱设计——基于业务层面的实体关系构建相关建议
由以上模拟图示可以看出,虽然可以通过知识图谱对相关信息进行一览无余的展示,但实际和传统的通过数据库或者人工收集信息相比,只是提高了信息采集效率,并未在知识挖掘上体现出知识图谱的技术优势。基于知识图谱的关系挖掘简单来说可以通过以下两种方式去实现:一是通过相关算法计算(基于图结构化数据之间关联性的推理运算)、概率图模型、知识表示学习(将知识映射到向量空间参与计算,用深度学习挖掘隐藏关系)等技术手段,进行规则挖掘。这可以作为技术部门今后发展研究的一个长期方向;二是通过业务知识构建有效实体属性去搭建知识图谱的基本框架,这是短期内可以提升关系挖掘效率的手段。在设计知识图谱框架的时候,一定要把握业务原则,即要尽可能的从业务逻辑出发。同时观察知识图谱的设计也很容易推测其背后业务的逻辑,并且提前在设计时考虑未来业务可能的变化并预留可能的接口。由于不同方向的业务部门对进件审核流程可能存在较大的差异性,因此建议技术部门在进行知识图谱构建时,要加强和业务部门的业务专家交流,明确相关个体属性的时序审核流程,并在不断反馈更新迭代中完善构图逻辑。具体可采用多人协作构建领域schema的方式,在权限管理、协作模式、schema融合等框架下完成图谱的快速构建。
三、应用开发——基于业务层面的构建图谱关系视图及附加功能的相关建议
(一)构建基于业务导向的封闭分类知识图谱
随着实体和属性的大量引入,整个知识图谱的复杂程度会急剧上升,这里建议将对应的实体关系,按照业务流程,划分成几个业务图谱大类分别进行展示,如承租人基本关系图谱、租赁物图谱、抵押物图谱、担保圈图谱等。举例来说,在承租人基本关系图谱中,包括但不局限于承租人关联关系图谱、投融资图谱、上下游企业图谱等业务部门关注的信息,同时可以把那些对分析业务关系无关紧要的信息存储在传统的关系型数据库中,这样即兼顾了信息完整性,同时也保证了图谱的轻量化。另外,如何兼顾业务需求的广度与图谱构建的封闭性要求,需要在设计层面做好可行性分析。
(二)构建基于信息检索的知识图谱问答系统
知识图谱在研究之初即是作为google优化搜索引擎的重要辅助工具,具有较强的工程应用价值。基于知识图谱问答描述的是通过查询知识图谱的内容获得相关知识,自动回答提问人提出的自然语言问题的过程。按照知识源类型可将问答分成三种类型:一是机器阅读理解式问答,即从非结构文本化数据中检索和抽取答案。二是知识图谱问答,即直接从构建好的结构化知识库中检索答案。三是开放领域问答基于公开语义资料如百科,社区问答等检索答案。
这里考虑到垂直领域的数据来源和对金融系统对知识质量和精度的高要求,而KGQA的工作方式涉及到将自然语言问题转换成知识图谱上的查询语句(即映射成结构化查询的过程,包括实体链接和属性理解两个主要子过程)为了减少文本分析过程中多次跳跃迭代后可能产生的语义漂移(Semantic drift)所导致的技术性风险,这里我们建议问答系统仅仅作为一种关键词检索工具,通过查询人员输入关键词快速查找定位实体,而非复杂的自然语言长句或语义模板进行语义拆分运算查找。目的是允许非专业用户,使用关键词检索知识库,并获得相关信息,从而无需使用专业的数据库查询语言来构建查询。或者更进一步,可以构建基于问答模板的KGQA系统,人工标注每个模板所有对应知识图谱中的属性来完成属性关联,这样可以从一定程度上提高问答系统的可控性,但缺点在于人工标注的模板数量有限,而且需要查询人员对问答模板语句提前熟悉了解(当然可以为后续功能如智能问答,智能客服等保留拓展接口)。
四、决策支持——基于业务层面前期业务的一些想法和行业观察
考虑到前期业务层面的具体工作流程,知识图谱在金融租赁垂直领域可以为前期业务进件判断环节提供具体的深层关系并提升业务人员的判断推理能力。由于相关垂直领域历史数据的样本量不足和垂直领域数据的保密性,根据相关图结构数据的机器学习算法进行关于进件接收/拒绝的判断具有极大的风险和不确定性。如何基于处理后的结构化文本数据和图结构在最大程度上对有效信息进行挖掘,是值得思考的问题。目前来看对图结构进行数据挖掘主要为了解决以下六个方向的问题:路径发现和搜索、中心性、社区发现、相似度、节点链接预测、图嵌入。带回到具体的业务内容,可以运用相对应的算法对项目审批中的以下(包括但不局限于)常见问题提供相应的信息支持:企业实际控制人、关联企业发现、承租人推荐、业务因果分析、业务知识构建。结合最新知识图谱领域大量的专利申请,已有如中行、建行等金融机构近期在知识图谱金融应用落地领域进行专利申请布局,这也从侧面印证了以上结合业务问题确定研究方向的可行性。
五、质量评估——基于业务层面的质量评估方法
知识图谱质量评估的考察对象涉及到知识图谱的方方面面,一般来说知识图谱结合業务层面的质量评估考虑以下四个维度:一是准确性,即主要考虑图谱中各类信息的准确程度,数据源中原始数据的准确程度和知识抽取过程中产生的误差会直接影响到知识图谱的有效应用;二是一致性,即图谱中的内部知识表达是否一致,如已有先验知识A和B是同一公司的高管,由图谱知识得知A的公司为X(A),B的公司为X(B),如果X(A)和X(B)并非指向同一实体,则此处便存在不一致性错误;三是完整性,主要考察的是知识图谱对于业务所需信息的覆盖程度,对于垂直领域知识图谱来说构建相对封闭的知识图谱较为容易;四是时效性,时效性考察知识图谱中的知识是否为最新知识,在金融租赁领域信息的有效性尤为重要,如股东变更、司法信息变更、质押物信息变更等。因此,图谱信息的更新频率是金融行业知识图谱准确性的一个重要度量。
为了有效确保知识图谱中知识的可靠性,我们结合业务层面提出以下四种质量评估方式:一是业务专家根据实体关系的重要性程度,对信息集合采用概率或者非概率抽样的方式(如重点抽样或者典型抽样)对实体关系进行人工抽样检测;二是业务专家根据具体的工作流程制定一致性检验规则,检测符合规则定义类型的质量问题;三是针对不同的业务类型,在业务专家的指导下,找出所需实体关系信息的最大闭集,确保图谱的完整性要求;四是对标与业务知识图谱有较高重合度的高质量外部数据作为基准数据,定期对目标知识图谱进行质量和对比检测,保证信息的时效性。
六、总结
当前知识图谱在金融租赁这一垂直领域的应用场景尚未有明确的规划和布局,仍处于探索研究阶段。但可以预见的是,随着互联网技术和人工智能等技术的进一步发展,知识推理等功能模块的完整性和准确性的逐步提升,知识图谱作为一种打破行业知识孤岛的有效工具,将会大大降低金融租赁公司的风险识别成本,并给公司的全面风险管理水平带来质的飞越。
作者单位:苏银金融租赁有限公司