知识图谱技术在商业银行审计中的应用研究
2021-11-08李艳东
李艳东
【关键词】 知识图谱; 商业银行; 内部审计; 担保; PageRank; 图数据库
【中图分类号】 F239;C931.6 【文献标识码】 A 【文章编号】 1004-5937(2021)22-0115-05
一、引言
知识图谱是以图的形式来描述世界万物及其关系的建模方法[ 1 ]。知识图谱技术可以直观、明了、形象地刻画出审计关注对象(如客户、员工、分支机构、股东、监管机构、同业、供应商、合作伙伴等)之间的关联网络,并从多维度呈现审计对象的真实属性和复杂多样的连接关系,避免了抽样风险,降低了审计风险,提升了内部审计的工作效率和效果。本文基于大数据语言和开源工具软件,构建了改进的知识图谱技术实现方法,对商业银行担保业务审计高阶模型进行了尝试和探索,有助于审计人员快速把握审计重点,并掌握新型的审计思路,为内部审计数字化转型提供参考。
二、研究回顾
(一)知识图谱简介
知识图谱基于语义网络,能够客观描述实体之间或概念之间的复杂关联关系。知识图谱的构建涉及节点抽取、属性定义、关系建立、图形展示、关系优化等多方面技术,而知识图谱的应用涉及自然语言处理(NLP)、数据挖掘、机器学习、深度学习(Deep Learning)、人工智能等方面技术。
知识图谱由节点和边组成。节点可以是具象实体,如某个机构、某位客户等,也可以是抽象概念,如精品盈利、最佳服务等。边可以是实体的属性,如联系方式、通信地址,也可以是实体之间的关系,如股东、供应商。知识图谱的初始理念是把用文本实现链接的传统网络转化成具备一定智能、通过实体链接、能够理解逻辑关系的语义网(Semantic)[ 2-3 ]。
1994年,Tim Berners-Lee提出网络不应该只是网页之间的互相链接。因为在现实生活中,网站描述的都是现实世界中存在的具体实物或者人脑中存在的抽象概念,网页之间的链接应当体现这些实体或概念之间的关联关系。但是当时计算机无法有效地从网页中识别出其中相关语义。Tim Berners-Lee于1998年提出了Semantic
Web的概念[ 4 ]。与传统的基于网页的互联网不同,Semantic Web的本质是基于事物(Web of Things),通过图和链接的组织方式进行呈现。图中节点不仅支持网页,而且支持具象实体或抽象概念。图中边代表超链接,增加了语义描述,用于标明实体之间的关联关系。
在Semantic Web概念之后,大量新兴语义和知识库开始涌现,如亚马逊公司的True Knowledge,谷歌公司的Freebase,IBM公司的Yago等。谷歌公司在2010年收购了MetaWeb公司,并以其Freebase产品为基础,于2012年推出基于知识图谱的搜索引擎。之后,知识图谱开始在智能问答、舆情分析、数据挖掘、机器学习、深度学习等领域凸显出越来越重要的作用。
(二)PageRank算法简介
谷歌公司革命性的发明是“PageRank”网页排名算法。该算法最初用于互联网网页搜集,在1998年前后使得网络搜索实现质的飞跃。该算法会通过一定规则确定出每个网页的PageRank(PR)值来衡量网页的重要程度,然后对PR值进行大小排序[ 5 ]。在互联网,当某网页被多个网页所指向或链接,说明它受到认可和信赖,其重要程度就高;如果某网页没有被指向或链接多次,但被其他重要的网页指向和链接,那么该网页重要程度也高。网页的PR值主要受到三个因素影响,分别是指向该网页的前置网页数量、指向该网页的前置网頁重要程度和该网页背向指出数量。网页PR值的计算方法如公式(1)所示。其中,PR(A)、PR(B)、PR(C)分别表示网页A、B、C的PR值,L(B)、L(C)、L(D)分别表示网页B、C、D的出链数。
如果用向量B=(b1,b2,…,bn)T表示各网页的排名值,用Bi表示第i次迭代结果,用矩阵A=a11 … a1m … a1n… … … … …am1 … amm … amn… … … … …an1 … anm … ann表示网页之间的转移概率,其中amn表示第m个网页指向第n个网页的链接概率,那么可以用公式(2)表示网页排名情况。其中,Bi表示i时刻的网页排名情况,Bi-1表示前一时刻的网页排名情况。
在公式(2)经过数次迭代趋于收敛后,可以得到公式(3):
由于存在某些孤立网页不指向其他任何网页的特殊情况,转移矩阵A往往为稀疏矩阵。为了解决小概率事件下稀疏矩阵的运算问题,引入常数?琢进行平滑处理,得到公式(4)。其中N是互联网网页的数量,I是单位矩阵,?琢为介于0到1之间的常数,一般取0.15。
PageRank算法在数据挖掘与知识图谱中的研究和应用越来越多,尤其在社群识别(Community Identification)方面效果非常明显。商业银行在内部审计中可以运用PageRank算法,将审计关注对象作为网络中的节点,通过各种关联关系构建有向图,然后计算转移概率,再通过迭代,得到满足收敛条件的PR值,进而识别出可疑个体及其关联团体。
三、商业银行担保业务审计重点及存在困难
当前,国内外宏观经济发展处于下行期。商业银行为规避社会信用环境恶化风险,主动压降信用贷款,发展担保贷款加强风险补偿。在实践工作中,担保贷款管理不到位给银行信贷资产造成损失的案例层出不穷,成为商业银行内部审计必须关注的重点。
广义担保包括保证、质押和抵押等,是指商业银行通过改变信贷风险轮廓来影响借款人的违约损失率或违约概率,从而降低其信用风险。狭义担保特指保证,是指商业银行与保证人约定,如果借款人不履行债务,保证人将承担履行债务的责任[ 6 ]。担保的最大特点是以第三人的信用来实现债务履约。在本文中,担保特指狭义担保。