基于自然语言技术的内部审计风险预警框架构建与应用
2019-09-10李猛朱迎际庄轶
李猛 朱迎际 庄轶
[关键词]自然语言 内部审计 非结构化数据 风险预警
风
一、文献综述
现今商业银行面临的风险,影响最大的是当前经济下行周期形势下,不断频发的信用风险以及对信用风险的控制及其稳定情况的影响。因此,建立商业银行授信风险预警机制是防范风险、避免爆发危机的重要措施之一。风险预警机制在商业银行中的应用,分为宏观层面和微观层面,本文重点关注商业银行审计风险预警机制的构建,即风险预警机制微观层面模型方法的选择。
(一)自然语言处理技术
自然语言处理(Natural Language Processing)是人工智能中最难解决的问题之一,是运用人类自然语言与计算机系统进行通信、交互等不可缺少的技术。借助人工智能的优势,该技术可以全面运用商业银行内部生成的大数据,不断训练和调整风险预警模型,使风险预警模型通过自我学习适应商业银行内外部环境的变化,提高风险预警的正确性和预测效率。自然语言处理技术在新时代下可运用于语义分析、信息抽取、文本挖掘、机器翻译(PF Brown等,1993)、信息检索、问答系统、对话系统(Su P H等,2016)等高新技术领域,并显著提升工作效率,更早发现各类风险。
自然语言处理被定义为一门研究人与人之间交流以及人与计算机交流中语言问题的基础学科。Bill Manaris(1998)认为,自然语言处理要研究表示语言能力和语言应用的模型,建立计算机自动框架来实现特定的语言模型,提出对应方案,逐渐改进语言模型,根据语言模型设计各种应用系统并探讨这些应用系统的测评技术。李生(2013)指出,自然语言处理的研发方法分为基于规则和基于统计两种,前者是手动获取语言规则,后者则是通过对海量语料库的计量分析,对自然语言进行处理。自然语言处理的底层研究主要包括词法、句法、语义、语用、语境与篇章等分析研究。林奕欧等(2017)指出,深度学习方法逐步在机器翻译、机器问答、自动文摘、阅读理解等自然语言理解领域发展,逐渐成为自然语言处理的主流工具。“分布式特征表示”是深度学习与自然语言处理相结合的切入点,这些分布式特征是通过神经网络语言模型学习得到的。
自然语言处理的常见算法包括隐马尔可夫模型、条件随机场和神经网络等。微软亚洲研究院(2017)指出,自然语言处理技术的研究与应用主要包括以下方面:一是句法语义分析。对于给定的句子进行句法分析、语义角色解析和多义词消歧等。二是信息抽取。从给定文本中抽取重要信息,涉及实体解析、时间抽取、因果关系抽取等关键技术。三是文本数据挖掘。包括文本聚类、分类、信息抽取等以及对挖掘信息和知识的可视化、交互式的表达界面等。四是机器翻译。把输入的源语言文本通过自动翻译获得另外一种语言的文本,可细分为文本翻译、语音翻译、图形翻译等。五是信息检索。为大规模文档中的词汇建立索引,并对输入的查询表达式(如一个检索词或者一个句子)进行分析,然后在索引中查找匹配的候选文档。六是问答系统。对自然语言表达的问题,由问答系统给出精准答案。七是对话系统。通过一系列的对话,同用户进行聊天,完成某一项任务。
(二)内部审计风险预警
从模型方法选择来看,风险预警的传统模型有其自身固有的局限性,如一般依托于线性和结构化数据,难以处理复杂的非线性和非结构化数据形成的新模型,缺少自我训练和自我调整商业银行环境变化的能力。新常态下的金融背景加剧了商业银行内外部环境的变化,促使商业银行风险呈现出繁杂性和不稳定性,因而传统风险预警模型难以符合当前金融形势下对内部审计提出的要求,亟待一种新技术的引入以进一步扩大审计范围、优化审计工具、提高审计效率,同时具有自我学习能力,适应不断变化的现代业务模式。
鲁爱民等(2012)指出,审计预警系统的主要构成应该包括对商业银行内外部经营环境的评测、对企业治理机制与贯彻执行程度的审计、对关联风险解析的审计以及数据分析与预警通知四大部分。生丽英(2017)认为,风险模型是在选择具有一定特征样本的基础上,借助统计分析方法,在预警自变量指标与问题发生的概率性因变量指标之间,通过实际验证分析建立间接或直接的函数性关系。一个实用的风险预警系统应包括四个部分:风险的检查测试与分析、评价风险水平、传送高效可靠的预警信息、确定风险应急处理机制。谭红艳(2015)提出了金融内部审计预警系统构建的初步设想,即设定预警目标、设计预警标准、明确预警阀值、预警信息反馈等五个步骤。包商银行股份有限公司审计部(2017)从建立预警监测信息平台、实现资源整合管理、完善预警监测基本方法和工具三个方面构建了非现场审计预警监测体系运作模式。武慕汐等(2017)认为政府审计预警系统应当由预警模块、信息模块、干预模块及反馈调节模块构成。中国建设银行审计部(2017)运用非现场审计系统,整合银行多个系统数据资源,定义相关指标,编制非现场模型群组,建立企业经营状况定量分析、企业重大风险事项定性评价两大核心模块,再通过风险整合工具,形成对公授信客户分类预警名单。
(三)授信业务审计
当前商业银行授信业务工作中存在贷前风险防范意识淡薄、内部控制制度执行不严、贷后检查管理不到位、授信从业人员素质有待提高等问题。SC Chen等(2011)以某银行的授信审计数据为例,构建了能够有效识别授信业务规则的潜在关键因素的模型,最大限度地降低授信风险相关损失,从而有效提升银行授信业务的稳定性和盈利能力。李烨等(2013)通过分析新时期农商行授信风险的内容和授信管理的现状,指出内部审计工作有助于识别授信风险领域,确定授信管理战略目标,指导授信管理战略调整。中国农业银行审计局成都分局课题组(2013)根据各业务品种建立起贷款金额抽样模型、风险要素抽样模型和风险特征抽样模型,对商业银行授信业务审计中的抽样问题进行了研究,使得抽取的样本更集中于高风险领域。侯景波等(2015)对商业银行集团授信业务中资金运用失控、多头授信套利、放大信用风险等问题的审计检查与监督进行了探讨。甘肃银行股份有限公司(2017)在项目实施中引入群组化模型来完成数据整合、挖掘和分析,形成了一套较为系统的适用于城市商业银行授信业务内部审计工作的方法体系,提高了内部审计质量。
以上风险模型实际案例多基于传统形式为線性范式的各类模型,而这些模型仅基于结构化数据才能实现,有一定的局限性。随着大数据、人工智能技术的发展,基于人工智能技术的深度学习、自然语言处理技术的智能化模型逐步产生。大数据技术可以解析处理文本、图片、音视频等非结构化数据,机器的深度学习可以模仿人类的学习技巧不断提高。最著名的案例是2017年战胜世界排名第一围棋手柯洁的阿尔法狗。2018年5月,谷歌公司发布的语音助手实现了机器向饭店、发廊打电话预约时间等,这些成就再次让人感受到人工智能的魅力。
二、框架构建
随着我国市场经济的不断发展,商业银行授信业务已经成为主要的资产业务,授信业务的发展是商业银行发展的重要基础,也是商业银行利益增长的重要途径。其中的授信风险管理和控制就变得更加重要,如果授信风险管理和控制不到位很可能影响商业银行自身的发展,甚至威胁市场经济的稳定。我国商业银行授信风险管理过程中存在的问题包括不良贷款率较高、授信风险管理内部控制机制不健全等。新常态下加强对商业银行授信风险的管理和控制,对我国商业银行发展乃至经济金融的稳定都具有重要意义,商业银行也可以利用对授信风险的合理控制,实现利益的增长,从而提高在市场经济中的核心竞争力。
当前,国内外尚无将自然语言处理技术成功用于授信业务内部审计风险预警、落实授信业务规定、防范授信业务风险的框架。基于自然语言处理技术的内部审计风险预警框架(如图1所示)属于商业银行风险预警框架,目的是借助内部审计部门构建的自然语言处理项目,评估商业银行授信业务相关风险水平,输出商业银行授信业务风险预警信息,明确授信风险来源,提供风险处理非现场监控意见,从而达到降低甚至清除风险状态或应对风险、降低风险损失的目标。
本框架以授信业务中的审批意见或调查报告为数据基础,应用自然语言技术解析与核验后,输出授信业务风险记录,进一步进行风险预警。主要处理步骤如下。
(一)资料准备
通过跑批脚本从商业银行大数据平台批量自动提取来自授信业务系统各环节(评级、授信、授信调整、用信、放款等环节)的非结构化数据(审批意见、调查报告等)和结构化数据等资料,实现数据的每日自动更新。
(二)数据要素解析
数据资料准备完成后,由计算机系统自动运用自然语言技术智能解析授信业务各环节非结构化数据中的业务要素和关注点,作为步骤3要素核验的数据来源。
(三)要素核验
由计算机系统自动将授信业务各环节非结构化数据解析出的要素与授信业务各环节内授信业务结构化数据进行核验,某一环节解析出的要素与后续环节解析出的要素或授信业务结构化数据进行核验,并基于相似度或概率算法判定授信业务各环节中的各要素是否存在不一致的情况,形成授信业务疑似风险线索清单。
(四)数据输出
将步骤2数据要素解析中形成的非结构化数据要素解析结果、要素核验步骤形成的结果等输出,形成关系数据库可存储的二维化关系表,每日自动传送至操作型数据存储,并可在商业银行审计系统中查看分析,作为审计模型编写人员编制非现场核查审计模型的数据基础。
(五)非现场内部审计核实
采用“初核—下发核实—复核”的作业流程,对于步骤4数据输出中形成的授信业务疑似风险清单,经总部内部审计人员初次复核后,通过商业银行审计系统的非现场监控模块下发给各分支机构,由各分支机构内部审计人员进行专人核实,并由总部内部审计人员进行再次复核。
(六)风险预警
对于非现场内部审计核实中已查证属实的风险记录,通过非现场监控报告定期通报,并作进一步处理,作为今后现场审计发现问题的重要线索,充分发挥内部审计第三道防线的作用。
三、框架解析算法与流程
基于自然语言处理技术的内部审计风险预警框架,主要通过自然语言处理技术中的语义分析算法来实现解析授信业务系统非结构化数据的业务要素。
(一)自然语言处理解析算法
对非结构化数据进行有效处理,需要对其进行统一的描述。在技术层面,首先,采用自然语言处理技术中的语义分析算法来处理非结构化数据中的文本信息较为合适,引入中文核心语义库,划分出积极、中性、消极三个不同词性的词库,然后解析句子结构并根据文字倾向性进行拆分,进而对整篇文档进行语境解析,自动生成摘要并提取关键信息;其次,将多份相同类型的文档进行横向比较,从而挖掘出信息间的关联关系;最后,对海量信息进行挖掘,解析出关注热点,发掘潜在价值。非结构化数据主要挖掘流程如下:
1. 词语。语别与词汇的意义。
2. 句子。解析句子结构,解析文字倾向性。
3. 篇章。解析篇章语境,自动生成摘要,提取关键信息。
4. 多文档。事件发现与跟踪,解析信息关联性。
5. 海量信息。解析热点,发掘价值。
语义分析是在分解辨析句子的语法构成和词义上,推演出可以反映该语句含义的形式化表达,从而使计算机解析出人类自然语言,并进行深层次的知识获取,抽取出句子背后的语义信息,其处理流程如图2所示。对于待处理的文本数据,通过语义分析技术解析出其中包含的语义信息,并建立索引;而对于使用者的查询数据,采用相同的方法以备查询所用。通过计算关键字和语义片段的相似度,将各个语义的相似程度进行融合,最终得到查询语句的相似度,从数据源中找出对应文本信息。
语义分析技术目前已广泛运用于语义检索和查询结果优化的研究中,审计底稿中绝大部分材料是非结构化的文字描述,有很多底稿还包含审计人员的主观评价。因此,可以通过语义分析技术挖掘出文本中的主客观性、观点、审批意见等,对其情感倾向作出判断。
(二)解析算法实现流程
自然语言处理解析算法实现语义信息提取的全流程,主要包括以下环节:
1. 语法处理。在传统自然语言算法处理的基础上,引入深度学习领域先进的算法,主要做法是对文本中的语句进行切分、词性标注,并确定词性间的语法关系,如主谓、动宾、定中等关系。
2. 语句过滤。由于后一阶段的需要,对于语法处理中某些无意义的信息或获取不到正常语义信息的句子,本阶段会将其过滤。
3. 主干提取。通过分析主干句子的词性来明确语句所属的句型,如在语句中出现状中关系和定中关系时,可以去掉其中表示状语和定语的词。
4. 句型解析。通过提取的句子主干成分,分析词性来明确该句子的句型,如某一语句结构为“代词—动词—名词”时,即可明确该语句符合陈述句的句型。
5. 修饰词获取。在最终确定语义信息之前,需要分析语句中的修饰词,提取其中修饰性词语包含的信息,如定语、补语等。
6. 信息生成。根据上一阶段的处理结果,提取出语义片段,通过结构化信息的形式表现出来。
四、框架应用——以NJ银行授信业务为例
NJ银行授信业务流程中产生了大量非结构化文本数据,比如各类审批意见和调查报告等,而现有的非现场监控模型由人工基于结构化二维数据构建,缺少对审批意见等数据的分析应用。本文提出的基于自然语言处理技术的内部审计风险预警框架的目的,是结合实践经验,运用自然语言处理技术对此类非结构化文本信息进行解析和挖掘,将文本中的关键信息数据化,与传统结构化数据结合分析,作出具有前瞻性、实用性的成果。利用大数据和人工智能与银行业务相结合的应用,提高非现场审计中风险预警工作效率和业务洞察力。
本项目需运用自然语言处理技术对客户评级环节的审批意见、授信环节的审批意见和调查报告、授信环节额度或利率历次调整(个别业务会有要素调整)的会签意见和调查报告、用信环节的审批意见和调查报告进行解析,从而进一步落实审批意见。
(一)业务需求
1.授信审批意见和调查报告语义解析。解析NJ银行授信业务流程,自动批量采集并展现NJ银行尚未结清的所有授信业务每个环节的审批意见和调查报告等。运用自然语言处理技术解析客户评级环节的审批意见、授信環节的审批意见和调查报告、授信环节额度或利率历次调整的会签意见和调查报告,用信环节的审批意见和调查报告,解析出业务要素等关注点(如业务品种、申请金额等),如表1所示。
2.对比和核验。利用丰富的语料库,结合深度学习平台,从NJ银行存量及新增审批意见和调查报告中解析出重点关注点并进一步结构化,提供与授信业务中业务要素进行对比、核验的依据,对比与核验的要素主要包括业务品种、额度等。对比与核验主要包括三部分:一是用信环节是否突破授信环节(如有授信额度的要素调整环节,以调整后的为准)的限制。二是用信环节解析出的要素与信贷系统中记录实际发生的放款环节结构化数据进行对比和核验。三是客户评级环节、授信环节、授信要素调整环节、用信环节等解析出的业务要素等关注点与各自环节内信贷系统存在的结构化数据进行对比和核验。
将上述解析出的业务要素等关注点,形成结构化数据,传送至操作型数据存储,辅助完成对审批意见和调查报告落实情况的检查,进一步拓展应用范围。通过整合NJ银行内外部数据,构建支撑各类应用的语义实体库,提供智能、灵活的交互式图谱分析解决方案。在解析过程中,帮助NJ银行完成授信业务语料库(业务要素等关注点)的智能积累,实现系统深度学习,不断调优,推动授信风险管理的智能化。
(二)系统实现
基于自然语言处理技术的内部审计风险预警框架所开发的应用系统采用B/S架构(即Browser/Server,浏览器/服务器),兼容性强。软件方面采用主流语言和数据库Java、Hadoop、ArangoDB、MySQL、Elastic Search等,硬件方面采用3台数据库服务器、1台Web服务器、1台自然语言解析与核验服务器。系统每日从操作型数据存储中提取数据,经自然语言处理要素解析与核验后,形成授信业务风险记录输出,系统详细架构如图3所示。
(三)应用成效
NJ银行运用基于自然语言处理技术,每日处理公司客户约10,000户,未结清授信业务约50,000笔,在授信环节核验方面发现风险记录约300条,在授信调整环节核验方面发现风险记录约50条,在用信环节核验方面发现风险记录约3500条,用信环节是否突存授信环节核验方面发现风险记录约830条,放款环节与用信环节核验方面发现风险记录约3600条,可见授信业务用信环节是内部审计需重点关注的方向,是贷后管理的重要参考。
通过智能审计系统分发给各分行进行非现场审计核实查证,经内部审计人员比对授信业务系统中的审批意见与执行信息,核实确认两者不一致的风险记录,发现了主要问题,充分发挥了运用自然语言处理技术进行内部审计风险预警的效果。
(作者单位:南京银行,邮政编码:210008,电子邮箱:lim9@njcb.com.cn)
主要参考文献
李生.自然语言处理的研究与发展[J].燕山大学学报, 2013(5):377-384
林奕欧,雷航,李晓瑜等.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报, 2017(6):913-919
鲁爱民,盂志青.审计预警系统的构建研究[J].会计之友, 2012(29):91-98
生丽英.企业风险的内部审计预警机制研究:基于大数据与ANN模型的应用[J].中国内部审计, 2017(9):12-18
武慕汐,冯淑霞.关于构建政府审计预警机制的思考[J].经济师, 2017(8):160-161