基于人工神经网络的金融信息系统风险评价

2022-11-10王煦莹沈红波徐兴周

信息安全研究 2022年11期

王煦莹沈红波徐兴周

1(香港中文大学(深圳)经济管理学院广东深圳 518172) 2(复旦大学经济学院上海 200433) 3(中国船舶集团有限公司北京 200011)

随着我国信息化的飞速发展，大数据、人工智能技术如雨后春笋般地快速发展，数据集中化、集中海量化、海量共享化、共享融合化、融合物联化、物联智能化的发展趋势已不可逆转.金融信息化作为我国信息化领域的排头兵，其金融科技的发展日新月异.金融科技的快速发展-方面带来了高效便捷，另一方面也带来了风险.在金融科技风险的构成要素中，信息系统风险尤为重要[1].因此，要想有效维护金融安全，就必须快速识别金融风险；要想快速识别金融风险，就必须快速识别金融科技风险；要想快速识别金融科技风险，就必须有效强化金融信息系统的风险评价能力，尤其重点关注金融信息系统的安全性、稳定性和可靠性.

1 相关研究

金融安全与金融风险两者互为依存，相当于硬币的两面，金融安全离不开对金融风险的防控.要想把金融安全工作做好，就必须提高对金融风险的防范能力[2].

宋喆[3]指出我国已经形成一个开放、全面的金融电子化体系，有效促进了我国金融行业的改革和发展，加快了整个社会信息化、现代化的进程.金融行业的信息化发展可以分为3类方式：一是以银行为主导的数据集中型信息化发展方式；二是以保险业为主导的数据集中型信息化发展方式；三是以证券、基金、信托、期货为主导的数据集中与分散型信息化发展方式.王常华[4]表示金融行业构建计算机信息系统追求的是网络平台构建，借此提升行业服务质量与效率，同时金融行业构建计算机信息系统覆盖面较广，提高了金融资源配置应用的合理合规性.虽然金融行业信息系统的开发方式有所区别，开发手段不尽一致，应用领域各有不同，但从信息系统的开发流程来看基本是相同的，归纳起来可以将金融信息系统开发流程分为规划论证、需求设计、软件开发、测试及试运行4个阶段.

卫丽[5]表示风险分析必须在金融信息系统建设初期开始进行，风险管理贯穿于系统建设和实施的全过程.李巍军[6]指出金融信息十分庞杂，潜在风险巨大.唐辉[7]认为金融信息系统网络安全类型可以通过威胁主体、资源、动机、途径等属性进行描述.徐劲松[8]认为金融信息系统风险将造成严重后果，需要相关机构提前做好风险防控，提升安全风险识别能力.陈晓燕[9]认为金融信息系统安全建设重在防范和精准识别，否则已经造成的不良影响将很难补救，因此金融行业应更加重视信息系统管理体系的建立.

综上所述，金融机构应高度关注信息系统在规划论证、需求设计、软件开发、测试及试运行等阶段存在的源头性风险，主要涉及：信息系统规划是否科学，论证是否充分；需求设计是否明确，实现路径是否清晰；软件开发是否由金融机构独立完成，是否涉及系统外包及从国外购买；软件测试是否合规到位，存在的问题是否得到有效解决，问题解决过程是否完整高效；系统是否经过了试运行[10].

基于上述风险，本文设立了金融信息系统风险评价指标，提出了基于人工神经网络的金融信息系统风险评价模型.结果表明，本文模型能够准确识别不同金融机构信息系统的风险状况，将不同金融机构信息系统的风险状况分为“高”“中”“低”3个等级；同时将信息系统风险等级为“低”的金融机构作为关注重点，采取相应措施，以提升金融风险的风控水平，更好地保障金融机构的安全运行.

2 理论背景

人工神经网络(artificial neural network, ANN)是通过对人类大脑的部分特征进行生理模拟，由大量处理单元通过适当的方式互连而构成的一个大规模非线性自适应系统.人工神经网络具有很强的学习能力，其可接受用户提交的样本集合，根据所提交的数据样本，依照设定好的算法，不断修正优化用于确定系统行为的神经元之间连接的强弱关系[11].人工神经网络模型基本搭建后，可根据其接受的数据样本集合自然地进行学习.在学习过程中，人工神经网络不断从数据样本中提取代表该样本的独特特征，并以连接权重的形式存放于系统中[12].

BP(back propagation)算法是一种应用广泛的人工神经网络算法.它通过输出层的误差来反向预测输出层的直接前导层的误差，以此类推，最终获得所有其他层的误差预测，这样就形成了将输出层的误差沿着与输入信号传送相反的方向逐级向网络的输入层传播的过程[13].使用BP算法进行学习的多级非循环网络称为BP网络.BP网络的这种学习能力为建立基于人工神经网络的金融信息系统风险评价模型提供了理论保证[14].

3 模型设计

3.1 指标设定

为了能够定量计算金融机构信息系统的风险状况，本文针对金融信息系统开发流程的4个阶段设立了18个指标.具体指标名称及其含义如表1所示：

表1 指标名称及其含义

3.2 数据处理

随机选择截至2021年底的60家金融机构开发的信息系统作为数据样本集，对获取的相关信息运用多种工具进行梳理、加工和计算，整理加工出60组样本数据.为了消除不同指标差异的影响，对样本数据进行归一化处理，使得样本数据都在(0,1)范围内.将60组样本数据随机划分为训练样本和测试样本，训练数据与测试数据的数据量比例为2∶1.模型训练过程中，因为BP神经网络初始权重设置并不相同，对应的训练结果也会发生随机变化，从而得到不同的输出数据.为了避免这种现象的发生，通过随机种子参数random_state进行调整，对数据进行处理.

3.3 模型提出

本文模型的建立思路是：

1) 实现BP神经网络.

随机选取较小的非零数，设置初始权重W(0).构造输入/输出样本对(A,B)，其中输入样本为AP=(a1p，a2p,…,anp) ，输出样本为B=(b1p，b2p,…,bnp) ，p=1,2…,L.设置实际输出为DP= (d1p，d2p,…,dnp).模型根据不同的隐藏层、输入层、输出层进行多次正向传播计算，得到测试数据对应的被解释变量的预测值(即输出样本B).将此预测值与实际测试数据中被解释变量的实际值带入目标函数求取误差值J(t)，如式(1)所示：

(1)

将J(t)与要求的精度ε进行比较.当J(t)≤ε时，训练结束；否则按照梯度下降的方法反向逐层调整权重值Wij，如式(2)所示，直到J(t)≤ε，训练结束.

(2)

其中，η为倍数因子.

2) 运用R语言构建基于人工神经网络的金融信息系统风险评价模型.

选择不同数量的隐含层神经元分别执行模型，通过执行过程中的误差值对比，选择最优的隐含层神经元数量，以确立本文神经网络模型.分别设置1～7个隐含层神经元数量，并以误差函数的绝对偏导数(精度)0.05为结束标准，即每次执行模型，如果输出层的输出结果(即J(t))≤0.05，则停止本组数据在BP神经网络的运算.实际测试中，当分别设置1～7个隐含层神经元数量时，不同神经元数量在神经网络模型的训练次数分别为311,324,215,368,376,454,532次时，输出误差值(J(t))小于0.05，训练结束，此时误差值分别对应为0.003 3,-0.002 4,0.000 1,-0.000 2,-0.000 4,0.002 0,0.003 8.综合考虑不同神经元数量的训练次数与误差值，表明隐含层为5个神经元时训练效果最好.

3) 设定评价金融机构信息系统风险的标准.

以每个机构的18个指标为1组输入数据，输入构建的基于人工神经网络的金融信息系统风险评价模型.根据输出层的输出数据(即输出层的被解释变量的预测值)，结合实践经验，设定评价金融机构信息系统风险的标准如下：如果输出层的被解释变量的预测值大于0.8，表示该金融机构拥有“高”的信息系统风险状况；如果在0.6～0.8之间，表示该金融机构拥有“中”的信息系统风险状况；如果小于0.6，表示该金融机构拥有“低”的信息系统风险状况.

4 模型计算与结果分析

4.1 训练样本计算与分析

首先，通过建立的BP人工神经网络预测模型对训练样本进行训练.采用式(1)通过迭代训练得到最优训练结果.

然后，通过相关系数分析和误差分析对最优训练结果进行检验.对最优训练结果中的预测值与实际值进行拟合，得到金融机构信息系统风险预测值与实际值的相关系数为0.999 906 093，此结果在本文接受范围内.利用均值公式、平方和公式对最优训练结果进行误差分析，得到均值误差为0.003 124 665，平方和误差为0.000 380 778，相对误差为0.003 124 665.误差较小，说明训练样本的精度较高.

最后，将最优训练结果带入金融信息系统风险评价模型，将最优训练结果拟合输出，如图1所示:

由图1可知，预测值与实际值拟合效果很好.结合3.3节提出的评价金融机构信息系统风险的标准对输出结果进行分析.针对40个训练样本，输出结果小于0.6的有10个，即风险等级“高”的有10家金融机构；输出结果在0.6～0.8之间的有20个，即风险等级“中”的有20家金融机构；输出结果大于0.8的有10个，即风险等级“低”的有10家金融机构.综合上述结果，说明建立的人工神经网络模型在金融机构信息系统风险评价上模拟效果好、训练精度高.

4.2 测试样本计算与分析

首先，用金融信息系统风险评价模型测试预先分类的20组测试样本，获取测试结果.

然后，对测试结果中的预测值与实际值进行拟合，得到金融机构信息系统风险预测值与实际值的相关系数为0.999 912 775，测试样本的预测值与实际值的相关系数高于训练样本的相关系数.利用均值公式、平方和公式对检验结果进行误差分析，得到均值误差为0.003 940 158，平方和误差为0.000 294 97，相对误差为0.003 940 158，均值误差大于训练样本的均值误差.以上结果均在本文接受范围内，说明本文模型在调参过程中选择的超参数较好.

最后，将测试结果拟合输出，如图2所示:

由图2可知，预测值与实际值几乎重合，说明吻合程度较高.结合3.3节提出的评价金融机构信息系统风险的标准对输出结果进行分析.针对20个测试样本，输出结果小于0.6的有4个，即风险等级“高”的有4家金融机构；输出结果在0.6～0.8之间的有10个，即风险等级“中”的有10家金融机构；输出结果大于0.8的有6个，即风险等级“低”的有6家金融机构.

4.3 评价与建议

从前述分析可知，整体来看，训练样本和测试样本的相关系数都很高，均值误差较小，信息系统风险评价预测值-实际值拟合效果很好，说明本文建立的基于人工神经网络的金融信息系统风险评估模型是可靠的、可行的.

根据模型测试结果从金融角度提出以下建议：1)抬高准入门槛.国家对金融机构入场进行严格把控，有关部门对此类机构进行严格背景审查，要求其提供从业资格证、执照、公司历史征信记录等，把风险出现的可能性降低.2)建立数据库.例如，针对风险等级“高”的机构，整理此类机构的问题，总结经验.同时，针对已经入场的机构，如风险等级“中”和风险等级“低”的机构，定期排查其经营业务并进行评价记录，定期核查数据的异常情况，做到信息完全透明和风险扩大前的快速反应.3)坚守底线思维.金融企业必须严格遵守行业规则以及政策和法律法规，保护用户隐私.监管部门要明确金融机构的服务边界以及监管底线，精准保护消费者权益，把可能引发的风险控制在可承受的范围内.