浅析机器学习在风险评估中的应用
2017-07-05陆欣华
陆欣华
本文结合从事信息化领域工作的经验和体会,提出如何在风险评估过程中,应用大数据和机器学习等技术,供大家研究。
随着互联网的迅猛发展,数据挖掘、机器学习等技术开始兴起。如何把这些新兴技术应用于企业经营、科学决策过程当中,越来越受到广泛关注。本文结合从事信息化领域的经验和体会,提出如何在风险评估过程中,应用大数据和机器学习等技术,供大家研究。
风险管理的发展历程
风险管理最早起源于美国。1931年由美国管理协会保险部最先倡导风险管理。1932年美国纽约几家大公司组织成立纽约保险经纪人协会,该协会定期讨论有关风险管理的理论与实践问题,并逐渐发展为全美范围的风险研究所和美国保险及风险管理协会。该协会的成立标志着风险管理的兴起。
1953年8月12日,美国通用汽车公司变速装置厂发生了火灾,直接经济损失高达300万美元。这场大火造成间接损失高达1亿美元之巨。这一事件直接导致公司高层决策人员对风险管理的重视,进而促进了风险管理在全球的兴起。到上世纪70年代,随着项目管理的风行,作为项目管理9大领域(项目整体管理、项目范围管理、项目时间管理、项目成本管理、项目人力资源管理、项目质量管理、项目沟通管理、项目风险管理、项目采购管理)之一的风险管理得到迅速发展。
时至今日,风险管理部门已经成为多数企业中的一个重要职能部门,为实现企业的经营目标而努力。
然而,风险管理的方法和工具,近些年没有重大的发展,仍然使用传统的管理学工具进行定性分析。随着互联网的迅猛发展,大数据、数据挖掘和机器学习等新兴技术开始出现,并且在企业的经营决策过程中得到应用。
大数据
大数据作为新兴的一项技术,还没有特别权威的定义。有定义为海量数据的,有定义为全数据的。目前在IT界较为认可的定义是,在可承受的时间范围内,无法用传统数据库软件工具进行分析利用的数据集都可称为大数据。
大数据在风险管理中的应用
最早应用大数据管理风险的正是风险管理最早出现的保险金融领域。他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据,包括人际关系、历史消费行为、身份特征等,通过大数据“画像”技术,对用户进行全面的定位,由此来预测用户的履约能力、降低信贷风险。
十几年前,电子器件、厨房用具、运动器材以及汽车配饰零售商Canadian Tire 曾做过一次突破性的调查,将消费者行为和信用风险相挂钩。通过详细分析消费者在多家店铺使用 Canadian Tire 公司发行的信用卡消费的情况,这家公司发现延迟交付、信用卡违约都是可以预测的。办法就是通过研究人们购买的商品种类和品牌,以及他们所光顾的酒吧类型。比如,数据显示那些购买金属骷髅头汽车配饰,或者改装大排量排气管的消费者,最终有可能不会支付账单。
而曾在蒙特利尔Sharx Pool Bar酒吧里消费的顾客中,有47%的人消费以后在12个月内曾经四次拖欠还款,令这家酒吧成为加拿大“风险最高”的酒馆。事实证明,这种预测比传统的行业预测方法更为精准。
Canadian Tire后来决定放弃使用(在社会上比较敏感的)调查结果来管理客户,但它的故事反映了大数据分析学的一个关键问题:它们能够向你展现更为全面的景象(New York Times 2009)。
会计师和财会专业人士可以利用这种大数据的优势,通过将多样化的数据集引入计算,提高对风险的防范意识并降低风险。
机器学习
机器学习技术并不是刚刚起步,而是随着电子计算机的出现而出现的一种技术。但几十年来一直没有取得重大突破,直到互联网的普及,机器学习以大数据应用技术的全新面目呈现出了勃勃生机。简单地说,机器学习就是通过各种算法对海量的历史数据进行有人监督或无人监督的学习分析,总结规律,并利用分析结果对未来数据进行预测的一种技术。机器学习目前有很多的应用方向,包括模式识别、图像识别、智能决策等。在企业管理层面上,目前在智能决策方面的应用较多。但个人认为,机器学习更适用的领域是风险识别。
机器学习在企业风险评估中的应用
一、适用性
机器学习是基于对大量的历史数据进行统计分析的技术,由于大数据本身具有可能不真实的特性,以及机器学习算法本身的模糊特性,预测结果往往带有不确定性,学习的数据量越大,预测的准确性越高。然而,企业本身不太可能拥有像互联网那样的海量数据。
这样使得预测结果的不确定性更大。事实上,许多机器学习算法给出的预测结论本身就是大概率的。这种大概率的预测结果用于决策恐怕会让人无所适从,不过用于风险评估却恰到好处。
风险的定义是在特定环境下、特定時间内,预期结果偏离期望的可能性。用数学公式表示为:R=f(p,c),其中R表示风险,p表示不利事件发生的概率,c表示该事件发生的损害程度。
从定义看,不利事件发生的概率p恰恰可以通过机器学习算法进行预测,而整个风险评估的数学模型都可以沿用。
二、实施途径
随着企业信息化水平的提高,特别是随着德国工业4.0和中国制造2025等发展战略的推进,物联网、企业云等新技术的应用,企业数据将迅猛增长。机器学习应用到风险评估领域应该越来越快。
1.数据准备
信息化部门要积极配合风险管理部门,打通各类数据的采集提取接口,消除信息孤岛,建立适用于大数据处理的数据中心。
与某疑似风险事件相关联的信息越多(人工、机械、材料、方法、环境等),越有利于机器学习算法的预测。风险管理部门应该尽量保证历史风险评估信息的完备和准确,对已经发生的风险要特别重视,对没有评估出来而实际发生的事故、问题、损失等要及时总结,录入到风险案例库中。这可能是现有风险管理方面较为薄弱的环节,但对机器学习来说,这些都是特别宝贵的历史数据。
2.算法研究
机器学习的算法本身并不复杂,但种类很多,目前较为流行的包括朴素贝叶斯、逻辑回归、线性回归、决策树、支持向量机SVM、人工神经网络、聚类分析等。不同的算法针对不同的数据集、应用方式和预测目标,预测的效果也不尽相同。这需要经过反复的测试才能得到较好的应用效果。各类算法的优缺点就不在这里讨论了。
3.迭代学习
机器学习不是一次性的,而是可以不断自我迭代,修正已有的经验模型和逻辑。因此,应用机器学习进行风险评估是一个持续不断的学习、总结、再学习的过程,从而实现良性循环,提高风险识别的准确率。
三、用机器学习进行风险评估的缺陷
用大数据技术进行预测近些年取得了不俗的成绩,特别在保险和银行信贷领域有着不错的效果。但在股票、期货等投资领域一直没有重大突破,一方面这些领域的影响因素过于复杂,另一方面是因为如果利用预测结果进行投资,那么预测结果就直接干预了最终结果,导致预测不准.
在风险评估中其实也存在这样的情况。评估有风险,采取了预防措施,防止了风险发生。结果可能导致进一步进行机器学习时,此类事件被模型修正为没有风险,从而导致重大风险事件的遗漏。这可能需要在机器学习过程中进行有效的监督,加大评估数据在学习过程中的权重,减少类似情况的出现。