大数据及人工智能赋能专业服务
——SW AAP系统架构和应用介绍
2018-01-25信永中和会计师事务所周峰
信永中和会计师事务所 周峰
一、前言
市场研究公司IDC(International Data Corporation)公布的统计数据显示,全球的数据产生量仅在2011年就达到1.8ZB(1.8万亿GB),数据总量正以年均50%的速度增长,预计到2020年,全球数据总量将达到40ZB,我国数据量将达到8.6ZB,占全球总量的21%。数据正在以史无前例的高速增长,世界各个角落的公司、机构组织和个人每时每刻都在创造数据。大数据是为解决海量数据应运而生,全球信息数据量的迅猛增长是大数据产业发展的基础。大数据的分析范围基本涵盖了我们现阶段认识的数据和尚未利用或者不可见的任何数据。针对公司与机构组织,按照数据产生的目的可分为:底层的机器数据,业务数据和财务数据。
如何从纷繁复杂的数据当中提炼出有效的数据,为决策提供数据支撑,是我们必须深入考虑的问题。但是大部分公司因为数据的管理成本巨大或数据的决策风险望而却步。为了利用这些海量数据,可靠的大数据工具成为首选,而大数据工具的开发不可避免地需要面对以下两个问题:
(1)数据管理:如何收集,如何清洗,整理存储?
(2)数据提取:如何分析,如何展示,快速决策?
信永中和的AAP - Analytic Application Platform(以下简称SW AAP)大数据人工智能分析平台可以为解决这些问题提供方案?
二、SW AAP系统架构介绍
(一)数据收集和清洗
1.数据收集:SW AAP将根据客户现有的系统环境设计适合客户自身特有的数据收集方案,譬如,SW AAP根据用户的核心数据系统设计数据采集代理,例如:客户的核心系统是SAP,SW AAP会提供相应的SAP 数据采集代理(SAP Agent)对接相应的SAP核心系统进行数据的采集。SAP Agent将所有采集的数据,进行初步的解析然后推送到SW AAP的数据采集和处理层,SW AAP就可以实现对各类型数据仓库、底层机器数据、各类日志数据的实时采集工作。
2.数据清洗:SW AAP发现并纠正数据文件中可识别的错误,包括检查数据的完整性和一致性,对无效值和缺失值等进行的处理。对于数据结构和体量简约的数据,Agent在将采集的数据送至SW AAP数据仓库的时,便执行了数据清洗和整理工作。对于那些涉及需要复杂判断、建模分析,或者再合成的新数据,SW AAP的存储端将执行对这些情况的数据进行清洗和整理工作后,才让其进入SW AAP自身的数据仓库。可见,APP可以根据不同的客户现有数据情况采取灵活高效的数据清洗和整理方案。
(二)数据存储和查询
SW AAP的基础平台架构是以实现对海量数据的分析和应用的智慧战略方向量身定做,可以满足信永中和集团不断壮大的来自各个领域各种体量的客户们的数据分析、业务建模与计算的360°智慧解决方案的需求,提供强有力的技术支撑。图1为SW AAP的存储和查询模块的示意图。
SW AAP架构的底层由任务管理(Task Manager)承担统一调配和协调的任务,实现数据抽取(Extract-Transform-Load 以下简称ETL)过程。同样,数据抽取ETL依旧按照客户自身的系统环境和数据类型灵活定制不同的抽取Schema并完成对数据的剥离。在数据抽取ETL过程中,SW AAP将根据数据量从小到大的规模,将数据推送至不同承载量和特质的数据存储单元,依次对应为不同的处理模块MySQL、MapReduce和Mesa,以发挥不同数据存储单元的优势和性能。
MySQL:主要针对小量可以快速结构化的数据(亿行左右的数据规模)。
MapReduce: 属于中间平衡模块,处理介于TB和GB之间的结构化和非结构数据。
Mesa:其强大优势在于支持TB级至PB级的海量数据,并可以实现毫秒(ms)返回前端查询TB数据的请求。
(三)数据的可视化
与传统的数据分析技术相比,SW AAP的可视化技术更倾向于挖掘型分析,其特点主要表现在:(1)友好的人机交互能力与体验效果。(2)具有丰富的图形展示功能,有助于审计师、咨询顾问、研究员直观地把握整体情况,识别审计和研究的重点,梳理业务思路并提高产出质量。(3)具有强大的图形分析功能,可交互构建和调整曲线、曲面、点云等数学模型,可实现基于海量数据的趋势分析、异常辨析等分析效果。SW AAP现已具备的基础数据展示套件,足以满足90%以上的数据分析和可视化的需求。
(四)技术优势
对比于传统产品,或者类似的产品,SW AAP无论从基础架构,还是上层应用都有着明显的竞争优势。表1列出了核心特性的指标对比。
表1 SW APP的特性展示
图1 AAP的数据存储和查询模块
三、大数据人工智能助力传统业务
高性能的SW AAP大数据平台建立之后,就可以在SW AAP平台上构建不同的客户场景,分析数据,更快地为客户提供决策,比如审计,金融或者电信场景,为客户定制行业分析需求,提取数据价值。
(一)大数据审计:审计之道,数据先行
审计是为企业财务数据的真实、完整、准确提供合理性保证,但是目前企业在信息化、大数据和互联网+运营环境下,依赖传统的收集手段和保障手段为业财数据提供合理性保证变得越来越困难,甚至成为不可能完成的任务(图2)。
当我们面临互联网公司审计的时候,互联网公司每天产生TB级别的数据,如何从TB级别的数据中核实收入,传统手段无论如何是无法确认的,只有依靠SW AAP大数据平台,海量数据核算功能,助力审计确保数据准确性和完整性,为审计保驾护航(图3)。
(二)数据可视化:上下游业务流转数据化
通过数据的清洗整理,SW AAP将对业务流的数据进行全局可视化,汇总整条业务链上下游交易信息,通常可以应用到财务数据,ERP进销存,以及生产制造等诸多方面的数据分析和产业决策,其中可能包括以下内容:
(1)上游供应商(代号)、购进货物名称、库存及转销情况、下游客户(代号);
(2)业务交易量以图形大小体现,清晰展示各交易对手方在公司业务中占比情况;
(3) 数据允许的情况下,可分别展开交易对手具体交易情况、货物存储及转销情况。
(三)人工智能:可信赖的金融风控
SW AAP从客户和第三方收集结构化数据和非结构化数据,通过数据存储、人工智能模型的训练和利用深度学习技术,对消费金融场景内难以使用的数据进行基于机器的特征分析,并且将深度学习技术应用于最终的违约概率预测模型,从而提升信贷金融风控决策效果。互联网金融公司的小额批贷需要实时核查客户信用,使用SW AAP的金融风控模型(图4),即可获取客户的信用报告,规避坏账风险,实现赢利。
(四)实时数据分析:革新电信行业的核算
当大规模系统运行,时刻产生大量的机器数据(日志文件)的时候,客户想及时修复系统漏洞,发现黑客攻击,或者对海量数据核算的时候,都无从下手。SW AAP提供TB数据毫秒返回查询结果的优秀性能,不仅可以跨系统跨业务查询数据,还能灵活提供各种维度报表,必然能从根本上解决客户的棘手问题。例如某电信公司,月初都无法快速出具用户上个月话费详单,因为需要使用Hadoop离线计算,需要一周时间完成100+TB的数据量的计算工作,当其使用了SW AAP的大数据灵活报表,秒级生成话费详单,如果使用同类国外产品Splunk,处理TB+级别数据报价在1000万人民币以上,无论从性价比还是可用性,SW AAP都能秒杀竞争者对手。
图4 金融风控模型
图5 日志监控示例