基于标签化的数据审计体系构建

2019-03-29

审计月刊 2019年3期

在当前大数据环境下，各类信息化、数字化技术层出不穷并不断发展和深度融合，为审计工作思路与工作模式的优化、调整、完善提供了有力基础。随着近几年的探索，国内通信企业基于“云计算”等技术相继构建了各类审计作业系统，通过审计建模实现了对高风险领域的全覆盖和准实时。审计工作“原力”的海量业务数据作为审计证据后，将对审计成果产生几何倍数的影响。如何将海量的业务数据变为准确的审计数据，已成为大数据环境下开展审计的重要“痛点”。可以说，现阶段审计工作的难点是让海量业务数据脱离其原始特征转变为精炼的、具备高价值审计含义的数据，从而最终生成高质量审计成果。

一、机遇与挑战

业务数据的日益庞杂、审计信息化系统的逐步建立、数据审计体系的逐步完善，为进一步实现内部审计工作价值带来了机遇和挑战。

（一）数据的多维

通信企业信息化水平程度整体较高，各类网络运维、运营生产、企业管理均有系统平台支撑，进而造成数据的维度极其丰富，各数据域的数据间相互影响，但关联度低。任意用户或产品背后就有多达数百项的属性数据。如何将各数据域间的数据加以整合，从丰富多维的数据挖掘有价值的审计线索，存在一定困难。

（二）数据的多变

企业为应对市场的需求、行业的监管、业绩的考核等都需要不断优化业务，通信领域的技术日新月异，势必带来数据的变化。这些变化，不仅只是数据项的新增和删除，还存在大量数据属性、类型等的变化。行业“战场”环境复杂多变，这些重要的作战数据如何时刻“保鲜”，有效服务于审计，正逐渐提上数据审计支撑工作的日程。

（三）数据的多样

在信息社会，数据可以划分为两大类：一类能够用统一的结构加以表示，称之为结构化数据，如数字、符号等；一类无法用数字或统一的结构表示，如文本、图像等，称为非结构化数据。过去几年，业界更多关注的是如何处理海量和异构的数据，从中挖掘审计价值，这其中绝大多数是结构化数据，但这些只是企业运营数据中的冰山一角。实际上，企业运营的数据资料中80%都是以文件形式存在的非结构化和半结构化数据，包括纸质文件（合同等）、图片（现场记录等）、手工凭证（发票、台账等）等。如果能够充分利用这些数据，将能大大降低现场审计压力，全面实现由数据驱动的远程审计，提升审计效率和质量。

二、基于业务数据审计标签化的数据审计体系设计与构建

为应对上述机遇与挑战，笔者初步提出构建基于业务数据审计标签化的数据审计体系。该体系的核心是对业务数据的潜在审计价值进行深度挖掘和开发，通过类自然语言构造基础审计标签库，对目标业务数据输出审计标签，并据此打造审计数据集市，辅以相关数据审计作业流程。实现让业务数据直接展现审计含义，使审计人员摆脱对海量元数据的基础分析，直接应用审计标签开展工作。进而为企业提供更具有战略性、系统性、参谋性和前瞻性的审计建议，促进企业健康发展，提升企业运营管理效率，实现内部审计的高价值转型。具体模型如图1。

图1：基于业务数据审计标签化的数据审计体系模型

（一）审计标签化

1.标签的定义

审计数据标签化是对某数据集合的一种或多种稳定的审计特征进行分析和描述，由多个可定性的属性条件或特征标识组合而成，从而使该数据集合脱离元数据属性，形成高度精炼的、具备审计含义的数据子集。

2.标签的建立

笔者采用类自然语言构造基础审计标签库，通过多种方式建模，对目标审计数据输出标签，实现对各系统业务数据的标签化，将元数据中具备审计价值的信息剥离出来。

（1）逻辑层次

审计数据标签化构成逻辑模型如图2所示。

该模型由元数据层、处理层、标记层及应用层组成，在标记层与配置域进行参数交互。

图2：审计数据标签化逻辑模型

元数据层向所有标记过程提供元数据，这里主要是CRM、OA、ERP等结构化业务运营数据。

处理层从元数据层获取数据后，按照预先定义的类自然语言审计标签，通过固有基本属性分析、基础信息处理、用户行为推测分析、数据挖掘4个方法建模，对目标审计数据进行分析处理，向标记层输出已标签化的审计数据。

标记层负责对标记后的审计数据进行分类汇总，形成可被审计使用的标签化数据。

应用层主要是提供给审计人员使用，让审计人员结合审计项目需要，对标签化数据进行抽取，采用交叉、组合、时序、关联等分析，结合访谈、审阅等，最终形成审计发现。

（2）举例

①固有基本属性分析

通过对业务数据中已定义的结构化数据信息对其进行建模，得出符合审计逻辑的标签。以主标签“异常证件地址”为例，对用户的基本属性信息“证件地址”进行分析建模：

子标签为“同址不同号”，口径为：用户证件地址完全相同，但证件号不同。

子标签为“证址不符”，口径为：用户证件地址省份与证号前2位归属省编号不一致。如：XX省份证件号前2位为34，但证件地址省份为其他省（其中也存在正常的转户籍情况）。

②基础信息处理

通过对基础信息进行分析处理，构造模型，得出符合审计逻辑的标签。以主标签“集中呼转”为例，对用户呼叫转移业务操作记录、通话记录进行关联分析建模。

口径为：首先分析通过后台工号（如：10086，网厅等）受理呼叫转移操作，超过N个用户呼转至同一号码；然后分析该批用户连续M个月的通话记录，对其中周期内仅通话A次或通话时长低于B分钟的定义为“集中呼转”。

③用户行为推测分析

通过对用户行为进行推测分析，建立模型，得出符合审计逻辑的标签。以主标签“侵占用户权益”下的子标签“套取滞纳金”为例，研究用户缴费行为特征，如存在欠费滞纳金用户来网点缴纳欠费时，全额缴纳滞纳金和欠费后，一般不会返销操作。设计审计模型口径：同一网点期间内用户缴纳欠费滞纳金后，当日发生返销，后减免滞纳金，再次按减免后的金额缴纳欠费。即：交滞纳金及欠费→返销→减免滞纳金→交欠费。

④数据挖掘

通过对各类数据进行全量分析，挖掘其中符合审计逻辑的模型，得出符合审计逻辑的标签。以主标签“异常受限解除”下子标签“违规解除低消”为例。通过对受限解除操作及后续受限办理行为数据统计得出该标签结论。口径为：保底消费用户解除产品（如：最低消费）受限后，未能再次叠加同档或更高档次的产品受限。

3.标签的撤销

若某类审计标签整改后已不再存在，则应对该标签进行撤销。撤销时，对审计基础标签库和审计标签标记均进行撤销标记。

4.基础标签库的构成

审计基础标签库由标签名、标签定义、标签分类、标签口径、标签状态等属性组成，如图3。

图3：基础标签库构成

（二）审计数据集市

1.目标

基于对业务数据的审计标签化，将标签化后的数据构造为审计数据集市，为审计单位提供独立、稳定、具备审计含义的专用数据仓库。

2.建立与维护

我们按G网用户、宽带用户、终端用户、其他类别这4类构造审计事实表。以用户标识、终端IMEI等唯一值为主键，将各标签作为事实表的属性值，按月新增。

将基础标签库和从经营分析系统的数据仓库同步来的关键参数表作为维表。

（三）数据审计作业流程

基于上述内容，笔者根据审计项目各阶段要素建立如图4的新型数据审计作业流程。

图4：新型数据审计作业流程

在审计准备阶段，围绕审计点，提供审计作业系统已固化的审计模型结果，以及对应审计点相关的全量审计标签数据，直接形成审计发现或线索。在现场阶段，配合对审计点的数据分析（通进一步过关联、时序、组合标签数据）及验证。在报告阶段，提供审计发现的逻辑、清单等，辅助问题定性。

三、实践说明

（一）实践举例

笔者以2017年某地市主要负责人离任经济责任审计为例，针对审计框架中的“社会网点套取业务酬金”审计点进行实践说明。如图5。

在审计准备阶段，审计人员首先在审计数据集市中获取被审计单位审计期内全量的审计标签数据，分析梳理其中标记较多且存在一定重合度的标签明细数据，重点关注与“渠道酬金”相关的标签数据。随后通过审计作业平台已有的监控模块，提取审计期内全量与酬金发放相关的预警和审计发现内容。

数据审计人员根据该审计点的审计要求，进行趋势和异常分析。在本项目中，对审计作业平台数据进行分析发现，被审计单位的社会渠道酬金发放在2016年中部分月有突增，进一步观察酬金清单发现，突增的酬金项目均为“4G套餐迁移奖励酬金”；对审计数据集市中的标签数据分析发现，在2016年部分月中存在较多的“高频次返销工号”、“异常返销”标签数据。将上述两类异常清单的用户号码和业务月份进行重合度匹配，同时对该批用户的“疑似养卡”标签也进行关联，均发现重合度极高，其中部分社会渠道集中返销与奖励酬金呈正比关系。

数据审计人员抽取渠道酬金突增明显的社会渠道及其期间内返销业务记录，经日志轨迹审查，发现社会渠道通过违规缴费，虚假办理业务后返销，套取激励酬金的行为。

在该项目的实施阶段，数据审计人员将该审计发现报告给审计组，由审计组远程与被审计单位沟通，确认了该审计发现并最终披露在审计报告中。

图5：最佳实践举例示意图

（二）成果价值

通过构建数据审计体系，实现了“点、线、面、人、财、物”的三升三降，有效降低审计成本，提高审计质量和效益，提升审计时效，健全数据审计生态，实现审计全覆盖。

实施业务数据审计标签化，还有以下优势。

图6：成果价值

1.打破了业务的数据壁垒，实现了对跨域数据的全景分析。传统审计项目中，由于审计业务场景的不同，往往需要数据分析人员分别从各域获取数据，同时受“系统孤岛”影响，各数据域的数据关联关系梳理困难，造成审计口径持续应用难、审计数据覆盖面不够、审计数据可用性不高、审计效率受数据影响大等问题。通过对各域数据的标签化，将分散的业务数据标记为具备审计含义的审计数据，形成可直接被审计人员识别的数据集，打破数据域的壁垒，为实现跨域数据的全景分析奠定了坚实的基础。

2.推动新型审计模式落地，提升审计价值。基于审计数据标签化，将各类业务数据标记为具有类自然语言标签的审计数据，从而剔除了元数据中与审计无关的数据，使审计数据轻量化、简洁化，让没有大数据分析能力的审计人员可以在现场利用EXCEL等工具开展数据分析。大数据分析人员可远程同时支撑多个审计现场的工作，有效提升了审计效率，降低了审计人力的投入，切实提升了审计价值。

3.通过对元数据的透视，圈选审计范围，实现审计项目的快速推进。传统审计项目的准备阶段，需要对元数据进行清洗和分析，形成审计线索，圈定问题范围。而基于审计标签化的数据，准备阶段就无需预处理数据，大大缩短了审计项目周期，有效提升了审计项目的效率。经初步测算，平均每个审计项目都至少需要2名数据分析人员使用0.5周时间进行元数据的预处理，体系建立后，同样的人力投入可以同时为2个审计项目直接提供审计线索数据，某些项目甚至不需要专职的人员进行数据分析。

4、标签化作为业务数据审计化的解决方案，为实现大数据智慧审计提供坚实基础。近年来，业界积极探索运用人工智能技术推进审计工作开展，相继提出大数据审计、智慧审计的思路。面对海量业务数据，元数据审计标签化，正是实现业务数据审计化的解决方案之一，它采用类自然语言构造基础审计标签库，通过多种方式建模，对目标审计数据输出标签，实现对各系统业务数据的标签化，将元数据中具备审计价值的信息剥离，为实现智慧审计提供了数据基础。

四、思考与展望

初步构建基于业务数据审计标签化的通信企业数据审计体系，是将审计业务与信息技术深度融合的突破口。如何将之与人工智能技术结合，发挥机器学习，语义识别等能力，进一步解决非结构化数据的获取、清洗和加工，以更加智能化的手段挖掘各类业务数据中的审计价值，还有很长的路要走。未来通过充分开发人工智能等信息技术，积探索挖掘审计数据的方式，提升驾驭业务大数据的能力，让海量的业务数据自如地说“审计方言”，能把握住审计创新发展的主动权，释放出大数据审计的潜力，迎来审计工作的新发展。