非结构化内部审计数据及其处理探析

2019-09-10杨熳

中国内部审计 2019年4期

杨熳

[摘要]非结构化内部审计数据有着异构程度高、存储分散、处理难等特点，处理时应围绕审计目标，厘清数据的种类和处理方法，通过构建非结构化审计数据处理的逻辑框架，有针对性地运用各种处理方法，达到提高审计质效的目的。

[关键词]非结构化审计数据數据处理内部审计

部审计工作日益依赖数据分析来提取有用的

审计信息并形成相关审计结论。目前，理论界就构建非结构化数据管理系统进行了大量研究。内部审计人员作为非专业技术人员，面对非结构化数据，能够做什么，做到什么程度，以及如何在继续利用结构化数据的同时，加强非结构化数据的管理，从而最大限度发挥数据分析在内部审计中的作用，是一个值得关注和探索的课题。

一、内部审计中非结构化数据处理的必要性

非结构化数据是结构不规则或不完整、未经预定义、不能用数据库二维逻辑来表现的数据。包括各种格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频等。在业务领域，纸质资料不断被电子信息存储方式所取代。因此，内部审计工作获取的资料中，存在大量电子化的非结构数据。这些数据主要包括以下三类：一是文本类，如被审计单位的人事任命、活动通知、项目立项、资金支出等文件，各单位、各部门自主编制的非结构化的统计、记录、登记资料等。二是图像类，如各类活动的图片资料、各种记录资料的图片格式等。三是视频类，如涉及安全保卫的影像资料，其他用于记录的视频材料等。

以文本、图形、图像、视频等非结构化数据形式提供的审计资料中往往蕴藏着诸多有用的审计线索和审计证据。面对如此巨大的非结构化审计数据，如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。一方面，是否对非结构化数据进行处理，关系到审计内容的全面性和完整性，直接影响内部审计的质量。另一方面，能否有效对非结构化数据进行处理，关系到审计的效率和效果，直接影响到内部审计的成效。有效的非结构化数据处理技术能够将非结构化数据全面纳入审计视野，加强数据挖掘的力度，确保内部审计内容的完整性，加大内部审计力度。

二、非结构化数据处理的难点与要点

对审计工作而言，非结构化数据具有大量的价值信息，可用于发现审计线索、佐证审计发现。但非结构化审计数据具有以下特点：一是数据格式多样，异构程度高，内部审计人员难以进行统一处理;二是各类审计资料分散存储在各种媒介或各个部门，内部审计人员进行信息汇集较困难;三是审计资料的内容无序可循，表达无规则。内部审计人员在信息处理及有效信息筛选方面难度较大。这些特点也是非结构化数据处理的难点，处理的难点还来源于数据处理手段的欠缺以及审计人员数据处理基础知识的匮乏等。

目前尚没有成熟简便的非结构化数据处理工具或方法。审计人员还不能像处理结构化数据一样，快捷地对审计资料进行数据挖掘。一是传统数据处理工具在应对非结构化数据方面力不从心。传统关系型数据库采用二维结构，主要面向传统数据分析应用领域，擅长解决结构化数据管理问题，在管理非结构化数据方面先天不足，尤其在处理海量非结构化信息时，更是面临巨大挑战。二是目前非结构化数据处理的经验积累不足，尚未出现技术研究与业务应用相互促进的良性互动。非结构化数据价值日益受到重视，如何对组织内非结构化数据进行管理，已经有一定的探索和实践，但对非结构化数据的处理，尤其是审计人员等非专业人士如何有效处理非结构化数据，经验不足。三是非结构化数据的处理与目前大多数审计人员的知识结构不匹配。非结构化数据由于其本身的数据结构，理解这类数据的处理方式要具备一定的数据处理基础知识和能力。而目前审计人员对财务、法律法规应用等方面比较精通，而对信息技术及其数据处理方式的了解不足;部分对信息技术、数据处理等领域有专门研究的内部审计人员又缺乏对财务等业务知识的了解。另外，非结构化数据与内部审计目标的连接也考验着审计人员对审计目标、审计内容和审计方法的把控能力，对审计人员的素质提出了更高要求。

为有效应对非结构化数据处理带来的困难，内部审计人员应牢牢把握以下三点：一是明确审计目标与非结构化数据之间的关系，有针对性地筛选非结构化数据作为处理对象。二是根据审计对象的不同，厘清审计中涉及非结构化数据的具体种类，为审计数据处理做好准备，并根据实际情况，充分利用目前已经存在的非结构化数据处理方式。三是利用审计的广阔平台，不断探索非结构化数据的种类、数据处理的有效方式，在实践中积累经验和方法。

三、非结构化审计数据处理的逻辑框架

针对非结构化审计数据量大、形式复杂的实际情况，为提高审计成效，避免误入无目的、无方向的数据处理误区，应建立非结构化数据处理的整体框架。

从审计方案中的审计目标着手，逻辑框架向上下两个方向展开（见图1）。向上逐级展开，得到审计发现问题和审计成效;向下逐层展开，确定所需的审计证据及审计数据。向上展开显示的是审计目标实现的价值，向下展开显示的是审计目标实现的过程，而审计目标即审计过程中的操作指南，其实现与否也是审计质量的衡量标准。

整个逻辑框架的中心点是审计目标。审计目标可以细分为各个子目标，是数据处理的出发点，各子目标的实现是审计成效得到彰显的基础。框架的重要内容是围绕各个审计子目标查找相应的审计证据，其过程是通过对各类审计数据的处理找到所需的审计证据，从而实现审计目标。非结构化审计数据的处理是数据处理的有机组成部分，对实现审计目标有着不可取代的作用。

非结构化审计数据的处理包括数据采集、数据归类及预处理、数据挖掘、信息融合等过程。数据的采集是整个数据处理过程的起点，其主要方法有系统导出、零散或集中拷贝、数据自动推送、数据钻取等。对审计资料的归类处理主要是将各类非结构化数据分类，同时根据数据的种类有针对性地进行预处理。一般而言，在内部审计资料中，非结构化数据可以分为文本类、图像类和视频类等，相应地，根据数据的种类，知识挖掘可以分为文本挖掘、图像挖掘和视频挖掘。非结构化数据采集、归类、预处理和知识挖掘的最终目的是将数据处理所得的信息进行融合，得到审计工作所需的描述性结果、诊断性结果，甚至是预测性和自我学习分析性结果。

四、非结构化审计数据处理的方式

针对非结构化数据的特点以及目前的审计数据处理现状，审计中要加强对非结构化数据的利用，重心应放在数据采集、归类处理与预处理、知识挖掘和信息融合等方面，以充分发挥其在审计中的作用。

（一）审计数据采集

内部审计数据的获取是审计工作的起点，获取数据的质量极大影响着审计质量。通过什么方式获取、获取什么样的数据、获取多少数据，是审计人员首先需要思考的问题。

对于内部审计数据的获取，主要有系统导出和直接拷贝、数据推送、数据专业化采集三种。业务系统一般会预留数据接口用于数据传输，审计人员只要做好部门间的协调就可自行或在技术人员协助下将数据以一定的格式导出，并保存到审计人员的电脑或审计系统中。系统导出是数据收集最理想的方式，要求业务系统在设计开发时必须预留数据导出接口。直接拷贝是指将相关审计数据拷贝到移动存储介质，是一种直接的数据获取方式。数据推送是指相关业务系统根据设定的条件，通过特定的渠道主动向内部审计人员发送相关数据的形式。数据专业化采集是数据获取中最复杂的一种，是指审计人员借助专用的工具或手段，在被审计单位网页等资源上收集各类信息。相较其他两种方式，数据专业化采集较为复杂。目前运用较多的是以网络爬虫技术为核心，结合其他技术的网站信息采集技术，整个采集包含网页采集、信息抽取和信息检索三个过程。其中，网页采集是指审计人员利用工具对含有相关审计资料的网络站点进行网页抓取并保存;信息抽取是审计人员在网页采集的基础上，按照自定义的抽取规则抽取审计所需信息;信息检索则负责信息的呈现，即审计人员在网页信息抽取的基础上利用检索工具完成所需信息的检索，并将得到的信息进行呈现。

在非结构化数据采集前，内部审计人员要通过以往经验、询问、观察等方式，了解组织内部各类非结构化数据的存储方式以及数据可能获得的方式，并根据实现审计目标所需审计证据的内容与形式来决定非结构化数据获取的必要性以及获取数量。

（二）审计数据归类与预处理

高质量的数据是数据处理的基础，初步采集到的非结构化数据需要经过归类和预处理后才能进行相应的知识挖掘，从而得出审计证据或审计所需的信息。一般而言，在内部审计资料中，非结构化数据可以分为文本类、图像类和视频类等。非结构化数据进行预处理基于两方面原因：一是采集的数据中存在一些错误或异常数据，需要通过预处理来提高数据质量;二是根据非结构化数据挖掘的需要，将相关数据进行归集或者去除无关数据，为后续处理做好准备，如去掉网页中存在的广告、导航栏等不必要信息。

在不同的审计项目和不同的审计数据来源情况下，非结构化数据预处理有不同的处理要求，难以形成一致方法。但总体而言，预处理过程是一个减少数据缺陷、进行数据整合和融合、进行数据变换和归约的过程，实质上是一个数据提质的过程。具体而言，包含数据清理、数据的组织与集成、数据选择、数据变换等多种形式。

非结构化数据清理是指通过计算机与人工相结合的方式，致力于发现数据不完整、数据不一致、数据错误等缺陷。首先，对非结构化数据的缺陷类型进行分类。将缺陷数据分为数据不完整、数据不准确、数据不一致等类型，并且评估这些数据缺陷对审计中数据分析工作及数据分析结果的影响。其次，对数据缺陷产生的原因进行分析。鉴别其是记录过程中随意产生的还是后期被修改导致的，是该类数据自身特征导致的还是记录系统不稳定导致的。分析数据缺陷的原因可以为有效的数据清理在方法选择和工作量估計方面做好准备。最后，对数据进行清理。数据清理的手段包括人工和计算机两种方式。对于偶发性数据缺陷一般采用人工方式进行处理，而对于系统性、长期性数据缺陷一般采用计算机方式进行处理。

数据的组织与集成是指将多种非结构化数据源融合为一体进行异构数据整合的过程，是将多个数据源中的数据进行有效合并的过程。一方面，要关注数据模式问题，对于统一模式的数据，其集成相对简单，但对于不同模式的数据，如何进行有效集成，需要结合实际情况加以考虑。另一方面，要关注数据集成过程中产生的数据质量问题，如由于数据集成产生的数据冗余问题，在集成过程中发现的数据冲突问题等。

数据选择是指对采集的非结构化数据根据审计目标进行筛选的过程。非结构化审计数据量大、形式复杂，为提高审计成效，应根据审计目的去除冗杂数据，有针对性地选择审计数据。一是选择直接与审计目标相关的数据，并且研判数据的质和量能否支撑审计证据，根据实际情况修正或者补充完整审计数据。二是慎重考虑与审计目标间接相关的数据，选择对实现审计目标关系较近的审计数据，舍弃对实现审计目标作用较小的数据。三是舍弃与审计目标实现无关的数据。

数据变换是指将处理难度大的非结构化数据根据现有的技术或手段转换为另一种数据形式的过程，这种变换有多种形式。有的是将数据从一种模式转换为另一种模式，非结构化数据形式多样，导致数据模式的多样化，因此存在模式转换的必要性;有的是将多维数据压缩成维数较少的数据，选择性地消除非结构化审计数据在时间、空间、属性等方面的差异;有的是将数据进行泛化，用更高层级的数据概念代替低层级数据概念，从而减少数据的复杂度。

对于内部审计人员而言，在非结构化数据的预处理方面要遵循两个原则：一是避免将低质量数据纳入数据处理的范围;二是尽量借助一定的技术手段将数据挖掘难度大的数据转化为处理难度小的数据类型。

（三）审计数据的知识挖掘

在大量的非结构化数据中获取所需的审计信息是实现审计目标的途径之一，而知识挖掘则是获取审计信息的重要途径。内部审计资料中的非结构化数据一般分为文本类、图像类和视频类等，知识挖掘相应分为文本挖掘、图像挖掘和视频挖掘等。

文本挖掘是指从相关文本数据中获取有价值知识和信息的数据挖掘方法，包括基于单文档的数据挖掘和基于文档集的数据挖掘。其主要原理是通过文本分词、语义分析、文本特征抽取等技术，结合用户相关性反馈等技术进行辅助查询，从而给予用户智能知识提示。首先，利用分词系统或分词工具对文本资料进行文本分词，得到文本的“词吧”。其次，将文本向量化，将分词后的文本转化成计算机能够识别和处理的形式，如采用向量空间模型将文本中的词特征量化处理后作为文本的特征向量。再次，利用文本频率、互信息量等特征选择方法降低特征向量的维度。最后，利用KNN算法、贝叶斯算法、决策树算法等进行知识挖掘。

图像挖掘是用来挖掘大规模图像数据中隐含知识、图像内或图像间各种关系以及隐藏在图像中的各种模式的一种技术。根据图像挖掘的具体对象可分为基于图像描述的数据挖掘和基于图像内容的数据挖掘。在内部审计中，应用较多的是利用文字识别软件提取图片上的文字，再通过文本挖掘方式进行处理。

视频挖掘是目前最为复杂的类型，一个常见的视频数据可能包含音频、图像、文本等丰富的信息。在内部审计中，涉及最多的视频资料是监控视频。对于监控视频，一般通过对运动目标的场景事件和行为进行挖掘，从而得出异常和正常模式，并且对异常事件进行预警，其预警模式在非现场审计监督方面具有重要意义。视频挖掘的另一种方式是利用图像识别技术对相关视频进行关键帧的提取，从而得到视频的图像摘要，也可以对这些关键帧建立图像索引。

（四）审计信息的融合

信息融合是将内部审计中获取的多种类型或多种渠道的信息融合在一起，并从中提取出更精确或具有更多特征有效信息的过程。对于非结构化数据处理得出的信息而言，审计信息的融合既包括各类非结构化数据处理结果之间的信息融合，也包括非结构化数据处理信息与审计中获取的其他信息的融合。内部审计信息融合的作用主要体现在增加内部审计信息的利用率，提高审计结论的可信度和精确度，最终提高审计质量。

审计信息的融合在整个过程中涉及大量的审计判断。一般而言，相互支持的审计信息能够增强审计证据的可靠性，审计信息的互斥以及信息较弱的支持度会降低审计证据的可靠性。在信息融合中，也会应用到聚类分析、自适应神经网络、表决逻辑和信息熵等理论。

审计信息的融合最终是为了实现审计目标，审计目标的载体是审计结论，审计结论有描述性结果、诊断性结果、预测性结果和自我学习分析性结果四个层次。审计信息融合的目的是使审计结论不断地从描述性向自我学习方向深化。

（作者单位：中国人民银行杭州中心支行，

邮政编码：310001，电子邮箱：yangman26@126.com）