大数据时代文本挖掘在审计领域中的应用研究
2020-06-10戚丽娜
戚丽娜
(南京审计大学 会计学院,江苏 南京211815)
一、引言
随着计算机技术的不断发展,现代社会各行各业都面临着“大数据”的挑战。大数据时代下,信息量呈爆炸式增长,那就使得如何从海量数据中获得有价值的信息成为研究热点。在审计领域,作为与信息密切相关的领域之一,不可避免地要跟进科技的发展,运用大数据技术,创新审计技术,提高审计效率。审计面对的客户涉及多种行业,而企业在发展过程中,必然产生大量的文本数据。文本数据,作为非结构化数据,很难被人或机器直接解读和利用,却隐藏着具有巨大价值的信息,例如企业内部控制的运行轨迹,未来的项目重点,未来的发展方向和趋势等,此类信息对于审计工作的开展具有指导意义。因此,研究如何挖掘文本数据中隐藏的信息对现代审计理论和实务具有重要意义。本文在前人研究的基础上,基于丰富文本数据相关的研究,总结各类文本挖掘的分析方法,理清文本挖掘步骤,结合审计领域的不同目的,构建审计文本数据的框架和匹配挖掘技术。
二、文献综述
如何从海量数据中挖掘出有价值的信息一直是学术界的研究热点,数据挖掘是从大量随机并且有噪声的数据中挖掘出其中隐含的有用信息和知识的过程,将无法人工处理的数据转化为有规则、有价值的信息。毛文伟肯定数据挖掘在大数据时代分析数据的重要地位,认为从海量的数据中获取可信度高、具有潜在利用价值的信息和规律必须依靠数据挖掘这一技术①。大数据时代下,数据挖掘成为实现获取信息及规律的重要利器。张倩指出,审计精准性的提高依赖数据挖掘技术来挖掘数据内涵②。
根据数据结构性,数据挖掘可以划分为两部分——结构化数据和非结构化数据。而文本数据作为非结构化数据中不可忽视的重要组成部分,学术界一直在持续关注和研究。其中,一部分学者研究文本数据挖掘全过程,并设计文本数据挖掘过程的总体框架。俞冶在广告界首次建立包含五大模块的广电大数据分析平台,根据工作流程,定义数据检测与收集、数据筛选与预处理、数据分析与特征提取、数据统计与分析以及数据可视化五步处理步骤③。大部分学者研究关于文本数据的具体挖掘方法及算法。针对文本分类技术,卢苇和彭雅站在中文和英文两种不同的角度,比较几种文本分类技术。他们研究发现,对于英文文本,支持向量机最适用;而对于同等数据量的中文文本,支持向量机的算法适用性要差于英文文本数据④。针对文本聚类技术,刘金岭研究发现在处理文本稀疏点上,传统的基于密度的文本聚类方法存在局限,要在基于密度的文本聚类方法上进行改进,提高聚类的质量⑤。针对文本相似度分析技术,屈子梦认为文本相似度分析可以分析文本数据中存在的变化,是挖掘文本的重要技术方法⑥。
还有一部分学者研究文本挖掘在具体领域中应用。谭章禄、彭胜男和王兆刚利用SPSS 软件对CNKI 数据库中的有关文本挖掘的研究文献进行聚类分析,分析结果显示国内对于文本数据预处理、文本挖掘具体应用是研究热点⑦。
文本挖掘在审计领域中的应用和研究也属于具体研究领域的一部分,目前,国内学者主要集中文本挖掘方法在审计领域的具体应用与文本挖掘框架的研究。张志恒和成雪娇通过分析传统审计方法和现代审计行业对于文本挖掘技术的强烈需求,构建文本挖掘框架,为文本数据审计提供新方向⑧。陈伟、勾东升和徐发亮研究文本挖掘方法——相似度分析和标签云技术,解释两种技术的原理以及使用方法,最后通过扶贫工作的具体案例向我们展示相似度分析和标签云技术的强大应用⑨。而武凯文运用文本挖掘技术中的关联分析分析上市公司的交易网络和审计费用、盈余质量的关系,拓宽审计领域文本挖掘的应用渠道⑩。
综上所述,数据挖掘是大数据时代挖掘数据,获取有价值信息的关键步骤,文本数据作为非结构数据中浓墨重彩的一笔,不可避免地得到了各界学者的关注。大部分学者集中关注文本挖掘技术的优化和具体应用,也有学者注重文本挖掘的总体框架。审计领域也不例外。但是文本挖掘技术的应用需要据需求而用,而在此主题上的研究较少。因此,本文在前人研究的基础上,总结审计领域对文本数据的挖掘目的,结合其他领域的文本挖掘技术方法,构建文本挖掘框架,将审计目的和文本挖掘方法进行匹配,丰富文本挖掘研究。
三、文本挖掘在审计领域中的应用价值
文本数据具有海量、无规则、有噪声等特点,但是除文本本身能够带给使用者直观的信息外,文本数据还可以提供隐含其中且更有价值的信息,包括趋势、规律、变化以及内在联系。利用大数据分析技术,提取文本数据中隐含的、有价值的、可理解的信息的过程,即为文本挖掘。大数据环境下,审计行业的传统审计方法受到冲击,受到人力、时间等因素的制约,传统的审计方法很难实现对于海量且无规则文本数据的挖掘,现代技术的发展则使得挖掘大规模的文本数据成为现实。而文本数据中可能隐含的内部控制情况、未来发展趋势、企业战略重大变动等信息也给审计人员提供审计方向以及依据。因此审计领域对于文本挖掘技术的需求强烈。在审计领域,被审计单位的文本数据可以是项目报告、合同、会议记录、工作总结、年度报告,也可以是持续审计报告、政府文件、预算报告以及加工过的数据。例如合同付款情况汇总表,持续审计报告中的审计问题汇总等,对于文本信息的挖掘根据文本数据的类型不同需要使用不同的技术手段。文本数据千差万别,但审计人员需要获取的信息需求却可以进行总结以及分类。
文本挖掘的有效实现需要明确地知道文本挖掘的需求,即为什么要对某些文本数据进行挖掘。在审计领域中,文本挖掘的需求可以分成以下三种:一是文本简化需求。文本简化需求是文本挖掘的第一层面需求。面对海量的文本数据,审计人员想要快速获取信息的难度较大,文本数据的无规则性和噪声使得审计人员无法快速地观察出问题所在,因此对大量的文本数据进行简化处理能够帮助审计人员快速获取信息,经简化处理后的数据按照审计人员需求提取关键特征,方便下一步的分析。二是异常性需求。异常需求是文本挖掘的第二层面需求,审计人员利用大数据技术对相关文本进行挖掘,观察挖掘结果可以快速发现文本信息发生重大变化的情况,从而获取审计线索。针对异常情况设计审计程序、分析异常情况,最终获得审计证据,为审计意见的提出提供支持。对于文本数据的异常性分析能够有效提高审计效率。三是趋势性需求。趋势性需求是文本挖掘的第三层面的需求。文本数据中隐含的趋势性信息,可能是企业未来的发展、管理层的期望、企业的风险趋向、合同金额波动等,往往使得审计工作者了解被审计单位的整体态势,把握被审计单位的整体风险水平,有利于审计重要性水平的确定,从而更有效率地开展审计工作。
审计领域中文本挖掘的三类需求并非相互独立,审计人员对于同一类文本数据的挖掘需求可以是单单的一种,也可以是其中的两种或者全部。例如公司年度报告中的管理层分析与讨论蕴含与风险相关的信息,审计人员需要获取的信息包含管理层分析中的问题是否存在变化、管理层对企业的发展情感倾向等,这体现文本挖掘的异常性需求和趋势性需求。通过确定分析文本数据的需求来相应地选择文本挖掘技术,可以高效率地实现信息挖掘,节省人力、物力,还可以有效避免因人工因素导致的数据遗漏等情况。因此,在进行文本挖掘之前,相关审计工作人员应该明确审计需求,进而选择适宜的技术手段。
四、审计领域与文本挖掘技术的融合
大数据时代下,审计人员获得的文本数据是海量的,面对巨大的工作量,审计人员使用传统的审计方法,例如现场勘查、问询、询函等无法获得全面的审计信息。但随着科技与互联网技术的发展,利用大数据技术则可高效率地获取信息。文本挖掘技术也在不断发展。现阶段,文本挖掘技术主要包括文本分类、文本聚类、文本相似度分析、时态文本分析、文本完整性检测、情感倾向、趋势分析等具体技术手段。在前人研究的基础上,将审计需求与文本挖掘技术进行融合,连接需求和技术,列举现有技术手段,是满足审计需求的必然要求。
(一)文本简化需求
文本简化需求,即审计人员想要获取无噪声、可理解、可观察的文本数据。针对文本简化需求,文本挖掘技术主要涉及三种技术手段——去躁、分词、特征抽取。这三种技术操作是预处理三部分。第一去躁,将文本数据中的语气词、助词等一些没有重要含义的噪声词语进行去除。现有技术手段包括POS 词性分析、Stemming 处理(词干化处理)等。第二分词,文本分词是文本简化处理中的关键步骤。中文不同英文,英文单词之间具有空格,容易进行分词处理,而中文中词与词之间不具有明显的分割,因此中文的分词具有一定的难度,此外,文本分词的有效度决定简化后的文本数据特征信息的提取质量。现有技术方法包括中国科学院计算技术研究院研发的汉语词法分析系统ICTCLAS 处理中文自然语言、ROST content mining 软件、jiebaR 程序、基于字符串匹配的分词算法、基于统计的分词方法等。第三特征抽取。经历去躁和分词处理之后,文本数据可从无序、多噪声的文本转变为实验文本数据。特征抽取质量决定后续深度挖掘质量,基于特定的审计工作确定需要的文本特征。抽取的特征应该易于后续挖掘,所以应该是计算机可以识别的结构化或半结构化类型数据。现有技术手段有基于规则的抽取、基于隐马尔可夫模型(HMM)的抽取,基于词典的抽取、LDA 文档主题生成模型、基于高频词的信息抽取、开源工具Word2ve、向量空间模型、2-Gram 频率统计等。文本简化操作确保审计工作者获取初级结构化或半结构化数据,便于后续分析。
(二)异常性和趋势性需求
满足审计的异常性和趋势性需求,需要通过文本简化处理的中间文本数据进行深入挖掘操作,包括词频统计、文本分类、文本聚类、文本相似度分析、时态文本分析以及关联分析等技术。这些技术的实现往往依靠算法来支持。现有的技术方法包括: 一是词频统计,现阶段的主要技术手段为TFIDF 技术。二是文本分类,传统的分类算法包括贝叶斯算法、TF-IDF 算法、支持向量机、KNN 等,改良的文本分类方法有基于词向量的语义分析法和学习分类算法、NaiveBayes 算法文本分类系统、基于多隐层极限学习机的文本分类方法等。三是文本聚类,现有技术手段包括OPTICS_TS 算法、K-means 算法、OPTICS_TS_NEW 算法、基于语义密度文本数据聚类的方法、采用密度峰值聚类算法实现文本聚类等。四是文本相似度分析,现有技术手段包括杰卡德(Jaccard)相似系数、余弦相似性余弦相似度等技术。五是关联分析,最具有借鉴意义的是Apriori 算法。还有些软件平台包含各类文本挖掘技术,例如IBM 的 Intelligent Miner for Text、软件 ROST content mining、SPSS 软件、DEC 的 Alta Vista Discovery 等。
现有文本挖掘技术的不断发展和改良,有效地减少审计人员的工作量,提高了审计效率。将审计需求与现有文本挖掘技术结合将给审计人员提供文本挖掘技术库,根据审计需求,匹配相应的技术手段,更快更有效地开展审计工作。现有的技术手段以及算法的实现往往具有通用价值,完全适用审计行业的需求还需要进行反复试验和改进。
图1 文本挖掘流程
五、基于审计领域下文本挖掘框架分析
(一)特征抽取、词频统计与主题发现
特征提取、词频统计以及主题发现是在审计人员进行需求选择之后的第一步文本挖掘操作。经过去躁、分词等文本简化处理的初级实验文本数据,如果审计人员是简化需求,则应该进行特征抽取操作。如果是异常性需求或者趋势性需求,下一步的操作应该为词频统计、主题发现。特征抽取是抽取出文本数据中最能代表整体部分的信息,将非结构化的文本数据转化为结构化或半结构化的数据,方便计算机或人员识别。特征抽取、词频统计以及主题发现是文本后续深入挖掘的基础,文本分类、聚类均依靠主题特征、高词频等特征进行操作。因此,文本特征的选择不应该仅仅考虑高频词,还应该考虑词与词之间的语义等。文本特征应最具有区分度,考虑不同的审计需求,审计人员在选择文本挖掘技术上应慎重考虑。
(二)文本分类与文本聚类
文本分类是运用设定好的审计主题,先对分类进行训练,目的是获取一定的审计领域中的文本数据规则,利用已知的规则,实现对未知的审计文本数据的分类。然后将实验文本数据导入,利用训练完的文本分类算法模型进行文本分类,将一篇或多篇文本进行类别归属。文本分类是重要的文本挖掘技术,使用文本分类技术可以帮助审计人员对大量文本数据进行快速且有效地归类,为进一步的文本挖掘打下基础。
与文本分类不同的是,文本聚类不需要事先设定好主题类别。文本聚类是将文本相似的文本数据聚集成一组,简单地说,文本聚类即将描述相同的文档聚集在一起。因此文本聚类需要保证在一组中的文本数据的文本相似度较高。文本数据因为无序性的特点,使得审计工作者很难从中发现隐藏的信息,但通过利用文本聚类技术,则可以对同一组内的文本数据深入进行文本挖掘分析,得到隐藏其中的异常性、趋势性信息,为审计工作的开展奠定基石。同时,文本聚类减轻审计人员的阅读负担,帮助审计工作者快速浏览,发现信息。文本聚类对于大规模的文本数据适用性较强。
(三)文本相似度分析、关联分析与趋势分析
文本相似度分析、关联分析以及趋势分析是对经过文本分类、文本聚类操作后的结果数据进行具体分析。通过这三类具体分析后得到的结果成为审计人员作出判断的依据。
文本相似度分析,是分析两份文字相似的程度。通过分析文字之间的相似度可以得到文本数据中是否存在重大变化,一定程度上满足审计工作者的异常性需求和趋势性需求。文本相似度分析是一种高效的文本挖掘技术。例如文本数据描述的是企业战略,分析得到的结果是前后两年的战略方向发生变化,这就给审计人员指出审计方向,即针对战略发生变化涉及的项目设计新的审计程序,进行重点审计,给审计意见的提出提供审计依据。
关联分析,关联分析是分析文本与文本之间、特征与特征之间、信息与信息之间的关联关系。例如研究集团的关联方关系、研究母子公司之间的交易等。关联分析的结果给予审计人员清晰地关系网络图,实现文本数据转化成可理解性数据。大量的文本数据之间存在一些潜在的信息关联,审计人员运用关联分析,了解被审计单位的关系脉络,整合审计资源,有计划地分配审计任务,有序、有效率地开展审计工作。
趋势分析,趋势分析是分析文本数据中隐含得随着时间、部门等变化的规律和趋势。通过对文本进行挖掘,得到特定数据的趋势区间。例如研究合同金额的趋势,可以获得被审计单位合同金额的趋势区间,从而对未在这一区间的合同进行进一步研究,分析原因。通过趋势分析,审计人员可以把握被审计单位整体情况,了解审计风险,从而保证审计工作的有效实现。
大数据时代,文本数据的爆炸式增长以及挖掘技术的不断发展给审计领域带来了机遇和挑战。作为与信息关联密切的审计行业,不可避免地要紧跟时代发展,注重审计与其他学科的融合,不断创新审计方法,开发专用于审计行业的文本挖掘软件,为高效率地实现审计工作而努力。本文在前人研究的基础上,从审计需求出发,将审计需求与文本挖掘技术方法相匹配,为审计人员提供文本挖掘技术方法库,同时在文本挖掘框架中加入需求选择,结合具体的文本挖掘技术,理清审计行业对于文本的挖掘步骤,满足审计人员对于文本挖掘的需求,丰富审计领域的文本挖掘研究。本文的技术方法具有通用性,但尚未进行审计领域的实证分析。不可否认的是,将文本挖掘技术应用于审计行业有利于减轻审计人员的工作量,满足审计需求,提高审计效率。因此针对审计领域的文本挖掘技术方法的具体应用及创新将是后续的研究重点。
注释:
①毛文伟.论数据挖掘技术在文本分析中的应用[J].日语学习与研究,2019,(01):1-9.
②张倩.我国审计大数据精准性研究[J].人民论坛,2019,(22):88-89.
③俞冶.大数据文本挖掘在广播电视中的应用与探索[J].广播与电视技术,2017,(04):38-43.
④卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报(自然科学版),2007(06):67-69.
⑤刘金岭.基于语义密度的文本聚类研究[J].计算机工程,,2010,(05):81-83.
⑥屈子梦.浅谈基于大数据处理及文本相似度判断的信息服务工单分析工具[J].机电信息,2018,(33):54-55.
⑦谭章禄,彭胜男,王兆刚.基于聚类分析的国内文本挖掘热点与趋势研究[J].情报学报,2019,(06):578-585.
⑧张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友,2017,(16):117-120.
⑨陈伟,勾东升,徐发亮.基于文本数据分析的大数据审计方法研究[J].中国注册会计师,2018,(11):5+82-86.
⑩武凯文.上市公司的关系网络和事务所审计行为——基于公司年报文本分析的经验证据[J].上海财经大学学报,2019,(3):74-90.