APP下载

文本挖掘分析技术在审计稽核中的应用探索

2019-07-09罗江筑

科技风 2019年18期
关键词:文本挖掘

罗江筑

摘 要:随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,仅靠人工进行审计,成效杯水车薪,针对非结构化数据的审计已经成为审计业务的盲区,利用高科技手段与工具实现非结构化数据的分析与挖掘为审计业务提供数据支撑的需求已迫在眉睫。本文基于文本挖掘技术,采用信息抽取方法从非结构化文档中提取关键信息,进行结构化存储,然后进行自动稽核,既大大减少因人工操作耗费的大量人力、财力成本,又避免了因人为疏忽造成审计问题遗漏的情况,更加全面的审计各种问题。

关键词:审计稽核;文本挖掘;信息抽取

随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,如何对这些非结构化数据进行分析是推动大数据审计开展的重要内容。随着大数据在审计领域的广泛推广和运用,文本挖掘技术对审计数据分析的重要性已逐步凸显,它不再仅仅以结构化的审计数据为分析对象,可以深入地对大量非结构化数据进行挖掘分析和利用。以企业合同数据的审计为例,结合文本挖掘技术特点,本文探讨了基于文本挖掘分析技术的审计稽核方法,为文本挖掘分析技术在审计稽核的应用做出了探索。

本文内容安排如下:首先企业合同审计问题进行了介绍,之后根据数据特点采用信息自动抽取技术从企业合同数据中抽取关键数据,将非结构化数据进行结构化存储,最后对提取的企业合同关键数据进行稽核,发现审计问题。

一、数据及问题

在企业合同管理系统中存在有大量的合同数据,企业合同审计主要是针对合同的执行情况,特别是合同付款情况的审计,包括合同总价,第一次付款时间、金额,第二次付款时间、金额等。企业合同数据属于非结构化文档数据,对这类数据的审计,目前需要人为提取合同的关键数据(合同金额、付款时间等),需要耗费大量的人力成本。如何快速的从这些非结构化数据中提取我们需要的信息,是解决企业合同快速审计的关键所在。

二、信息抽取

信息抽取的宗旨在于抽取指定的信息,信息抽取有多种不同的技术,根据采用的模型不同可以分为三类:基于词典的抽取、基于规则的抽取和基于隐马尔可夫模型(HMM)的抽取。

基于词典的信息抽取需要构造抽取模式词典,然后使用模式词典从未标记文本中抽取所需信息。基于词典的信息抽取需要对概念节点进行定义,建立和维护相关的模式,知识工作量比较大,最佳词典的产生也比较麻烦,领域相关性太强,应用不是很广泛。基于规则的信息抽取需要先构造抽取规则集,然后利用这些通用的规则从文本中抽取信息。基于规则的信息抽取比较常用,在很多情况下精度也非常令人满意。缺点是规则构造比较复杂,适应性较差。

利用隐马尔可夫模型(HMM)进行文本信息抽取是一种基于统计学习的抽取方法。企业合同数据需要提取的信息主要包括以下几类:

(一)合同编号、合同名称

在企业合同中,合同编号、合同名称数据都有明确的关键字标记,根据关键字确定信息位置,提取对应的信息即可。

(二)合同总价

在企业合同中,合同总价会有明确关键字进行标识,如服务费总额,根据关键字定位到所属的段落之后,采用货币正则表达式提取金额数据。货币数据识别的正则表达式为

(三)付款时间

在合同中,如果付款时间有明确的说明,直接按时间的正则表达式提取数据即可,不同格式展示的时间其提取表达式不同,最简单的日期格式如YYYY/MM/DD,正则表达式为更为复杂的是,在合同中并没有明确的说明付款时间,而是“合同签订后几个工作日内”,此时就需要先提取合同签订日期,然后采用时间推理方法,推算确定的合同付款日期。

(四)付款金额

付款金额与付款时间会出现在同一段落中,在提取付款时间之后,采用与提取合同总价相同的方式提取付款金额。

(五)付款方和收款方信息

付款方信息主要是付款单位名称,收款方信息包括开户银行、账号和开户名,这类信息在合同里一般有明确的说明,根据信息关键字定位到具体的段落提取信息即可。提取的付款方和收款方信息用于从银行返回的资金流数据中获取与合同对应的数据,以便对合同付款情况进行稽查。

将从企业合同中提取的关键信息存储于数据库提前建好的数据表中,实现结构化存储,方便对合同进行审计。

三、、自动稽核

对企业合同的审计稽核策略是从企业合同中提取关键信息与资金流数据(此数据来源与财务系统中银行返回的数据)对比,进行自动稽核,发现审计问题。具体的实现方法如下:

(一)根据关注的审计问题,制定审计规则

根据审计问题表象(如未按合同条款执行付款A1,提前付款A2,付款金额不一致A3)定义审计问题规则,形式为B*:A*…A*,如B1:A1、B2:A2、B3:A3、B4:A2A3,其中B*为规则编号,A*…A*为规则所满足的条件。

(二)对合同信息按照规则进行稽核根据收款账户信息,找到需要审计的合同对应的资金流数据,对比关注的信息项,主要是付款时间、金额,多次付款金额之和即为付款总额。如果没有找到对应的资金流数据,则为未按合同条款执行付款B1;如果付款时间提前,则为提前付款B2;如果金额不一致,则为付款金额不一致B3;如果付款时间提前且金额不一致,则为B4。满足制定的审计规则的合同认为存在审计问题,根据满足的条件不同,标记不同的规则编号。

(三)对审计问题进行进一步分析

按规则编号对存在的审计问题进行分组,对每类问题进行集中处理。

针对企业合同数据,采用信息抽取方法抽取需要审计的信息之后,与银行返回的资金流数据进行比对,发现存在的审计问题,将审计结果存入数据库,方便进行查询。因审计结果涉及到保密问题,这里只给出审计结果表的表结构,如下表所示:

针对审计结果表,既可以按照规则编号,对审计问题进行分组集中处理,也可以按照合同编号查询指定合同的审计结果。将合同数据以及银行返回结果关联到一张表中,可以更方便的验证审计结果。

四、结论

本文利用信息自动抽取技术,基于企业合同数据,从中自动抽取合同关键数据,将合同中的非结构化数据进行结构化,然后与银行返回的资金流数据进行自动比对,发现审计问题。

本文只是文本挖掘技术在审计稽核应用的一个探索性尝试。在审计工作中引进文本挖掘技术,不仅可以大大降低纯粹人工审计耗费的人力、财力成本,而且可以降低因人为疏忽造成审计问题遗漏的情况发生。虽然目前文本挖掘技术在审计稽核工作中的应用尚处于起步阶段,但随着信息技术的迅猛发展和人们对文本挖掘技术的深入研究,文本挖掘在审计稽核工作中的应用将会不断发展和完善。

参考文献:

[1]张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友,2017,16:117-120.

[2]吴芬芬.信息抽取算法研究.吉林大学硕士论文,2006:1-10.

[3]郭喜跃,何婷婷.信息抽取研究綜述[J].计算机科学报,2015,02:14-17.

[4]李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,10:1-5.

[5]张素香.信息抽取中关键技术的研究[D].北京:北京邮电大学,2007.

[6]张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,04:44-48.

[7]俞鸿魁,张华平,等.基于层叠隐马尔科夫模型的中文命名实体识别[J].通信学报,2006,02:87-93.

[8]赵妍妍,秦兵,车万翔,等.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8.

[9]徐凡,朱巧明,周国栋.篇章分析技术综述[J].中文信息学报,2013,3:20-32.

猜你喜欢

文本挖掘
基于贝叶斯分类器的中文垃圾短信辨识
基于潜在特征的汽车评论要素挖掘
基于评论信息的淘宝服装类评分体系优化
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
基于文献的中西医结合治疗脑梗死药物使用情况分析
基于改进Hadoop云平台的海量文本数据挖掘
慧眼识璞玉,妙手炼浑金