文本处理技术在高校审计中的应用探索
2024-08-06梅胜李晨
摘要:随着信息化技术的发展,高校审计面临着海量文本数据资料的挑战,而传统的数据处理方法和工具对文本信息的适用性不足。本文立足高校审计应用,以Python语言为例,以合同审计为应用场景,探讨文本处理技术实现路径,助力提升高校审计工作质效。
关键词:文本处理技术;高校审计;应用探索
中图分类号:G4文献标识码:Adoi:10.19311/j.cnki.16723198.2024.16.087
0引言
随着高校经济和业务活动的发展,高校审计领域面临着海量文本数据的挑战。根据相关文献数据,高校超过80%的数据是以非结构化、半结构化的文本形式存在的,如合同文本、科研报告、会议纪要、工作总结以及信息系统中的日志、OA流转文件、网站新闻等纸质或电子文档。这些数据都是审计资料的一部分,其中蕴含的信息价值能够转化为审计线索和证据。近年来,基于文本数据分析的大数据审计方法逐渐受到关注,通过信息抽取方法从非结构化文档中提取关键信息,进行结构化存储和程序化稽核,能极大提升审计效率,有效降低审计风险。
1文本信息处理在审计中面临的难点
(1)缺乏标准化审计方法。面对文本数据,传统审计更多的是实行人工分析方法,采用浏览识别、辅助观察以及审核等审计手段,高度依赖审计人员的差异化个体能力、经验和工作耐心,缺乏完善的数据采集、存储、处理、分析、校验等审计流程和统一标准的审计方法,审计人员在海量数据中获得有价值的信息、搜寻风险线索变得较为困难,数据利用难度较高,影响审计目标的实现。
(2)常用数据审计模型适用性不足。文本信息种类繁多,存储空间大,数据结构随机,信息价值和密度远远低于以财务报表为代表的结构化数据,现行广泛使用的数据处理工具SYSBASE、ORACLE、SQL等很难兼容非结构化数据,无法使用常规数据软件工具进行处理,传统的数据建模、抽样统计、数据透视等方法已不再适用,审计手段滞后于数据信息的生成速度。
(3)面临资源约束和风险暴露。高校现行审计项目类型庞杂,基本采用“非现场+现场”组织模式,项目周期在20-60天,能投入的审计资源较为有限。通过人工翻阅大量的非结构化文本资料,在人力和时间资源约束下,一般按比例抽取一定的数据进行检查,无法保证资料完全覆盖,发现问题缺乏代表性,更难揭示整体风险。
2文本处理技术在审计中的应用案例
文本处理技术是指利用计算机及程序语言对文本信息资料进行处理和分析的技术,主要包括文本识别、文本挖掘、自然语言处理、信息抽取、知识图谱等较为成熟的技术,这些技术可以覆盖资料处理、疑点筛选、证据生成、报告生成等审计业务全过程,高效解决审计难题,提高审计效率。
Python是一种广泛使用的高级编程语言,具有面向对象、简洁易学、跨平台等特点,同时具有丰富的工具库和框架资源,在文本处理中具有广泛的应用。下面以高校合同审计为应用场景,探讨Python文本处理工具在高校审计中的应用。
2.1文件收集转化与对象库建立
广泛收集高校业务管理部门存储的科研项目、物资采购、工程招标、后勤服务、信息咨询等各类合同文本文件、合同审批文件以及与重大项目相关的投标文件、合同执行报告等纸质和电子文本文件;扫描纸质文本,进行图像预处理和必要的修正,使用OCR(光学字符识别)系统提取文本数据,将图像批量转换为文本文件;校核文本数据逻辑性、准确性,并整理为格式统一、规范的电子文档,建立相应的文本对象库及存储目录。
2.2文本提取与关键信息识别
用Python工具库(如Pdfplumber、Pypdf2、Python-docx等)工具,对各文本对象库中的PDF、Word等文档进行文本提取;使用正则表达式(RegularExpression)匹配特定的模式,提取合同文本、合同审批流程文件、投标文件中的关键信息,如合同乙方、合同金额、交易数量、签订日期、合同期限、罚则赔偿、合同签章及审批时间、承办单位、审批人等条款内容和信息。
2.3数据整理与结构化数据建库
将提取的合同关键信息数据整理到数据库中,利用Python的数据分析工具(如Pandas、TextBlob等)进行数据加载、清洗、转换和处理,如统一大小写、统一文本格式、检测缺失值、拆分字符串、替换字符串等,实现数据格式的标准化与规范化;对数据进行初步的筛选、排序和分组等探索性分析,将整理后的结构化数据生成合同分析数据库。
2.4内容异常检测与合规性检查
使用Python工具识别和分析异常合同业务,查找合同审计疑点线索。一是使用阈值法、四分位距(IQR)等来标记和识别超出一定范围的异常值,如合同乙方累计金额较高、合同单价相对同类业务畸高等;二是使用合规性检查工具(如MiitRuleChecker)设定一定条件筛选分析合同程序及内容的合规性,如有合同文本但未发现审批流程、有合同文本但未发现招标信息、合同签订日期与审批时间倒置、合同乙方与合同签章信息不一致、交付日期等关键信息缺失等情况,检查合同业务执行是否符合高校的管理流程、规章制度和法律法规。
2.5外部信息抓取与关联分析
使用python工具(如requests、BeautifulSoup等)发送网络请求并获取网页内容,对合同中的乙方单位和同类项目成交记录等进行网络信息挖掘,获取乙方单位工商注册信息、股东高管信息、经营状况、诉讼仲裁记录,以及同类项目历史成交记录等信息,分析乙方单位合同履约能力,判断合同风险,并通过成交价格比对,识别合同单价畸高等可能存在的舞弊疑点。
2.6报告生成与界面优化
Python的报告库(如ReportLab等)功能能助力审计人员生成直接的、详细的分析报告。ReportLab提供丰富的功能来创建、编辑和修改PDF文件,支持多种PDF元素,如表格、图形、文本框等,并且可以通过编程方式自定义这些元素的样式和布局,进行界面优化以符合特定的表述习惯和汇报场景。
3结语
随着深度学习等计算机技术的发展,文本处理技术日新月异,使用场景更加丰富,将极大地助力审计工作的开展。但在实践中也要处理好技术手段与专业能力的配合、数据安全和隐私保护兼顾等关系。作为审计能力建设的重要内容,审计人员加强技术方法学习、探索审计工具利用将成为未来的必修课。
参考文献
[1]杨兆群,蔡润柱,郭嘉玲,等.基于关键词检索的非结构化数据审计应用研究[J].中国内部审计,2020,(04):3642.
[2]陈伟,勾东升,徐发亮,等.基于文本数据分析的大数据审计方法研究[J].中国注册会计师,2018,No.234(11):8084+3.
[3]孙建勇,张杰,张勇刚,等.非结构化数据在商业银行内部审计中的应用探索[J].中国内部审计,2020,(08):2731.
[4]张薇,伍之昂.非结构化文本数据的自然语言分析在政策跟踪审计中的应用[J].审计观察,2022,(04):7075.