审计全覆盖中大数据技术的应用

2018-07-26祁学栋

环球市场信息导报 2018年18期

祁学栋

此次研究将理论与实务有效融合，以医保审计为例，在其间应用Hadoop、云计算等技术，对以往软硬件技术处理大量数量慢、错误率高等问题予以解决，大幅提升了审计质量及效率。并且，还通过运用跨行业数据关联、聚类等大数据挖掘技术，对审计组开展工作提供帮助，有效改进了工作效率，不但给审计全覆盖给予了技术支撑，也为日后大数据审计的实施给予了新思路。

伴同我国社会经济的迅猛发展以及改革的持续深化，便需对公共、国有资产与国有资源等落实经济责任的状况实施审计全覆盖。但实际上，实施审计全覆盖具有较大困难，其所应对的最大问题即需针对各大行业海量数据信息、图片等加以处理，如此便对当前的审计技术运用、数据收集等带来了较大抨击。在此形势下，经由应用大数据技术便可将上述问题有效处理，其不但与大数据时代发展需求相符，也属于执行党中央、国务院有关强化审计监督的关键。基于此，针对审计实务里面大数据技术的应用予以研讨具备显著的学术及运用价值。此次研究把计算机、审计学等相应理论和审计实务有效衔接，将大数据技术引进到医保审计中，显著改善了审计质量与效率，给大数据时代下审计工作的实施给予了新路径。

一、创设医保审计大数据体系

当前，医保大数据审计需解决的最大难题即数据量巨大。为处理以往设备和方式收集难度大、资源损耗严重、数据处理分析效率不高等问题，此次研究应用Hadoop框架，构建形成了医保审计大数据体系。

借助Hadoop集群技术以增强数据处理水平。依照审计署要求与医保审计实际需求，此次研究对湖南省人社、卫计、民政与公积金四大部门设计了23张标准表，对医保、新农合等部门数据加以采集，合计7TB。如此庞大的数据量借助以往的审计方式难以实施，加之医保审计时间紧张、收集整理与分析任务繁重，故强化数据处理能力便成为了建设基础设施层的关键。

Hadoop属于以Java为基础构建形成的开源软件框架，主要是位于较多计算机构成的集群里面针对庞大的数据信息加以存储、实施分布式计算。其意义在于由单一的服务器扩张至数千台机器，所有单台机均能够实施本地计算与存储。该框架的优势即成本投入不高，用户不受限制，不但可对大规模数据予以处理，还可以对程序员工作进行精简，达成计算调度管理、负载均衡等目的。同時，该框架的主要设计即分布式文件系统（ HDFS）与计算框架（ MapReduce），前者主要适用到存储大量数据的计算中。

在医保审计里面先施行模拟压力测试，经由当前数据加以复制、更改，模拟当地预期数据量，对服务器数据承载和计算压力予以测试，依照结果借助Hadoop集群技术创设服务器集群，以处理海量数据分析效率不高的问题。结果表明，把5台容量为512G的服务器经由Hadoop集群技术整合为1台服务器，其处理数据的能力较之单台服务器要上涨5倍。

借助分布式文件系统以强化数据容错能力。针对湖南省医保数据收集期间，由于各区域应用系统众多且匮乏统一性，故依照分级采集市州汇总原则开展工作。抽取汇总上报数据统一创设数据库期间，假设选择以往关系数据库的文件存储方法，则一旦某一数据错误，那么便应编写语句针对整个数据库实施错误数据删除，不但耗时且操作繁琐。故而，为对数据容错能力较差的情况予以处理，此次研究将选择分布式文件系统（HDFS）为底层结构。其主要用于大量数据的分布式存储，能把较多计算机借助通信网络整合，在统一管理系统的控制下，协同达成大规模数据处理任务。并且，其在文件存储写入期间，把文件划分为文件块，分散存储于所有子节点主机中，但文件基础信息依旧存储于主节点，其优势即易拓展、容错性好、经济适用性高。通过HDFS把百余个区域的数据依照行政区域代码自主分布存储于4台子节点服务器中，且基于此产生若干副本，假设其间某一数据发生错误，则其他副本经由便捷操作能及时恢复。

借助达梦数据库与Hive数据仓库处理工具以改善数据采集加载效率。对大量医保数据抽取加载期间，为处理以往的关系数据库仅能将数据存储于服务器本地的文件系统、无法应用HDFS处理大量数据与审计工作者习惯选择SOL分析数据等问题，此次研究尝试选择Hive集成国产达梦软件创设数据仓库。

Hive是以Hadoop为基础构建形成的数据仓库处理工具，在数据提取加载（ETL）方面极为便捷，是一项能够存储、查询与分析存储于Hadoop分布式文件系统里面的大数据机制。尽管较之关系数据库而言，其具有扩张自身存储性能的作用，以及较好的计算能力，然而在面向大量数据运用时，数据挖掘、实效性不足，故此次研究应用国产关系数据库达梦软件集成应用。

Hive达成了医保数据的迅速分布式存储，然而其间如果存储表、字段名等元数据信息需持续更新、变动，因分布式文件系统里面的数据以多读少改为主，故无法把元数据存储到Hive里面。因而，为缩减检索期间执行语义检查的时间，且确保数据实时查询，便可通过国产达梦数据库对元数据予以存储，其语法和SOL相似，且导入各类型表格、数据等极为便捷。

借助MapReduce、分布式SQL引擎处理技术以改善数据分析效率。对审计数据分析期间，审计工作者往往需应对如下问题：其一，审计工作者编写的分析语句总需反复测试，依照结果多次修改SOL语句，但医保数据量庞大，位于全库中直接编写语句、测试时间较长；其二，分析任务繁重，但Hadoop体系会损耗较多资源，单次仅可执行1条查询语句。

为处理上述问题，此次研究借助MapReduce、分布式SQL引擎处理技术的同步应用并行计算对数据分析处理。其间，前者以HDFS为基础针对存储于分布式文件系统的数据实施分布式计算，该框架软件位于彼此协同的并行计算机中把大的祭祀环任务划分为若干小任务，经由一组计算机并行实施，提高计算效率；后者通过定制查询、执行引擎、相应操作符对SQL语法提供支撑，数据分析迅速且具备实效性，数据处理位于内存中实施，且具有复杂查询等功能。

在医保审计数据分析环节，先要在所有市州标准SQL库编写测试语句，将大大任务区分成若干小任务协同分析，在语句更正后统计到全库运行。因MapReduce计算框架主要以批处理任务为主，故伴同数据量的加大，应用其实施简单的数据检索便会耗费较长时间，故无法与交互式查询需求相符，此时正好适用分布式SOL查询引擎。因而，此次研究经由运用并行计算、依照分布式SOL引擎特性对分析任务通盘规划，以节省数据分析时间。

定制开发实用型工具以改进审计质量及效率。医保审计期间，审计工作者会具有如下问题：各区域应用系统匮乏统一性，导人数据不标准，基础数据质量不足，使得分析效果较差；审计工作者语句编写习惯有差异，合库后会反复调整投入使用，浪费时间；分析获知的结果需切分发放到若干审计组核实，任务量庞大、繁杂。

为处理上述问题，此次研究进行了实用工具的开发，具体为数据校验工具，依据标准表要求针对其结构、值域检验，在市州数据上报前通过该工具对数据检测、修改，以保障基础数据质量；表名翻譯工具，其能把中文表、字段名编写SQL语句变换成中文拼音的首字母版本，让其能位于Hive里面直接应用；数据切分工具，通过行政区划代码为数据切分依据，把集中分析结果自主发放到所有审计组。

二、审计全覆盖中大数据技术的具体应用

怎样与目前的大数据环境贴合，于被审计单位庞大的数据中挖掘有效信息是审计过程中最需处理的问题。本章节依旧以湖南省医保审计为例，对大数据技术的具体应用进行阐述。

应用跨部门、跨领域数据关联分析，揭示医保政策执行、管理问题。医保审计分析思路强调医保资金应用的真实有效性，具有的医保待遇有无契合政策界定，经由各部门数据关联分析，查找契合规制但不具备医保待遇等问题。首先，把该省城镇职工、居民医保等和民政低保人员信息关联对比分析，对特困人员没有参保与反复资助等异常数据筛选；其次，把该省城镇职工、居民医保等信息和人社死亡人员信息等关联分析，将死亡后依旧缴费等可疑数据筛选；最后，把该省社保经办机构、定点医疗组织工作者信息与其配偶信息和工商登记信息关联分析，将经办机构等可疑数据筛选。经由此，不但能够给审计工作者正确有效定位疑点提供了帮助，且还显著提升了其取证率及审计质量。

借助聚类技术以发现非法骗取医保基金等问题。将大数据技术应用到医保审计能针对医院收入真实可靠性予以分析，获知离群结果，发现医院非法骗取医保基金的可疑数据。先通过R语言文本挖掘工具，针对医院治疗项目分门别类，此次审计囊括该省千余家医院，治疗项目称谓具有较大差异，例如“床位费”，其将近两千余种表述模式，通过R语言文本挖掘工具里面的医学词汇针对项目名称实施文本分词，均并入到“床位费”，依照此分词方式，得出三千多个项目名称。而后，经由聚类分析技术，对疑点医院、治疗项目予以锁定，基于分词结果数据，依照医院与治疗项目名称划分组别，把汇总数量、收入总数值当做观测值，构建产生汇总矩阵，把离群医院与治疗项目和其有关的观测值视为审计疑点，从而实施调查。借助该技术能给审计工作者获知审计疑点提供帮助，且改善工作效率。

本文具体针对审计全覆盖中大数据技术的应用进行了分析，以湖南省医保审计为例，对大数据技术的具体应用进行了探索、讨论，通过应用Hadoop软件框架、HDFS、Hive等对大量审计数据存储、分析。并且，为与被审计单位数据量骤增的态势契合，通过大数据技术的应用能帮助审计工作者明确审计疑点，改善其工作质量与效率。