大数据环境下医疗保险欺诈审计实施路径研究
2019-09-10吴恒亮于本海翟宇翔张巍巍
吴恒亮 于本海 翟宇翔 张巍巍
【摘要】随着社会医疗保险数据量的急剧增长和复杂程度的不斷提高,搭建大数据分析平台,借助大数据创新审计技术和方法、转变审计模式已是当务之急。在梳理现有研究的基础上,结合湖北等地区的实践情况,以医疗保险审计为例,从技术、管理和模型等三个维度提出了“自上而下”的大数据审计建设实施路径,包括大数据文化建设、总体规划、团队组建、平台搭建、流程设计以及难题突破等五个方面,旨在为各地区开展医保大数据审计工作提供参考。
【关键词】大数据;医保审计;实施路径;大数据审计平台
【中图分类号】F239【文献标识码】A【文章编号】1004-0994(2019)24-0105-6
【基金项目】国家自然科学基金项目(项目编号:71974131);教育部人文社会科学研究青年基金项目(项目编号:18YJC630196);山东省社会科学规划研究项目(项目编号:18CKJJ04);山东工商学院财富管理特色建设项目(项目编号:2019ZBKY016)
一、引言
据人社部统计,截至目前,我国医保参保人数超过13亿人,参保覆盖率已达到95%以上,每年医保基金收入超过1万亿元。但医保诈骗案件却层出不穷,造成了医保基金的巨大损失。审计署在2017年医保基金的专项审计工作中,共发现欺诈、违法和违规问题金额超过15亿元,约占抽查资金总金额的0.46%。研究医保欺诈审计问题,关系到我国社会医疗保险制度能否持续、健康地发展,具有重要的经济价值和现实意义。
在传统计算机医保审计模式下,主要采用SQL数据库查询技术来获取医保欺诈线索,仅限于对结构化医保数据的处理和分析[1]。随着医保覆盖面的不断扩大,医保数据呈现出规模大、多样化、异构性、高价值和低密度等大数据特征,对医保审计数据的采集、存储、分析和处理等工作提出了巨大挑战。同时,国内人口流动日益频繁,居民异地就医需求增长迅速,跨省、跨市医保就医结算正逐步推行。如果仍以市或县级为单位,采用“各自为政”“单兵作战”的组织模式进行审计,势必造成大量医保欺诈行为被漏审,影响审计质量和监督效果。面对海量、多源、异质的医保数据,为突破传统审计技术瓶颈,克服传统抽样、离散、“单兵作战”审计模式带来的局限性和缺陷,缓解审计任务繁重和力量不足之间的矛盾,审计机关只能通过引入新技术、创新审计方法、转变审计模式来化解当前遇到的困境。
二、文献综述
(一)医保欺诈识别方法研究
医保欺诈识别是开展医保审计工作的关键和重点。国外对医保欺诈识别问题的研究起步较早,实证研究较多,主要采用统计分析、数据挖掘和机器学习等方法,如神经网络[2]、逻辑回归[3]、主成分分析[4]、贝叶斯[5]、聚类分析[6]、关联规则[7]、支持向量机[8]、异常检测[9]等。国内文献定性研究较多,主要集中在欺诈类型、欺诈原因分析及防范对策等方面[10]。近年来,国内一些学者开始利用统计模型、数据挖掘等技术进行实证研究。史径宇等[11]通过引入指标权重改进聚类分析算法,采用无监督学习方法实现了医保欺诈识别;邱瑞[12]采用频繁模式挖掘算法对医保骗保行为进行了模式挖掘;陈清凤等[13]将主成分分析、K-Means聚类方法和判别分析等三种方法相结合建立了医保欺诈识别模型。
(二)大数据环境下的医保审计研究
国外政府和学者对大数据环境下医保等领域的政府审计研究多侧重于大数据审计的具体操作层面,包括大数据环境下的审计模型、审计安全、主要制约因素及解决方法等方面[14]。英国、美国、挪威等国家在审计实务中已经广泛应用数据挖掘、机器学习等技术和工具[15]。
相比而言,国内学者对医保等领域的大数据审计研究更偏重于理论,如必要性和挑战性[16]、模式转变[17]、政策建议[18]等,指导大数据审计实践的研究相对较少。刘国城、王会金[15]指出,未来的研究应基于“数据科学”和“工程学”视角,从技术层面开展大数据在审计中的应用研究;郑伟等[19]从大数据审计的逻辑流程以及大数据平台的网络架构和应用架构等方面探讨了在大数据环境下进行数据式审计的操作路径;陈伟、居江宁[1]基于大数据可视化技术对医院药品加成问题进行了挖掘分析。总的来看,国内学术界有关医保等领域的大数据审计研究,无论在内容深度还是广度上都有待进一步提高。
从我国医保等领域的大数据审计实践来看,大数据技术在政府审计中的应用尚处于起步和探索阶段,缺乏成熟的大数据审计技术方案和可借鉴的经验,只有部分地区的审计机关真正开启了大数据审计的探索和建设工作,在医保领域开展大数据审计工作的地区更少。
本文依据大数据审计在其他领域应用的经验和教训,结合湖北、山东、天津、河南、河北、江苏、浙江等地区在医保等领域的大数据审计实践情况,从技术、管理和模型三个维度,提出了“自上而下”的医保大数据审计建设实施路径,包括大数据文化建设、总体规划、团队组建、平台搭建、流程设计以及难题突破等五个方面,梳理总结了部分省市的优秀做法,并针对各省市存在的问题提出了合理化建议,以期对各地区审计机关开展医保大数据审计工作提供指导和参考。
三、实施医保大数据审计的路径分析和建议
(一)建设大数据审计文化,做好实施医保大数据审计的思想准备
大数据审计文化建设就是要在整个审计机关建立一种“用大数据说话、用大数据管理以及用大数据决策”的价值观和制度体系,让大数据成为开展各项审计工作的基础。
建设大数据审计文化,要摆脱传统医保审计思维桎梏,转变审计理念,将大数据思维和理念引入审计机关,不断提高医保审计人员的整体素质。一方面,应定期组织专家讲座、培训、经验交流会等活动,从领导层到每一个基层审计人员,全面提高其对医保大数据审计的认识,将大数据思维融入审计机关文化建设中。另一方面,应设立专项基金,鼓励医保审计人员利用大数据搞“科研”,对优秀项目给予资金、人员、数据和政策等方面的支持,营造良好的大数据审计氛围。在具体医保审计项目中,应鼓励审计人员积极运用大数据分析技术开展医保审计工作,通过项目实践不断积累成功经验。
(二)注重顶层设计,统一编制包括医保在内的大數据审计平台建设总体规划
目前,我国政府审计机关审计职责范围广泛,涉及财政、地税、社保、医保等多个专业领域,医保审计仅是其监督职责之一。虽然不同专业审计在内容、方法等方面存在一些差异,但在计划制定、方案实施、组织管理等活动上具有相似性和一致性。如果大数据审计建设不做总体规划,只考虑在医保或其他单个专业领域内,或者只在市或县级范围内实施,势必造成“信息孤岛”现象,破坏审计业务的系统性和整体性,也会出现重复投资建设、系统扩展难和集成难等问题。从实践调查来看,多数省市审计机关能够意识到总体规划的必要性,但有些地区审计机关对于如何开展总体规划并不清楚,有些则急于在大数据审计方面实现单点突破而使规划流于形式,甚至还有不少地级市、县级审计机关正着手或已开展市县级大数据审计平台建设工作,而只有少数几个省市能从全省角度出发,制定真正意义上的大数据审计总体规划。
综上所述,审计机关在实施大数据审计之前,应该站在全局的高度,从全省审计总体业务出发,做好顶层设计,制定全省统一的大数据审计平台建设总体规划,建立全省统一的大数据审计平台。湖北省审计厅在“金审二期”工程的基础上,构建了如图1所示的大数据审计平台应用系统架构[20]。从系统功能来看,架构中的系统可以分为两类:一是审计管理方面的系统,二是不同专业领域的审计分析系统。总的来看,该架构遵循了系统独立性设计的原则,既能保证各个子系统的相对独立,又能保证各个子系统通过共享数据实现互联互通,从而形成一个有机整体,这样可以大大提高平台的灵活性和可变性,对构建和实施省市县三级审计机关协同审计组织模式[17],实现审计工作的统一监管和调控提供了技术支撑和保障。
(三)组建医保审计大数据分析团队
1.成立专门的医保审计大数据分析部门。在大数据环境下,医保审计工作模式的变化必然要求审计机关对组织结构做出适应性的改变和调整。审计机关需要成立一个专门的医保审计大数据分析部门,主要由数据管理员、数据分析建模师和业务数据分析师等组成,负责数据采集、整理、清理以及分析模型构建等工作,通过集中分析、筛选疑点,为审计计划制定、实施方案组织等提供重要依据。数据分析建模师由拥有大数据分析技术和经验的人员担任,业务数据分析师是指具有丰富医保审计经验的业务人员。构建模型以数据分析建模师为主导,业务数据分析师给予业务支持。
2.为医保审计项目小组设置大数据分析员角色。在传统的医保审计工作模式下,为完成某项审计计划安排的审计任务,需要成立审计项目小组,包括组长、主审和组员等角色。在大数据审计模式下,虽然对“总体分析”发现的疑点可以进行“分散核查”,但也同样需要成立审计项目小组,且在该项目组中需要增设大数据分析员角色,专门负责审计项目的数据现场采集、清理、存储、模型应用以及结果分析等相关工作。
(四)做好技术选型,搭建医保大数据审计技术基础平台
大数据平台建设是实施医保大数据审计的基础,选择和搭建一个适合自己的医保大数据平台对审计机关来说至关重要,技术选型失败会大大增加项目实施风险。调查发现,目前各省市审计机关由于缺乏大数据技术知识、经验和相关人才,在建设方式、技术选择和产品选型等方面存在诸多误区,比如认为利用传统的数据库系统即可建立大数据平台,将Hadoop技术等同于大数据平台,盲目迷信大数据能力及服务商大数据产品性能等。
首先,审计机关应该确定如何搭建医保大数据平台,即采取何种建设方式。目前,我国企业进行大数据平台建设主要采取三种方式,即本地自建大数据平台、使用云服务商提供的大数据服务以及购买大数据集成产品等。从各地区审计机关调查来看,多数省市选择采用第一种方式,相对而言,该种方式对技术人才的要求较高,实施难度较大,成本也较高,但从长远来看,平台的灵活性、兼容性、扩展性、经济性以及维护性等更加理想。部分省市采取折中方案,即在原有平台的基础上扩展大数据分析功能来构建大数据审计平台,如天津市审计局在2017年采取公开招标的方式,为其联网审计监督平台(“一张网”管理系统)采购数据分析服务。该种方式是否适合还要看原有基础平台是否采用大数据技术或具备大数据采集、存储和处理能力,否则只是权宜之计,非长久之策。
其次,审计机关需要从自己的实际情况出发,选择适合自己的技术路径。由于医保大数据平台承担着从医保数据采集、存储、分析到可视化等各项处理任务,就目前来看,单纯依靠某项技术或某个产品是不现实的,需要综合不同的大数据技术和产品,构建一个完善的大数据生态系统。而且,不同技术或产品由于侧重点不同,在功能和性能上都存在着一些差异,需要进行区分和筛选。
审计机关在技术选型时需要做好以下两方面的工作:一是对自身的信息化现状、数据情况、大数据应用的业务场景、技术力量等方面进行全方位的梳理和评估,找准自己的需求定位。一般来说,数据源的特点、数据采集方式和数据分析的应用场景等几个方面基本决定了医保大数据平台的技术选型。二是根据定义的功能和性能需求进行技术选型或产品选型,全面评估待选大数据技术或产品是否满足自己的功能需求,是否满足医保大数据审计所规定的技术指标要求,如可靠性、扩展性、高效性、容错性、开源性、安全性、易用性、数据挖掘能力、R和Python语言的支持能力等。
(五)设计医保大数据审计流程
大数据环境下,医保审计技术、方法和模式的转变,必然带来审计流程的变化。因此,需要做好大数据环境下医保审计流程的设计工作。医保大数据分析主要包括数据采集与清理、数据存储与管理、算法选择与设计、构建分析模型、欺诈分析、检查结果可视化和欺诈决策等环节,如图2所示。
1.数据采集与清理。这一环节是整个流程的起点,要明确数据来源,积极拓宽数据采集范围,广泛运用大数据抽取与集成技术,通过多种采集方式来获取医保数据。采集的原始数据往往是“脏数据”“乱数据”,必须经过数据清洗、数据变换和数据集成等清理环节,以满足大数据分析技术和算法对数据的要求。
2.数据存储与管理。对经过预处理的医保数据,根据数据规模、结构类型以及访问的实效性等特点,分别选择适合的大数据存储与管理技术工具(如分布式文件系统HDFS、分布式数据库MPP、非关系型数据库NoSQL等)予以存储。
3.算法选择与设计及模型构建。医保欺诈行为种类繁多,检测方法各不相同。数据分析建模师需要根据不同欺诈行为的外在表现和特征,选择适合的数据挖掘、机器学习方法和算法以构建模型,然后通过模型评估、参数调整以获取最优的分析模型。
4.欺诈分析。业务数据分析师(即医保审计业务人员)使用欺诈分析模型完成具体的欺诈检测工作,并将发现的疑点提交人工复核。
5.检测结果可视化及欺诈决策。使用大数据可视化技术,将模型分析结果以图形方式展示给业务数据分析师和首席数据官,进而达到欺诈决策支持的目的。
(六)突破医保大数据审计难题
在医保大数据审计流程中,数据采集和分析模型构建是最为关键、最为困难的两个环节,下面重点对这两个问题进行阐述。
1.破解医保大数据审计“数据采集”难题。
(1)医保数据来源。医保数据涉及参保人信息、基金运行管理数据、参保人在医院、药店以及基层医疗机构接受医疗服务时所产生的各种信息,如患者病历档案、住院信息、处方信息、检查项目和购药信息等,还包括药企、药店进销数据、社保、民政、工商、公安以及从互联网上获取的数据等。其中,医院、药店、医保机构、药企以及基层医疗机构等信息系统是医保大数据审计的主要数据来源。当前,由于我国医保长时间的城乡割裂,医保管理存在以统筹区域(多数是县级)为单位、各自独立以及所采用的信息系统技术不一致等问题,医保数据表现出多源、标准不统一、数据量大、数据质量低等特点,给医保审计数据采集和清理工作带来很大的困难。
(2)数据采集方式。目前,审计机关主要采取由被审计单位手工报送数据的方式进行数据采集,存在不报送、报送不及时、报送不全面、数据质量低等问题,对拓展医保审计广度和深度,提升医保审计监督质量和效率造成了严重的负面影响。在大数据环境下,必须坚持“数据先行”原则,采取定期报送、按需收集和在审计中收集等多种数据收集方式,积极做好医保数据采集工作。一方面要加强对被审计单位报送数据的督导工作,对不按规定报送数据的单位要及时反馈、协调解决。例如,山东省审计厅专门制定了定期报送数据的规章制度,对数据报送中出现的问题及时反馈给当地领导,或向省政府报告,将其纳入重点审计整改范围,逐步破解了“数据报送难”问题[21]。另一方面,开发与被审计单位信息系统的数据接口,利用计算机平台直接从被审计单位采集或采取上传的方式收集原始的医保审计数据,提高数据采集效率和质量,保证数据的真实性,防止“假账真审”。
(3)数据清理问题。可以利用数据分析、数据挖掘等技术和工具进行医保数据整理、清理和标准化工作,克服数据不准确、不一致以及数据缺失等带来的弊端。例如,湖北省审计厅采用文本挖掘和分词技术,基于医学词汇包,将1700多家医院对“床位费”的2300多种不同表达方式,全部转换成“床位费”[22]。又如,山东省审计厅从该省卫计委及其所属单位采集的医保数据,由于来源众多,涉及340多个不同版本、不同结构的信息系统,为此该厅专门成立了一支“破译团队”,按照编码规则编写数据转换脚本,对原始数据进行标准化处理形成医保标准数据表[21]。
2.破解医保大数据审计“数据分析”难题。
(1)分析模型是医保审计大数据平台的核心组件和引擎。不同专业审计由于在审计目标、内容和数据等方面存在较大差异,审计方法必然会有所不同,细化不同专业领域的审计分析模型将是未来研究的重点[16]。在医保领域,传统审计模式下主要是构建查询分析模型,随着云计算、大数据和人工智能技术的不断发展,工业界、学术界提出了许多适合大数据环境的医保审计建模方法,可以对医保数据进行深度挖掘和分析,实现查询型向挖掘型分析方法的转变,如下表所示。但是,由于种种原因,这些方法和技术多数还停留在学术研究和实验阶段。
调查发现,目前很多地区审计机关对医保审计大数据分析存在认识不清、认识不到位的问题。第一,有些省市仍然停留在传统的数据分析思维上,有些甚至将查询分析型审计误认为是大数据分析审计。第二,大多数省市所采取的大数据分析技术比较单一,应用最多的技术是数据关联比对分析,但其本质仍是SQL数据库查询技术,只不过建立在大数据分析平台基础之上,采用分布式数据存储和检索技术,使其吞吐量、执行效率和查询范围有了比较大的提升。第三,应用数据挖掘和机器学习等大数据分析技术的案例还比较少,其中湖北、山东等地区在医保大数据审计建模方面积极探索、大胆尝试,已经取得了一定成效。例如,湖北省審计厅在医保大数据审计中,利用大数据分析工具R-Studio和聚类分析方法,从1700多家医院中锁定了7家治疗项目总费用明显异常的医院,作为审计疑点和线索[22]。总的来看,目前我国包括医保在内的各种专业审计所采用的分析技术手段还非常有限,远远没有发挥出大数据分析技术的作用。因此,大数据分析模型的构建和应用,将是未来各个审计机关研究的重点和急需攻破的难题。
(2)破解“数据分析”难题的关键是大数据分析人才的培养。当前,很多审计机关已经积累了大量的医保数据,部分省市也建立了大数据基础平台,但大数据分析人才严重缺乏,分析团队组建都是基于现有计算机人员和审计业务骨干,这些人员并不具备大数据分析所需要的技能和素质,已成为制约其持续发展的重要瓶颈。因此,加大大数据分析人才的培养力度,快速高效地培养医保大数据审计所需要的各类人才,是审计机关开展医保大数据审计工作的当务之急和长远发展之策。
目前,获取医保大数据审计分析人才的途径主要有以下几种:①依靠人才引进。近年来,我国大数据市场规模增长迅速,大数据人才缺口非常大,供需矛盾非常突出。显然,通过人才引进来获得经验丰富的大数据分析人才还是比较困难的。②培训现有的计算机和医保审计业务人员。与传统数据分析相比,大数据分析需要掌握的知识和技术更加宽泛,涉及数学、计算机、统计分析、数据挖掘、机器学习以及自然语言处理等多个领域的综合知识,学习门槛较高,需要投入大量的学习时间,并不断积累实践经验。因此,在短时间内通过技术培训提升医保审计人员大数据分析能力也不太现实。③加强与国内高校和科研机构的合作。高校和科研机构具有人才和技术优势,湖北省审计厅能在短时间内取得医保大数据审计建模方面的突破,主要是源于该厅与武汉大学计算机学院开展了大数据技术合作[20]。因此,审计机关必须走出去,积极寻求和开展技术合作,这是审计机关短时间内提升医保大数据分析建模能力,实现快速起步的有效途径。当然,从长远发展来看,前两种人才培养方式也必须同时推进,缺一不可。
四、结语
在云计算、大数据、人工智能等技术不断发展和进步的今天,基于数据挖掘和人工智能的大数据分析技术必将成为提高医保审计质量和效能的重要驱动力。因此,探索大数据环境下的医保审计新模式、新技术和新方法,是我国各级审计机关和学术界亟须研究的重要课题。本文在文献梳理和对各省市大数据审计实践调查的基础上,针对医保审计目前存在的问题和难题,提出了指导审计机关进行医保大数据审计的基本思路,以期在学术界和审计机关的共同努力下,让医保大数据审计在各级审计机关中早日落地,从而破解传统医保审计模式和方法在大数据环境下面临的困境和难题。
主要参考文献:
[1]陈伟,居江宁.基于大数据可视化技术的审计线索特征挖掘方法研究[J].审计研究,2018(1):16~21.
[2] He H.,Wang J.,Graco W.,et al. Application of neural networks to detection of medical fraud[J].Expert Systems with Applications,1997(4):329~336.
[3] Liou F. M.,Tang Y. C.,Chen J. Y. Detecting hospital fraud and claim abuse through diabetic outpatient services[J].Health Care Management Science,2008(4):353~358.
[4] Brockett P. L.,Derrig R. A.,Golden L. L.,et al. Fraud classification using principal component analysis of RIDITs[J].Journal of Risk & Insurance,2010(3):341~371.
[5]Bayerstadler A.,Van Dijk L.,Winter F. Bayesian multinomial latent variable modeling for fraud and abuse detection in health insurance[J].Insurance:Mathematics and Economics,2016(71):244~252.
[6] Hillerman T.,Souza J. C. F.,Reis A. C. B.,et al. Applying clustering and AHP methods for evaluating suspect healthcare claims[J].Journal of Computational Science,2017(19):97~111.
[7] Verma A.,Taneja A.,Arora A. Fraud detection and frequent pattern matching in insurance claims using data mining techniques:Tenth International Conference on Contemporary Computing[C]. IEEE Computer Society,2017.
[8] Kirlidog M.,Asuk C. A fraud detection approach with data mining in health insurance[J].ProcediaSocial and Behavioral Sciences,2012(62):989~994.
[9] Van Capelleveen G.,Poel M.,Mueller R. M.,et al. Outlier detection in healthcare fraud:A case study in the medicaid dental domain[J].Inter? national Journal of Accounting Information Sys? tems,2016(21):18~31.
[10]林源.国内外医疗保险欺诈研究现状分析[J].保险研究,2010(12):115~122.
[11]史径宇,冉松灵,李晨萍.医保欺诈行为的主动发现——基于引进指标权重的聚类分析算法[J].数学建模及其应用,2016(1):54~59.
[12]邱瑞.基于频繁模式挖掘算法的医保欺诈预警研究[J].产业与科技论坛,2017(17):62~64.
[13]陈清凤,朱宁,朱亩鑫.大数据下医保欺诈的有效识别模型[J].汕头大学学报(自然科学版),2018(1):40~48.
[14] Alles M.,Gray G. L. Incorporating big data in audits:Identifying inhibitors and a research agenda to address those inhibitors[J].International Journal of Accounting Information Systems,2016(22):44~59.
[15]刘国城,王会金.大数据审计平台构建研究[J].审计研究,2017(6):36~41.
[16]陈伟,SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016(1):8~13.
[17]魏祥健.大數据环境下政府审计模式转变[J].财会月刊,2016(22):64~67.
[18]刘梦溪.基于大数据的天津市预算执行审计探索与实践[J].审计研究,2018(1):22~27.
[19]郑伟,张立民,杨莉.试析大数据环境下的数据式审计模式[J].审计研究,2016(4):20~27.
[20]刘明亮,周刚,刘燕.扬起大数据风帆走好信息化之路——湖北省审计厅探索大数据审计纪实[J].中国审计,2015(5):11~20.
[21]王松宝,孟翔燕.山东:强化审计质量控制的探索与实践[J].中国审计,2017(11):15~20.
[22]湖北省审计学会课题组,陈智斌等.大数据技术在审计全覆盖中的应用研究——以湖北省医保审计实践为例[J].审计研究,2018(1):11~15.
作者单位:1.山东工商学院管理科学与工程学院,山东烟台264005;2.辽宁工程技术大学工商管理学院,辽宁葫芦岛125105;3.上海应用技术大学经济与管理学院,上海201418;4.烟台市审计局,山东烟台264000