大数据背景下医疗保险基金审计方法研究<br/>——以H省的审计项目为例

大数据背景下医疗保险基金审计方法研究
——以H省的审计项目为例

2018-10-08黄佳佳

财政监督 2018年19期

●徐超黄佳佳

一、引言

党的十九大报告明确指出我国要加强社会保障体系建设。根据兜底线、织密网、建机制的要求，逐步建成全面城乡统筹、覆盖全民、保障适度、权责清晰、多层次的可持续的社会保障体系。要逐步完善城镇职工基本养老保险与城乡居民基本养老保险制度，全面实施全民参保计划，实现养老保险全国统筹，统一完善城乡居民基本医疗保险制度与大病保险制度。可见医疗保险作为社会保障基金中不可或缺的组成部分，对于满足人民的稳定预期发挥着至关重要的作用。

自2000年以来，我国陆续启动城镇职工基本医疗、新型农村合作医疗、城镇居民医疗等三项医疗保险制度，其保障对象分别是城镇职工、农民群体、非从业居民和少年儿童，实现了社会医疗保险制度受益人群上的全覆盖。各项医疗保险直接关系百姓民生，因此对医疗基金的妥善管理与监督，对于保障公民权益、维护社会稳定、构建和谐社会意义重大。2017年6月，国家审计署审计长胡泽君在十二届全国人大常委会第二十八次会议作2016年审计工作报告时指出，截至2016年6月，有47个征收机构和2.65万家用人单位少征少缴医疗保险费30.06亿元，未参加职工医疗保险尚有95.09万名职工。在基金管理方面，有923家药店、定点医疗机构及少数个人涉嫌伪造诊疗资料等骗取套取基金，违规出借基金达1.2亿元；收费与药价也有很多不合理之处，超过规定幅度加价销售药品和耗材的医疗机构有474家，涉及金额5.37亿元，涉及自定项目或重复收费的医疗机构有1330家，涉案金额5.99亿元。这些问题的出现无疑都大大加重了国家的医保负担。而医疗保险基金覆盖面广、涉及责任主体部门多，使得对医疗保险基金的管理和审计都存在诸多难题。

当前我国各行各业正逐步以计算机信息系统代替手工记录的方式实现信息存储与办公自动化。这使得行业数据规模迅速增大，数据类型复杂多样。行业大数据时代的到来也引起 “全数据模式”代替传统抽样审计的变革。本文针对医疗保险基金审计实务的若干审计热点问题，如应保未保、重复参保、医疗活动中的“四合理”（合理收费、合理检查、合理治疗、合理用药）等，提出了基于大数据技术的医疗保险基金审计思路，真正实现“业务产生数据，数据驱动业务”的先进大数据审计模式。

二、文献综述

（一）大数据时代对审计的影响

随着全球信息化进程不断加快，大数据在各行各业的迅速发展给世界经济社会发展带来新的机遇，使得电子数据审计向大数据方向发展成为全球趋势。2014年美国会计协会颁布的《在无线世界中重构审计》白皮书中勾绘了大数据时代的审计场景，并从数据科学视角提出审计数据分析是发现异常、模式识别、建模和可视化的科学和艺术（刘星等，2016）。2015年，中国政府印发了《关于完善审计制度若干重大问题的框架意见》以及相关配套文件，将构建国家审计数据系统、运用大数据技术等作为审计能力建设的重要内容，明确要求各级审计机关“构建大数据审计工作模式，提高审计能力、质量和效率，扩大审计监督的广度和深度”。世界审计组织大数据工作组第一次会议于2017年4月在南京召开，围绕“大数据审计分析与成果”这一议题，来自18个成员国最高审计机关的代表分析和讨论了世界各国在大数据环境下的审计工作现状、目标和前沿技术等。

紧随全球大数据研究热潮，国内外实务界和学术界也开始关注大数据在审计中的应用。学者们分析了大数据对审计工作的影响（Byrnes等，2014），以及大数据技术给传统审计工作带来的挑战和机遇（Earley，2015），认为大数据因其充分性、可靠性和关联性等特点，将成为传统审计取证方式的有力补充（Yoon，Hoogduin&Li，2015）；但大数据与当前持续审计数据分析的能力在数据一致性 (consistency)、完整性(integrity)、聚合性 (aggregation)、识别性 (identification)和机密性(confidentiality)等方面存在的鸿沟（Zhang，Yang&Appelbaum，2015)。 Appelbaum，Kogan&Vasarhelyi（2017）认为现代审计管理需将大数据与复杂商务分析方法相融合以产生更具预测性的决策。国内方面，刘碧湘（2013）讨论了大数据对计算机审计的挑战，并展望了如何利用大数据推进计算机审计的发展。随后，陈伟和 Wally （2016）、韩强（2015）、秦荣生（2014，2016）等分析了大数据环境下审计技术方法、审计思维模式，并对大数据审计管理模式与人才培养等问题提出建议。郑伟等（2016）分析了大数据环境给数据审计模式带来的影响和改进可行性，并从逻辑流程、网络架构和应用架构等角度对数据审计模式进行完善性设计及应用指标设计。可以看出，国内外学术界对大数据在审计行业中应用的研究日渐丰富和细化。

（二）医疗保险审计现状

综观我国近年来社会保险中各险种的覆盖面可以看出，医疗保险的参保人数和涉及群体范围在逐年扩大（孙彩云，2013）。建立和完善社会保障基金管理体系，是保持社会稳定、促进经济发展的前提和保证。

开展医疗保险制度政策实施与执行效果审计在国内外均是一项比较新的科研。国外方面，自2011年12月至2012年11月，美国审计署开展了 “各州推进医疗补助项目的措施及满意度绩效审计”，对各州主管医疗补助的官员进行网上调查、访谈，并对收集的各州数据进行汇总分析。通过咨询相关专家来判定信息的真实、准确性，并考虑其内在是否一致。此外，美国联邦政府继2006年以来，共发布了14份有关联邦儿童医疗保险制度（State Children’s Health Insurance Program，以下简称“SCHIP”）的审计报告，这些报告主要包括儿童在SCHIP项目中的登记人数、政策设计与成效、补助金额分配、覆盖率等方面。

国内方面，如何提高社会保险资金的监管效益，成为现阶段我国审计机关面临的一个重大挑战。目前在该领域的研究成果主要集中于医疗保险资金审计管理方式与绩效评价，而在医疗保险资金联网审计系统构建与软件研发方面的研究比较稀缺。在资金审计监管方式方面，马乐飞（2013）分析了医疗保险基金覆盖面情况、基金征缴情况、医疗保险基金管理情况、医疗保险基金征收情况等医疗保险基金运转流程中各环节的审计内容。王新奇（2009）深入分析了城镇医疗审计中出现的问题，如审计目标不明确、审计方式落后、专业人才缺乏、数据海量复杂、政策复杂等，并提出解决对策。周海莲（2013）采用调查经验分享法分析了新型农村合作医疗信息系统的审计现状与存在的问题。雷敏（2014）在比较分析国内外农村医疗资金管理、模式差别的基础上，从绩效审计的视角，分析了我国新农合医疗保险资金的绩效情况，并指出新农合制度本身存在的缺陷、信息化建设不完善、资金监督管理强度不够等问题。王山江（2017）分析了大数据环境医疗保险审计管理方法，包括数据收集存储管理、数据审计管理和审计成果管理等方面。

在医疗保险基金审计系统构建与软件开发方面，张平（2006）系统地研究了社保联网审计系统的数据查询技术、查询优化技术与语句优化技术等联网审计数据处理模块，为社保联网审计系统关键技术的实现提供了重要的理论参考。刘洋（2010）以医疗保险为例，从中国各地医疗保险政策法规、专家文档中获得医疗保险基金审计领域的相关概念，以及这些概念之间的关系，利用本体学习中基于语言学的知识获取技术，构建医疗保险基金审计领域本体知识库，并应用审计初期的数据对应过程。

三、H省某自治州医疗保险基金审计项目介绍

本文基于审计署委托实施的H省某自治州医疗、社保审计项目，针对医疗和社会保险基金审计的三个主要问题进行了研究。

（一）应保未保、重复参保

在参保过程中，由于地区特殊性、人力缺乏、时效性短等因素，传统审计方法难以及时准确核实城镇职工、城镇居民以及农村新农合人口数据。这主要有三个原因：第一，该州山区的残疾、低保及其他特殊困难群众由于信息和交通不畅，审计人员难以排查走访。第二，由于人口流动性较大，居民医疗保险省内异地结算平台尚不完善，无法实现省内统筹地区之间就医人员信息、医疗服务数据、费用结算数据等信息的交换，不能保证参保人员信息完整准确。第三，由于医疗保险数据不能共享，部分参保人员在三种险种之间重复交叉参保，造成各级财政在各险种间重复配套。

（二）“四合理”问题

在参保人员就医用药过程中，存在着严重的收费合理性、用药合理性、检查合理性、配伍禁忌等“四合理”问题；在医疗保险基金管理使用过程中，个别定点医疗机构或个人通过挂床住院、降低住院指征、分解住院、伪造病理等方式，骗取套取医疗保险基金；个别医疗保险经办人责任心不强、政策理解运用存在误差，导致重复报销等。传统医疗保险基金审计方法在审计过程中因政策、条款、指导性文件复杂多变，医疗机构、民政、用户、公积金、社保等单位信息无法及时互联互通，审计效率和精确度较低，仍处于一种粗放状态，无法做到精准模式化审计，难以有效发现隐蔽性较强的舞弊行为。

（三）因病返贫、因病致贫

因病返贫、因病致贫在致贫原因中所占的比率是非常高的，已经受到广泛关注。基本的医疗保障水平一般较低，而医疗报销的门槛较高，是造成因病返贫的主要原因。医疗费用成为一些低收入家庭沉重的负担，由于疾病不能及时治疗，导致小病延误治疗而成大病。例如风湿病，逐渐严重会导致劳动力丧失，因而容易因病致贫。很多大病不在医疗保险报销的范围之内也是因病致贫的重要原因。

四、医疗和社会保险基金的大数据审计方法

（一）医疗审计行业知识库构建

本项目从该自治州民政、药监、医保、卫计等部门提取人口统计、医疗保险、公积金、社保等数据共2.4TB，其中，医疗保险数据共计8000万条，经过数据抽取、过滤、清洗、转换等处理，构建了相应的审计大数据知识库，如图1所示。采用Hadoop分布式存储模块HDFS对海量数据进行分布式存储与管理；采用Spark RDD编程进行数据提取、数据清洗、数据可视化；用Python语言对数据进行统计建模；建立了社保审计、医疗审计、精准扶贫等应用模块；采用Java建立web用户接口。该知识库可支持对知识的快速动态建模，海量实体之间关系分析可以做到实时处理。相比基于数据库查询的传统审计方法，查询某条医疗保险基金审计事项需要耗费十几甚至几十分钟，同样一条医疗保险基金审计操作在基于该知识库的查询中可在毫秒级完成，快速精确。基于大数据知识库技术审计方法可以有效解决医疗保险审计中的数据分散、利用率不高、查询复杂度高、精确度低等问题。

（二）应保未保、重复参保的审计应用

针对应保未保、重复参保问题，基于公积金数据、人社部数据、卫计部数据，如表1所示，对参保人员信息进行概化。通过数据内在知识建立城镇人员及新农合参保人员的图谱，确定图谱中边的真实归属，使用关联分析方法对卫计部、公积金信息表及人社部中的参保个人身份证信息表进行比对，挖掘出应保未保及重复参保人员的名单。

图1 审计大数据知识库的构建

表1 数据来源信息

（三）“四合理”问题的审计应用

“四合理”具体指医疗活动中的合理收费、合理检查、合理治疗、合理用药。审计“四合理”所需知识相当广泛，涉及生理学、病理学、药理学、临床医学等多方面专业性的知识，这方面的审计还没有可借鉴的案例。针对“四合理”问题，本项目建立了“疾病—药品—项目—人员”图谱(包括药品计量、用量、人员、人员年龄、实际用量等)，如图2所示。构建该图谱所需数据包括卫计部的门诊报销信息、相关医院采购表、药品说明书；人社部的门诊项目费用明细、门诊药费明细、医院门诊结算单、住院项目明细、住院药费明细、住院结算单等；还包括医疗行业数据、药学知识库、药监局等药品数据。依据药品图谱，通过逻辑规则和不确定性知识推理方法，挖掘过度用药问题；根据“药品—疾病—人员”图谱进行比对，挖掘配伍禁忌问题；根据疾病—项目图谱来判断是否过度检查问题。

图2 疾病—药品—项目—人员之间的知识图谱关系

（四）“因病致贫、因病返贫”的审计应用

通过分析被审计个体特定的行为过程，将获取对被审计个体日益全面、精准的认识，通常用标签化的语言对被审计个体的属性、行为等进行描述，并作为实际被审计个体的虚拟代表。这一认知过程可以称为审计实务中构建“被审计个体画像”的过程。画像的构建并不局限于人群，任何一个需要研究认知的对象都可以用来构建画像，通过构建“贫困人口画像”来精准详细地描述贫困人口的实际贫困原因，再通过聚类算法，挖掘出哪些贫困人口是“因病返贫”的，从而对精准扶贫政策起到保障作用。该审计方案包括如下几个部分。

1、数据采集。贫困人口画像，即贫困人口信息标签化。通过采集、分析贫困人口的社会基本属性、开销行为、社保数据、医院的处方、医嘱数据、纳税数据等主要数据源，抽象地描绘出贫困人口的社会貌征。依据这些标签描述，可以快速精准找到贫困群体、扶贫需求等信息。

2、审计方法。利用K-means聚类算法对看病人群进行细分。首先进行特征的选取对看病人进行刻画，然后将相似的个体放在一起，实现聚类后所有族群之间差异最大化。选择的特征包括：病人个人支付金额总数（看病总费用-报销费用）、看病频次、个人收入。重复上述迭代运算，即完成了依据贫困原因的标签聚类，从而对于哪些贫困人口是因病返贫，哪些人口是因为扶贫力度不够等深层次原因完成定性与区分。

3、审计模型及结果分析。贫困人口画像的工作焦点是用标签来描述贫困人口。一个标签一般是人为事先定义的高度精炼的特征标识，如性别、年龄、个人收入、贫困特征、医疗支出等。将所有特征标签综合分析，可以得到该贫困人口的整体“画像”。贫困人口画像构建思路如图3所示：贫困人口微观画像的建立→贫困人口画像的标签建模→贫困人口画像的数据架构。

图3 构建精准扶贫中贫困人口画像

五、医疗和社会保险基金的大数据审计的成效分析

（一）应保未保、重复参保的审计成效

结果表明本项目使用的方法效率高，时间复杂度低，可有效缓解审计过程中审计人员、资源等不足情况下审计效果和效率低下问题的发生。一定程度解决了审计过程中的“暴力计算”问题，提高审计精确度和效率。以该自治州某县的审计结果为例，全县约33万人口，基本信息约110.96万条，基于知识库方法进行比对，可以在1分钟内找出重复参保人员7836人，应保未保人员9475人。

（二）“四合理”问题的审计成效

通过对8000万条全州医疗保险数据进行分析，结果表明，在几分钟到几十分钟不等的时间内，发现配伍禁忌200余例，过度用药930余例，用药禁忌10余例，审计结果快速而精确。因为“四合理”审计过程涉及专业的药理学知识，所以当前审计方法仍可进一步完善。

（三）“因病致贫、因病返贫”的审计成效

根据该州统计年鉴中的人口构成、人均收入变化、消费分布等因素加权得出人均可支配收入为2万元。以该数值为水平线，划分出因病返贫以及具有因病返贫趋势的具体人群，共286人。其中以某市县为例，共查出25人存在因病返贫趋势，7人属于新农合范畴。与现有贫困人员名单比对发现，有两人本身已处于贫困状态。若根据恩格尔系数再次加权，将可支配收入调整为1.2万元，则存在因病返贫趋势人数增加为1152人；若只根据最近一年的医疗自付情况来对2万元与1.2万元两个标准进行挖掘，则人数增加为 965人（2万元/年）与2457人（1.2万元/年）。由于无法采集到人员的具体收入情况，本项目主要基于地方平均收入进行比对，可能存有一定误差，建议在以后研究过程中尽量采集个人具体收入数据，达到真正的精准扶贫。

六、相关建议

党的十九大报告强调，要推进城乡居民医疗保险制度整合的进展，从“一体多元”到全统一，进一步提升公平性。要更加注重医疗资源的合理配置，将优质医疗资源更多向经济落后地区和农村地区倾斜，实现城乡医疗资源均衡。要提高医疗保险统筹层次，逐步实现省级统筹。要扩大医疗保险覆盖面，将非正规就业人口纳入医疗保险制度。要提升医疗保障的有效性，增强流动性。本项目以大数据时代下“全数据模式”为出发点，以医疗保险基金审计中的几个热点问题为审计目标，以某自治州医疗保险基金审计数据为例，构建了医疗审计行业知识库，形成了“疾病—药品—项目—人员”的知识图谱关系，精确勾勒出精准扶贫中“因病致贫、因病返贫”人口画像。结合党的十九大报告精神，意在提升医疗保险制度整合、医疗保险覆盖面、医疗资源合理配置、医疗保障有效性等方面，为提高政府管理决策与国家治理提供辅助支撑作用。最后，基于审计结果提出如下几方面的建议。

第一，为缓解审计过程中的“暴力计算”问题及审计工作人员业务能力不齐（审计过程汇总需要编写查询语句等）问题，建议使用基于知识库系统的医疗保险基金审计方法，在较短时间内可以精确查出应保未保、重复参保及“四合理”问题，精确度高、速度快，满足审计时效性要求的同时，操作简单、可视化，无需审计人员具备专业的计算机技能。

第二，在全数据模式下，为实现社会保障功能、关心民生、维护社会稳定，需要特别关注因病返贫、因病致贫的家庭，而且这类家庭比率较高，说明需要对当前的医疗保障体系进行完善。建议在医疗保险基金审计过程中加入扶贫资金的审计，在全数据模式下，挖掘出因低收入、高医药费用而导致病患无法脱贫的人员，挖掘出因突发病患而存在变为（返回）贫困趋势的人员，并对这些人员进行重点帮扶和关注，实现医疗扶贫资金精确到个体的扶贫工作，同时也可以对扶贫资金使用情况，以及精准扶贫政策执行情况进行监督。

第三，疾病防控预测及医疗资源部署在疾病控制、维持社会稳定工作中意义重大。理想情况是做到事前预测而不是事中救治，然而疾病是多种因素共同作用的结果。因为疾病的发生、发展和转归，均随着时间的迁移、地区的不同、外在因素的干扰、病毒自身的变异、人体内部因素而不断变化，建议在医疗保险基金审计中添加建立疾病预警及预测分析，做到疾病的防控预警。同时，在疾病预测的支撑下，合理储蓄和分配医疗资源，对储蓄的药物、门诊、急诊挂号数量、主治医生、住院部等方面的资源进行优化协调，做到防患于未然；对现有医疗资源分配是否合理进行审计，从而完成对相关单位策略合理性的监督与评估。■