利用数据挖掘算法建立医保医师画像模型的探究

2022-06-11傅亦安贾洸怡

中国医疗保险 2022年5期

傅亦安贾洸怡

（上海市医疗保险事业管理中心上海 200040）

2019年起，上海市医保局通过智能监控、日常监督检查、举报调查等方式，启动了对医保医师违规行为的记分管理。按违规行为情节轻重，对医保医师分别记1 至12 分，对于被扣分的医保医师分别采取纳入监管对象名单、通报批评、停岗培训、暂停医保结算等不同程度的管理手段，初步建立了医保医师信用评价体系。本文通过大数据挖掘方法构建医保医师画像模型，为进一步完善医保医师信用评估体系、规范医保医师诊疗行为提供数据基础。

1 研究方法和工具

本研究主要使用的方法有：（1）标准化：对数据特征进行归一化处理，消除量纲影响，使不同指标之间具有可比性。（2）相关性分析：研究变量间的关系，消除可能存在的多重共线性。（3）层次聚类：通过计算两类数据点间的相似性，对所有数据点中最为相似的两个数据点进行组合，并反复迭代这一过程。（4）K-Means 聚类：将给定的数据集划分成个簇，并给出每个数据对应的簇中心点。（5）逻辑回归：将医保医师根据不同特征划分为多个不同类型，而且各个类别无次序关系。（6）主成分分析：找出数据中的主成分，并利用这些主成分表示原有数据，达到降维目的。（7）决策树模型：自上而下对样本数据进行树形分类。从顶部根结点开始，将样本分到不同的子结点中，再根据特征进一步划分，直至所有样本都被归到某一类别中。

本研究主要统计工具是SAS 9.4 版本中EM 建模专用模块和BASE 基本模块。

2 研究过程和结果

本研究基于传统数据挖掘流程，整体研究流程见图1。

图1 整体研究流程

2.1 数据预处理

本研究选取上海市医疗保险数据库中医保医师为研究对象，共47373 名。选取25 个变量，分为四大类：医师个人信息、医师资格信息、医师出诊信息以及病人门急诊就诊、复诊、转住院信息（见表1）。

表1 预处理变量

2.2 数据降维

本研究使用相关性分析，根据相关系数过滤出14 个变量，分别是年龄、性别、是否包含本院、所在医院数、透析资格、抗排异资格、肝移植资格、进修标志、最高学历、人均费用、病人平均年龄、本月医师接诊三个月内的复诊病人数占比、三个月内门诊转住院病人数占比、药费占比。

2.3 医师画像模型

2.3.1 确定最佳分类数。利用模型算法得出最佳分类数，即至少需要多少类才能将不同医师区别开。本研究采用的AGNES 层次聚类算法依次尝试1—10 个簇数，选取表现最好的模型作为最终的簇数。根据统计量确定分类个数，期望找到一个模型既具有较低的“伪t 方”和“半偏R 方”，又具有相对较高的“伪F 统计量”。对比不同簇数的模型性能可知，当层次聚类模型簇数设定为8 时，模型性能最佳（见图2）。

图2 层次聚类模型不同簇数关键统计量对比

2.3.2 模型构建。利用无监督大数据机器学习算法，对医师进行归类处理，并得出每一类医师的特征。本研究选择K-Means 算法将被观测医师分为无重叠的8 类，并分析模型结果以判定这种分类方式是否合理。表2 给出了所有进入模型的14 个变量统计量。表3 和表4 分别展示了八个类别中所有变量在不同类别内的均值和标准差。可以看出，变量“透析资格”“抗排异资格”“人均费用”“进修标志”“本月医师接诊三个月内的复诊病人数占比”的类间差异较大，这5 个变量能更好地将医师进行分类。表6 给出了八个类别的医师的整体特征。

表2 变量统计量

表3 变量均值

表4 变量标准差

表6 初步分类各指标特征

2.3.3 画像模型验证。为了验证分为八类是否合理，选用无序多分类逻辑回归模型进行回归验证。在逻辑回归模型中，将70%被观测的医师作为训练集，剩余30%作为测试集。由于此次变量中包含“连续型”和“离散型”两种变量，因此用不同的方法构建两个逻辑回归模型。其中一个模型利用Gini 统计量对特殊变量做分箱操作，另一个不对特殊变量做分箱。根据AIC信息准则（Akaike information criterion，赤池信息量准则）衡量统计模型拟合优良性，比较分析两个模型的性能。

模型结果显示，R-Square 和Adj.R-Square 两者的值相差不大，模型拟合效果比较好。其中Adj.R-Square 达到0.69，效果理想，即将医师分为8 类是合理的分类方式。

2.4 医师分类结果

进入模型的变量为14 个，数量较多，有必要进行降维处理，让各类医师的特征更为突出。

2.4.1 变量重要性排序。为了更好地解释模型，根据医师特征对医师变量进行了降维，降维常用的方式为主成分分析法和决策树算法。

主成分分析法一般需要挑选信息含量累计值的模型。结果显示，经过主成分分析法模型降维后，仍需要选取9 个维度的变量才能包含75%有用的信息，并没有将数据降维到更低的维度，没有达到预期期望。因此考虑利用大数据决策树模型，选出主要变量以及对变量重要程度进行排序。由于构建决策树模型的目的是将变量根据其重要性排序，所以只设定了决策树停止生长的条件：最小观测数为5，并没有对分类结果做过多的约束条件。

表5 展示了参与决策树构建的所有参数的重要程度。该决策树模型一共只调用了14 个变量中的8个，其中最能区分医师类别的特征是“药费占比”变量。该特征在整个决策树搭建的流程中被使用了2次，重要性为1，说明不同医师用药差别非常明显。

表5 变量重要性

2.4.2 医师画像结果描述。综合模型结果，本研究最终使用了8 个变量将所有被观测医师分成8类。表7 给出了被观测医师的最终分类信息，其中第四类和第六类医师数量最多。

表7 分类结果

2.4.3 聚类特征描述。根据上述分类结果和关键变量的特征值，结合相关业务，具体分析每一类医师的特征，总结各类医师在各级医院不同科室出诊的医药费用明细等具体信息（见表8）。

3 研究结论

3.1 运用多种大数据技术提升医保治理能力

本研究充分利用医保大数据优势，综合运用决策树、聚类、逻辑回归、主成分分析等多种挖掘算法，结合门诊医师的基本信息、接诊信息以及接诊病人人群特征信息等指标，进行了较为深入的医师画像分析，是多重挖掘算法在医保领域的探索，为大数据技术在医保其他业务的应用提供借鉴。

3.2 通过记分管理提升医保经办的数字化水平

根据医师画像分类结果（即每一类医师的特征信息），在医保经办服务系统已有的医师信用体系下，采取监测或有针对性的规范措施，细化记分管理手段，为后续完善医保系统中医师记分体系提供依据，进一步提升医保经办的数字化管理水平。

3.3 构建医保医师画像提高医保审核效率

第一类医师在三级医院诊疗行为多，进修和透析、抗排异资格都比较高，药费占比高，主要集中于肾病内科的“内科用药（中成药）”（见表8）。经办机构可以请相关医学专家评估用药行为是否合理，并联合卫健委等部门，对医师不合理用药行为采取针对性措施，在日常审核体系中加强监测和预警，规范医师诊疗行为。

表8 特征描述

第五类医师是所有分类中的特异值，对医保审核有一定意义。

本研究在医保审核部门的大力协助下，对个案进行了研究。其中部分医师是由于诊治血友病等特殊疾病，所以发生费用较高，属于合理医疗行为。但有的医师是将急诊观察结算纳入了普通门急诊结算，造成了异常结果。医保经办部门发现后对相关机构的医保实时结算进行规范，提高了医保审核效率。

4 下一步工作建议

医师画像提升了医保医师信用体系建设的水平，但本次医师画像模型构建在目标医师的确定和模型选取上仍存在一定不足。一是因为大数据算力不足，对门诊医师做画像分析时，仅选用了一个月的数据，没有对医师行为做时序分析预测。下一步可以根据医师行为数据，区别不规则变动、循环变动、季节变动等不同时间的动势，特别是连续的长期动势。从系统原则出发，综合分析时间序列，反映曾经发生过的所有因果联系及影响，分析各种作用力的综合作用。运用数学模型求出时间序列以及将来的各项预测值，如移动平均法、季节系数法、指数平滑法。二是本研究采用无监督K-Means 聚类算法，分类数K 是通过层次法选出的，但是目前数据挖掘比较常用的方法为手肘法和轮廓系数法，本次研究受模型工具限制，未采用这两种方法。今后条件许可的情况下，将尝试使用手肘法和轮廓系数法进一步完善医保医师画像模型。