住院医师规范化培训学员投诉、评估检查与基地建设质量的博弈分析
2020-10-30于渊宁柳琪林
于渊宁,柳琪林
(中国医师协会/中国医师培训学院,北京100073)
1 背 景
博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学[1]。在策略性环境中,每个人进行的决策和采取的行动都会对其他人产生显著的影响,每个人要根据其他人可能的反应来决定自己的决策和行动。1944年美国数学家冯·诺依曼和美国经济学家摩根斯坦合著的《博弈论与经济行为》,构建了一个完备的用数学和逻辑学描述经济科学的理论体系及方法论基础[2]。此后,诺贝尔经济学奖获得者纳什、泽尔腾和海萨尼不断丰富发展博弈论研究,并将其卓有成效地应用于理性经济人行为分析。博弈论蕴含的策略思维为人们深刻理解社会现象和制定社会规则提供了独特的视角和指导原则。研究理性决策主体间行为发生的相互作用、影响变量、决策和均衡等问题,就是博弈论的任务。
住院医师规范化培训(以下简称“住培”)基地建设的质量水平对我国住培工作至关重要。长期以来,基地建设和内外部监管之间的关系问题一直是住培制度建设中的重点和焦点。通过对全国住培管理研究,可以发现,住培学员对基地的投诉、基地住培工作合规化建设、国家级监管(评估检查)三者之间存在博弈关系。分析各方行为动机,建立相应博弈模型,进而得出纳什均衡下博弈双方最优策略和行为,对进一步完善全国住培制度建设,提升国家层面监管效率,提升基地合规建设水平和培训质量,推动住院医师人才培养,确保全国住培工作顺利实施,有一定参考意义。
2 博弈模型相关概念
博弈包括三个基本要素:参与人、参与人的策略和参与人的支付。参与人是博弈中进行决策的主体,通过在博弈中选择最优的决策和行动以实现自己的效用和收益最大化。参与人的策略指的是参与人在博弈的每一时点上决定如何行动。参与人的支付指的是在所有参与人都选择了各自的策略且博弈已经完成以后,参与人所得到的结果。在本文中,支付指的就是参与人的净收益,即收益与成本之差。
博弈分为二人博弈和多人博弈,合作博弈和非合作博弈,完全信息博弈和不完全信息博弈等。此外,当参与人对策略的选择是确定时,称为纯策略博弈;当参与人对策略的选择是一个概率向量时,称为混合策略博弈。在二人同时决策的博弈分析中,以二元数组为元素的矩阵称为博弈矩阵(支付矩阵)。矩阵包含参与人各自的策略和博弈的结果(支付),即策略组合和相应的支付组合。一方在另一方选定策略下的最优策略称为该方的条件优势策略,代表了该参与人在此条件下的均衡状态。在博弈矩阵中,如果一个策略组合使得任何参与人在该策略组合上单独改变策略都不会得到好处,从而任何参与人都不再有单独改变策略的倾向时,该博弈达到均衡,称为纳什均衡。这个均衡是博弈各方最终选取的策略组合,是博弈的最终结果。完全信息静态博弈中,纯策略的纳什均衡既可能存在,又可能不存在;既可能唯一,又可能不唯一;既可能稳定,又可能不稳定;既可能最优,又可能不是最优。而且,即使纯策略的纳什均衡不存在,相应的混合策略纳什均衡也总会存在。了解以上基本概念对本次研究至关重要。
3 学员、基地和监管机构的博弈模型概述
对基地建设、学员投诉和国家层面监管机构工作实际进行分析,学员投诉-基地建设、基地建设-国家监管之间适用完全信息(两人)静态博弈模型。即博弈参与方处于完全信息条件下且为完全理性,对信息、他方策略及支付(效用函数)都完全了解,并都希望以最小成本实现自身利益(效用和收益)最大化。此外一个必要的合理假设是非合作博弈(基地-学员“合作”的特例另行分析)。三方在两两博弈模型中,策略不同,支付(净收益)不同,因此在不同模型中分别研究,但为便于分析,可以总括进行概述。
3.1 各方策略
3.1.1 培训基地 住培基地存在两种状态,即两种策略行为:一是合格状态(或称合规建设,达标状态,高标准建设),指基地制度建设、管理架构、学员招收、轮转管理、过程考核、培训质量、绩效奖惩、学员待遇、后勤保障、人文文化等各项指标达到国家相关标准。二是不合格状态,指基地上述指标一项或多项达不到国家相关要求的状态。
3.1.2 住培学员 学员行动策略有投诉和不投诉,在这里投诉仅指通过指定途径如电话和邮箱向国家层面监管机构反映基地违反国家住培相关规定和标准的情况,也包括学员网络“吐槽”引发较严重的网上舆情,国家层面监管机构安排专项飞行检查的情况。基地向省级主管部门投诉不包括在本次研究模型中。
3.1.3 国家层面监管机构 本文指国家卫生健康委科教司或受科教司委托对全国住培基地进行业务管理和指导的机构,如中国医师协会。国家层面监管机构的监管行动策略有两种,监管(评估检查)与不监管。前者指每年监管机构在国家卫健委科教司指导下,抽选全国优秀的住培管理和专业专家,对基地进行综合检查和飞行检查,并根据检查结果对基地做出合格和不合格的结果认定。不合格认定时又分为责令限期改正,限制或取消基地招收资格,直至撤销基地等,并可根据情况面向全社会通报或予以行业内部通报批评等。
3.2 各方支付 检查过程中产生两种成本,基地的迎检成本和国家层面监管机构组织检查的成本。国家层面监管机构的组织检查成本包括对全国基地进行综合评估或飞行检查时,评估检查组专家的差旅食宿费,以及专家们因接受检查任务邀请而需要临时对原定工作计划进行调整产生的成本。
检查基地的结果分为合格或者不合格。前者是基地应当达到的建设标准;对于后者,基地将面临通报批评、限期整改和停止招收甚至取消基地资格的后果,基地的代价或者成本极其巨大。
对于监管机构如中国医师协会,加强监管力度,对于发现的问题进行严肃查处,可以更好地促使全国住培基地处于良好的运行水平,完成国家卫健委科教司的委托任务,其收益主要是上级单位(国家卫健委科教司)的认可,以及全国青年医师培养质量的明显提升,进而对国家医疗卫生水平的提高和社会健康水平的提升。因此,应当以社会整体收益来评价,这个收益巨大,且意义重大。反之,如国家级监管不力,或者惩处力度不够,则基地住培质量将大幅滑坡,对国家卫生健康人才培养和健康中国事业带来很不利的后果,即社会成本高昂。
综合分析,博弈参与方支付或者收益与成本为如下三个方面。
3.2.1 基地支付 包括:(1)基地合格状态下的成本,包括保证基地正常、合规运转而产生的支出,是基地用于自身合规化也即达到国家住培基地标准要求的水平时需要投入的资金、设备、人力投入等成本,如工作人员成本、模拟中心成本、带教成本(带教老师薪资和时间精力成本、机会成本、教学设备成本等)、院内督导成本、教师培训和激励成本,以及学员补助、住宿补助、餐补、交通补助等。合规运行成本巨大,以-BC高表示。(2)基地处于达不到国家住培建设标准时,基地投入明显少于合规建设应有的支出水平,以-BC低表示。合理的假设是基地要达到符合国家住培基地建设和带教质量相关标准要求时需要更多的投入,即BC高>>BC低。(3)基地迎接国家评估和飞行检查时产生的成本主要是迎接评估检查时的直接成本,如准备资料的成本、人员安排的时间成本和机会成本、人员加班补助等。间接成本如对医院和带教师资的心理压力等不计入在内。这部分支出较基地运行成本小得多,以-BC迎检表示。(4)基地的收益,主要是指国家财政每年按在培学员数×3 万元/人标准拨付给基地,用于基地住培教学活动和住培建设当中的部分。记为BR拨款。(5)基地损失。基地不合格被国家层面监管机构查处时,面临行业内甚至社会通报批评,停止招收甚至取消住培基地资格。基地隐形损失巨大。以-BCp表示。
3.2.2 学员支付 对于学员,基地规范运行时,获得了良好的培训机会,个人能力有明显提升,为未来工作晋升打下良好基础,培训期间有较好收入。收益为PR。反之,学员无法在三年住培时间内获得能力提升,收入偏低,对学员而言,机会成本巨大,以PRl表示(PRl可以小于零)。
在衡量投诉成本上,学员通过邮件、电话或者网络举报基地,其直接成本很低,但存在个人身份暴露的风险及引发的后果,这个风险成本对学员个人而言同样比较重要,以-PCr表示。基地质量提升时(因学员投诉且经国家层面监管机构调查后责令整改)学员培训收益增量记为△PR。为简化运算,令PR=PRl+△PR。
3.2.3 监管机构支付 如上文分析所述,监管机构的成本包括组织现场评估检查的各项支出,这部分费用成本以-ACt表示。此外,监管机构加强监管力度,其收益应以对社会产生的整体效益来评价,以AR表示。反之,如国家级监管不力或惩处力度不够,则基地住培质量将大幅滑坡,对国家卫生健康人才培养和建设健康中国带来很不利的后果,即社会成本高昂,以-AR表示。
3.3 博弈模型基本架构
3.3.1 完全信息静态博弈模型 见表1。
表1 完全信息静态博弈模型Table 1 Static game model with complete information
(M,N)的不同组合,分别表示甲方和乙方同时采取不同策略时的支付组合。当甲方选择策略1 时,乙方可以选择策略1 和策略2;乙方选择策略1 时,相应的甲方和乙方支付分别为M1和N1;乙方选择策略2时,甲方和乙方支付分别为M2和N2。当N1 >N2时,对乙方来说,选择策略1 比选择策略2 收益大,是占优策略。同样的,乙方选择策略2 时,甲方可以选择策略1 和策略2,对应的收益组合分别为(M2,N2)和(M4,N4),如果M4 >M2,甲方占优策略选择为策略2,对应的策略组合为(M4,N4)。如果一个策略组合内的数字与左右相邻组合数字相比(第一个数字纵向比较,第二个数字横向比较)都占优,则称此时组合为纳什均衡。此时参与双方都没有改变选择的动机。
3.3.2 混合策略博弈模型 甲方选择策略1 的概率为P,则甲方选择策略2 的概率为1-P;同理,乙方选择策略1 的概率为Q,则选择策略2 的概率为1-Q,见表2。
表2 混合策略博弈模型Table 2 Mixed strategy game model
表2中M 和N 分别表示参与方该策略组合下的净收益。
甲方预期收益为:
该式对P求偏导:
当∂E/∂P=0时,Q*=(M4-M2)/(M1-M2-M3+M4)
Q*即对应甲方在混合策略博弈中的纳什均衡值。此时甲方选择策略1 和选择策略2 的效用是相等的。
乙方预期收益为:
该式对Q求偏导:
当∂E/∂Q=0 时,P*=(N4-N3)/(N1-N2-N3+N4)
P*即对应乙方在混合策略博弈中的纳什均衡值。此时乙方选择策略1 和选择策略2 的效用是相等的。
(P*,Q*)即是混合策略博弈模型的纳什均衡解。
4 学员-基地,基地-监管机构博弈分析
4.1 学员-基地的纯策略博弈 学员有两种选择,投诉或者不投诉,基地也有可能处于两种状态,合格状态或者不合格状态,见表3。本文的投诉指的是向监管机构的投诉,因监管机构受理投诉后能够组织评估检查。相应的策略组合如下。
表3 学员-基地的纯策略博弈模型Table 3 Pure strategy game model between residents and the base
当基地处于高标准建设,即处于合格状态时,基地培训质量不因学员投诉而有提高,即学员此时的培训收益始终为PR。但学员投诉的成本和风险依然存在。因此,学员投诉的支付即净收益为M1 =培训收益-投诉风险损失= PR-PCr,不投诉的净收益为M3=PR,即培训收益。因为M3 >M1,所以学员的理性策略行为是不投诉。
当基地处于不合格状态时,学员不投诉时的净收益为M4=PRl,投诉的净收益为M2=PRl+△PR-PCr,即低标准培训收益+收益提升-投诉风险损失。当收益提升>投诉风险损失即△PR >PCr时,PRl+△PRPCr>PRl,即学员投诉后收益较前有所增加,学员选择投诉。当投诉风险损失大,超过投诉后培训收益的提升,△PR<PCr时,PRl+△PR-PCr <PRl,即学员投诉后净收益反而较投诉前下降,则学员选择不投诉。特别是,如果投诉风险很低或者几乎为零时,比如匿名投诉,学员风险损失很小,则即使投诉后培训收益提升幅度不太大,学员也有可能选择投诉。
当学员处于投诉状态时或当学员(向上)投诉渠道畅通时,基地达标时的支付为N1,不达标的支付为N2。此处假定学员投诉即触发监管机构的飞行检查或评估,且评估检查有效率100%。则基地合规时净收益为N1=BR拨款-BC高-BC迎检,即等于国家拨款减去基地高标准合规建设成本与迎检成本后的数额。基地不合规时,基地收益为(国家拨款-低标准投入)-迎检成本,而损失为高额BCp+培训建设投入差额,即基地因不合规被国家层面监管机构查处时,损失既包括行政处罚损失,又包括补齐基地建设短板的巨额资金投入。假定培训建设差额=BC高-BC低,则此时基地支付或净收益N2=(BR拨款-BC低-BC迎检)-[BCp+(BC高-BC低)]=BR拨款-BC高-BC迎检-BCp=N1-BCp。N2-N1即不合规比合规的净损失,是为违规后被查处的代价。因此基地在有学员投诉作为内部监管情形下选择的策略是合规。
当学员处于不投诉状态时,或者学员向上反映情况的渠道不畅通,基地处于合规状态时的净收益为N3=BR拨款-BC高,即国家拨款和基地自身合规建设高投入的差。基地处于不合规时的净收益为N4 =BR拨款-BC低,即国家拨款和基地低标准投入之差。N4-N3=(BR拨款-BC低)-(BR拨款-BC高)= BC高-BC低。因为基地合规建设的成本远远大于不合规建设的成本,即BC高>>BC低,N4-N3>0,N4>N3,即当基地学员投诉反馈渠道不畅通,内部监管失效时,基地不合规的收益高于合规时的收益,因此基地选择不合规状态也即低成本投入开展住培工作。
从上文分析可以看出,基地处于不合格状态且被学员投诉并接受飞行检查认定不合格,如果惩处力度较小,而基地通过不合规建设节省资金很多,且被查处后基地不用投入大笔资金补齐短板,则N2′ =(BR拨款-BC低-BC迎检)-(BCp+△BC′),其中△BC′表示基地被查处后不积极改进时的投入,△BC′<<BC高-BC低,即此时基地并未积极加大投入用于住培质量建设,基地仍处于不达标状态。N2′-N1=[(BR拨款-BC低-BC迎检)-(BCp+△BC′)]-(BR拨款-BC高-BC迎检)=BC高-BC低-BCp-△BC′=[BC高-(BC低+△BC′)]-BCp。如果△BC′和BCp都很小,则N2′-N1 >0,N2′>N1,表明即使有内部监管(学员投诉)和外部监管(国家评估检查)两个渠道,基地在不合格状态下获益都大于被查处的损失,从而基地会倾向于选择不合规,即低标准投入和建设,此时内外部监管失效。只有当△BC′足够大到使不合规基地补齐与合规基地标准的差距时,或者BCp足够大即基地因不合规而被查处时付出的代价巨大,则才能有N2′-N1 <0,N2′<N1,基地选择合规状态。
进一步分析,当学员选择不投诉,从而基地选择不达标时,策略组合为(M4,N4),学员收益为M4,小于收益M2,此时学员会改变策略,选择投诉,以使自己的收益增加,此时策略组合变为(M2,N2),即(投诉,不合格),而此时对于基地,在学员投诉的前提下,基地的策略应该是“合格”,因此策略组合再度变为(M1,N1),即(投诉,合格)。而基地合格状态下,学员M3收益大于M1,因此学员又将变为“不投诉”,从而策略组合为(M3,N3),即(不投诉,合格)。这个策略组合仍然不是稳定状态,因为此时对于基地来说,学员采取“不投诉”策略时,基地N4收益大于N3,从而策略组合回到(M4,N4)。
从博弈模型来看,学员-基地博弈模型不存在纳什均衡,每一个策略组合选择都不是稳定状态。
4.2 基地-监管机构的纯策略博弈 见表4。
表4 基地-监管机构的纯策略博弈模型Table 4 Pure strategy game model between the base and supervision department
基地合规的时候,监管机构检查要支出评估检查经费,而此时基地处于达标状态,监管检查不会产生新的收益,此时监管机构净收益N1=-ACt。不检查时监管机构则不用支出评估检查费,即N2=0。N2 >N1,因此监管机构倾向于不检查。
基地不合规的时候,监管机构放松监管会导致全国培训工作陷于混乱,社会成本巨大,损失高昂,监管机构承担的责任也就巨大,此时监管机构支付N4=-AR。如果监管机构组织对基地的评估检查,获得的收益(或称社会效益,比如受到社会认可和上级单位的嘉奖)为AR,成本为-ACt,支付N3 =AR-ACt。N3-N4 =2AR-ACt,与全行业住培工作规范发展带来的社会效应和效益相比,评估检查的成本远远小于社会效益,即ACt<<AR,因此N3-N4>0。选择监管检查的收益远大于评估检查的支出,因此监管机构倾向于组织检查。
监管机构选择评估检查前提下,基地合规的支付即净收益M1=BR拨款-BC高-BC迎检,基地不合规的支付即净收益M3=(BR拨款-BC低-BC迎检)-[BCp+(BC高-BC低)]=BR拨款-BC高-BC迎检-BCp=M1-BCp。M3<M1,基地选择的策略是合规建设。
监管机构选择不评估检查,或者说国家监管力度较小、监管效果差时,基地合规建设的支付为M2 =BR拨款-BC高,不合规建设时的支付为M4 =BR拨款-BC低。因为BC高>BC低,所以M2<M4,基地选择的策略是不合规建设。
和上文相同,基地在对评估检查前提下选择合规与不合规两种状态下的净收益进行对比时,当惩处力度远远大于基地低标准建设收益时,基地选择合规建设,反之惩处力度不够大或者基地能够通过请托等权力寻租方式大幅减轻惩处力度,则基地倾向于低标准建设。
如同第一种模型的分析,基地-监管机构博弈模型也不存在纳什均衡,任何一种策略选择都不是稳定状态。假定基地选择“合规”,监管机构的占优策略就是“不检查”,从而策略组合为(M2,N2)。但此时对于基地来说,M4收益大于M2,因此基地存在改变策略选择的动机,即变为“不合格”状态,此时策略组合变为(M4,N4),即(不合格,不检查)。但对于监管机构来说,此时策略组合不是自己占优策略,因为N3收益大于N4,从而监管机构有改变的动机,即变为“检查”,从而双方策略组合变为(M3,N3)。而此时M3不是基地占优策略,即在监管机构“检查”策略下,基地选择“合规”是明智的,从而策略组合再度变为(M1,N1)。
4.3 学员-基地的混合策略博弈 当考虑到参与方选择不同策略的概率时,博弈模型变为混合策略博弈,见表5。
表5 学员-基地的混合策略博弈模型Table 5 Mixed strategy game model between residents and the base
如公式所示,学员预期收益为E学员=PQM1+P(1-Q)M2+(1-P)QM3+(1-P)(1-Q)M4
求偏导得:
令∂E/∂P=0,得最优解为:
M1-M3表示基地合规状态下学员投诉获得收益差减去投诉风险。因为基地合规状态下,学员投诉并不能带来个人收益的增长,因此M1小于M3,M1-M3等于投诉的纯风险-PCr。M4-M2表示基地不合规状态下学员不投诉和投诉的收益差,即PCr-△PR,根据以上分析M4小于M2。二者之差的绝对值等于学员投诉后收益的增长减去投诉风险损失。
当Q>Q*时,∂E/∂P<0,学员预期收益和投诉概率P成反比,学员预期收益是投诉概率P的减函数。即基地合规程度越高,学员不投诉的收益越大,则学员越不会选择投诉。反之,当Q<Q*时,∂E/∂P>0,学员预期收益和投诉概率P成正比,学员预期收益是投诉概率P的增函数,即基地不合规程度越高,学员投诉的收益越大,则学员越会选择投诉。当Q=Q*时,∂E/∂P=0,学员预期收益和投诉概率P无关,学员随机决定是否投诉。
将M各值代入公式,得Q*=1-PCr/△PR,即1-(投诉风险)/(投诉收益增量)。由式可见,Q*与学员投诉风险成反向关系,与学员投诉后收益增长差成正向关系。即当学员投诉风险增大时,基地合规可能性下降,此时基地内部监管力度是减弱的,学员不愿意投诉;当学员因投诉带来的个人收益增长明显时,基地合规可能性增加,此时基地内部监管力度是较强的,学员倾向于通过投诉使自己的权益得到维护。
同以上分析,基地预期收益为:
对该式求偏导:
令∂E/∂Q=0,得最优解为:
当P>P*时,∂E/∂Q>0,基地预期收益与合规建设成正比,基地合规建设可能性越大,对基地越有利。此时学员投诉渠道畅通,内部监管有力。反之,当P<P*时,∂E/∂Q<0,基地预期收益与合规建设成反比,基地违规建设可能性越大,对基地越有利。此时学员投诉渠道不畅通,内部监管乏力。
将N各值带入公式,得P*=△BC/(△BC+BCp)=1/(1+BCp/△BC),BCp是基地不合规建设时被国家层面监管机构查处时的代价,△BC=BC高-BC低,代表基地合规建设与不合规建设两种状态的投入成本差,也表示基地不合规或称违规建设时从压缩投入成本获得的“收益”,是违规额外收益。即1/(1+违规代价/违规额外收益)。即当基地因不达标而受到的惩处代价变大,则学员投诉变少,因为此时基地倾向于合规建设;当基地因不合规建设获得的收益(例如大幅削减培训支出、带教激励、基建投入等)增加,则投诉概率增加,因为此时基地处于不合规建设。特别是,当违规收益巨大,或者违规代价很小,则P*=1,此时学员普遍不满,易引发集体投诉和群体事件。
在以上计算过程中,一个重要假设是基地不合规情况下学员投诉获得的收益增长大于投诉风险。如果学员投诉风险大,则情况相反,此时基地不合规建设时学员有收益(净收益可以是正值,也可以是0 甚至负值),但学员投诉则面临巨大的风险损失。学员投诉后净收益不但没有增加,反而有较大幅度下降。这是一种极其不合理的状态,虽然发生的可能性很小,但危害极大。
4.4 基地-监管机构的混合策略博弈 见表6。
表6 基地-监管机构的混合策略博弈模型Table 6 Mixed strategy game model between the base and supervision department
同以上分析,基地预期收益为:
求偏导得:
令∂E/∂P=0,得最优解为:
Q>Q*时,∂E/∂P>0,即监管检查力度越大,包括现场检查力度、检查频率、查处力度等,则基地合规建设收益大于不合规建设。反之,Q<Q*时,∂E/∂P<0,即监管力度越小,则基地越不合规,收益越大。
将M各值代入,得Q*=ΔBC/(ΔBC+BCp),ΔBC表示基地建成合规状态时必须投入的成本即合规成本,BCp还是表示基地不合规时被国家层面监管机构查处时的代价。由此可见,合规建设成本越高,基地越倾向于违规建设,监管力度就应该加大。基地违规代价越高,基地越倾向于合规,监管力度就可以降低。
对于监管机构来说,预期收益E监管机构=PQN1+P(1-Q)N2+(1-P)QN3+(1-P)(1-Q)N4
对该式求偏导:
令∂E/∂Q=0,得最优解为:
当P>P*时,∂E/∂Q<0,即基地合规时,监管机构越不监管越有利,换言之,基地自觉提高管理水平和培训质量时,监管机构检查频率可以适当减小。反之,当P<P*时,∂E/∂Q>0,即基地合规状态不好时,监管机构应加大监管力度。
将N各值代入,得P*=1-ACt/2AR,即1-(监管机构检查成本)/监管机构不认真检查付出的代价。当监管机构不认真检查而承受上级领导部门的批评等代价高昂时,基地合规概率增加,因为此时监管机构倾向于加大检查。当监管机构组织检查成本较高时,基地合规概率下降,因为此时监管机构倾向于不组织检查。监管机构检查成本包括年度总成本和单次检查成本,总成本又等于检查频次和单次成本的乘积。当总成本一定时,检查频次和单次成本成反比。单次成本固定时,增加检查频次则需要增加总预算。
国家监管力度除监管频次外,还包括监管的有效性,或称监管效率。当评估检查认真深入,能及时发现问题和查处问题,则为监管高效,反之则为监管低效。监管成本一定的前提下,监管高效,代表监管力度大,监管低效,表示监管力度小。
4.5 学员-基地-监管机构的三方混合策略博弈模型 对于同时考虑学员-基地-监管机构三方参与下的博弈时,因为对于国家层面而言,开展住培工作是为了培养合格的医师队伍,使医学毕业生在住培阶段专业能力、理论知识和综合素质得到明显提升,真正成为达到国家执业标准要求的医生。学员参加住培的目的是使自身能力提升,为未来职业发展奠定坚实基础。二者目标方向一致,因此,可以将学员和监管机构合并为一方,将三方博弈模型简化为两人博弈(纯策略博弈和混合策略博弈),即综合监管和基地建设之间的博弈。同样分析可以得出结论,当综合监管力度大,监管成本低,监管效果(收益)明显,基地违规成本巨大时,基地合规建设可能性增加。反之基地不合规的可能性增加。当基地普遍处于合规建设状态时,综合监管可以适当降低频率,监管成本进而减少。
5 结 论
从以上不同博弈模型分析可以看出,学员、基地、监管机构之间存在博弈关系,各参与方分别根据博弈另一方的行动而采取不同的策略组合,进而对博弈双方产生影响,产生不同收益组合。要达到纯策略和混合策略博弈下的纳什均衡,需要分析并改变影响博弈方成本-收益之间参数对比关系。国家层面而言,住培制度是建设健康中国战略的重要组成部分,培养合格医学人才是判定制度落地成功与否的唯一指标。基地是培养医师的关键平台,基地质量是培训政策目标达成的重要环节和前提。监管是促使基地保持较高水平的管理和培训质量的必要手段和重要保证。如上分析,基地选择高质量合规建设的可能性,与内部和外部监管渠道、监管力度成正比,与监管机构查处力度、查处效率和惩处力度成正比,与财政资金支持力度、资金使用效率、培训收益成正比,和监管机构检查成本成反比,与基地达标建设成本投入成反比。因此,内部监管(学员)-基地建设-外部监管(国家评估)三者间的良性关系是符合国家政策目标,对各方均有利的状态,即基地合规建设,培训质量好;学员投诉渠道畅通,学员投诉权利得到保障;国家层面监管力度大,保持一定频度的检查评估,对违规基地查处惩处力度大,基地违规代价较高,基地合规建设时(综合)收益明显。
从上述博弈模型分析来看,影响博弈结果的因素可以从以下几个方面分析。
5.1 学员角度
5.1.1 学员投诉收益 学员投诉收益指学员对基地不达标状况投诉并获得处理后在培训和待遇方面得到的提升。培训基地现状越不达标,投诉渠道越畅通,既往或其他基地学员投诉效果越好,投诉后收益增量越明显,学员投诉可能性越大。
5.1.2 学员投诉成本和风险 学员投诉渠道不畅通,或者学员投诉后个人信息被泄露、被所在基地及带教老师打击报复的可能性越大,学员投诉积极性越低,且更倾向于匿名投诉。
5.1.3 特例 从博弈参与人利益和社会利益角度看,对博弈参与人的所谓“最优”并不一定意味着对社会的最优。当学员投诉净收益不足(投诉收益增量小和/或风险大)时,学员投诉积极性和可能性很低。当基地处于严重不达标时,学员也不会投诉。且当基地将部分因不达标建设所获得的“收益”与学员达成“交易”时,比如基地以放松对学员管理和放宽考核通过标准作为学员不投诉的交换条件,则学员对基地不合规状态不予投诉,此时基地内部监督渠道无效,基地和学员所谓“双赢”状态实际是对国家住培工作的严重损害。因此,设立外部的国家监管渠道(比如开通协会投诉邮箱),严肃查处基地不达标行为,是极其必要的。从实际看,2017年中国医师协会开通投诉邮箱,根据国家卫健委科教司的要求,坚决贯彻“有诉必查,查出必惩”的原则,并严格保护学员信息和权益。数据显示,学员投诉量呈明显下降趋势,对基地住培质量的监管工作收效明显。
5.2 基地层面
5.2.1 基地接受合规培训 基地合规是博弈模型中稳定的共赢模式的前提。基地合规有赖于基地管理和师资建设处于高水平建设状态,而这就需要基地在管理和师资建设给予资金和政策方面的支持投入。此外,有研究显示,基地及其专业基地对自我水平认知存在较大程度偏差,容易过高估计自身管理水平和培训质量[3]。因此,经常性接受国家层面培训,对提高基地管理和培训水平,是非常必要的。
5.2.2 基地培训成本 基地培训成本支出越高,基地合规建设积极性越低,越倾向于低支出和不达标建设。为激发基地住培动力,有必要研究增加国家(含省、市)对住培基地的运行补助,降低运行成本。除增加补助外,建设全国住培教育平台,不仅有利于同质化培训,更有利于降低基地培训成本支出。此外,提高基地住培资金使用管理水平和使用效率,提高单位成本住培资金投入的产出水平,也有利于间接降低基地培训成本。
5.2.3 基地培训收益 合规建设下培训收益越大,基地住培积极性越高。反之如合规建设下基地收益越小甚至负收益明显,则基地合规建设和开展住培工作积极性就越低。基地开展住培工作的收益包括物质收益和精神收益。作为我国健康中国建设主力军的孵化器,广大住培基地是在外部投入很低的情况下仍然积极开展住培工作并取得较好业绩,根源于我国的制度优势、基地管理人员和师资的热情和奉献。建议在加大物质奖励的同时,也应该加大精神奖励支持,对工作出色的基地、个人予以表彰,加强基地人员思想政治教育,鼓励向先进基地、优秀人物学习和看齐,并指导制订政策对住培出色师资在晋升方面加大奖励和激励。
5.3 国家层面监管机构方面
5.3.1 监管的成本 国家层面监管机构的监管成本,和监管的积极性以及监管效果呈负相关,受总监管成本约束,单次监管成本越高,监管频率越低,基地违规性越大。因此要增加总预算或降低单次监管成本。前者建议国家财政加大拨款力度用于监管专项费用,后者则可通过推行评估检查的常态化即“小分队”式检查来降低成本。
5.3.2 检查的有效性 评估检查越能发现问题,基地合规性越高。因此应探索精准、细致、务实的“探针式”的评估检查,根据投诉和月度监测发现的异常开展评估检查,提高监管针对性和有效性。同时,应将对评估专家的定期培训纳入工作日程,提高监管检查的效率。
5.3.3 检查的频度 适当频度的检查有利于增加基地合规建设的压力和动力,但频度过高又有可能带来成本过高和对基地正常工作产生干扰的情况。因此,一是开展“小分队”常态化评估检查。二是探索网上评估并建立相应的监管平台。
5.3.4 查处力度 对基地违规行为查处越严厉,基地违规成本越高,越有利于基地规范化建设。因此,有必要加大对违规行为的查处惩处力度,建立基地/师资黑名单和违规行为通报制度,对不合格基地及时撤销,同时加大对合规基地的补贴补助等。
5.3.5 认证机制 对于积极开展规范化达标建设的基地,可以考虑以认证方式授予基地一定年限免检资质。一方面是对基地工作的认可,另一方面有助于减少基地迎检压力和迎检成本,同时降低国家层面监管机构评估检查的成本,国家层面监管机构可以将更多精力放在对不合格基地的监管和指导上。
5.3.6 加强基地监管、基地运行、资金利用等住培相关专题研究 监管有力、基地达标、学员满意,是我国住培政策的目标。从博弈模型分析来看,博弈参与方收益与成本之差即净收益最大化是实现纳什均衡的重要前提和基础。这就需要在国家监管与运行体系、基地管理制度建设、培训质量建设、资金管理与使用、学员管理等方面实现科学化、高效化和精准化。因此,有必要加强相关专题的专项研究,推动我国住培制度建设水平的整体全面提升。
综上所述,加大对国家层面监管机构评估检查、整体培训、平台建设的财政支持力度,推动评估检查常态化和有效性,推动对基地管理和师资的统筹培训,建立监管监测平台和非现场检查,加大优秀基地和师资的物质奖励和精神奖励,保持学员投诉渠道畅通,倾听学员诉求,加大对基地的财政补助补贴,加大基地违规行为的惩处,加强相关专题研究,是实现我国住培良性稳定发展的重要举措。
6 展 望
研究并构建住培基地质量建设与内外部监管博弈模型,分析影响基地质量建设水平和监管效果的因素,对推动我国住培制度整体完善和发展具有较为重要的现实意义。通过博弈模型的建立和对影响因子的列举与分析,使住培管理部门和住培基地对影响住培质量建设和监管效果的因素有更清晰的了解。既有助于提高全国住培体系相关各方对住培质量建设的认识,也有助于补齐国家住培制度中对住培基地质量建设监管方面的短板。同时,对一些指标监测中出现的异常变化及时查找原因,有助于预见住培工作中可能出现的问题并采取预防性和针对性措施。
除此以外,随着博弈论的引进和发展,以及住培管理和工作体系博弈模型的建立与分析,有助于纠正住培工作认识上的一些误区。比如常见的住培基地及省级卫生行政部门对学员投诉和国家监管的不理解、不支持、不配合,就是在于基地管理人员对内外部监管和基地质量建设之间的辨证关系认识不清。基地合规建设、学员投诉、国家监管,三者之间并非零和博弈,而完全可能是正和博弈,即三方的净利益都有所增加,实现多方共赢。这就需要基地建立规范的内部管理制度,提高认识水平,建立高效的运行体系。同时国家层面监管机构也应加大对住培基地的培训指导,以评促建,保障我国住培制度整体处于良性运转。
目前我国毕业后医学教育工作还处于较为初始的阶段,博弈模型的建立与分析尚属首次,相信随着工作的不断深入,博弈相关研究必将在住培质量内涵建设中发挥重要作用。