基于马尔可夫决策过程的医疗检查匹配预约调度优化

2022-09-29吴晓丹何金李娟

科学技术与工程 2022年22期

吴晓丹, 何金, 李娟

(河北工业大学经济管理学院，天津 300401)

以超声、核磁共振和断层扫描为代表的医疗检查作为医疗服务的中间环节，其图像检查结果是医疗诊断中不可缺少的凭证[1]，因此医疗检查质量将直接影响诊疗连续性与患者满意度。而医疗检查预约调度优化，不仅依赖医疗设备本身，医生与患者差异也是影响检查质量的关键因素[2]。实际上，由于技术水平不同，医生检查资质会存在差异，患者的病情复杂程度也不尽相同，进一步增加了医疗检查预约调度的难度[3]。医疗检查中医生与患者的不合理匹配不仅影响检查质量，也降低了医生服务效率与医院收益。因此，考虑医生资质和患者病情差异，合理匹配医疗检查任务，是提高医疗检查质量和医院收益的关键。

一般情况下，患者进行医疗检查前需要预约，同时医院需要为其分配相应设备或医生等资源进行检查，因此，针对医疗检查的研究可分为医疗检查预约调度优化与检查资源分配两方面。目前，针对医疗检查预约调度的研究主要关注患者预约当天或24 h内的检查服务，此种预约方式被称为即时预约。Murray等[4]第一次提出了即时预约调度的概念，并分析了一个成功运用即时预约系统的案例。该研究发现即时预约方式可降低医疗检查中较高的爽约率。与传统提前预约方式相比，即时预约还可有效缩短预约提前期、降低患者取消预约的概率[5-7]。Robinson等[8]比较了提前预约和即时预约模式中门诊检查收益的差异，得出在大多数情况下，即时预约比提前预约更适用于检查预约系统。Yang等[9]通过将当天随机到达患者直接进行检查的方式转为即时预约方式，使得医院收益显著增加。该研究证实了即时预约可有效缩短患者的等待时间和医生的空闲时间及加班时间。而目前国内关于即时预约问题的研究仍为少数，故对于医疗检查即时预约调度仍有较大研究空间。

现有针对医疗资源分配的研究主要关注检查任务在设备间的分配，如Zhuang等[10]运用马尔可夫决策过程(Markov decision process, MDP)模型研究了多台设备在三类患者间的分配问题。Akhavizadegan等[11]也通过建立MDP模型，得出检查设备在不同类型患者间的预约分配策略。在此基础上，梁峰等[12]考虑了两台设备检查三类患者的情况，建立了有限时域MDP模型，并结合动态规划理论，得到了最优调度策略。上述研究均将检查患者分为门诊、住院和急诊三类，但并未考虑到患者病情复杂程度差异对医疗资源分配的限制。对于患者而言，由于自身情况不同，其病重程度差异会增加医疗检查预约调度的复杂度[13]。为满足患者需求差异化，进而为不同需求患者提供相匹配的医疗检查服务，将预约患者按病情复杂程度分类十分必要。朱黎敏等[14]考虑了两台图像设备检查两类项目，建立了MDP模型，得到不同时段和系统状态下的最优预约策略。Qiu等[15]针对核磁共振成像设备(magnetic resonance imaging，MRI)在不同优先级患者间的分配问题，建立了一个两阶段随机整数规划模型，利用实际医疗数据评估了所提模型的可行性和有效性。上述研究虽考虑到设备的差异性，但忽略了医生作为医疗检查的重要参与者，其检查水平差异会直接影响检查效率与效果[16]，且不同资质医生可检查的患者病情复杂程度有所不同。因此，综合考虑医生资质和患者病情差异，对不同需求层次的患者采取不同的医疗资源分配，是目前尚待研究的问题。

基于此，现针对医疗检查即时预约调度问题，考虑不同资质医生与不同病情患者的合理匹配，建立基于马尔可夫决策过程(MDP)的预约调度模型，并对模型进行求解，最后进行仿真实验得到最优预约策略，并与传统先到先服务(first come first service，FCFS)预约策略进行对比分析。以期优化医疗检查预约调度，实现医生检查资源高效利用的同时进一步提高医院收益，为医疗检查预约机制的建设与提升提供依据。

1 基于MDP的匹配预约调度模型

1.1 模型描述与假设

通过对天津市某三甲医院超声科室调研获取的患者检查数据进行统计，结果表明可将常见的临床诊断结果根据患者病情复杂程度划分为复杂、中等、普通三种。一般情况下，医师职称包括初级职称、中级职称、高级职称三类。基于此，本文根据医生资质差异将检查医生分为高级、中级和初级医生，根据患者病情复杂程度将患者分为复杂、中等和普通患者，通过调度即时预约患者以最大化医院检查收益。当患者的即时预约请求到达时，系统做出接受或拒绝该患者的决策，若接受该患者，同时决定将患者分配给何种资质的医生。

针对所研究的问题，做出以下假设。

(1)初级医生可检查普通患者，中级医生可检查中等和普通两类患者，高级医生可检查复杂、中等和普通三类患者。

(2)当天的预约周期可分为有限个相等的时段。在足够小的每一预约时段，最多只有一位即时预约患者随机到达。

(3)当某一类患者的预约请求到达时，系统根据各类医生剩余可服务患者数判断是否接受该患者及将患者分配给何种资质的医生。

(4)不考虑医生加班情况。

1.2 模型构建

根据马尔可夫决策过程六要素[17]建立预约调度模型如下。

(1)决策阶段。将整个预约周期划分为T个相等时段，预约周期内的每一预约时段为t，即t=1,2,…,T。设定t=1为预约周期的开始，t=T为预约周期的结束。

(2)状态集合。S=(s1,s2,s3)为系统状态集合，表示在第t个决策阶段的系统状态。其中s1为高级医生剩余可服务患者数，s2为中级医生剩余可服务患者数，s3为初级医生剩余可服务患者数。

(3)决策集合。在每一预约时段t=1,2,…,T，系统根据各类医生剩余可服务患者数和患者的预约请求到达情况做出决策，即是否接受即时预约患者的请求，及将各类患者分配给高级医生、中级医生还是初级医生。系统的决策集合为

(1)

(4)转移概率。在每一预约时段，患者即时预约请求有4种情况：无预约请求到达、到达一位复杂患者的预约请求、到达一位中等患者的预约请求和到达一位普通患者的预约请求，分别对应4种转移概率，用pi表示，i=0,1,2,3表示患者即时预约请求到达情况。其中p0为无预约请求到达概率；p1为复杂患者预约请求到达概率；p2为中等患者预约请求到达概率；p3为普通患者预约请求到达概率。

图1 状态转移图Fig.1 State transition diagram

(5)报酬。高级医生检查一位复杂患者、中等患者、普通患者获得的收益分别为r1、r2、r4；中级医生检查一位中等患者和普通患者获得的收益分别为r3、r5；初级医生检查一位普通患者获得的收益为r6。一般而言，医生资质越高，其提供检查服务的费用越高。同时，患者病情越复杂，其所需检查费用越高，且患者被分配给资质较高的医生检查，其满意度也会更高。因此，在一般情况下，医生资质与患者病情复杂度越高，其组合收益越高，即有r1>r2>r3>r4>r5>r6。

(6)目标函数。在每一时段t=1,2,…,T，可建立以下系统最优收益函数：

(2)

式(2)中：Vt(S)为从t预约时段，系统状态为S=(s1,s2,s3)开始，至预约周期结束医院所获最大收益；Fit(S)为第i类到达情况发生后，至预约周期结束医院所获最大收益。

当i=0，即无预约请求到达时：

F0t(S)=Vt+1(S)

(3)

当i=1，即复杂患者的即时预约请求到达时：

(4)

当i=2，即中等患者的即时预约请求到达时：

(5)

当i=3，即普通患者的即时预约请求到达时：

F3t(S)=

(6)

考虑医生能力边界条件，对于t=1,2,…,T有

F0t(S)=Vt+1(0)

(7)

(8)

(9)

(10)

考虑时间边界条件，由于不考虑加班情况，故T+1时段系统收益为0，即VT+1(S)=0对所有状态S=(s1,s2,s3)成立。

2 模型求解方法

根据MDP模型，At(S)为使医疗检查系统收益函数[式(2)]最大化的决策集合。在所有预约时段t=1,2,…,T，根据医生能力边界条件及时间边界条件的限制，可确保最优解的存在。本文采用逆序值迭代算法求解MDP模型，使系统在每一预约时段都能根据患者到达情况及各类医生剩余可服务患者数做出最优决策，即接受或者拒绝患者的即时预约请求，以及将各类患者分配给何种资质的医生。具体算法流程如下。

步骤1初始化i、sj、T、ra、pl；其中sj表示三类医生剩余可服务患者数，j=1,2,3；ra表示不同资质医生接受不同病情患者所获收益，a=1,2,…,6；pl表示不同预约请求到达概率，l=0,1,2,3。

步骤2令t=T。

步骤3判断s1,s2,s3=0?

步骤4i=0，输出14，否则转到5/6/7。

步骤5i=1，a=1，判断8，输出14/15。

步骤6i=2，a=3，判断8、9、11，输出14/15/16。

步骤7i=3，a=6，判断8～13，输出14/15/16/17。

步骤18令t=t-1。

步骤19判断“t>0?”，是转到步骤3，否则算法终止。

3 仿真实验与分析

3.1 仿真参数设置

本节进行仿真实验并给出相应的结果分析。根据《2020年我国卫生健康事业发展统计公报》每名医生每天可服务7位患者[18]，即高级医生、中级医生和初级医生可服务患者数为s1=s2=s3=7人。根据天津市某三甲医院超声科室调研结果，可将整个预约周期划分为30个相等时段，即T=30，单位时段内无预约请求到达的概率p0=0.1，复杂患者预约请求到达概率p1=0.1，中等患者预约请求到达概率p2=0.2，普通患者预约请求到达概率p3=0.6，检查收益为r1=360元，r2=320元，r3=260元，r4=220元，r5=180元，r6=120元。

3.2 仿真结果分析

3.2.1 MDP预约策略阈值

仿真结果表明，MDP预约策略是与医生剩余可服务患者数相关的阈值策略，当各类医生剩余可服务患者数大于或等于该阈值时，接受患者的预约请求并将其分配给相应资质医生。医院的总期望收益随预约时段和医生总剩余可服务患者数的变化情况如图2所示，三类医生接受三类病情患者的阈值如图3所示。

通过分析发现，当复杂患者的即时预约请求到达时，只要高级医生有剩余可服务患者数，系统就接受复杂患者的预约请求，并将其分配给高级医生检查。初级医生接受普通患者阈值同理。且在接近预约结束时段，三类医生接受三种病情患者的阈值均呈现不变或下降趋势。

图2 医院总期望收益变化图Fig.2 Change chart of total expected income of hospital

图3 三类医生接受三种病情患者阈值Fig.3 Thresholds for three types of doctors accepting patients with three types of conditions

3.2.2 MDP与FCFS预约策略对比分析

1)MDP与FCFS预约策略决策对比

调研发现，该医院的即时预约策略为先到先服务(FCFS)，即不论何种病情患者到达，只要检查医生未被约满，则接受患者的预约请求，若所有医生已约满，则拒绝患者。FCFS预约策略根据医生分配方法不同可分为两类，一类是在尽可能保证剩余产能均衡的情况下为预约患者分配不同资质的医生，记为FCFS1；另一类是优先将预约患者分配给低等级的医生，待低等级医生预约满后再分配高等级医生，记为FCFS2。

根据FCFS1、FCFS2及MDP模型的预约决策规则，模拟患者到达情况，可仿真得出即时预约策略方案如表1所示。在患者类型中：0表示该时段无预约请求到达；1表示该时段有复杂患者的即时预约请求到达；2表示该时段有中等患者的即时预约请求到达；3表示该时段有普通患者的即时预约请求到达。在决策中0～6分别表示上述决策变量At(S)对应的决策。

表1 MDP与FCFS预约策略方案Table 1 Scheme of MDP and FCFS appointment strategies

由表1可知：如果采用基于MDP的预约调度策略，所获收益为4 600元；采用FCFS1预约策略的收益为4 240元；采用FCFS2预约策略的收益为4 340元。通过比较发现，MDP预约策略为更优的预约策略，在该预约策略中，高级医生会预留一个剩余可服务患者数直到最后预约时段，即不论最后时段到达的患者类型如何，均会被高级医生接受。实际上，MDP预约策略的优势主要体现在：将高等级医生的服务能力保留给潜在的高价值患者。

2)MDP与FCFS预约策略收益对比

为避免检查收益的提升是由于患者的预约请求到达序列恰好处在某种特殊情况，本文采用上述参数设置再次进行仿真实验，随机产生20组患者预约请求到达序列并计算对应收益。MDP预约策略相较于FCFS预约策略的收益提升对比如表2所示。

在20组患者预约请求到达序列中，MDP预约策略所获收益均高于FCFS预约策略，采用MDP预约策略的收益比采用FCFS1预约策略平均提升了5.91%，比采用FCFS2预约策略平均提升了5.42%。虽然每组随机序列中检查收益情况存在差异，但总体而言，MDP预约策略所获收益相比于FCFS预约策略有明显提高。

表2 MDP与FCFS预约策略收益提升对比Table 2 Comparison of revenue improvement between MDP and FCFS appointment strategies

图4 MDP与FCFS预约策略收益对比Fig.4 Revenue comparison of MDP and FCFS appointment strategies

图4展示了不同预约策略下，20组患者预约请求到达序列的收益对比。可以看出，MDP预约策略相比于FCFS预约策略获得的收益变化波动性更小。故MDP预约策略可保持医院稳定收益，更有利于保障医院的稳定运营。

3)不同预约时段数量下MDP预约策略的优越性

改变预约时段数量并保持其他参数不变，探讨当患者的即时预约请求数量变化时MDP预约策略的优越性。对于每一组不同预约时段数量，生成20组随机序列模拟患者即时预约请求到达情况，并计算MDP预约策略与FCFS预约策略对应的收益平均值，得到其收益对比如图5所示。从图5中可以看出，预约时段数量越多，MDP预约策略相较于FCFS预约策略的收益提升效果越明显，由于此时系统需要拒绝的患者人数会随之增多，FCFS预约策略可能拒绝更多潜在价值高的患者，因此MDP预约策略对于收益的提高更明显。可得出结论：预约时段数量增加，即患者的即时预约请求数量越多，MDP预约策略相对于FCFS预约策略的优势越明显。图6中MDP预约策略相对于FCFS预约策略的收益提升率随预约时段数量的变化也更好的证实了这一结论。

图5 不同预约时段数量下收益对比Fig.5 Revenue comparison of different number of appointment periods

图6 不同预约时段数量下收益提升率变化Fig.6 Change of revenue promotion rate of different number of appointment periods

4 结论

基于MDP建立以医院收益最大化为目标的医疗检查匹配预约调度模型，研究不同资质医生检查不同病情患者的最优预约策略，并与传统FCFS预约策略对比分析，得到如下结论。

(1)MDP预约策略是与医生剩余服务能力相关的阈值策略。在接近预约结束时段，三类医生接受三种病情患者的阈值均呈现不变或下降趋势。当每类患者的即时预约请求到达时，系统可根据当前阈值状态做出最优决策。

(2)本文提出的MDP预约策略获得的收益相比于传统FCFS预约策略有较大提高，且MDP预约策略所获收益较FCFS预约策略变化波动性更小，更有利于维持医院的稳定运营。

(3)当预约时段数量增加，即患者的预约请求数量越多，医院检查资源越匮乏时，MDP预约策略相对于传统FCFS预约策略的优势越明显。

本文虽以超声科室医疗检查为例研究了医患匹配的预约调度问题，但所提出的方法和所得结论具有一定的通用性，可以应用到其他类似的预约调度问题中。且本文所建模型参数简洁明了，各医院可根据实际情况，结合历史运营数据，设置适用于自己医院的参数值，对前来预约的患者进行合理有效的调度安排。

猜你喜欢

资质时段收益

住房和城乡建设部拟发布《建筑业企业资质标准》等4项资质标准

螃蟹爬上“网” 收益落进兜

资质/荣誉

四个养生黄金时段，你抓住了吗

2015年理财“6宗最”谁能给你稳稳的收益

东芝惊爆会计丑闻凭空捏造1518亿日元收益

2015年自愿放弃农药生产资质的企业

傍晚是交通事故高发时段

分时段预约在PICC门诊维护中的应用与探讨

2014年第四批农药生产资质合并企业名单

科学技术与工程

2022年22期