APP下载

基于时滞关联特征患者就诊反馈分析

2019-10-14

中华医学图书情报杂志 2019年6期
关键词:时滞区间聚类

新医改以来,我国医疗保障体系建设取得了一定成就,但受资源配置结构和布局不合理等的限制,医疗资源紧缺与优质医疗资源过于集中仍是我国卫生健康领域的突出问题[1]。因此,如何有效利用与合理分配现有的医疗资源成为医疗行业领域的研究重点。在线医疗模式可有效提高医疗工作者的工作效率,具有开放、交互便捷和跨界等待等特点,有利于医疗资源的优化配置与高效利用[2]。在线医疗社区(Online Health Communities)是新型的医疗形式,涵盖问诊、挂号、医药电商、医疗咨询、患者自我管理等多个方面。此外,医疗领域专业知识的不对称性是造成医患关系紧张的重要因素[3]。在线医疗社区可在一定程度上揭示医院、医生及过往患者的相关信息。这种信息相对透明化可减轻医患双方的知识不对等程度,使患者能够从过往患者评论文本中获取契合自身情况的信息,为就诊决策提供依据。

在线医疗社区评论文本主要反映患者接受一定医疗服务后,对相应服务进行评价并反馈自身诊疗过程中的主观感受或客观效果等。评论文本不仅可以为医院管理提供针对性改进意见,而且可对后续患者就诊提供参考。已有研究证实,在线评论文本可反映线下就诊服务质量的真实情况[4]。“微医网”[5]成立于2010年,截至2018年5月累计服务人次超过5.8亿,积累了大量患者就诊后服务评价文本,及时挖掘其中文本的深层内容能帮助进一步了解患者的真实需求和提升医疗服务质量。

患者反馈不同于消费者在线购物反馈,其中包括患者与线下医院进行直接接触,相对服务体验有着更为直观的感受,并且不同疾病的诊断与其疗效的产生需要一定的时间间隔。基于此本文尝试从时滞的角度对患者就诊后在不同时滞区间内的反馈评论文本所反映的内容进行挖掘,一方面能帮助医院管理者了解患者发表评论的普遍时间规律,了解患者真实意愿并进行医院管理质量的优化;另一方面有助于患者根据不同时间点的评论筛选出更切合自身情况的评论文本辅助就诊决策。

1 现状分析

在医生与患者认知与专业知识不匹配的情境下,得益于信息网络通信的高速发展,用户在进行健康类问题咨询时更为方便快捷。研究表明[6],用户进行健康相关信息咨询的途径逐步从线下医疗卫生机构转移到在线医疗社区,在线医疗社区已成为有健康问题的人们获得社会支持的主要来源,在线医疗评论也成为患者寻找适合自己健康问题的医院与医生的主要途径[7]。Emmert等[8]认为,含有患者反馈的医师评级网站可提高医疗卫生领域的透明度,因此越来越受到人们的欢迎,其研究表明患者的反馈内容可帮助医生调整诊疗方式。Dellarocas[9]的研究表明,患者通过浏览就诊评论信息,线上反馈的影响力会得到正向增强。Wang等[10]从社会支持的角度发现,患者在在线健康社区中随着时间的推移会有不同角色的变换,如从支持寻求者变为支持提供者。Gao等[11]研究了来自RateMDs.com的2005-2010年数据,结果显示评级良好的医生可能提供更好的护理。为验证在线健康社区评论文本的有效性,也有研究者[12]通过患者与医务工作者评审意见对比评分文本,结果显示了较高的一致性。

由于患者评论数据公开可见,且数据量呈现井喷式增长,医疗领域人员也越来越重视这部分内容的研究[13]。在实际就诊中,患者的就诊体验经常会涉及多个医生、医院等对象的多个维度。Kadry等[14]通过分析常用在线医生评级网站的评论文本发现,医生的评分等级与患者就诊时医生的态度、沟通方式以及医生的职业技能、医院员工、医院环境存在高度相关性。Alodadi[15]等通过对RateMDs.com的评论数据进行评论语义、评级、情感等多层面特征提取发现,评级最能反映患者的真实表达意愿。马骋宇[16]通过分析“好大夫在线平台”评论数据发现,患者在就诊后的康复阶段依然会与医生保持咨询关系。患者就诊反馈文本的研究呈现多元化趋势,但多数研究者针对文本具体内容分析而忽视了医疗就诊结果的时间滞后性带来的评论差异。因此本文通过提取患者评论文本中的不同时滞区间,挖掘与时滞相关联的评分满意度以及评论文本中所反映的患者关注内容之间的关系。

2 研究设计

2.1 技术路线

本文拟定的基于时滞关联特征患者就诊反馈分析的技术路线,如图1所示。从图1可看出,技术路线主要包括数据获取、数据处理和数据分析3个步骤。数据获取主要从微医网上抓取研究内容字段数据;数据处理主要对各数据字段进行清洗,对就诊后评论发布时间间隔划分时滞区间,并对相应的文本进行主题抽取;数据分析指对不同时滞区间数据进行评分等级相关性分析,并对相应时滞区间文本主题进行分析与探讨。

图1 基于时滞关联特征患者就诊反馈分析的技术路线

2.2 样本选择与数据采集

本文选取了复旦大学医院管理研究所发布的2017年华中区医院综合实力排行榜[17]前5家医院的“微医网”医患评论数据作为数据源,并利用自开发的Python网络爬虫对数据进行采集,选取时间维度为1年,采集了2018年3月30日到2019年3月30日的6 230条评论数据,删去不包含就诊时间评论、评论文本为空的数据后,剩余6 173条有效数据,包含医院名称、患者满意度评分、评论文本、就诊后评论间隔时间等字段。

2.3 K-means时滞区间聚类

常慧君等[18]的研究表明,不同时间间隔内患者的行为规律存在不同特征表现,因此本文采用K-means聚类算法确定在线医疗社区患者评论文本数据时间间隔区间。K-means聚类算法属于无监督学习算法,聚类过程需要指定类别数量,因此本文在进行实验时指定K在2至5进行尝试,评价标准采用轮廓系数[19]评定,结果见表1。基于该结果选定K=2进行聚类,并将患者评论文本按时滞区间聚类结果分为短期、长期文本。

表1 K值确定

2.4 评论文本主题挖掘

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是主题概率生成模型中的一种,可用其对大规模语料库进行潜在主题的建模[20]。具体步骤为:为每一篇文档d从主题分布θ中抽取一个主题t,从该主题t对应的单词分布φ中抽取一个单词d,重复上述过程直至遍历文档中每一个单词。公式为:

pj(wi|ds)=p(wi|tj)×p(tj|ds)

在参数的选取中,θ和φ是根据超参数α、β在Dirichlet分布取样得到,其次对于第s个文档ds中第i个单词wi,若令该单词对应的topic为tj,枚举主题集合T中的主题,得到所有的pj(wi|ds),其中j的范围是[1,k]。根据概率值结果为ds中第i个单词wi选择一个topic,选取通过pj(wi|ds)最大化选取的tj为这篇ds文档的主题。由于LDA模型中主题数目具有确定的先验性,并且是无监督学习模型,本文将5到10个主题类目分别进行尝试,将迭代次数和超参数α、β分别设定为1 000和0.1、0.2,显示类目相似度较高的将归并到一类,最终根据实验结果设定主题数为5。另外,将就最终结果通过时滞区间聚类后结果单独进行分析,并且根据赵杨等[21]的研究,发现不同满意度文本中患者所关注的内容并不相同。因此,本文将患者评论满意度1~3分划分为低分评价,4~5分为高分评价,由此将主题聚类进一步细分为短期低分、短期高分、长期低分与长期高分,并选用每类主题中的前5位关键词作为主题划分依据。

3 结果

3.1 时滞与患者满意度相关分析

本文对提取的时滞与相应患者满意度分布进行了统计(图2),发现患者评论满意度反馈呈现偏态分布,高分就诊反馈占比为82.72%,并且低分反馈相比高分反馈更集中于就诊后时间间隔短的区间内。张艳丰等[22]的研究也表明,患者满意度在不同的时间间隔区间内存在差异。基于此本文在数据清洗后,将数据中的满意度评分与就诊后时间间隔进行了双变量相关性的统计分析,并采用Pearson相关系数进行评价。结果显示相关系数r=0.68,P<0.001,差异有统计学意义。

图2 就诊评论发布间隔时长与满意度分布

为进一步比较不同时滞内相关满意度及其评论文本的不同特征,本文对抓取数据时滞进行聚类,通过K-means聚类,把时滞切分为短期与长期两个阶段(图3)。时滞划分结果如表2所示。

图3 时滞区间聚类

评论类型时间间隔/天评论数量/条短期0-22914长期≥33259

3.2 不同时滞区间内患者评论主题分析

不同时滞区间内不同患者就诊反馈主题挖掘分布见图4,主题聚类结果相关统计见表3。

图4患者反馈主题分布

本文挖掘患者态度主题时发现患者在表述医生态度时存在不同维度的描述,如从服务层面描述“热情”“和蔼”“平易近人”等以及从职业层面描述“仔细”“负责”“敬业”等。为区分二者差异,本文将态度主题细分为服务态度以及职业态度。研究发现,不同时滞间内患者评论的主题类目分布上大致相同,患者基本针对医生的服务态度、职业态度、医术、挂号预约、就诊措施、时间、效果、环境、费用、医患间的沟通等方面发表评论。结果显示,医生的服务态度与就诊措施依然是患者关注的重点,低分区间除服务态度、就诊措施外描述医患沟通、时间、环境、挂号、费用、就诊措施、就诊效果等客观因素的文本相对更多,短期文本中除就诊效果外均有涉及,长期文本均涉及。

表3 不同时滞区间主题分布统计

注:各百分比表示各个主题在各自时滞区间所占比重

4 讨论

就诊后评论是基于就诊服务发生后对相应的就诊过程中的一些主观、客观属性进行反馈的渠道。从主题分布结果中可以发现,在长、短期时滞区中患者对服务态度、职业态度、沟通以及就诊效果的描述存在差异。为便于描述,本文将患者反馈基于短期到长期的固定顺序以主题数量变化由少到多定义为正向变化,反之为负向变化。

4.1 主题正向变化研究

从评论主题正向变化角度观察,在短期到长期时滞的变化区间内关于医生的职业态度及就诊效果发生了比重变化。在接受诊疗服务前部分患者对自身病情有一定的先验了解,就诊时患者会对部分就诊属性有所侧重[23]。有研究表明[24],随着接受服务时间变长,患者关注的层面会呈现一定变化。因此,在长期区间内由于就诊后时滞变长,就诊效果需要一定的时滞才能显现也符合事实,患者在就诊完成后时间间隔处于3~362天内发表评论对于医务人员职业态度描述在长期区间比重加大,表明患者就诊关注内容维度发生了正向偏移,处于长时滞区间的患者更能关注到医生的专业属性。

4.2 主题负向变化研究

从时滞区间内患者评论描述主题负向变化角度看,患者对于服务态度以及医患间的沟通的关注有所变化。服务态度与沟通主要还是主观情感层面问题,石文华等[25]的研究也表明患者在情感强度越强时,更容易在短时间内发表评论。本文研究结果也显示,服务态度与沟通主题呈现负向变化,在短时滞内患者对于情感倾向较为明显,患者的关注会由就诊完成的初始阶段对于医生服务态度以及沟通等情感层面的内容部分向医生的职业态度变化。不同患者由于自身疾病类型,就体验性而言更容易在短期内发表评论。不管由于自身原因还是与医生交互体验原因,处于短期时滞区间的患者都更需要医生、医疗单位给与更多情感层面的主观关怀。

4.3 时滞区间主题变化启示

基于以上发现,不同时滞内患者关注内容的变化对于医疗机构以及患者自身都具有一定的启示意义。针对这些变化,医生可以基于患者就诊结果对患者进行不同时滞的差异化管理,更精细地分析不同患者的就诊需求,从而更有效地提高患者就诊体验。如基于就诊结果初步判断患者属于时滞的哪个区间,若患者属于短期区间则医生对于患者情感层面应予以重点关注,在沟通以及服务态度层面更贴切患者情感需求。当然要从根源解决患者对医生的情感依赖,还需医生在人文关怀[26]以及沟通技巧[27]方面做出更多努力。对于长期区间患者医生可通过自身职业态度属性对患者的主观需求进行一定的弥补,对于提升患者就诊体验有一定的启示。患者也可通过对自身健康状况的先验了解,通过筛选不同时滞区间评论文本定向匹配自身就诊需求,选取适合自身情况的医疗机构就诊,从而提升自身就诊体验。

4.4 患者满意度评分差异

本文在挖掘时滞与患者反馈差异变化时发现,从就诊后时间间隔与满意度分布来看,时间间隔长的患者的就诊体验呈现更满意的状态,但患者就诊满意度的高分与低分描述也存在差异。患者对医生医术的描述主要分布在高分区间,对一些现实客观因素的描述则主要集中于低分区间。如对于时间、环境、挂号以及费用在整个时滞区间均有涉及,但在长期高分区间内,患者并未对这部分的内容发表评论。现有研究[28]也表明这些现实因素将是患者就诊客观体验差的主要影响因素。因此,对医院就诊环境、挂号机制、患者就诊时长与等待时长的配比进行优化,对医疗费用及时进行价格结构调整等都可显著提升患者就诊满意度[29-30]和医院管理质量。

5 结语

本文就时滞区间对评论文本进行了高低分分类,以挖掘不同时滞区间内患者关注差异,结果显示,不同时滞区间内患者关注内容会有所变化。通过挖掘内容差异变化可对医院、医生以及患者有一定启示。研究表明,提升患者就诊满意度可有效缓解医患矛盾[29]。此外,本文也存在一些局限,研究选取的医院数据是复旦大学医院管理研究所发布的华中区综合实力前5的医院,对于综合实力较强的医院可能由于对医院部分属性无法进行深入挖掘而无法体现差异;其次,由于患者疾病类型也存在时间上的差异,在时滞划分时本文并未对疾病类型做进一步的区分。今后将针对这一部分内容进一步尝试。

猜你喜欢

时滞区间聚类
你学会“区间测速”了吗
随机时滞微分方程的数值算法实现
全球经济将继续处于低速增长区间
基于K-means聚类的车-地无线通信场强研究
针对输入时滞的桥式起重机鲁棒控制
不确定时滞奇异摄动系统的最优故障估计
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
区间对象族的可镇定性分析