在线医疗社区医生的参与行为特征分析
2022-05-18张曼洋杨光飞周雨禾朱康刘卓
张曼洋 杨光飞 周雨禾 朱康 刘卓
在线医疗社区服务是医疗信息化的重要表现形式之一,是为具有医疗保健需求的用户群体提供知识交流、寻求情感支持的网络互动平台,现有的在线医疗社区服务主要包括2种类型:一种是仅用于患者之间相互交流沟通的P2P (patient to patient)平台,例如甜蜜家园等;另一种是用于医患间的沟通的P2D (patient to doctor)平台,例如好大夫、微医等。由于国内人口密度大、医疗需求多,且医疗资源分配不均,P2D类型在国内的使用率高于国外。随着全球在线医疗社区快速发展,越来越多的医生参与到在线医疗服务中,但医生的整体参与度和平台活跃度较低,大部分医生仅仅开通了个人网页。医生用户是在线医疗社区的重要构成要素,在线医疗社区的长久发展与医生用户的积极参与和知识贡献密不可分,深入理解医生用户的群体行为特征有助于掌握用户的参与行为模式。然而,目前关于在线医疗社区中用户行为的研究大多聚焦于在线医疗社区信息和医患在线交互。虽然也有学者将医生作为研究对象,但研究视角大多着眼于医生参与行为的影响因素和医生推荐,对于医生行为模式的研究成果还不够丰富。因此,为了维护平台用户和减少用户流失,本文关注P2D类型社区,分析医生用户在平台中的行为模式,采用聚类分析的方法,挖掘医生的参与行为特征并分类,从而为平台激发医生的参与活跃度、为平台患者提供个性化就医方案、提升在线社区医疗的服务质量提供依据。
1 研究对象与方法
1.1 数据来源
本研究将“好大夫”在线医疗社区作为研究对象,该平台是集在线挂号、医疗咨询、提供健康信息等功能为一体的医患交互平台,创立于2006年,是国内咨询量和访问量最多的在线医疗社区之一。借助好大夫在线数据开放平台,采集截至2021年3月1日的23万条医生的脱敏信息。本文剔除了数据集中不具有正式服务资质的医生用户以及年龄异常的医生用户后,最终保留了34 469个用户;同时,为了便于后续计算,将数据集中的4个字符字段转化为数值型,见表1。本研究选取15个指标,并划分为4种类型,包括医生的线下声誉、医生的线上口碑、医生的在线贡献和医生的平台活跃度,见表2。
表1 特征替换规则
表2 指标定义
1.2 Pearson相关性
采用Pearson相关系数作为衡量变量之间相似性的标准,当计算2个变量和之间的相关性系数时,其计算公式为:
当(,)≥0.6时认为变量和变量具有强相关性,当0.4<(,)<0.6时认为变量之间具有中等程度相关。
1.3 聚类算法
1.3.1 k-prototypes算法原理
k-prototypes是一种将k-means和k-mode结合的算法,适用混合属性数据集的划分聚类算法,该算法时间复杂度较低。本研究数据中既含有分类属性(医院级别),又含有数值型属性(医生职称等),可适用于k-prototypes算法。
依据Huang等的算法,设定数据集为={,,...x},集合中含有个样本,每个样本x含有个属性,其中包括个数值型属性和(-)个分类型属性,样本的向量表示为x={x,x,x...x,x...,x}。在计算数据对象与聚类中心的相似性时,需要对函数进行调整,调整后的损失函数如下:
其中C为聚类中心,和分别表示数值型属性之间的相异性,采用欧式距离度量;和分类型属性之间的相异性,采用汉明距离度量。表示损失函数中分类型属性的权重,其取值依赖于数值型属性的标准差:当=0时,则不考虑分类属性,此时的k-prototypes算法等同于k-means算法;>1时,聚类结果由分类型属性主导;越大,分类属性在聚类算法中所占权重越大,对相似度的评估影响越大。
1.3.2 改进的k-prototypes方法
由于k-prototypes算法的初始化是随机选取聚类中心,极易受到异常值的影响,因此,本文采用改进后的聚类算法引入平均密度的概念定义进行聚类中心初始化,x(第个属性为分类属性)的平均密度为(x):
2 结果
2.1 描述性统计
2.1.1 线下声誉
用户特征是对医生用户专业水平的直接描述,具体包括医生的年龄、职称、医院级别和医院所在地区。对医生年龄、职称、医生所在医院和医院城市级别分布进行观察和分析。医生用户的年龄分布特点与线下的医生职业特征一致,平均年龄为46岁,主要分布在20 ~ 60岁,其中,50岁左右的医生最多,占20%左右,存在少量年龄高于60岁的返聘医生,约占总体的5%。用户群体中超过50%的医生用户为专业能力较强的主任医师和副主任医师,能够提供较好的问诊服务。三级甲等医院占比最多,为89%,二级甲等以下级别的医院仅占比4%,在一定程度上保证了医生的医疗水平。医院所在城市级别相比于医院级别的分布较为均匀,其中级别为一线城市占总体的36%,二线城市占29%,三线和四线城市分别占18%和17%。
2.1.2 线上口碑
为了缓解在线医疗社区医生与患者之间的信息不对称现象,为患者决策提供参考,在线医疗社区通过线上口碑来辅助患者决策。4个特征项的数据分布都呈现左偏趋势,且分布较为分散,说明医生用户的在线口碑差异较大。在这4项特征中,均存在约为25%的异常值,可能存在“刷票”现象。综合热度的数据分布情况与上述三者不同,数据集中分布于3.4 ~ 3.7之间,大部分的医生用户评分良好,低评分用户占比不到10%,高评分用户即4分以上的占比不足25%。
2.1.3 在线贡献
在线贡献是医生用户在平台中产生的直接行为,是维持平台运营的重要服务和知识来源。“在线贡献”4个特征的数据分布都具有左偏趋势,存在部分异常值。平台医生在知识共享方面的积极性不足,大部分医生的发文量不超过15篇,仅有少部分医生的发文量超过50篇。对比问诊量和诊后报道患者数发现,相比于在线问诊功能,线上挂号功能的利用率较低。
2.1.4 平台活跃度
在线医疗社区中每天都有就诊患者,本研究中将活跃度小于1的用户定义为不活跃用户。用户的活跃度均值为5.036,社区中的活跃用户占总体的比例小于25%。医生用户每隔5天才会登录平台,并对问诊的患者提供服务,不利于维护急性病患者。在线医疗社区中还存在20%左右的潜水医生用户,他们通常已经超过60天未登录过平台,在注册时长方面,平台每年都有新医生用户注册,注册时长超过10年的老用户占总体的25%左右。2020年注册的用户数量最多,近期平台中的医生用户数量新增较少。医生用户的整体回复速度较慢,能够以正常以上速度进行回复的医生占总体的30%,这可能与医生在平台中多采用“碎片工作模式”的职业性质相关。
2.2 相关性分析结果
为了挖掘特征之间的相关性,发现变量之间涵盖的冗余信息,对15个特征进行相关性分析,采用Pearson相关系数作为衡量标准。计算相关性矩阵并用热力图来直观表示,分析结果见图1。根据热力图所示的分析结果可知,综合推荐热度与患者投票、感谢信具有强相关性。在线问诊量与诊后报道患者数、患者投票、感谢信、心意礼物具有强相关性。医生主页的访问量与获得的心意礼物数具有强相关性,这间接说明了医生的访问量能够体现医生在社区中的热度,收获越多心意礼物的医生其主页访问量越高。诊后报道患者数与患者投票、感谢信、心意礼物具有强相关性,这说明在线下的问诊服务中,这3个特征也是重要的参考依据。与此同时,患者投票、感谢信、心意礼物这3个变量相互之间具有较强的相关性,尤其是患者投票变量和心意礼物变量之间的相关系数达到了0.98,二者接近完全正相关,可以据此推测当患者愿意花时间给医生投票时,为其送上心意礼物的概率相比于未投票的用户更大。结合上述分析结果,对目前的数据集进行特征降维,剔除医院等级、医生访问量、综合热度这3个与其他变量具有较为显著相关性的变量,最终保留12个变量进行聚类分析。
图1 相关性矩阵热力图
2.3 聚类分析结果
2.3.1 模型评估
通常聚类分析将样本集划分为2 ~ 10类,因此,采用“手肘法”,利用损失函数来衡量k的最佳取值,发现k取值为4时效果最佳。因此,令k=4进行聚类分析,不同类型的样本数量大体相当,样本集划分均匀。
2.3.2 聚类结果
通过聚类分析能够获得4类不同类型的用户群体,每一类型的具体聚类中心属性值见表3。根据雷达h可以直观看出不同类型的用户群体具有较为明显的差异,见图2,说明用户群体具有较为显著的分群现象,聚类分析结果有效。
图2 聚类结果雷达图
表3 聚类中心属性值
根据不同类型用户特征间的差异性,将4类不同用户划分为成长型用户、边缘服务型用户、头部流量用户和潜在头部用户。
(1)成长型用户。在线下口碑方面,第一类用户多为位于副主任医师以下的年轻医生,大部分医生来自于一线和二线城市。在线上口碑方面,这一类用户获得的患者投票数量、感谢信数量以及心意礼物数量较少,但是能够活跃地参与问诊服务。在在线贡献方面,第一类医生用户是4类用户中知识贡献最低的用户群体,且在问诊量和线下接诊两方面的数量均较少。这一类型的医生正在初步参与平台的相关服务,因此,在线贡献较少,然而能够积极参与平台的服务,活跃度较高,具有较强的成长空间,因而将其命名为成长型用户。
(2)边缘服务型用户。第一类用户和第二类用户的最大差异在于职称的高低和医院所在城市的级别,第二类用户在活跃度和在线贡献方面略优于第一类用户,且在近期更为活跃。这一类用户相比于一线城市用户,其知名度较低,在平台中的竞争优势相对较弱,然而该类用户群体的职称已经接近医生评价的最高等级,虽然成长空间较小,但仍然能够吸引一定量的患者就诊,因而将其命名为边缘服务型用户。
(3)头部流量用户。第三类用户群体具有最高的线下声誉,职业经验丰富,医生的职称均达到副主任医师及以上,且大部分医生来源于一线城市。从总体来看,这一类医生的在线口碑是4类用户中最高的用户群体。在在线贡献方面,第三类用户是平台中知识共享的核心人群,其发布的文章数量达到人均32篇。与此同时,医生的在线问诊量、诊后报道患者的数量远高于其他3类用户,是平台的重要服务对象。然而该类医生用户的回复速度较慢,用户的一般等待时长大多是4类用户中最长的,但是由于其频繁登录平台,使得该类用户仍然能够保持一个较为良好的活跃度水平。综合4类特征,第三类医生用户在社区中具有较强的知名度,同时又能够持续而长期地产生参与行为,是平台的头部流量用户。
(4)潜在头部用户。相比于其他类型的用户,这一类用户在平台的问诊服务中表现出了极高的反馈时效,群体的整体回复速度很快,表现出了“单次集中接诊-回复”的服务模式,因此,受到了大量患者的认可。这一类型的用户多来自于一线和二线城市,从整体的职业水平而言,第四类医生用户的职称略低第三类医生用户的职称。这一类用户通过大量分享文章来弥补自身职称上的不足,进而吸引大量的患者。根据平台的定价机制,价格偏向中低等级又具有高效服务的第四类医生获得了更多的认可。随着医生职称的不断提高,经过长期、持续、积极参与平台服务后,该类医生将会逐步成长为头部流量用户,因而将这一类医生统称为潜在头部用户。
3 讨论
本研究将在线医疗社区中的医生用户划分为4类,并发现4类群体具有鲜明的差异性,划分结果有效。研究发现,在线医疗社区的整体医生资源优质,然而活跃用户比例较小;一、二线城市医生为服务的主力军;医生用户整体的知识贡献程度低,受到“碎片时间工作制”的影响,整体的服务效率较低。另外,将医生的线上行为模式与传统医疗模式相比较,医生的“品牌”效应,具体包括职称、年龄等因素在线上服务中的影响被削弱,时效性的重要性得以凸显,符合在线服务的普遍特征。
3.1 辅助引流以激发成长型用户的参与积极性
受制于职称等级和较短的平台活动时长,成长型用户群体在平台中的知名度不高,因此,导致平台对其的定价水平较低。在虚拟社区中,当收获实际收益时,人们更愿意共享知识,故在缺乏经济效益刺激的情况下,其知识分享意愿较低,并且难以提升。应该采取相关的措施,辅助该类用户提升平台知名度,从而提高医生的经济效益,进而激发医生的知识贡献意愿。在线医疗社区中的患者关注医生的知识贡献行为,乐于在平台中主动分享文章的医生能够带给患者热情、积极的良好印象,患者更愿意选择这一类医生进行咨询。成长型用户目前的发文量较少,因此,应鼓励该类医生多发布文章,通过发布文章来提升自身的知名度。其次,鼓励这一类医生与同城知名度较高的医生共同参与“直播义诊”,从而借助高流量医生来提升自身的知名度。为了解决成长型用户的定价通常较低的问题,在这一类医生的问诊服务结束时,平台可以推荐患者为医生送上心意礼物,服务价格较低时患者花费额外的费用的概率更大。一方面,通过实际的经济效益激励成长型医生积极参与平台服务;另一方面,心意礼物数量的反馈更具有实质性,能够吸引后续患者进行就诊,从而促进其问诊量的提高。
3.2 关注边缘服务型用户时效性
由于线下资源劣势,边缘服务型用户通常不会受到患者的优先选择,但是相比于头部流量用户而言,目前边缘服务型用户提供的服务量较少,因而其潜在的服务价值并未被充分挖掘,可以通过提升服务的时效性来弥补其自身不足。建议在平台中增加“医生是否在线”的标识,当患者看到医生为“不在线”状态时,对时效性的期望会有所降低,患者不满意的概率也会降低,除此之外,医生可以在“个人简介”中说明个人的在线习惯,便于患者预估能够收到回复的时间间隔。此外,医生还可以通过将“碎片工作模式”转换为“集中工作模式”,以提升服务效率。
3.3 建立奖励机制以维护头部流量用户
头部流量用户是在线医疗社区中的核心用户,他们具有较高的“品牌效应”,是优质服务的重要来源。经过长期而持续地参与平台服务,医生的经济效益已经得到了满足,此时,个人价值的实现是这一类用户的重要需求。建议平台建立有关的等级评价机制,使该类用户能够不断地在实现自我价值的动机刺激下继续积极参与在线服务。目前,“好大夫在线”社区的信誉反馈机制在医生群体之间没有展现出等级差异性。医生和问答社区中的专家用户在平台中的行为本质上可以理解为信息共享行为,因此,借鉴在线问答社区的等级制度,结合医生的注册时长、在线表现以及服务质量设计符合社区特性的等级制度对医生的在线表现进行直观划分,并对高等级的医生用户提供经济奖励,以此鼓励医生持续参与平台服务。
3.4 扬长避短以发展潜在头部用户
潜在头部用户采用“集中接诊-服务”的独特服务模式获得了患者的高度认可。潜在头部用户有望在未来成为平台中的头部流量用户,对平台的持续发展而言这一类用户至关重要。为了辅助潜在头部用户的快速成长,可采取扬长避短的运营策略,在这一类医生主页中突出显示该医生获得的心意礼物数量和一般等待时长,凸显心意礼物的重要性,吸引更多对时间敏感的患者。同时要对医生的特殊服务模式进行显著说明,在主页中指明医生集中登录平台的时间,为患者择医作参考。由于潜在头部用户在职称等级方面存在一定的不足,为了弥补这一方面的劣势,平台可以推荐这一类群体与头部流量用户组成医生团队,团队成员间的时效性和线下信誉形成相互补充,达到互利共赢。