APP下载

在线医疗社区医患群体及问答记录特征研究
——以“好大夫在线”糖尿病主题分析为例*

2019-07-29莉,舒

图书馆论坛 2019年7期
关键词:大夫职称咨询

司 莉,舒 婵

0 引言

在线医疗社区是医疗服务新型业态,依托于互联网信息技术,将医疗服务从线下转移到线上。在线医疗社区按服务主体可分为三类:一是患者交流平台,主要用户为患有相同或相似病症的患者,如甜蜜家园、慢友帮;二是医生交流平台,主要为医生提供学术交流和在线培训等,如丁香园、好医生;三是医患交流平台,具有医生和患者两类用户,主要为医患之间的健康管理、健康咨询、挂号、导诊、问诊、药品购买等交流提供平台,如好大夫在线、春雨医生[1]。“好大夫在线”是国内最大的医患互动平台,创建于2006年,积累了大量医患数据。糖尿病是一种由于胰岛素分泌不足或外周组织对胰岛素不敏感引起的代谢性疾病,以持续高血糖状态为特征,可能引发100 多种并发症。糖尿病病人由于患病时间长,更易在医疗社区浏览和发布信息。因此,本文以“好大夫在线”的问答数据为例,通过数据分析,探讨与糖尿病主题相关患者、医生与医患问答的特征。

1 研究现状

在线医疗社区目前没有统一的定义,存在若干相似概念。笔者在中国知网中以“在线医疗社区”“在线医疗平台”“在线健康平台”“在线健康社区”“健康医疗社区”“健康医疗平台”作为主题词进行检索,共有392 条记录,集中于近5年,说明相关研究处于起步阶段。

1.1 关于患者群体的研究

在线医疗社区患者研究主要包括:一是患者使用在线医疗社区的意愿研究,从影响因素、影响关系等方面展开,发现社会支持、成就需要、隐私安全、感知信任、医疗效果、感知收益和交互设计等都有正向影响[2-3]。二是患者信息披露与个人隐私的顾虑研究,从影响因素、影响模型构建等方面展开,发现患者性格、信息敏感、以往经历、情感承诺、外部保护和医生信誉等都对患者的信息披露与隐私顾虑产生影响[4-9]。三是患者的社区参与和知识共享行为研究,发现利他性、归属感、互动中心性、等价性、交互感知和社区回报对共享行为产生影响,且不同用户存在差异[10-13]。四是研究患者的购买意愿,影响因素有网络口碑、患者生成信息和医生生成信息等[14-15]。

1.2 关于医生群体的研究

医生特征研究集中在对医生声誉、服务价格、个人贡献、疾病类型、咨询量和个人收益等之间的关系的研究。刘笑笑以好大夫在线为例,发现医生的在线信誉和努力对医生咨询量有显著影响[16]。韩晓翠基于好大夫在线医生数据,发现医生的经济回报、名誉回报及线下身份对贡献行为有积极影响[17]。李洋从糖尿病、冠心病和乳腺癌3 种慢性病入手,发现不同疾病的医生贡献行为的影响因素存在差异[18]。李莹莹发现服务评价、医生职称、医生所在医院对服务价格有显著影响[19]。叶存辉等以好大夫在线为例,研究医生受访量的影响因素,发现相对于医生职称,患者更在乎医院等级[20]。梁俏等基于好大夫在线数据分析,认为医生及其同事的努力和声誉对参与免费咨询的新患者数有显著影响[21]。

1.3 关于问答记录的研究

李蕾等总结社会化问答主要包括问题、答案、用户和平台[22],而在医疗领域主要是问答主题特征研究。吕英杰等研究Medhelp 社区中肺癌、乳腺癌和糖尿病3 种疾病,提取7 个热点主题[23]。金碧漪等基于问答网站和糖尿病社区的数据得出糖尿病的主题分布特征[24]。王煜等以寻医问药网中糖尿病社区的帖子内容为分析对象,采用矢量空间模型和K-Means 聚类模型进行主题分析,得出“症状与并发症”“治疗”两个热点主题[25]。

综上所述,已有研究成果主要基于问卷调查、网络数据爬取、社会网络分析等方法对单一主题进行探讨,数据量少。本文以好大夫在线为例,通过对10年来糖尿病相关主题参与问答的医患群体及问答本身的特征分析,揭示患者、医生及问答3 个方面的具体特征,以期为优化在线医疗社区服务提供充分的数据与事实支持。

2 研究设计

2.1 研究思路

本文基于python 爬虫数据对在线医疗社区中医患问答相关特征进行分析,与前人研究方式不同的是,爬取尽可能完整的大量的数据作为支撑。研究分3 个部分展开。前两个部分是医患问答中的主体,从患者角度,从患者的患病类型、患病时长、过敏史3 个维度展开;从医生角度,从医生的职称、所属的医院及科室、活跃医生的特征等维度展开。第3 个部分为医患问答的特征,从患者提问的时间分布、主题特征、意向特征等方面展开,采用LDA 主题模型、R 语言词频统计等方法进行揭示。

2.2 数据获取

好大夫在线的“网上咨询”中提供2008年至今的在线咨询历史数据检索。观察发现问答记录的格式、各字段的顺序、有无都存在差异。因此,选择爬取全文方式。笔者用python 爬取提问题目中包含“糖尿病”关键词的记录,共爬取到 2008年3月-2018年10月间 139361 条问答数据。问答数据的数据项包括患者信息、医生信息、咨询主题、咨询日期等4 个部分,其中患者信息包括患者填写的疾病/症状、患病时长、过敏史等,医生信息包括医生的姓名、职称、医生所属的医院及科室等。

2.3 数据处理

原数据存在大量自然语言描述,存在错别字和空字段等,需要进行预先处理。首先,对自然语言描述进行归纳整合,如将Ⅰ型糖尿病、一型糖尿病等都归为1 型糖尿病,将Ⅱ型糖尿病、二型糖尿病等都归为2 型糖尿病,将妊娠期糖尿病、怀孕糖尿病都归为妊娠糖尿病。其次,处理错别字,如将壬辰糖尿病、妊辰糖尿病等改为妊娠糖尿病。由于网页格式差异,一些字段未爬取到,或者网页失效无法打开,导致数据缺失,需要去掉缺失项。

3 好大夫在线糖尿病患者的特征分析

3.1 患者所患糖尿病的类型及并发症

笔者首先对患者填写的疾病内容进行整理,得到111695 条关于疾病或症状的描述,78.7%(87894 人)患者使用“糖尿病”来描述疾病或症状。在前100 个高频词中,显示1 型糖尿病、2型糖尿病和妊娠糖尿病三大糖尿病的类型,2 型糖尿病的记录数最多。高频词中体现了糖尿病的常见并发症,包括糖尿病肾病(肾功能不全、肾病)、糖尿病眼部并发症(视网膜病变、白内障、眼底出血、视力模糊、视力下降)、糖尿病足、糖尿病心血管并发症(高血压、冠心病、心脏病、心绞痛、心衰、心梗、房颤)、糖尿病性脑血管病(脑梗、脑血栓)和糖尿病神经病变(糖尿病周围神经病变)等。

3.2 患者的患病时长分布

有患病时长字段的咨询记录共有33815 条。52%(17475 人)患者患病时长超过半年,18%(6145 人)患病时长在半年之内,17%(5785 人)患病时间小于1 个月,13%(4410 人)患病时长不超过1 周,可见患病时间较长的用户更愿意在网上咨询。

3.3 患者的过敏史

填写了有效的过敏史的数据记录共1151 条,包括具体的过敏原、过敏物或过敏表现。将出现3 次及以上的过敏记录进行归类,见表1,括号内数字表示出现次数。过敏原可分为吸入式过敏原、食入式过敏原、接触式过敏原和注射式过敏原。因患者未描述药品过敏的方式,因此将食入式和注射式归为一类。大部分过敏记录(1015 例,88%)属于食入或者注射方式,笔者将食入式/注射式过敏原分为药物类和食物类,其中药物类占大多数。在药物类中,除常见的过敏原青霉素类、头孢类、磺胺类外,还有糖尿病用药,如胰岛素、二甲双胍,少量患者对此有过敏现象。有的患者对药物过敏的描述较为模糊,如感冒药、止疼药。少部分患者描述的是过敏性疾病本身,如过敏性哮喘、过敏性咳嗽,而非具体的过敏原。

表1 患者的过敏原

4 好大夫在线回复糖尿病咨询的医生特征分析

共有17661 位医生参与119697 次在线咨询,医生人数大致随着回复记录数的增加而下降,大部分医生对在线咨询的回复数在10 次以内,具体为:89.92%(15881 人)回复少于10 次,其中51.03%(9013 人)只参与1 次咨询;9.17%(1619 人)回复为 10-100 次;0.91%(161 人)回复在100 次以上,总计为43769 次咨询记录,占总记录数36.57%,其中0.02%(4 人)回复超过1000 次。可见少部分医生(10.08%,1780 人)参与了大部分咨询(71.72%,85852 条)。

4.1 医生的职称特征

经过对17661 条医生职称信息的统计,医生的临床职称包括住院医师、主治医师、副主任医师、主任医师、主任技师等18 种,前4 种占大多数。医生的教学科研职称包括助教、讲师、副教授、教授、副研究员、研究员等。住院医师和主治医师中,无科研职称的占大多数;副主任医师中,副教授占大多数;主任医师中,教授占大多数。医生的临床职称和教学科研职称的对应关系如图1所示。可见,临床体系中的职称与教学科研中的职称呈现一定的正相关关系。

图1 医生的临床职称和教学科研职称

4.2 医生所属医院及科室类别

4.2.1 医生所属医院

17661 位医生来自2922 所医院,其中医生记录数大于(或等于)100 的医院共22 所,按照参与网络咨询的医生人数排名,分别是好大夫工作室、郑州大学第一附属医院、中国人民解放军总医院(301 医院)、北京协和医院、北京同仁医院、武汉协和医院、上海交通大学医学院附属第九人民医院、山东省立医院、东部战区总医院(原南京军区总医院)、上海交通大学医学院附属仁济医院、复旦大学附属华山医院、北京大学第一医院、空军军医大学西京医院、中国中医科学院广安门医院、中日友好医院、北京大学人民医院、北京大学第三医院、未收录医院、山东大学齐鲁医院、四川大学华西医院、江苏省人民医院和中国医学科学院阜外医院。除去好大夫工作室和未收录医院,其他20 所医院中参与网络咨询的医生共为2817 人,占医生总人数15.95%。20 所医院,均属于三级甲等医院,其中18 所属于综合性医院,2 所是专科医院,分别是中国中医科学院广安门医院(中医医院)和中国医学科学院阜外医院(心血管专科医院)。

4.2.2 医生所属的科室类别

不同医院科室分类存在差异,大型医院和小型诊所分类的粒度不一样,科室名称也不一定规范。17661 位医生来自1653 个科室,所属的科室较为分散。其中,医生人数大于(或等于)100人次的科室共37 个。这37 个科室收纳68.9%(12169 人)医生。由此可以看出糖尿病不同于其他疾病的一大特点,即有很多并发症。其中,眼科、内分泌科、泌尿外科、神经外科、骨科、妇产科、皮肤科的医生人数最多,与上文中患者所患疾病类型和糖尿病易皮肤过敏相对应。

4.3 活跃医生的特征

从医生个人回复行为来看,回复次数多的医生,一方面表现出医生的活跃;另一方面表现出有大量患者依赖。笔者将回复记录超过500 条的医生列举于表2,记录总计为15326 条,占总记录数12.8%;医生为19 人,占总医生数0.1%。除未收录医院的医生外,其他医生都来自三级医院,且大多数属于内分泌科。

表2 在线咨询回复超过500 次的医生及其特征

5 好大夫在线糖尿病医患问答特征分析

5.1 患者提问的时间特征

笔者将糖尿病问答记录按照患者提问时间统计,从2008年3月到2011年底数量快速增长,患者用户群体快速增加。2012年增幅减小,但达到历年记录数最大。从2013年开始,患者提问减少,之后未有大幅回升。2018年只统计至10月,预估年底会达到近5年来的高峰值。可见使用好大夫的糖尿病患者用户数量从百位数增至万位数,并非持续增长。就这10年来看,大致每5年达到一个高峰值。

图2 患者提问时间分布

5.2 患者提问的主题特征

由于隐私保护,问答的内容只能医生和病人可见,而提问的题目是公开的。因此,笔者使用R 语言中的LDA 包,对患者的提问进行聚类并可视化,分析糖尿病问答的主题特征。如图3所示,左边的圆代表不同的聚类主题。通过设置不同的聚类个数来看聚类效果,发现聚为7 类时的效果最好(圆圈之间无交叉)。右边蓝色柱条表示该词在整个问答文档中的词频,红色柱条表示该词在该聚类的估计频率。如选择主题1,“糖尿病”贡献最多,其次是“治疗”。去掉“如何”“什么”“可以”等无贡献意义的词,经归纳后得到7 个患者提问的主题:糖尿病治疗、糖尿病血糖控制、糖尿病心血管并发症治疗、糖尿病足治疗、妊娠糖尿病治疗、糖尿病肾病及其他并发症治疗和糖尿病眼部并发症治疗等,主题基本围绕糖尿病及其并发症展开。

5.3 患者提问的意向特征

问答数据中包含“希望得到的帮助”或“想得到怎样的帮助”字段,该字段表达患者的提问意向。经处理,共有103595 条问答中记录了意向字段。笔者用R 语言进行词频统计,筛选出词频在500 以上且有意义的关键词,见表3。总体看,患者希望得到治疗糖尿病的方案。从患者主体看,除“我”“我们”外,还有“孩子”“父亲”“母亲”“老人”等。因此,很多患者用户除咨询自身病情外,也有代替孩子和长辈向医生咨询的。从治疗过程看,患者更多会寻问去哪个医院(或门诊)预约、就诊、化验、复查、换药等。从治疗手段看,大多数患者寻问医生关于手术、用药、饮食、住院治疗、中医治疗等方式。从治疗程度看,希望能有效控制、缓解、改善、根治、恢复等。另外,很多患者希望医生能告知糖尿病的并发症以及诊疗方式、诊疗费用等。由此可知,在线医疗社区的患者咨询,并不能完全替代线下治疗方式,更多起到连接患者与线下医生(或医院)进行治疗的桥梁作用和辅助线下治疗的作用。

图3 患者提问主题LDA聚类

表3 患者希望得到的帮助词频统计

6 结语

本文以“好大夫在线”问答中糖尿病相关的10年数据为例,探究在线医疗社区的患者、医生、问答记录的特征。揭示糖尿病患者的糖尿病类型及并发症、患病时长与线上治疗意向的关系、过敏史信息、医生的临床职称与教学科研职称的关系、医生所在医院科室、活跃医生的特征、患者提问的时间、主题和意向特征。研究发现,患者人群覆盖所有常见的糖尿病类型,出现多种并发症;患病时长较长的用户更愿意在网上咨询;少部分患者有过敏现象,且大多数属于食入式或注射式过敏;医生的临床职称与教学科研职称呈现一定的正相关关系,教学科研职称越高,临床职称也相对越高;医生所属的医院具有明显的集中与分散的特点,多数患者集中于少部分医院进行咨询;医生所属的科室较为分散;活跃的医生来自于三级医院,且大多数属于内分泌科。糖尿病患者用户提问数量有着时间周期性波动的特点,大致呈现每5年达到一个高峰值。提问主题可以分为7 类,包括糖尿病及其并发症的治疗。患者的提问意图是希望得到关于治疗过程、手段和程度等方面的帮助。笔者初步对好大夫在线医疗社区平台进行了关于糖尿病主题问答的患者和医生的画像,以及揭示了问答的相关特征。可为糖尿病患者寻找网上咨询的医生提供借鉴,为优化平台的服务提供参考。本文只针对好大夫在线这一平台的糖尿病主题问答相关内容进行研究,具有一定的局限性,且对每个特征的关联研究不够,未来将对特征之间的关联关系进行深入研究。

猜你喜欢

大夫职称咨询
大海里的“鱼大夫”
进步太快
邬大夫就诊记
咨询联盟大有可为
申请科研项目,不应以职称论高下
间接性失忆
职称
职称评审实现了“两大转变”
高校教师职称评聘应“教”字当头
健康咨询