在线健康社区中用户画像及主题特征分布下信息需求研究
——以医享网结直肠癌圈数据为例
2021-04-21郑姝雅解绮雯秦新国
盛 姝,黄 奇,郑姝雅,杨 洋,解绮雯,张 戈,秦新国
(1. 南京大学信息管理学院,南京 210046;2. 南京大学国家信息资源管理南京研究基地,南京 210093;3. 南京大学工程管理学院,南京 210093;4. 南京审计大学信息化办公室,南京 211815)
1 引 言
当前,各国政府对于公众的健康信息有着极大的关注。 “欧盟健康计划” 将健康信息管理确定为23 个优先领域之一。中国共产党第十九次全国代表大会中习总书记指出,要 “实施健康中国战略。要完善国民健康策略,为人民群众提供全方位全周期健康服务” 。对于我国尚未成熟的在线健康平台来说,这也意味着更大的发展空间。同时,根据艾瑞咨询《在线医疗市场规模报告》①http://www.360doc.com/content/17/0228/16/9693582_632729063.shtml发布的数据,截至2016 年,我国在线医疗市场规模已经达到223 亿元,医疗类APP 市场格局已基本成型,并且形成了一批具有影响力的在线健康社区,如 “寻药问医” “好大夫在线” 等通过网络服务为互联网用户提供各类健康信息咨询服务。在线健康社区中,公众不再仅仅作为互联网信息的受众者,同时也成为了互联网内容的创造者。因此,积累下了丰富的用户生成内容(user generated content,UGC),蕴含着大量的包括公众需求倾向的文字、图片和音频等非结构化数据资源。在海量数据下,精准识别患者用户信息需求,不仅可有效改善社区患者自我管理行为和疾病控制状况,减少甚至消除知识不对称现象;而且对于促进线上医疗健康行业发展,发挥在线健康社区的积极作用,推动我国健康服务产业的发展具有重大意义。
2 文献综述
2.1 健康信息行为研究现状
当前,各国学者从不同的经典模型及理论出发,对在线健康社区用户信息需求分析方面做出许多具有实践意义的研究成果。吴江等[1]以Web of Science 中1899 篇相关文献为来源,梳理了国内外在线医疗健康领域的主题演化、研究热点和研究方法,将健康信息行为划分为信息获取、信息搜索行为、信息质量评估、信息素养与信息利用等内容。其中,信息搜索行为研究最为广泛。张海涛等[2]基于概念格刻画细分用户画像,揭示了不同类型群体用户多维度的特征以及不同情境下的行为特征;李敏等[3]探索了微博环境下用户健康信息扩散行为的影响因素;张敏等[4]通过调查问卷等形式,研究了在线健康社区诊疗信息求助行为研究的行程路径。
由于互联网信息质量参差不齐,用户在得到检索结果后通常会对获得的信息进行质量评估。例如,李月琳等[5]针对我国在线健康平台的信息服务质量构建评价指标体系,搭建起了信息服务质量与用户参与度之间的关系模型。钱明辉等[6]通过构建指标评价基于用户参与的在线健康平台信息服务质量,研究表明,在线平台的信息服务质量对用户参与度有一定影响,用户参与度则可以有效的改变用户自我管理行为和疾病控制。
2.2 社交媒体健康研究现状
Facebook、Twitter、微博等社交媒体的发展丰富了医疗健康信息的来源,也为用户获取知识、交流情感和表达个人观点提供了平台。Pérez-Pérez等[7]根据Twitter 平台上的数据,挖掘了活跃用户,并通过实体识别等技术识别用户关注主题。Zhang等[8]发现,用户主要围绕疾病信息、个人情感、社区建设等内容进行互动交流,并形成一个相互陪伴与支持的社交网络。Sudau 等[9]认为,用户在论坛或者在社区中发布的健康信息主要来自社交媒体,一小部分活跃用户推动话题的讨论和传播。
此外,越来越多医疗卫生组织在媒体中发布健康相关的信息或视频,而社交媒体中的评论和评分反映了受众对这些活动的观点和情绪。刘冰等[10]认为,健康类社交网络平台不但成为满足其获得用户健康信息需求的重要途径,也成为其获得用户有效心理关爱和情感需求的重要渠道。Kwak 等[11]研究发现,Twitter 热门话题中的博文在转发后信息得到快速扩散,且按照粉丝数量、PageRank 算法以及转发数量对Twitter 用户进行影响力排名,发现意见领袖的影响力不受限于意见领袖的个人属性。Rodgers等[12]对某个乳腺癌社区的3 万多条消息进行内容分析后,发现社区成员在得到所需信息或者其他人的鼓励之后,心理压力得到缓解。
2.3 在线医疗健康社区研究现状
在线医疗健康社区是指能够将病人或医生聚集在一起的互联网平台,医疗专家、病人及其家属、护理者和其他支持者能在这个平台上分享信息并寻求支持。在线医疗健康社区主要提供两种功能:一是提供医疗健康类的信息;二是提供社会支持,主要研究方向在情感支持上。吴江等[13]融合用户个人属性、网络特征、行为特征以及文本特征构建领袖识别的综合体系,挖掘不同生命周期的领袖人物,并分析领袖情感倾向对大众情感的引导作用。
在技术支持方面,针对主题识别以及领域实体识别方面,陈东华等[14]对医疗大数据类型与SNOMED CT 体系进行关联分析,提出了评估映射需求、构建映射模型、模型验证以及审查和维护四个阶段。陆泉等[15]使用LSI(latent semantic indexing)模型与MapReduce 分布式文本聚类技术对在线健康平台问答数据进行用户需求挖掘。金碧漪等[16]给出了健康论坛八大类主题,分别是病因、诊断、治疗、疾病管理、并发症、社会生活、疾病预防、教育与研究。吴江等[17]研究了在线医疗社区用户的知识互动行为,以此了解社区的知识共享特征和用户群体特征。Park 等[18]基于Reddit 平台研究在线心理健康社区中讨论的主题相似性及差异,研究在线健康社区中用户在不同年龄段下关注主题的冷热分布。
为了更好地展示在线医疗健康领域研究方法与技术,本文将国内外学者研究文献进行了梳理,具体结果如表1 所示。
表1 在线医疗健康领域研究方法与技术的研究现状
当前,国内外在线健康社区研究中,无论是用户健康信息行为,又或是社交媒体健康研究以及在线医疗社区的研究,最终目的都是为了满足用户信息需求,提供更好的用户体验。然而,由表1 可知,大部分研究方法与分析角度可以升等、升级。例如,在考虑性别、年龄、活跃时长,分析整个用户群体行为及信息需求,最好能实现数据转化,加强用户群体在不同行为与不同主题特征之间的属性关联。针对现有在线健康社区信息需求研究的不足之处,本文构建了三种维度的典型用户识别指标和主题分类体系构建用户画像概念模型;通过用户行为识别算法进一步挖掘用户与用户、用户与页面之间的交互行为,剔除僵尸用户,提升挖掘用户代表性;随后通过滑动窗口内词频量化,计算关键词权重进行主题聚类;结合用户行为与主题需求实现更精准、更细粒度的分析用户信息需求,在数据转化方面极大程度上保留了数据细节。例如,以中国唯一重大疾病医疗分享平台医享网为数据源,通过划分四种不同的用户角色,从多种维度分析用户画像,以此了解不同角色用户群体行为特征和信息需求,为在线健康社区个性化服务提供一定数据支持与建议。图1 总结了本文的研究逻辑。
图1 研究逻辑图
3 在线医疗社区用户画像概念模型构建
3.1 用户画像概念
用户画像概念包含两个层次:第一层次的用户画像是从用户群体中抽象出的典型用户,能够在产品设计与运营时提出最主要的需求及期望;第二层次的用户画像是在某种特定的情境下,抽取出的真实用户行为数据,所形成的描述用户角色属性及行为的标签集合。本文构建用户画像将二者结合,旨在刻画细粒度、多维度的活跃用户画像,用于更加精准地挖掘用户行为数据,识别用户信息需求。
3.2 社区内典型用户识别指标构建
典型用户识别指标构建过程为将获取的数据进行显著性检验,得到皮尔逊相关系数以及统计量,剔除 “人气” “地区” “微信一键转发” “发布时间” “回复时间” 等未能通过置信水平的显著性检验等指标,最终在线健康社区典型用户识别指标如表2所示。用户的角色属性包括:用户年龄、性别、圈内职位和活跃时长,活跃时长是指用户注册时长,圈内职位以及活跃时长也是圈内用户影响力的直观衡量标准;用户的行为属性包括:用户发帖、被回复、主动评论和收藏行为,用户发帖、被回复等行为越频繁,行为属性指标值越高,表明用户发布内容越被人认可,即具有较高的威望与影响力;用户的文本特征包含主题的多样性与热门话题的相似度,多样性越高,表示用户被回复、收藏等行为的潜在概率也越大,而与热门话题语义相似度越高,表明用户关注内容更符合大众关注热点。
表2 在线健康社区典型用户识别指标
3.3 社区内主题分类体系构建
主题的划分参考Gao 等[19]对于中文电子病历命名实体的划分,本文根据结直肠癌疾病特征做出了部分改动,结合医享网中实际内容,分析归类,不断调整主题类目,最终将其分为疾病、治疗方案、诊断检查、症状描述和社会生活等五大类主题。主题及子类目如表3 所示。
3.4 用户画像概念模型构建
本文结合典型用户识别指标及主题分类体系构建的类目与子类目,制定了完整的用户画像概念模型,如图2 所示。用户画像概念模型将用户角色进行划分的标签分别为:信息提供者、信息接收者、信息分享者和信息寻求者。用户行为动机则分为搜索信息、提供信息、分享信息与浏览行为。
信息提供者可定义为用户可自主提供、分享生成内容,与在线健康社区交互频繁,且能够根据其他用户角色行为做出有效回应,如发帖、被回复、主动评论以及收藏等行为,在社区内有较高威望的群体。信息寻求者在追求信息时动机较为强烈,具有鲜明的目的性,需求认知程度较高,一般以搜索信息为主,该类用户主要行为是发帖提问。信息接收者信息需求相较于信息提供者与寻求者较为模糊,在信息需求认知较弱的情境下,偶遇并浏览信息,一般在看到能引起共鸣的信息情况下,会对信息内容进行收藏行为。信息分享者与信息接收者行为类似,区别在于信息分享者具有一定的目的性与动机去主动分享知识,用户参与感相较于信息接收者更强。信息角色会随着用户参与感的强弱而发生改变。
表3 结直肠癌主题分类体系
4 在线健康社区用户画像概念模型实现方法
4.1 用户画像概念模型实现框架
用户画像概念模型的实现,主要基于用户行为识别算法挖掘综合信任值较高的用户,剔除僵尸用户,将用户角色进行数据转换,保留角色信息数据细节。随后,监测挖掘出的用户在页面消息流中的生成内容,将滑动窗口中关键词抽取并量化,以便后续得到更精确的主题聚类结果。结合用户行为识别算法与主题聚类算法,实现在线健康社区用户画像模型的框架构建。框架如图3 所示。
图2 用户画像概念模型
图3 用户画像概念模型实现框架
4.2 用户行为识别算法
在线健康社区用户行为主要包括:用户浏览页面、发帖、被回复、收藏和评论等行为,反映了各个用户在在线健康社区的参与程度。本文的用户行为识别算法定义了用户交互次数、用户交互质量和历史用户交互值,结合上述构建的典型用户识别指标,在挖掘出活跃用户后,可以进一步提升挖掘用户的精确度与用户代表性。
用户交互行为的挖掘融合了社交网络的基本思想,将模型分为用户交互次数、用户交互质量以及用户演变三部分。用户交互次数定义为:假设对于任意用户U1与U2,用户U1主动对用户U2发布的内容进行主动评论、被回复等交互行为,而用户U2对于用户U1行为无交互动作,则此过程描述为单向社交互动,U1为社交互动行为中主动用户,U2为与被动用户;当用户U2对于用户U1的评论、回复以及收藏等社交互动行为进行回应,此过程为双向社交互动,也称用户U2对于用户U1的被动社交互动。
(1)用户交互次数。假设用户交互次数N(i,w)为在窗口w中用户之间的双向社交互动数,则用户交互次数计算方式为
其中,ui,w表示用户在页面w的所有社交互动行为的集合;kij为以用户Ui与Uj的主动评论与被回复为基准的双向社交互动次数。根据用户在数据收集期间特定页面窗口的社交互动行为,D(i,w)为用户Ui与Uj在页面窗口w的用户交互次数,计算方式为
(2)用户交互质量。用户交互质量Q(i,w)由窗口w中用户之间的双向社交互动频次决定,计算公式为
其中,I(i,w)代表用户Ui与用户Uj在窗口w的社交互动次数。这里社交互动次数是指主动社交互动用户与被动社交互动用户之间至少有一次社交互动动作,且主动用户与其他用户社交互动次数少于主动用户与被动用户的交互次数。根据用户交互次数与用户交互质量的计算,可以将用户信任值表述为T(i,w),计算方法为
其中,λ(0 ≤λ≤1)为计算用户信任值的不同权重的调节因子。
(3)历史用户交互值。由于社区的动态性以及事件演变性,上述用户信任值会随着时间演进性而发生改变,因此,需要考虑用户的历史信任度。结合历史信任度与用户信任值建立一种用户行为识别算法。历史信任值的计算公式为
其中,Ta(i)为历史信任值;W为用户最近访问的页面窗口数,约束条件为1 ≤w≤W;θW-w表示在第w个历史页面窗口的用户信任权重值,约束条件为0 ≤θ≤1,1 ≤w≤W。用户信任权重值可以根据历史信任页面窗口访问频率计算得出。
(4)综合用户信任值。用户信任值结合当前信任窗口的用户信任值T(i,w)与历史信任窗口的用户历史信任值Ta(i),构造出一个长期用户信任模型。因此,根据用户交互次数、用户交互质量以及历史用户交互值,得出特征词检测的用户信任值T(i)计算公式为
其中,α+β= 1(0 ≤α≤1,0 ≤β≤1),α与β分别为当前用户信任值与历史用户信任值的调节因子。
因此,综合用户信任值,可以有效的提取出参与度较高的用户,有助于更精准地了解用户群体,对于后续了解全面的用户画像具有突出优势。
4.3 主题聚类模型
本节通过挖掘在线健康社区用户关注主题,以及主题之间的冷热程度的差异,可以明确典型用户文本属性指标内容,分析这些用户所关注的健康信息领域主题特征,能够有效了解社区内用户需求,及时发布积极引导信息,提升社区服务质量。
4.3.1 消息流监测
本小节介绍基于消息流监测的关键词权重量化过程,主要是根据设定的滑动窗口对消息流进行划分,融合用户信任度计算每个消息流中关键词的权重。在检测发帖信息用于抓取关键词过程中,按照信息发布时间划分至对应窗口序列中,动态窗口序列化表示定义为
其中,n为时间序列中窗口序列号;表示特征词在第n个窗口中的序列号。
因此,结合动态窗口序列中特征词以及用户信任度,关键词权重计算方法为
其中,d为发帖消息流中的关键词;ms 为消息序列中的消息集合;tftagd代表关键词d在动态窗口序列中的词频;tfd表示关键词d不属于动态窗口序列而属于其他动态窗口中的词频;ξ为特征词权重的调节因子。wti表示发布消息用户可信度权重。计算方法为
其中,T(i)为综合用户信任值。
综上所述,本文将用户行为识别算法和消息流监测应用于关键词的检测以及量化,多方面考虑页面用户交互繁杂的特性,提取了用户交互质量、用户交互次数等因素挖掘关键词,并使用词频量化关键词权重,为后续主题聚类提供了良好的基础。
4.3.2 主题聚类阶段
根据上述用户行为识别算法所得到的用户生成内容,本文在划分主题前结合医学领域通用词典将类目中特征词集合进行人工标注,将文本中提取的关键词与人工标注的特征词匹配,判断关键词与特征词相似度用于主题聚类。算法将消息流中第一个挖掘到的关键词作为聚类的初始中心点,算法模型如下。
算法1:基于时间窗口发帖内容的聚类算法
输入:BMi为窗口消息集合,bmi为窗口消息,Ui为发帖用户,BE 为主题类目,MT 为相似度平均阈值,Ej为各主题类目中特征词。
输出:更新后的主题类目集合BE 及对应关键词。
其中,消息bmi与特征词Ej=[M,U,F]相似度主要采用改进的Jaccard 相似系数(Jaccard coefficient) 可得,在特征词Ej的形式化描述中,M为消息流中主题相关消息流,U为聚类后发布评论的用户集合,F为描述主题类目Ej的其他子类目特征词集合。相似度计算为
Jaccard 系数是一种度量集合个体间相似性的算法。假设bmi=[FE, NFE],其中,消息bmi的形式化表示FE 与NFE 分别为特征词集合与关键词集合。
通过监测消息流内用户生成内容,用于区分每个主题类目下具有较高权重的关键词,而后进行主题聚类,将数据量化可以在极大程度上保留数据代表的细节,深入挖掘用户讨论内容信息,精准定位用户需求。
最终,基于用户画像概念模型的实现,结合典型用户识别指标与主题分类体系,在线健康社区用户信息需求分析流程如图4 所示。
5 实验过程及需求结果分析
5.1 实验环境与数据处理
医享网是中国唯一重大疾病医疗分享平台,给予患者及其亲友提供病历查询与分享、圈友交流与互助等功能,目前有超过25 万会员参与互动。由于该社区功能以及帖子主题更符合在线健康社区的定义,因此,本文挖掘医享网2019 年年初至2019年10 月13 日的数据作为数据源。首先,本文使用Python 爬取当前结直肠癌圈所有圈友的ID、性别、圈职位、活跃时长等,总计3265 人。同时,爬取结直肠癌圈所有用户发帖内容、回复、主动评论与收藏数。用户中有1938 人参与发帖,总计发帖824条,访问量总计605157 次。
本文实验环境为Windows 8(64 位)操作系统,系统处理器为Intel(R)core(TM)i5-5200U。在数据预处理阶段,利用ICTCLAS 分词工具对文本进行分词。根据李月琳等[5]构建的伪健康信息特征列表,数据清洗过程剔除掉具有无节制的语言符号(如多个感叹号)、标点错误、文字错误、语法错误、不当空格等伪健康信息。随后根据用户画像概念模型筛选典型用户,利用用户生成内容挖掘关键词并进行主题聚类,精准定位不同用户角色下用户信息需求。下面将对数据采集、处理、用户识别和主题聚类分析结果进行数据化展示。
图4 在线健康社区信息需求典分析流程
5.2 用户角色建立与分析
根据用户画像概念模型的实现,本文将挖掘出的用户群体进行人工标注和处理,若用户信息不明确及信息缺失或用户行为综合信任值为0,则将用户剔除。在上述3265 个用户中,筛选出1092 个符合典型用户识别指标的用户。根据画像概念模型中用户角色及行为,将用户群体划分为四类,用户角色的人工标注步骤如下。
(1)所有指标均超出均值情况下,将角色判定为信息提供者。
(2)信息寻求者:若发帖数目和收藏数目大于均值,则判定为信息寻求者;若在所有指标都未能大于均值情况下,则按照指标进行判定。
由于用户行为属性在多种情境下可以有多种信息行为需求,因此,用户角色也会相对重复,若用户同时满足两种及以上角色,则将其按照百分比较高的一方,即特征较显著的一方作为判定依据。部分标注结果如表4 所示。
表4 部分用户角色标注结果
由表4 可知,1092 名用户分为了4 种用户角色。在医享网中,信息寻求者占比最高,为46%;信息分享者总人数占比为27%,信息接收者占比23%,信息提供者占比4%。用户数量分布结果表明,信息搜索及浏览行为占比较高,社区运营人员应关注网站服务质量,增强信息服务效率,使得用户能够快速找到自身所需的信息,从而提升用户网络留存黏性。
表5 部分结直肠癌患者信息需求类目、部分关键词及权重值结果
表6 部分结直肠癌圈用户角色关注主题占比
5.3 主题聚类分析
了解在线健康社区用户在谈论什么和确定受到更多关注的主题,能够使新的决策更好地与社区的利益保持一致。本小节根据上述用户角色划分,针对构建的主题分类体系,分析信息分享者、信息提供者、信息接收者以及信息寻求者的关注需求。表5 给出了结直肠癌用户信息需求类目、部分关键词及权重值。表6 为每个用户角色在关注主题内子类目的占比。
由表5 和表6 可知, “社会生活-资讯” 类话题以及 “治疗方案” 等主题为各类用户的主要需求。在 “疾病” 类中,对于其子类目 “病史” 的关注要比 “并发症” 及 “身体部位” 少得多,这也从侧面揭示了结直肠癌症引发并发症较少,用户反而更加关注导致癌症病变的疾病史;在 “治疗方案” 主题中,用户关注度多以 “疾病护理” 及 “药物” 为主,说明大多数的结直肠癌治疗方案是化疗而非手术,对于化疗后如何有效结合膳食以及中医调理进行自我调理,降低癌症复发率的 “疾病护理” 用户具有较高需求;在 “社会生活” 主题中, “情感支持” 与 “资讯” 类子类目占比最高,结合医享网给予患者交流互助及知识科普信息服务定位,用户行为集中在情绪表达及治疗指南的关注中。通过上述用户信息需求行为分析,从网站信息服务层面来看,实验挖掘数据及分析结果符合医享网及结直肠癌疾病特征,这也从侧面证明了实验的可行性。此外,在较为 “冷门” 的主题中,四种用户角色均对 “诊断检查” 主题的关注较少,这些主题关注度较低是由于社区类型以及疾病特征所决定的,如结直肠癌确诊手段的局限性以及医享网网站的知识科普性及疾病分享性等特征。
5.4 用户信息需求分析
5.4.1 用户信息需求性别差异分布
用户角色划分下对于结直肠癌信息需求的性别分布差异如图5 所示,包括主题类目分布在性别内占比以及类目中子类目用户最高关注占比。根据2018 年美国发布的最新结直肠癌流行病学结果所示,男性患者发病数高于女性患者,结合在线社区中男女比例为1.184∶1,这说明男性用户在互联网求助意愿大于女性患者。从信息分享者角度来看,两者对于 “社会生活” (分别占比37%、39%)主题更为关注,其中,男性更加关注 “资讯” 类信息,而女性更加倾向于 “情感支持” 子类目,进行情感倾诉;在信息寻求者角度而言,男性更加注重 “症状描述” ,发布自身病历寻求药物、治疗方案等帮助,而女性则更加关注 “治疗方案” 中 “疾病护理” 子类目;在信息提供者角度而言,男性在 “治疗方案” 中更加关注 “药物” 类信息。总体来看,四类角色中男性最倾向于关注 “社会生活-资讯” 类信息,女性更倾向关注 “症状描述” 类目。由此可见,不同的性别用户对于主题需求各有不同,因此,医享网可针对不同用户性别主题需求推送个性化服务。
图5 不同用户角色性别下主题分布差异
5.4.2 用户信息需求年龄差异分布
用户角色划分下对于结直肠癌信息需求的年龄分布差异如图6 所示。根据2018 年美国发布的最新结直肠癌流行病学结果所示,45 岁以上发病患者占所有结直肠癌发病率的93.28%。根据本文挖掘的数据可得,35~60 岁中年群体是医享网中主要用户。从图6 来看,不同年龄用户对于各个主题类目下子类目需求相差较大,其中,对于16 岁以下用户群体主要关注 “社会生活” 主题,表明青少年群体较为关注知识疾病原理;16~35 岁青年群体角度来看,信息分享者与信息提供者更加关注 “治疗方案” ,信息接收者与信息寻求者更加关注 “社会生活” 类目;而36~60 岁中年群体作为主要用户群体,除信息提供者更加关注 “治疗方案” 外,其他三类用户群体信息需求主要集中在 “社会生活” 主题中。上述情况表明,信息提供者与信息分享者作为医享网中具有影响力的用户群体,更乐于向用户提供及分享结直肠癌治疗、预防、药物、治疗效果等信息;而信息寻求者与接收者,则迫切的需要病理及病因、治疗指南、医疗保险等专业知识。60 岁以上老年用户群体中,信息分享者与信息提供者更关注 “治疗方案” ;而信息接收者更关注 “疾病描述” ,找寻与自己病程相似患者;信息寻求者则更关注 “社会生活” 类主题。老年用户主题需求分布特征最为不明显。
因此,结合不同用户角色在性别、年龄下的主题分布差异,本文可以得出结论:男性更关注疾病治疗指南、疾病预防、等资讯类信息,女性更倾向描述症状并寻求情感支持;年龄在36~60 岁中年群体用户信息需求高于其他用户,及其对结直肠癌治疗方案最为关注。
图6 不同角色年龄段下主题差异分布
5.4.3 用户画像下不同信息需求差异分布
根据用户画像及用户主题需求的挖掘,本文将实验结果进行整理则可得到不同用户角色下用户行为差异及信息需求差异,如表7 所示。信息分享者与信息提供者对在线社区中参与用户交互较为频繁,由表7 可知,信息提供者相较于其他三类角色虽人数较少,但用户较为活跃,发帖、被回复、主动评论以及收藏数量较为均等且互动分布多元化,大都关注 “社会生活” 中 “疾病预防” 与 “资讯” 类信息,这表明了该类用户在社区中的主导地位,能够为圈子的发展提供积极作用。社区运营人员应大力发展此类及重视用户,在推送用户感兴趣的资讯类信息的同时,将相关寻求帮助发帖推送给用户,提升该类用户参与感和答疑成就感,增强信息提供者对在线健康社区平台依赖性与用户行为交互频率。信息分享者主动评论行为占比较高,属于较为活跃用户,主要分享内容在于 “情感支持” 及 “疾病护理” 子类目,说明该类用户关注他人情感诉求且具有较高的知识素养,问题解决能力较强。此类用户角色属性最接近于信息提供者,社区运营人员应重视并积极加以引导,促进角色的转变。信息接收者主要标签为被回复以及收藏行为占比较高,往往不具有发帖行为与主动回复行为,此类用户往往乐于接受别人的知识分享,在其信息需求得到满足后便不再参与社区互动。因此,医享网中针对此类用户应采用奖励手段提升用户参与感,丰富平台服务内容的全面性,加快平台处理用户需求的响应与反馈速度,增强用户黏性。信息寻求者发帖数量远高于其他三类用户角色,主要围绕 “疾病描述” 主题找寻所需信息,具有鲜明的目的性与问题认知度。但被回复、收藏与主动评论数极低,这说明该类群体在社区中留存率较低,往往在信息需求得以满足后就离开社区,进一步主动获取信息意愿较弱。因此,平台首先应保证用户信息检索结果的相关性,其次通过激励机制促进用户参与成就感,提升用户之间的持续参与互动频率。
综上所述,在线健康社区平台应针对不同用户角色制定不同的运营手段。医享网应从信息服务质量入手,建立专属搜索渠道以覆盖用户基本信息需求,丰富服务内容的全面性,增强平台对信息搜索行为的响应与反馈速度,构建奖励制度提升用户知识贡献以及激励用户平台参与意愿,鼓励用户创造有价值信息,加强整个在线医疗社区活跃度。
表7 不同用户角色下用户行为差异
6 结 语
本文在梳理相关人员研究成果的基础上,提出了一种在线健康社区中用户画像及主题特征分布下用户信息需求的识别方法。首先,本文结合在线健康社区典型用户识别指标及主题分类体系构建了用户画像概念模型;其次,通过用户行为识别算法与主题聚类算法挖掘用户群体下不同角色关注的主题内容,用于用户画像概念模型的实现。根据医享网中结直肠癌圈的数据验证研究结果,该方法可以有效的识别用户行为及主题刻画用户画像,识别更精准、更细粒度的用户信息需求。本文的研究结果在一定程度上为我国在线健康社区平台的不同用户群体行为及信息需求的深入研究提供参考价值,对于推动未来行业整体健康发展具有一定的积极意义。
本文的局限性在于只选取了一种疾病圈进行实证分析,未能考虑多个在线健康社区的信息多源融合,样本数量不足以覆盖在线健康社区所有用户信息需求,今后可以针对不同疾病圈内乃至多个社区内用户在不同主题关注差异入手,提供更加精确、客观的研究结论。