APP下载

社会化问答网站用户健康信息需求的演变研究

2019-06-03曹树金闫欣阳

现代情报 2019年6期
关键词:社会网络分析糖尿病

曹树金 闫欣阳

摘 要:[目的/意义]研究的目的在于揭示社会化问答网站用户糖尿病相关信息需求,以及随时间的推移这些信息需求的演变。[方法/过程]以中文社会化问答网站糖尿病相关提问文本为基础,构造共词网络,运用词频分析、社会网络分析和社区发现的方法,确定网络社区演变路径,以可视化的形式呈现信息需求的特征及演变。[结果/结论]10年间用户表达出来的信息需求趋于集中,用户对健康管理的信息需求有较大增长,但这部分仍未成为核心关注点。建议用户更多地对健康管理给予关注,公共卫生部门加强糖尿病预防内容的科普,并对相关并发症加强防控和管理。

关键词:健康信息需求;糖尿病;社会化问答网站;社会网络分析

DOI:10.3969/j.issn.1008-0821.2019.06.001

〔中图分类号〕G252.0 〔文献标识码〕A 〔文章编号〕1008-0821(2019)06-0003-13

Abstract:[Purpose/Significance]The research aimed to reveal the diabetes-related information needs of users in social Q&A websites and the evolution of these information needs over time.[Method/Process]Based on the diabetes-related question texts from a Chinese social Q&A website,a co-word network was constructed,then word frequency analysis,social network analysis and community detection methods were applied to determine the evolution path of the network communities,and meanwhile the characteristics and evolution of information needs were visually represented.[Result/Conclusion]The information needs expressed by users tended to be concentrated in the past decade.Information need for health management has increased greatly,but has not become a core concern yet.Users were advised to pay more attention to health management,and the public health department should do more to promote diabetes prevention,and strengthen prevention and control of complications.

Key words:health information needs;diabetes;social Q&A website;social network analysis

生命健康权是公民最基本的人格权。随着经济发展水平提高,人民生活水平不断改善,健康问题越来越得到人们的重视,人们对健康信息的需求也随之增加。随着Web2.0时代的不断发展和社交媒体的普及,越来越多的用户不仅从互联网获取健康信息,也通过互联网表达健康信息需求。其中糖尿病作为一种常见慢性病,患者基数大,信息需求更是豐富而广泛。2017年发布的《第八版全球糖尿病概览》数据显示,全球每11位成人中就有1位患糖尿病,患病人数达4.25亿,较2015年多1 000万人。至2045年,这一数字将增至6.29亿。2017年中国有1.144亿名糖尿病患者,位居全球第一[1]。而Wilson V[2]在2013年就通过电子邮件调查了22~64岁之间的Ⅰ型和Ⅱ型糖尿病患者,认为互联网是寻找一般糖尿病健康问题答案的首选。然而国内对糖尿病信息需求的研究多为问卷调查法[3-5],样本范围狭窄,且采用已有的分类体系而忽略了用户信息需求的表达。中国糖尿病患者的信息需求表达需要被关注和研究。

根据贝尔金提出的知识非常态理论(Anomalous State of Knowledge,ASK),用户之所以有信息需求产生,是因为用户认识到自己存在关于某个主题或情境的知识非常态,而且一般也无法精确描述需要什么来解决这种非常态[6]。由于信息需求表达的是用户所不知道的,因而贝尔金认为研究的焦点应放在用户信息需求的问题陈述上,通过获得问题的陈述,构建用户知识非常态的表达。社会化问答网站是网络用户信息需求表达的集中地之一。作为用户生成的内容,Anderson C提出,许多用户构建的知识结构的长尾效应将产生不可估量的价值[7]。社会化问答网站是Web2.0用户生成内容的典范。任何人都可以提出和回答问题,对他人提交的内容进行评分[8],并查看其他人的问题和答案。以其作为研究数据来源,最大的优势就是可以获取用户相对真实完整的信息需求表达,超越了问卷调查、检索日志等数据的局限。因此,研究试图从社会化问答网站用户的提问文本入手,突破先验式分类框架,结合社会网络分析和社区发现等研究方法对文本进行挖掘,从宏观和微观上客观地揭示糖尿病患者的信息需求以及随着时间的推移这些信息需求的演变,总结社会化问答网站用户糖尿病相关信息需求特征和规律。研究首次从中文社会化问答网站获取数据分析用户健康信息需求,能够从实证角度丰富和拓展日常信息寻求理论,推进认知观意义下动态健康信息需求研究的深入,并为健康知识组织、知识服务研究提供理论依据。研究也力图为社会化问答网站提供优化方向,更好地组织信息资源。同时为用户提供提问参考和建议,帮助公共卫生部门为有效的健康教育活动修改和定制健康信息,提供更好的健康信息服务。了解用户信息需求和信息来源的相关性如何随时间变化还可以提高慢性病管理的质量,引领医疗保健系统向更加为患者量身定制的医疗服务转变。

2019年6月第39卷第6期現代情报Journal of Modern InformationJune,2019Vol.39 No.6

2019年6月第39卷第6期社会化问答网站用户健康信息需求的演变研究

June,2019Vol.39 No.6

1 相关研究现状

1.1 用户健康信息需求

健康信息需求是长期以来信息需求领域的研究热点之一。由于“信息需求”本身的定义就有多种且尚未达成一致,因此健康信息需求的定义也存在争议。Timmins F[9]认为,在健康领域,信息需求可以被简单解释为病人需要知道的东西。然而,从最广泛的意义上讲,它被广泛用于代表病人/家庭的知识中可能通过信息和/或教育提供纠正的差距或不足。Ormandy P[10]认为,信息需求意味着处于特定时间点的情境中,对于知识不足以满足目标的一种认识。我国有学者认为,健康信息需求即当个体出现自我感觉身体不适或曾有高危行为导致其对健康状况表示怀疑或不确定时,主动寻求相关健康知识或经过医生确诊以获取所需健康信息,以确定症状,排除忧虑[11]。综合上述研究,本文将用户健康信息需求定义为:个体主动寻求相关健康信息以获取所需健康知识,以弥补健康知识的不足,排除忧虑的愿望和渴望。本文研究所指个体仅限于患者及家人等相关人员,不包括专业医疗卫生提供者。

关于健康信息需求的研究既有整体性的,也有针对某种或几种疾病类型的研究。整体性研究如张洪武等[12]基于网络用户搜索行为,利用百度指数分析网络用户健康信息需求。Pieper D等[13]通过系统性综述的方法调查2000-2012年期间以德语或英语出版的德国患者,亲属和一般人群的健康相关信息需求研究。总结认为研究使用的方法是高度异质的,年龄越小,病程越短,健康状况越差,焦虑和抑郁评分越高,信息需求越高。Pian W等[14]探讨了用户健康信息需求情境的自动分类问题。他们认为用户的健康信息需求情境(即为自己、为他人搜索或没有健康问题的浏览),只要用户点击鼠标,就可以通过Web应用程序检测合理准确地识别。癌症一直是健康信息需求研究中最受关注的疾病之一。Schmidt A等[15]通过多中心方法描述乳腺癌门诊患者的信息需求,刘倩雯等[16]采用信息需求自评量表探讨了肝癌患者的健康信息需求。李重阳等[17]以在线问答社区中癌症信息为例,对信息需求从时间和主题两个角度进行综合测度。Vetsch J等[18]通过问卷和访谈评估了癌症幸存者和父母的信息需求及未满足的信息需求与临床和社会人口学特征之间的关联。结果认为幸存者对医疗信息的需求更加不满足,而父母在性问题和生活方式方面的需求明显更多。作为父母,对随访护理不满意,整体健康状况降低,晚期效应感知风险较高,焦虑/抑郁程度较高与更多未满足的需求显著相关。其他疾病方面,Pier C等[19]采用半结构化访谈的专题分析对伴或不伴抑郁症患者的冠心病(CHD)患者的健康和心理健康信息需求进行研究。结果认为最突出的信息需求包括识别和管理与风险有关的身体症状,以及心理社会信息,特别是提高患者的社会支持方面的心理社会信息。患者认为这些信息对缓解健康焦虑和消极影响很重要。Cappelletti E等[20]采用问卷的方法探讨受两种慢性病——高血压和冠状病影响的患者的信息需求的演变。调查结果认为,随着时间的推移,专家被认为是最值得信赖的信息来源。

关于糖尿病的健康信息需求研究也已有一些积累。研究方法方面,Jean B S[21]在对Ⅱ型糖尿病患者的信息需求和信息寻求和使用实践进行调查时,开发了纵向研究设计,其中包括传统的数据收集方法(问卷调查和访谈)以及一种新型的卡片分类技术,可以在不同时间点引发参与者对不同来源和类型的糖尿病相关信息的相对有用性的判断。为满足用户对糖尿病相关信息的需求,Chen X等[22]提出了一个中文领域词典,采用一些专业的糖尿病主题解释作为领域知识,并将其纳入深度学习方法,形成主题分类框架。使用真实数据集的实验表明,与大多数最先进的基准测试方法相比,该框架在分类糖尿病相关主题方面显著提高了效率和准确性。实验分析还显示,一些健康网站提供了一些不正确或误导性的类别信息。信息需求内容方面,Lamberts E J F等[23]通过半结构化电话访谈和患者焦点小组讨论了解最近开始接受口服抗糖尿病治疗的患者的信息需求,并研究药房为Ⅱ型糖尿病患者提供信息的机会,发现全科医生无法满足所有信息需求,而药剂师有机会,因为患者需要信息并喜欢讨论与药物有关的问题。为了解消费者对糖尿病信息的需求,金碧漪等[24]选取雅虎问答中糖尿病相关的8 762条提问记录作为研究对象,根据糖尿病信息的类目体系及分类策略对其进行人工编码,再进行文本处理,并通过多维尺度分析方法,对每个需求类目下的中心词进一步聚类发现,消费者对于糖尿病健康信息最大的关注点是日常疾病管理、疾病确诊和治疗,而对疾病预防缺乏应有的关注度。Crangle C等[25]通过众包平台,从120名门诊糖尿病诊所患者和100名市民中收集了164个问题,以分析患者和公众对Ⅱ型糖尿病(T2DM)的信息需求。确定了23个一般和糖尿病特定主题和5个疾病进展阶段,并确定了哪些主题是患者或公众提出的问题的重要预测因子。Grobosch S等[26]通过混合方法确定最近诊断为Ⅰ型或Ⅱ型糖尿病的人的信息需求及与糖尿病有关的信息需求相关的因素。结果认为大多数参与者表示需要提供所有主题的信息,尤其是糖尿病研究和治疗。关于这些主题,参与者希望获得有关简化日常生活的新疗法的信息。低现时信息水平(不够或完全不知情)和抗高血糖药物治疗与更高的信息需求显著相关,糖尿病相关综合症和36项短期健康调查(SF-36)中较高的心理成分总分得分显著相关,信息需求较低。

1.2 信息需求演变

意义建构理论认为,意义建构的能力不仅会超越时空的限制,而且也不会仅仅定位于一个点[27]。两个面向不一致时,意义建构者在某一情境中停顿下来,由于某种认知差距使其无法趋前,而此时意义建构者就可能利用“桥梁”,即信息的搜寻、获取和利用把其面对的鸿沟填平[28]。意义建构者填平鸿沟、评估结果(新的认知状态)后,再继续移动[29]。这启示我们,用户信息需求是一个动态的对象,了解用户的信息需求需要了解其所处的两个面向及其变化规律[27]。因此,在识别用户健康信息需求时,需要运用动态的观点进行分析。近年,也有学者开始重视对信息需求演变的动态过程的研究。

信息需求演變研究在健康方面有较多应用。Douma K F L等[30]和Matsuyama R K等[31]都调查了癌症患者的信息需求变化情况。结果都认为尽管随着时间的推移观察到需求减少,但总体信息需求仍然很高。Brédart A等[32]和Sheehy E M等[33]都通过问卷调查了随着诊断时间的推移,乳腺癌患者的信息需求是否存在差异。他们分别得出结论认为尽管有些人持续存在,但信息需求会随着时间的推移减少;以及诊断后1年、3年和5年的中位数分数无差异,信息需求始终很高,并且疾病过程中是最高的。Halbach S M等[34]则通过前瞻性多中心队列研究方法在乳腺癌手术后10周和40周后直接对新诊断的乳腺癌患者进行了调查。采用了线性回归模型,分析了未满足的信息需求随时间的变化及其与健康素养的关系。Kassianos A P等[35]通过在线调查问卷在治疗过程的各个阶段回顾性地探讨前列腺癌患者及其伴侣的信息需求。回应显示越接近诊断时间,对前列腺癌相关信息的需求就越大。Hsieh L Y等[36]用改良的多伦多信息需求问卷分析肺癌患者从诊断到首次治疗随访的信息需求。用广义估算方程比较信息需求随时间的变化,结果认为每个域的信息需求均随着时间的推移而显著下降。无论疾病阶段如何,对“疾病相关信息”的需求仍然很高。Chernyak N等[37]制定了适用于评估不同医疗环境(例如初级保健或长期护理)中Ⅰ型和Ⅱ型糖尿病患者以及疾病过程中不同时间点的信息需求的问卷。Greco A等[38]通过前瞻性观察性研究探索急性冠状动脉综合征后24个月内患者不同信息来源的信息需求和感知相关性。Odlum M等[39]通过纵向追踪,在不同的流行时间点评估有关埃博拉的健康信息需求。他们对推文进行自然语言处理,并通过信息图表进行了分析和可视化来探索公众对埃博拉病毒的反应。结果发现随着时间的推移,观察到公众对埃博拉的恐惧,沮丧和相关全球重点事项的健康信息寻求。纵向内容分析显示,由于持续的健康信息缺陷,导致恐惧和沮丧,社交媒体有时成为障碍,而不是支持健康信息需求的工具。Chen A T[40]采用K-means算法对3个在线论坛(乳腺癌,Ⅰ型糖尿病和纤维肌痛)讨论内容进行聚类。结论认为聚类得到的簇强调了患者信息需求的不断变化。提供给患者的信息应该适合他们在疾病期间的各个阶段满足他们的需求。

综上所述,国内外对健康信息需求和信息需求演变研究都较为重视,既集中于信息需求的内容,又有涉及研究方法、应用等方面,但仍有不足之处。如虽然有些研究对网络用户健康信息需求有所涉及,但专门研究仍相对较少。健康信息需求的研究通常是以研究者构建好的信息需求框架为基础,先验性过强。而在研究方法上多以问卷调查或访谈为主,较少有从文本信息的角度对用户健康信息需求加以挖掘,与社会网络分析结合的则更为少见,健康信息需求演变的研究也通常按照疾病阶段划分。因此,研究参考Zhao Y等[41]的研究思路,试图以一个中文社会化问答网站糖尿病相关提问文本为基础,构造共词网络,运用社会网络分析和社区发现的方法,突破先验式分类框架,客观地描述十年间用户关于糖尿病信息需求的特点及演变。

2 研究方法

2.1 社会网络分析

研究首先将提问进行分词处理,进行词频统计,并构建共词矩阵,绘制共词网络。共词网络是根据词共现关系,采用不同的指数算法计算共现强度并绘制的共现网络图[42]。由于研究关注的是信息需求的整体特征和演变,而共词网络恰好符合研究需求。依据单独的关键词分析通常难以准确判断信息需求,共词网络则更能代表提问的内容和思想,提供了一个更全面的视角。本文采用ROST CM6的社会网络和语义网络分析功能进行共现分析,并用Gephi绘制了共词网络图。共词网络不会对词汇数量加以限制,偏向从宏观角度描述由关键词表征的用户提问。共词网络通常与社会网络分析法结合使用以揭示主题的分布、关联及演化[42]。

社会网络分析方法在情报学的合著网络、引文网络、竞争情报、隐性知识共享等方面都有广泛的应用,尤其是研究领域识别方面。社会网络是社会行动者及他们之间关系的集合[43]。社会网络分析处理的是关系数据,其分析单位是“关系”,社会网络分析的核心价值就在于从“关系”角度出发研究社会行动者及其社会结构[44]。共词网络中词便是社会行动者,由词间关系构成的网络便是社会结构。社会关系图所提供的数据可视化显示经常能让研究者发现不如此就难以发现的模式[45]。因此研究将以可视化方式呈现共词网络,以图论思想为基础,采用社会网络分析中典型的网络度量方法,包括平均度、图密度、平均聚类系数等对共词网络进行分析对比,揭示用户关于糖尿病的信息需求及变化。

2.2 社区发现与演变

社区发现(Community Detection)研究是复杂网络领域的研究热点和重要研究方向[46]。Newman M E[47]认为,在顶点群中,连接是密集的,但它们之间的连接比较稀疏,这样的结构就是社区结构。整个网络可以看作是由多个社区组成,社区是社会网络的一个重要结构特征,也是中观尺度观察和理解网络拓扑的一种重要结构。相关术语还有社区、聚团或群组结构等[48]。运用社区发现方法能发现复杂网络里潜在的、隐藏的子社区。针对社区发现已有多种技术及相应算法被提出,如以GN算法[49]为代表的层次聚类方法、以LPA算法[50]为代表的标签传播方法、直接进行图划分的SCD算法[51]、用于团渗透方法的SCP算法[52]、以抽取网络中稠密子图为目标的OQC算法[53]、基于模块度优化(Modularity Optimization)的Fast Unfolding算法[53]等。

基于运算速度、运行效果、数据规模等因素考虑,本文利用Gephi内置的Fast Unfolding算法进行社区发现。Fast Unfolding算法原理分为两个阶段,首先将每个节点指定到唯一的一个社区,然后按顺序将节点在这些社区间进行移动,并计算相应的模块度变化值,哪个变化值最大就将节点移动到相应的社区中去,按照这个方法反复迭代,直到网络中任何节点的移动都不能再改善总的模块度值为止。第二个阶段是将第一个阶段得到的社区视为新的“节点”(一个社区对应一个),重新构造子图,两个新“节点”之间边的权值为相应两个社区之间各边的权值的总和[55]。

公式中,kisi代表在模块s中节点i的度数,si代表节点i所属的模块,〈…〉j∈s表示平均数。根据经验,在一个社区中,Z-value值大于2.5的节点为核心节点,被用来代表社区[56]。研究对聚类得到的每个社区中每个节点的Z-value进行计算和排序,以找到能表征整个社区的核心节点。

在共词网络中,网络社区不是一成不变的。网络社区的属性可能会随时间发生变化,网络社区的演化既包括社区自身内部节点、关系和结构的变化,也包括社区间关系和位置的变化[58]。共词网络的演变研究在各学科研究进展的分析中有着比较多的应用[59-62]。网络社区演变问题可以简单理解为为t时段的所有网络社区寻找前驱和后继。寻找一个网络社区前驱后继的常用方法有3种,分别为分类方法、语言模型方法、相似度模型方法[58],本研究采用相似度模型方法,引入包含指数(inclusion index)计算相似度。包含指数的基本思想如下:设Tt为子周期t的主题集合,U∈Tt表示子周期中每个检测到的主题(社区)。令V∈Tt+1为下一个子时段t+1中的每个检测到的主题。如果在两个相关的社区中都存在相同的关键词,则说社区U到社区V存在演变[63]。包含指数表示如下:

与Jaccard或余弦指数相比,包含指数在衡量相似集合方面更有优势,因为它不受数量影响[63]。研究通过这种方法确定網络社区演变路径,并以可视化的方式进行分析和呈现。

3 数据获取与预处理

3.1 数据源的选择

研究选取寻医问药网作为数据来源,原因在于:其一,作为专业健康社会化问答网站,用户信息需求不会过于分散,噪音较少。其二,寻医问药网成立于2004年,是中国较早探索和实践互联网医疗服务的平台之一。截至2016年,寻医问药网注册用户超过1.2亿,日独立访客超过2 200万,月独立访客超过3.2亿,位居医疗健康服务行业第一[64]。其提供的问答服务“有问必答”中,问答模式是以医生回答提问为主,也有普通用户回答的情况。一般社会化问答网站是用户提问用户回答,其缺陷是回答问题的人往往不具有严格的专业性。因为谁都可以成为回答者,对回答的内容判别要交给提问者,当面对医学健康这种严谨的问题时就面临着难以得到专业回答的尴尬境地。可以说,“有问必答”属于已经进行了专家发现的社会化问答社区,积累了比较丰富的用户提问,是比较成熟的、适合进行研究的健康类社会化问答网站。

寻医问药网“有问必答”(http://club.xywy.com/)下的所有问题以日期为单位呈现,每天被提出的所有问题作为一个集合形成一个链接归档(如图1)。因此,数据获取以时间为单位,保证完整性。采集工具为八爪鱼采集器,以“糖尿病”为关键词对提问进行筛选。对于每条提问采集3个字段:标题、问题描述和时间。如果某一项或几项用户没有填写则置空。采集的提问时间段为2007年12月至2008年12月以及2017年12月至2018年12月。

3.2 文本预处理

对采集到的问题文本进行清洗,处理内容包括以下情况:

1)问题描述中的引导语。网站提问框中提供了如下引导语:病情描述(发病时间、主要症状、症状变化等)。一些用户直接将这部分写入了自己的问题描述。由于可能对关键词提取产生影响,因此将这部分文字去除。

2)文本内容去重。针对文本内部的无意义内容进行去重,如“糖尿病怎么办糖尿病怎么办”,使用最大公共子序列算法,将公共序列中重复部分去除,只保留1个。

3)图片。对于问题描述中带有图片的,将图片网址去除。

4)对疑似水军的灌水提问进行清理。

完成以上处理后,将文档进行编码和格式转换,并采用ICTCLAS分词模块对得到的提问数据进行分词处理。最终用于研究的有效数据分别为2007年12月至2008年12月(下简称“2007-2008年”)7 555条,以及2017年12月至2018年12月(下简称“2017-2018年”)13 328条,问题描述的平均字数分别为58.4和64.5。

4 结果与讨论

4.1 高频词分析

对所有文本进行分词后,采用ICTCLAS语言统计模块对已分词的提问文本进行单篇——批量词频统计,不统计虚词,得到2007-2008年实义词7 436个,2017-2018年8 928个。可以看出,虽然10年间提问数将近翻了1倍,但所用词数增长得并没有那么多。而其中有共现关系、参与构成共词矩阵的词则分别为395个和301个,这个比例与刘知远等[65]的实验结果大体一致。核心语词减少这一点则与Zhao Y等[41]得出的结论一致。Zhao Y等对2005-2006年及2013-2014年雅虎问答网站用户关于糖尿病的问答日志进行了分析,认为在提问数增加的情况下,核心词数量有所减少并趋于集中。这也反映了用户信息需求的集中趋势。

如表1和表2所示,从具体的高频词及其变化可以初步对用户糖尿病相关信息需求有一个直观的认识。通用词变化较小,关于“治疗”、“医院”、“医生”等信息需求一直处于较高的水平。“血糖”、“胰岛素”等基本专有词排名一直靠前,“高血压”是被提问最多的并发症。10年间用户对健康管理(饮食、运动)的信息需求有较大增长,“运动”的增长最为显著。相对于关于“药”的排名有所下降,“中药”和“中医”的信息需求则有所上升。此外,并发症肾病以及妊娠糖尿病相关信息需求都有增长,同时也更注重糖尿病及其并发症的预防。提问者表现出更多的焦虑情绪(“担心”),更多关注是否能治愈及遗传因素。由于代谢病外科手术技术的不断成熟,对这种治疗方法的信息需求也随之增加。

4.2 共词网络整体属性分析

两个时间段的共词网络整体属性对比如表3所示。顶点的度是指与顶点相关联的边数,从图2和图3中可以看出,度序列散点呈明显的幂律分布,部分节点具有极高的连接度(110以上),而大量节点的连接度很低,体现出了非均匀性。也就是说,网络中存在大量度值相对较小的边缘词,也存在少量度值相对非常大的核心词[66],这与齐夫定律的结论相符。核心词的存在使得很多不相关的关键词产生了间接联系,进而产生社区。2007-2008年平均度为4.66,而2017-2018年增长到6.759,图密度则从0.022增长为0.029。这两个指标的同步增长表明随着时间的变化,网络的相关性和连通性都在提高。也就是说,核心词数量减少的情况下,其联系是有所增加的。网络的平均路径长度是指所有可达节点对最短路径的加权平均值[67],平均聚类系数是指所有节点聚类系数的平均值[68],根据图论,聚集系数是表示1个图形中节点聚集程度的系数。网络的平均路径保持在2左右,变化较小,网络边缘概念离核心概念的关联步长较短,网络平均聚类系数远高于同等规模的随机网络(0.01左右)。小平均路径长度和大聚类系数即是小世界效应的两个显著特点[69],因此可以认为网络具有小世界效应。平均聚类系数在10年间有显著提高,进一步表明核心词集中趋势的加强。

4.3 社区发现与演变

经上一节分析可知,2007-2008年和2017-2018年网络度分布、聚类系数、平均路径长度的特点均符合社区划分结构。运用Fast Unfolding算法对构建的共词网络进行社区发现,分别划分出7个和5个社区,模块度分别为0.355和0.311。社区数量减少,也反映了核心词的集中趋势。社区内语词数分布如图4和图5所示。

按照Z-value的计算公式,对所划分的每个社区中的节点的Z-value进行计算,并进行排序,将Z-value大于等于2.5的节点提取出来作为每个社区的核心节点(剔除意义不大的中心节点“糖尿病”)。图6和图7为通过Gephi可视化呈现的结果,社区以不同颜色进行了区分,核心节点放大标出。可以看到,有些社区Z-value大于等于2.5的节点有两个,而社区本身词数小于等于3的也都用两个词作为核心节点。通过分析核心节点及社区内的关联关系,可以发现2007-2008年用户关于糖尿病的提问包括症状(“疼痛”)、降糖(“血糖”)、治疗、并发症(糖尿病眼病)、病史几个方面,而2017-2018年用户提问则包括就诊、治疗、并发症(高血压)、检查、症狀(“无力”)几个方面。对比之下,可以看到用户对高血压这种并发症的信息需求增加,而眼病则相对下降。此外,用户对身体检查更加重视,也体现了用户健康素养和生活水平的不断提高。

为从一个更微观的角度研究用户信息需求的演变,将2017-2018年的数据划分为4段,大体与季节对应,记做t1、t2、t3和t4。对4部分数据进行上述同样的共词网络构建和社区发现操作,基于相似度找出社区的前驱后继关系,用桑基图的形式呈现演变结果如图8所示。可以看到,4个时间段社区发现的结果与全年结果基本一致,治疗、症状信息需求表现稳定,反映了最近一段时间用户糖尿病相关的主要信息需求。时段t1的“并发症”在t2时段分化为“血压”和其他,而在t3时段“血压”社区消失,由其他3个社区演化出了1个新的社区“眼病”。与t1时段“血糖”社区结合分析,可以看出糖尿病及并发症具有一定的季节性规律。冬季是糖尿病病情最易加重和高血压多发的季节,因此时段1和时段2用户关于“血糖”和“血压”的信息需求明显集中。t3时段社区“检查”出现,结合全年社区发现结果,可以认为用户从t3时段开始对检查的信息需求增加,且增长显著。

5 结论与展望

研究通过词频分析、共词社会网络分析以及社区发现和演变的方法,以社会化问答网站“寻医问药网”为例,总结了中文用户糖尿病相关信息需求的特点:1)10年间用户表达出来的信息需求趋于集中是最突出的特点,这一点在采用的各种研究方法得出的结论中都有体现。与PubMed等医学权威机构或组织所使用的分类体系相比,用户实际信息需求集中于特定的几个方面,治疗和症状一直属于用户的核心信息需求,这与Zhao Y等[41]以及金碧漪等[24]的研究结果基本一致。2)10年间用户对健康管理(饮食、运动)的相关关键词数有较大增长,但在社区发现与演变研究中则表现不显著。这一结果则与上述两组学者的研究结果不一致,分析认为是由于数据源不同导致的。Zhao Y等[41]以及金碧漪等[24]所采用的都是来自雅虎问答的英文数据,各方面的差异使得健康管理仍未成为中文用户的核心关注点。3)10年间“中药”和“中医”的信息需求有所上升,体现了用户的求医问药转向。而的确有研究证明中药在调理糖尿病方面的潜力,尤其是中西药物联用与单用西药比较有较显著的优势[70]。4)“高血压”是被提问最多,增长也最明显的并发症,并遵循一定的季节性规律。尽管研究方法和数据都不同,但研究结论与Grobosch S等[26]对德国糖尿病患者的研究大体一致。

结合上述结论,建议用户更多地对健康管理给予关注。虽然10年间相关信息需求有所增长,对比之下仍有差距。世界卫生组织认为,定期进行中等强度的身体活动可帮助预防并治疗糖尿病。Ⅱ型糖尿病占总病例数的90%,主要是由于体重超重和缺乏身体活动造成[71]。因此,用户有必要对相关问题给予更多关注,以从本质上调节自己或亲人的病症。研究的词频分析及共词网络揭示了糖尿病消费者在表达具体健康信息需求时的用词习惯、词汇间的语义关联等[24],社会化问答网站、搜索引擎等可以据此优化信息组织、信息推荐、查询补全等功能,使之更贴近用户需求和使用习惯。对公共卫生部门来说,则应该加强糖尿病及其并发症预防内容的科普。整体来看,提问用户虽然对如何预防关注度有所提高,但通常仍是患病或疑似患病才求助各信息源,说明用户还需要提高对疾病预防的重视程度。作为一个糖尿病大国,糖尿病又是通过日常生活方式的改变就容易预防的慢性病,公共卫生部门有责任和义务进行糖尿病预防内容的科普。同时应根据用户信息需求将预防策略细化,如怎样健康饮食、如何预防各种并发症等。针对提问较多的眼病、高血压等并发症,还可以建立并发症防控筛查制度和平台,加强防控和管理,定期检查并获取相关数据,形成档案,建立一个中长期、多维度的健康管理体系,为干预方法多样性和有效性提供大数据支持[72]。

研究还有一些不足之处。首先,研究只选择一特定社会化问答网站为例,可能存在数据偏见。其次,进行社区发现和演变分析时没有考虑重叠社区。实际上在演变可视化结果中可以看到,核心节点相同的社区存在相互分化的现象,也就是说各社区有重叠部分存在。

鉴于以上局限和不足,后续研究还可以从以下方面进行改进和突破:1)考察更多其他不同疾病、不同社会化问答网站的用户提问,与本文得出的结论进行比较,以验证其普遍性;2)考虑骑墙节点因素,发现重叠社区并进行研究;3)力图补齐10年间数据,更为细致地分析用户糖尿病相关信息需求的演变。

参考文献

[1]IDF.Diabetes Atlas:Eighth Edition[R/OL].https://www.idf.org/e-library/epidemiology-research/diabetes-atlas/134-idf-diabetes-atlas-8th-edition.html,2018-10-21.

[2]Wilson V.Patient Use of the Internet for Diabetes Information[J].Nursing Times,2013,109(23):18.

[3]曲振瑞,丁丽.糖尿病患者健康信息需求调查[J].中国误诊学杂志,2007,(3):660.

[4]高改云,王霞.糖尿病患者健康信息需求分析与对策[J].医学信息,2007,(1):149-150.

[5]郭光霞.糖尿病患者健康信息需求调查分析及护理对策[J].基层医学论坛,2008,(21):628-629.

[6]Belkin N J,Oddy R N,Brooks H M.ASK for Information Retrieval.Part I:Background and Theory[J].Journal of Documentation,1982,38(2):61-71.

[7]Anderson C.The Long Tail:Why the Future of Business Is Selling Less of More[M].NY,US:Hachette Books,2006.

[8]Gazan R.Social Q&A[J].Journal of the Association for Information Science & Technology,2014,62(12):2301-2312.

[9]Timmins F.Exploring the Concept of‘Information Need[J].International Journal of Nursing Practice,2006,12(6):375-381.

[10]Ormandy P.Defining Information Need in Health-assimilating Complex Theories Derived from Information Science[J].Health Expectations,2011,14(1):92-104.

[11]张馨遥.健康信息需求研究的内容与意义[J].医学与社会,2010,23(1):51-53.

[12]张洪武,冯思佳,赵文龙,等.基于网络用户搜索行为的健康信息需求分析[J].医学信息学杂志,2011,32(5):13-18.

[13]Pieper D,Fabian Jülich,Antoine S L,et al.Studies Analysing the Need for Health-related Information in Germany-A Systematic Review[J].BMC Health Services Research,2015,15(1):407.

[14]Pian W,Khoo C S,Chi J.Automatic Classification of Users Health Information Need Context:Logistic Regression Analysis of Mouse-Click and Eye-Tracker Data[J].Journal of Medical Internet Research,2017,19(12):e424.

[15]Schmidt A,Ernstmann N,Wesselmann S,et al.After Initial Treatment for Primary Breast Cancer:Information Needs,Health Literacy,and the Role of Health Care Workers.[J].Supportive Care in Cancer,2016,24(2):563-571.

[16]劉倩雯,张美芬,陈梅先.肝癌患者栓塞化疗术前疾病不确定感与信息需求水平及相关性[J].护理学报,2013,20(22):73-76.

[17]李重阳,翟姗姗,郑路.网络健康社区信息需求特征测度——基于时间和主题视角的实证分析[J].数字图书馆论坛,2016,(9):34-42.

[18]Vetsch J,Fardell J E,Wakefield C E,et al.“Forewarned and Forearmed”:Long-term Childhood Cancer Survivors and Parents Information Needs and Implications for Survivorship Models of Care[J].Patient Education & Counseling,2017,100(2):355-363.

[19]Pier C,Shandley K A,Fisher J L,et al.Identifying the Health and Mental Health Information Needs of People with Coronary Heart Disease,with and Without Depression[J].Medical Journal of Australia,2008,188(12):142-4.

[20]Cappelletti E,DAddario M,Steca P,et al.Evolution of Information Needs in Patients Affected By Coronaropathy and Hypertension[C]//Conference of the European Health Psychology Society.“Well-being,Quality of Life and Caregiving”.Bordeaux,France:European Health Psychology Society,2013.

[21]Jean B S.Devising and Implementing a Card-sorting Technique for a Longitudinal Investigation of the Information Behavior of People with Type 2 Diabetes[J].Library & Information Science Research,2014,36(1):16-26.

[22]Chen X,Zhang Y,Zhao K,et al.Domain Supervised Deep Learning Framework for Detecting Chinese Diabetes-Related Topics[C]//International Conference on Database Systems for Advanced Applications.Berlin,German:Springer,Cham,2018:53-71.

[23]Lamberts E J F,Bouvy M L,Hulten R P V.The Role of the Community Pharmacist in Fulfilling Information Needs of Patients Starting Oral Antidiabetics[J].Research in Social and Administrative Pharmacy,2010,6(4):354-364.

[24]金碧漪,許鑫.社会化问答社区中糖尿病健康信息的需求分析[J].中华医学图书情报杂志,2014,23(12):37-42.

[25]Crangle C,Bradley C P,Carlin P,et al.Exploring Patient Information Needs in Type 2 Diabetes:A Cross Sectional Study of Questions[J].PLOS ONE,2018,13(11):e0203429.

[26]Grobosch S,Kuske S,Linnenkamp U,et al.What Information Needs Do People with Recently Diagnosed Diabetes Mellitus Have and what Are the Associated Factors?A Cross-sectional Study in Germany[J].BMJ open,2018,8(10):e017895.

[27]马费成,宋恩梅编著.信息管理学基础(第2版)[M].武汉:武汉大学出版社,2011

[28]颜端武.信息获取与用户服务[M].北京:科学出版社,2010:61.

[29]Dervin B.Sense-making Theory and Practice:An Overview of User Interests in Knowledge Seeking and Use[J].Journal of Knowledge Management,1998,2(2):36-46.

[30]Douma K F L,Koning C C E,Zandbelt L C,et al.Do Patients Information Needs Decrease Over the Course of Radiotherapy?[J].Supportive Care in Cancer,2012,20(9):2167-2176.

[31]Matsuyama R K,Kuhn L A,Molisani A,et al.Cancer Patients Information Needs the First Nine Months After Diagnosis[J].Patient Education & Counseling,2013,90(1):96-102.

[32]Brédart A,Kop J L,Fiszer C,et al.Breast Cancer Survivors Perceived Medical Communication Competence and Satisfaction with Care at the End of Treatment[J].Psycho-Oncology,2015,24(12):1670-1678.

[33]Sheehy E M,Lehane E A,Quinn E M,et al.The Information Needs of Patients with Breast Cancer at Years One,Three and Five Post Diagnosis[J].Clinical Breast Cancer,2018,92:S26.

[34]Halbach S M,Ernstmann N,Kowalski C,et al.Unmet Information Needs and Limited Health Literacy in Newly Diagnosed Breast Cancer Patients Over the Course of Cancer Treatment[J].Patient Education and Counseling,2016:S0738399116302932.

[35]Kassianos A P,Raats M M,Gage H.An Exploratory Study on the Information Needs of Prostate Cancer Patients and Their Partners[J].Health Psychology Research,2016,4(1):4786.

[36]Hsieh L Y,Chou F J,Guo S E.Information Needs of Patients with Lung Cancer from Diagnosis Until first Treatment Follow-up[J].PloS One,2018,13(6):e0199515.

[37]Chernyak N,Stephan A,Bchle C,et al.Assessment of Information Needs in Diabetes:Development and Evaluation of a Questionnaire[J].Primary Care Diabetes,2016,10(4):287-292.

[38]Greco A,Cappelletti E R,Monzani D,et al.A Longitudinal Study on the Information Needs and Preferences of Patients After an Acute Coronary Syndrome[J].BMC Family Practice,2016,17(1):136.

[39]Odlum M,Yoon S.Health Information Needs and Health Seeking Behavior During the 2014-2016 Ebola Outbreak:A Twitter Content Analysis[J].PLoS Currents,2018,10.

[40]Chen A T.Exploring Online Support Spaces:Using Cluster Analysis to Examine Breast Cancer,Diabetes and Fibromyalgia Support Groups[J].Patient Education & Counseling,2012,87(2):250-257.

[41]Zhao Y,Chen B,Zhang J,et al.An Investigation on the Evolution of Diabetes Data in Social Q&A Logs[J].Data and Information Management,2018,1(ahead-of-print).

[42]隗玲,許海云,刘春江,等.技术领域主题发现研究——以基因工程疫苗领域为例[J].数字图书馆论坛,2017,(1):37-45.

[43]叶春蕾,冷伏海.基于社会网络分析的技术主题演化方法研究[J].情报理论与实践,2014,37(1):126-130,140.

[44]刘军.整体网分析:UCINET软件实用指南[M].上海:格致出版社,2014.

[45]斯坦利·沃瑟曼,凯瑟琳·福斯特.社会网络分析:方法与应用[M].陈禹,孙彩虹,译.北京:中国人民大学出版社,2012.

[46]阳广元,曹霞,甯佐斌,等.国内社区发现研究进展[J].情报资料工作,2014,(2):29-33.

[47]Newman M E.Detecting Community Structure in Networks[J].European Physical Journal B,2004,38(2):321-330.

[48]王莉,程学旗.在线社会网络的动态社区发现及演化[J].计算机学报,2015,38(2):219-237.

[49]Newman M E,Girvan M.Finding and Evaluating Community Structure in Networks[J].Physical Review E,2004,69(2):026113.

[50]Raghavan U N,Albert R,Kumara S.Near Linear Time Algorithm to Detect Community Structures in Large-scale Networks[J].Physical Review E,2007,76(3):036106.

[51]Prat-Pérez A,Dominguez-Sal D,Larriba-Pey J L.High Quality,Scalable and Parallel Community Detection for Large Real Graphs[C]//Proceedings of the 23rd International Conference on World Wide Web.New York:ACM,2014:225-236.

[52]Kumpula J M,Kivel M,Kaski K,et al.Sequential Algorithm for Fast Clique Percolation[J].Physical Review E,2008,78(2):026109.

[53]Tsourakakis C,Bonchi F,Gionis A,et al.Denser Than the Densest Subgraph:Extracting Optimal Quasi-cliques with Quality Guarantees[C]//Proceedings of the 19th International Conference on Knowledge Discovery and Data mining.New York:ACM,2013:104-112.

[54]Blondel V D,Guillaume J,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):P10008.

[55]刘自强,王效岳,白如江.语义分类的学科主题演化分析方法研究——以我国图书情报领域大数据研究为例[J].图书情报工作,2016,60(15):76-85,93.

[56]朱夢娴,程齐凯,陆伟.基于社会网络的学科主题聚类研究[J].情报杂志,2012,31(11):40-44,39.

[57]Guimera R,Sales-Pardo M,Amaral L A N.Classes of Complex Networks Defined By Role-to-role Connectivity Profiles[J].Nature Physics,2006,3(1):63.

[58]程齐凯,王晓光.一种基于共词网络社区的科研主题演化分析框架[J].图书情报工作,2013,57(8):91-96.

[59]Cui P,Zhang W.Co-word Analysis of Domestic Network Virtual Society Research Hotspots and Evolution[C]//International Conference on Management of E-commerce & E-government.Piscataway,NJ:IEEE,2012.

[60]王宇灿,李一飞,袁勤俭.国际大数据研究热点及前沿演化可视化分析[J].工程研究-跨学科视野中的工程,2014,6(3):282-293.

[61]Li W,Liu Y,Xiao S,et al.An Investigation of the Underlying Evolution of Shale Gas Researchs Domain Based on the Co-Word Network[J].Sustainability,2018,10(1).

[62]Sohn E,Noh K,Lee B,et al.Bibliometric Network Analysis and Visualization of Research and Development Trends in Precision Medicine[C]//2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining(ASONAM).Piscataway,NJ:IEEE,2018:727-730.

[63]Cobo M J,López-Herrera A G,Herrera-Viedma E,et al.An Approach for Detecting,Quantifying,and Visualizing the Evolution of a Research Field:A Practical Application to the Fuzzy Sets Theory Field[J].Journal of Informetrics,2011,5(1):146-166.

[64]寻医问药网.关于我们[EB/OL].http://www.xywy.com/about/index.html,2018-10-21.

[65]刘知远,孙茂松.汉语词同现网络的小世界效应和无标度特性[J].中文信息学报,2007,(6):52-58.

[66]张斌.共词网络的结构与演化:概念与理论进展[J].情报杂志,2014,33(7):103-109.

[67]Albert R,Barabási A L.Statistical Mechanics of Complex Networks[J].Reviews of Modern Physics,2002,74(1):47-97.

[68]Watts D J,Strogatz S H.Collective Dynamics of‘SmallworldNetworks[J].Nature,1998,393(6684):440-442.

[69]周云龙.复杂网络平均路径长度的研究[D].合肥:合肥工业大学,2013.

[70]胡佳卉.基于信息处理的中医药治疗Ⅱ型糖尿病方药数据挖掘与分析研究[D].北京:北京中医药大学,2017.

[71]世界卫生组织.2016年世界卫生日宣传活动[EB/OL].https://www.who.int/campaigns/world-health-day/2016/zh/,2018-11-23.

[72]新华网.贵州省首个基层糖尿病眼底筛查防控平台揭牌[EB/OL].http://www.gz.xinhuanet.com/2019-03/16/c_1124241961.htm,2019-03-19.

(责任编辑:孙国雷)

猜你喜欢

社会网络分析糖尿病
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
展会品牌利益相关者的构成及其网络结构研究
基于社会网络分析的我国微课研究探析