基于随机森林的健康谣言分享意愿研究
2020-08-13位志广宋小康朱庆华沈超张玥
位志广 宋小康 朱庆华 沈超 张玥
摘 要:[目的/意义]结合网民个人要素特征和健康谣言信息特征研究社交媒体环境下健康谣言分享传播的影响因素,发现特征对分享意愿的作用模式。[方法/过程]针对数据属性与分布特点选择随机森林分类算法进行样本分析,在对模型深度优化调参之后,结合特征重要度和决策树结构特点进行讨论。[结果/结论]根据指标重要度和决策树分析结果,发现网民对健康谣言的感知性特征与其分享意愿间有更强的相关性,4种感知性特征对于分享意愿有不同的作用路径。采用机器学习分类算法对健康谣言分享意愿进行建模与分析,为阻断健康谣言的传播提供干预建议,也为相关的研究方法拓展做出尝试。
关键词:健康谣言;分享意愿;分类算法;随机森林
DOI:10.3969/j.issn.1008-0821.2020.05.010
〔中图分类号〕G252.0 〔文献标识码〕A 〔文章编号〕1008-0821(2020)05-0078-10
Research on Health Rumor Sharing Intention Based on
Random Forest Classification Algorithm
Wei Zhiguang1 Song Xiaokang2* Zhu Qinghua1,2 Shen Chao3 Zhang Yue1
(1.School of Information Management,Nanjing University,Nanjing 210023,China;
2.School of Engineering Management,Nanjing University,Nanjing 210093China;
3.School of Management,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
Abstract:[Purpose/Significance]We combined the personal characteristics of users and the characteristics of health rumors to study the influencing factors of health rumors sharing in social media environment,aiming to find out the modes of these characteristics on the intention to share.[Method/Process]According to the data attributes and distribution characteristics we selected Random Forest Algorithm to train and test the samples.After deep optimization and parameter adjustment of the model,We combined the importance of features and the structure of decision tree to discuss more.[Result/Conclusion]The results of analysis showed a stronger correlation between the perceived characteristics of health rumors of users and their intention to share,based on which we found the four perceived characteristics having different function routes to sharing intention.Our work provided intervention suggestions for blocking the spread of health rumors and made new attempts to expand research methods in related fields.
Key words:health rumors;sharing intention;classification algorithm;random forest
隨着互联网技术的日益成熟以及社交媒体的快速发展,越来越多的网民得以通过网络获取健康信息。互联网的便利性与共享性使得网民可获得大量关于运动、饮食、医学等相关的健康信息资源,同时社交媒体低成本低门槛的发布与分享机制也使得用户可以自主生成并分享健康信息,进而通过社交平台引发更多的关注与分享[1]。网络的开放性与监管不力导致了在社交媒体中广泛传播的健康信息并不总是权威的健康知识,还包含大量的健康谣言。健康谣言的广泛传播将引发各种不利后果,如认知混乱,焦虑盲从等[2]。然而由于网络的复杂性,想要在短期内彻底粉碎社交媒体中传播的健康谣言是不现实的,比较合理的思路是对传播中的健康谣言进行识别和干预。相关研究者从信息属性角度出发,对健康谣言进行特征提取,比如谣言的长短,主题,有无图像视频等[2],但从用户视角进行健康谣言干预的研究则比较少。然而用户的个体属性,知识结构以及认知能力等是导致用户行为差异的主要因素,为了探究互联网环境下健康谣言分享的影响因素,本文综合网民个人要素和健康谣言两个方面的特征进行分析。
机器学习已经被广泛应用于自然语言处理,分类以及预测分析等领域中,它强调基于已有数据提炼经验和领域知识,并据此改善模型性能,最终应用于新的未知数据[3]。从海量数据中寻找数据潜在的规律和价值是机器学习算法最普遍的应用场景,而在用户行为研究领域,随机森林(RF),支持向量机(SVM)等机器学习算法对于从中小样本量的用户数据中挖掘隐藏信息也有着卓越的效果[4]。本文利用用户数据,使用机器学习算法对用户个体特征和谣言特征进行建模,识别用户健康谣言分享意愿,通过特征重要度分析探究具有健康谣言分享意愿用户的特性,为有效阻断健康谣言的传播提供建议,对信息行为研究进行有益拓展。
1 相关研究
1.1 健康谣言及其特征
谣言作为一种“最古老的传播媒介”,伴随着人们语言交际的产生而涌现[5]。美国心理学家Gordon Allport认为,随着不断的传播,谣言自身会变得越来越精简,更容易使人信以为真,并且进而引发人们分享[6]。随着社交媒体的普及,谣言的产生频率越来越高,传播速度越来越快,特别是健康相关的谣言引发的种种社会危害层出不穷,也越来越受到学界和业界的重视。健康谣言被界定为未被权威机构证实的健康信息[7],有研究表明,在各种流行的网络谣言中,健康谣言是传播最为广泛的,同时由于健康谣言往往对用户有较强的吸引力,并且广泛分布于社交媒体的健康主题之中,用户通常难以判断其真实性[8]。
网络的强交互性使得人人都能成为健康信息的制造者和传播者,而网络的匿名性也使得制造和传播健康谣言者付出的成本和受到惩罚的可能性大大降低,加上监管缺位等因素,网络空间正在成为健康谣言滋生的温床[9]。健康谣言通常善用背景资料和科学逻辑,辅以大量数据、示意图及专业术语来强化文本信度和感染力,并常常伪造权威、声称来自知名专家学者或专业机构来凸显其客观性和权威性,进而引导受众阅读并转发[10],内容形式上伪装专业、表达叙事上极尽煽情是健康谣言重要的语言文本特征,也是引发受众传播的重要原因[11]。
1.2 网络谣言分享相关研究
互联网为谣言提供了新的传播平台和管道,也构成了谣言传播新的生存环境,网络谣言也因此呈现出新的形态和传播特点[12]。网络谣言制造者往往选取网民感兴趣的话题来迎合网民的心理认同感,使网民易于接纳并积极参与传播,而认同感的触发点则包含利益相关或是心理认可等[13]。有研究指出在网络谣言传播中,信任度因素、焦虑因素及认同因素是最被关注的心理机制,而当谣言主题具有不确定性时,信任程度对网络谣言的采纳和传播起着决定性作用[14]。具体到健康谣言领域,目前直接对健康谣言分享和传播进行讨论的研究则主要是从用户个体特征和健康谣言信息特征两方面探讨。在个体认知特征层面,Chua A Y K等探讨了个体认知信念对用户分享健康谣言倾向的影响,并发现认知能力较弱的个体较认知能力强的个体更倾向于分享健康谣言[15];他们的另外一项研究还发现恐惧类谣言相比于希望类谣言更加能够引起参与者的分享意愿[2]。在人格特征层面,Chen X等讨论了性别和五大人格特质对谣言信息分享行为的影响,发现性别对谣言信息分享无显著性差异,而外向的人更容易为了社交目的而分享谣言信息[16]。Rosnow R L等认为在面对相同的健康谣言时,个体会由于自身经验和认知水平的差异而产生不同的反应[17]。邓胜利等选取附加信息的图片、认证与链接3个维度,并通过情境实验发现,认证与链接会对用户信任及分享意愿产生显著影响,而图片与链接并未对用户的分享意愿产生显著影响[18]。本文的研究则同时兼顾了用户个体和谣言信息两方面,选择与健康相关的个体因素和健康谣言信息特征对健康谣言分享意愿进行研究。
1.3 相关研究方法
研究角度和方法上,当前网络谣言研究主要从网络谣言生成、传播、识别与治理角度出发,对生成机理、传播特征、识别技术以及治理对策进行探究,缺乏基于用户视角的讨论[13],对于用户特征如何影响健康谣言的分享的探讨力度不够。另一方面,在研究方法上还是以传统方法居多,比如采用定性研究方法对具体谣言的特点与形成机制分析,如汪青云等通过内容分析法对突发事件中的网络谣言进行了基于特征的划分[19];采用定量研究方法对网络谣言的传播机理及治理手段进行讨论,如赖胜强通过构建SOR模型探讨了网络谣言对受众再传播行为影响的机制[20],王靖元等通过层次分析法构建了基于谣言自身特征的网络谣言传播效能评价指标体系[21];虽然也有研究从用户个人特质进行讨论,但多是基于结构方程模型的影响因素分析,往往只考虑了单一变量对结果的影响,缺乏从整体上看问题的视角。在機器学习领域,随机森林通过组合多个弱分类器,再通过投票或取均值得到最终分类结果,使得整体模型在处理缺失数据和不平衡数据时表现稳健,具有较高的精度和泛化能力。本文从用户和谣言信息的综合视角出发,通过对个体特征和谣言信息特征进行提取,利用随机森林对用户分享意愿进行模型构建,可以从整体上把握各个特征对结果的贡献程度,有效地拓展了研究思路。
2 网民传播健康谣言意愿的实验研究
本文从网民个体和健康谣言信息两方面着手,首先对个体用户特征和健康谣言信息特征进行提取,并通过问卷调查来获取实验数据,再对实验数据预处理之后采用3种分类算法进行建模,最终使用性能更为优越的算法模型得出各影响因素的相对重要程度,结合决策树结构规律提出干预健康谣言分享传播的建议。通过文献梳理与小组访谈来选择可能影响个体对健康谣言分享倾向的特征,并根据选择的特征设计与制作问卷,最终完成数据的收集。
2.1 个体综合特征选择
将个体特征分为客观特征和主观特征两方面,其中个人健康状态、阅读分享行为特征、健康素养等是描述个人固有属性或能力的客观特征,健康意识和信息感知等则是受心理和思维驱动而形成的主观感知特征。
2.1.1 客观特征
1)个人健康状态
用户的个人健康状态是指在具有一定的健康意识、健康知识、健康能力基础上,通过健康实践而达到的情形[22]。本文选择出了3个具体变量代表这一特征,分别是个人健康感知,有无慢性病史,以及有无近期就医经历,其中个人健康感知是个体对自身身体健康情况的主观估计,采用五点Likert量表(1表示很不好,5表示很好)进行测量,后两者则是客观反映健康状态的二值变量。
2)阅读和分享行为特征
阅读健康信息频率与分享健康信息频率这两个变量能反映个体的部分信息,结合已有文献研究进行合理推测,喜欢阅读和分享健康信息的用户可能出于社交等目的对健康谣言的分享倾向也会更强[16]。
3)健康素养
美国医学研究院(IOM)对健康素养的定义为,“个体获取、处理和理解基本健康信息和服务来做出适当健康决策的能力”[23]。Ledford C J W等研究指出具有更高健康素养的个体可以更好地评估搜索信息的有用性和可信度,从而采取正确的健康信息行为[24]。为了测量个体的健康素养,本文将其分为两个部分:一般意义上的健康素养和电子健康素养。选取Weiss B D等开发的NVS健康素养量表,通过让参与者回答问题来表明个体的健康素养水平高低[25];为了适应线上健康谣言传播的特点,同时考虑了用户在网络环境下的信息素养,即电子健康素养,并借鉴Norman C D等编制的eHEALS电子健康素养量表,来评估个体在寻求、应用网络健康知识时的自我感知技能[26]。该量表采用五点Likert量表(1表示非常不相符,5表示非常相符)进行测量,本文出于尽可能多地获得用户信息特征的目的,在不影响测量主题完整性的情况下,针对具体需求对其进行了改进:将7个问题对应到7个细分特征,分别是:健康信息获取能力、解答能力、分类能力、搜索能力、利用能力、评估能力、分辨能力。
2.1.2 主观感知特征
1)健康意识
健康意识是一种驱动个体健康行为的健康心理取向。研究表明健康意识较强的个体在处理非官方权威渠道来源的健康信息时更具有灵活性和开放性,并且更容易相信它们[27]。本文使用了Dutta-Bergman开发的健康意识量表[28],并将其核心提炼为健康重要性感知,健康行为认同度,自我照护意识,疾病预防意识,健康保持信念5个特征属性。
2)健康主题与健康信念
目前研究指出癌症和健康饮食已成为社交媒体中的热门话题,与它们相关的谣言能够对人们有较强的刺激性,该类信息在社交媒体上被广泛流传。健康信念理论认为有4个关键因素与行为改变紧密相关,个体会根据对每一个因素的认知程度来决定行为,分别是:感知疾病的易感性,即个体对自身患某种疾病或出现某种健康问题的可能性的判断;感知疾病的严重性,即个体对疾病会产生多大程度的躯体、心理和社会后果的判断;感知健康行为的益处,即个体对采纳健康行为可能带来的益处的主观判断;感知健康行为的障碍,即个体对采纳健康行为可能付出代价的判断,如时间花费、经济负担等[29]。为了更好地适应真实场景,结合健康信念理论对癌症和饮食分别设计了问项,用来测量个体对它们的认知情况:癌症相关的问项归纳为癌症风险意识、癌症恐惧感、癌症预防意识、癌症预防成本感知4个感知特征,饮食相关的问项总结为健康饮食意识、饮食疾病恐惧、健康饮食认同感、健康饮食成本感知4个感知特征,并分别用Likert五点量表(1表示非常不同意,5表示非常同意)进行测量。
3)信息感知
研究发现用户的主观感知信息质量能够显著影响其对信息的采纳态度[30],在线健康信息环境下,本文认为个体对健康谣言的感知同样会影响其对谣言的分享意愿。从www.piyao.org.cn上检索与癌症和饮食相关的信息,基于得到的谣言标题在微信上搜索并挑选出符合主题的健康谣言。对于一则已知的健康谣言信息,设计问项采用Likert五点量表测量个体对材料的感知可信度、感知准确度,同时为了探究材料与个体生活场景的贴合度是否会影响个体最终的分享意愿,分别测量个体对材料的感知相关性和感知重要性。
2.2 健康谣言信息特征选择
考虑谣言信息对网民的刺激效应,选择癌症和饮食相关的主题作为实验素材。根据谣言的情感倾向将其编码为恐惧或希望[2]。如将“长期使用塑料制品会致癌”编码为恐惧类,而将“维生素D有效降低癌症风险”编码为希望类。为进一步扩充材料的特征信息,又对每则材料蕴含的线索进行编码,如将“美国研发出癌症疫苗,根治率达97%!”编码为吸引性线索,而将“美国斯坦福大学”,“《科学转化医学》”这类的线索编码为质量性线索。基于从www.piyao.org.cn得到的谣言标题在微信上搜索相关文章,挑选出符合编码的健康谣言,经过多次随机选择和编码的迭代,得到2(癌症&饮食)×2(恐惧&希望)分布的4类刺激材料,同时为了消除文本选择产生的随机误差影响,每类刺激素材中包含2则具体信息,每位受试对象分配8则健康谣言素材。
最终,本文得到的个体特征和材料特征信息如表1所示,其中左侧表示网民个体的客观属性特征,包括人口统计特征、健康状态、行为特征等;右侧上半部分表示网民个体的主观感知特征,包括对不同健康主题的信念感知和对材料信息的态度感知;右侧下半部分则是健康谣言材料的信息特征提取结果。
2.3 问卷发放与回收
针对提取的33个网民个体特征和4个材料特征,设计公众参与的网络情境实验。参与者在2(谣言主题:癌症,饮食)×2(谣言类型:恐惧、希望)的情境下接触到8个不同的健康謠言。实验分3个部分进行,第一部分首先让参与者报告人口统计特征,个人健康状态和相关行为特征,第二部分测量参与者健康素养,健康意识和对不同健康主题的感知信念;第三部分测量参与者对材料的感知性特征和分享意愿,将8则健康谣言材料打乱顺序呈现给参与者,告知他们这些为普通的健康信息,参与者依次对每条健康谣言进行阅读与感知,并给出分享意愿的评价。
分享意愿指个人将给定健康信息分享给他人的倾向[31]。为了测量分享意愿,使用Chua A Y K等[15]设计的两个测量项:“我将与他人分享这条健康信息”(确切表示愿意分享)和“我打算与他人分享这条健康信息”(有分享的计划和打算,但不一定实施,没有“将要”的意愿强烈),两个项目分别用Likert五点量表测量,计算二者的平均分作为综合分数,得分越高表明分享意愿越高。
实验参与者在问卷星(www.wjx.cn)平台上付费公开招募,参与者满足以下条件:1)年满18周岁;2)意识清楚,有阅读能力;3)知情同意,愿意配合。为期15天的公开招募中,获得样本反馈312人。通过以下3个条件对参与者样本进一步进行筛选,1)熟悉微信,并在微信上获取过健康信息;2)熟悉微信分享功能,有信息分享经验;3)整个参与及回答问卷过程不少于10分钟。最终共有252名参与者完成了本次实验并符合实验相关要求,有效回收率达80.7%。符合要求的参与者中共有104位男性,148位女性,男女比例相对均衡;年龄分布如图1所示,大致满足正态分布,且大部分参与者年龄集中在20~40岁,50岁以上的参与者只有3人;参与者学历主要集中在大专、本科、硕士研究生、博士研究生及以上,其中又以本科居多,占半数以上。每个单独量表和最终整体的问卷克朗巴哈系数都大于0.7,问卷信度可以接受。
3 实验数据建模分析
252名有效实验参与者每个人被测量对8则健康谣言的分享意愿。数据集包含2 016条数据样例(252个参与者×8则健康谣言)。通过数据预处理,对前文得到的特征变量进行离散化与one-hot编码,最终得到样本空间大小为2016,特征维度为37
图1 受试者年龄分布
维的一组特定输入。健康谣言分享意愿在问卷中以Likert五级评分形式存在,分享意愿从1分到5分依次增强,作为目标变量时则由原来的分值转化为(0,1)变量来进行标识,其中1~3分标记为0,表示分享意愿较弱,4~5分标记为1,表示分享意愿较为强烈。
本文从研究目的,模型特点,以及样本数据特征3个方面来综合选择目标模型。决策树、随机森林、梯度提升树(GBDT)等算法模型都能对输入特征进行基于模型整体贡献度的排序筛选,而支持向量机等基于结构风险最小化学习策略的算法在处理小样本数据时也能得到较好的效果。进一步结合模型复杂度和样本数据维度之后,选择支持向量机、梯度提升决策树以及随机森林3种原始模型进行对比。同时不同分类模型的参数都进行了讨论与寻优,得到的模型精度有进一步提升,解释力也相对更强。
3.1 RF分类
RF能很好地避免过拟合问题,同时弱分类器的结构多样化则使它的预测更加精准。RF使用CART决策树作为弱学习器时,在生成每棵树的时候选取的特征都仅是随机选出的少数特征,保证了所选特征的随机性。选择n_estimator、max_depth、max_features、min_samples_leaf参数进行优化,使用数据集的70%作为训练集,30%作为测试集,采用5折交叉验证的随机优化搜索。最终优化结果如表2所示。与默认参数下的模型精度83.7%相比较,优化精度为85.1%,精度提升相对显著。
3.2 分类模型比较
为了更进一步确认,比较三者的宏平均准确率,宏平均召回率和宏平均f值,用来评价每种算法对不同类别的区分性能。从图2可以看到,随机森林的宏平均准确率,宏平均召回率和宏平均f值均明显高于SVM和GBDT。因此接下来本文进一步选择随机森林进行深度参数优化和特征分析。
图2 不同分类器分类综合效果比较
4 基于随机森林的特征分析
根据对不同算法的对比分析,随机森林对于本文数据集具有更好的分类与预测效果,为了挖掘更多关于用户特征的隐藏信息,对模型参数进行进一步调整,并结合CART决策树的结构和统计规律尝试对结果进行解释。
4.1 深度参数优化
第3节中采用随机搜索对模型参数进行优化,每个模型均设置了较为合理的迭代次数,本节在已有结果的基础上采用搜索范围更加细化的网格搜索来对模型参数进一步调整,通过查找搜索范围内的所有点来确定最优值。最终的网格搜索优化结果如表4所示。
4.2 健康谣言传播的影响因素分析
目前已经得到能够有效识别对健康谣言分享意愿强烈的用户的分类模型,下文继续探讨哪些特征在用户分享意愿的形成过程中起着更为重要的作用以及如何进行作用。
随机森林模型在建立过程中提供了各特征变量重要性的度量方法,便于本文的讨论。目前特征选择比较流行的方法有很多,如信息熵、基尼系数、卡方检验、最大信息系数等,而随机森林的弱学习器CART决策树正是基于基尼系数来选择特征,其选择标准是每个子节点达到最高的纯度,当子节点中的所有样本属于同一类别时纯度最高,基尼系数最小。最终从模型结果发现,37个特征变量的重要度排序如表8所示。
特征重要度排序结果显示,感知重要性、感知可信度、感知准确度、感知相关性以及分享频率这5个特征变量对分类模型的整体贡献程度超过50%,是影响用户分享意愿的几个最主要因素。为了进一步探究各个特征的作用规律,选择排名前十的特征重新构造CART决策树,对决策树深度进行调整之后得到如图3的结构示意图。
图3 决策树示意图
可以看到,基于基尼系数的CART决策树在建立整体模型时以感知重要性作为根节点,感知可信度和感知准确度则作为根节点的子节点,当深度为3时决策树的各节点对应特征和随机森林确定的前几个重要特征基本一致。根据决策树的特性,如果取更大的树深度,每条分支路径对应的特征会更加多元,最終分类的准确性会更高,但规则的复杂程度也会随之提高,进而导致泛化能力下降。
由此可以解释,当个体用户面对一则健康谣言时,首先是根据主观印象对其重要性进行评估,如果用户判断该则信息对自己很重要,接下来会进一步对健康谣言的准确度进行评估,当感知准确度也较高时,已经可以基本确定用户会有较强的分享意愿(对应分支:invove2→pre_cre1→benefit_can);当感知准确度较低但感知可信度较高时也会更倾向于分享(对应分支:invove2→pre_cre1→pre_cre2)。另一方面,当用户主观判断该则信息相对没那么重要时,又会进一步关注健康谣言的可信度,当感知可信度较高并且感知相关性也较高时仍有可能具有高分享意愿(对应分支:invove2→pre_cre2→invove1)。除上述路径外的其余情况分享意愿则较低。
根据初始设计,用户对健康谣言的感知重要性和感知相关性反映了健康谣言与用户日常生活场景的契合程度,其中感知重要性反映用户是否觉得该信息对自己的日常生产生活很重要,而感知相关性反映用户是否觉得该信息与自己的生活息息相关,这两个特征均是用户在结合自身生活实际后对客观信息的主观感受,很大程度上依赖于用户的生活经历与所处环境等因素。用户对健康信息的感知准确度和感知可信度也在其分享决策中扮演了重要角色。在原始设计中,感知可信度和感知准确度反映健康谣言给用户带来的权威性印象,其中感知可信度反映用户是否觉得该信息值得信赖,感知准确度反映用户是否觉得该信息表述准确,二者代表了用户对健康信息的认可程度。一般而言,类似“美国科学院发现……”,“100例实验样本有91例取得成功……”之类的陈述明显给用户更强的感知可信度和感知准确度,因为人们往往会迷信权威或专业机构,并且对含有大量数据或专业术语的信息深信不疑[10]。
根据决策树发现的第一条规则,感知重要性较高时,用户对健康谣言信息的准确度判断在其分享决策中扮演着至关重要的角色,这意味着当特定谣言信息同时给人重要性以及准确性感受时,可以激发出用户更强的分享意愿。根据此项规则,我们可以通过影响用户的感知重要性和感知准确度来干预其分享行为,其中用户对谣言内容的主观重要性评估可能与谣言内容的某些特征有关,也可能依赖于用户本身的某些特征,本文受限于模型功能未对其进行探索,但仍可以通过民意调查等手段来发现用户群体共同重视的健康话题内容;而感知准确度与谣言内容是否含有大量的质量性线索密切相关[10],因此可以结合以上两点对相应话题内容进行监管与筛查,同时对刻意伪造和虚构科学证据的健康谣言发布者进行严厉处罚,从源头上抑制。根据另一条规则,当感知准确度较低但感知可信度较高时,用户也会更加倾向于分享该则健康谣言,此时质量性线索的效力已经不够充分,需要后续进一步探究用户对谣言信息可信度判断的影响因素,进而制定相应干预措施。
另一方面,决策树规则还显示,即使谣言信息没能给人以重要性感受,较高的可信度和相关性感知仍然可能使用户产生较强的分享意愿。这进一步说明用户对健康谣言可信度的判断对其分享决策会产生显著影响,而感知可信度的具体判断标准将影响后续采取哪些干预手段;从感知相关性考虑,加强相应平台对和生活息息相关的健康话题内容的识别与监测不失为一种有效的干预手段。
5 结 语
本文重点围绕用户展开讨论,对用户特征和健康谣言特征进行选择与提取,并通过问卷获取数据,结合机器学习算法构建了用户分享意愿模型,最终得出不同特征对于模型结果的相对重要程度,并结合特征分析提出了相应干预措施。将机器学习算法引入健康谣言分享意愿的判定中,为用户的分享行为研究提供了新的思路,也为后续对健康谣言的传播进行干预提供了方向:一方面需要从源头出发,由相关部门和平台共同努力对群众广泛关注的热点问题進行监测,对伪造和虚构大量迷惑性质量线索的健康谣言发布者从重处罚;另一方面则需要减弱特定用户对于健康谣言的盲目信任和关注,有针对性地对他们进行健康教育和生活常识科普,提升用户群体的信息鉴别与搜索能力等,进而提升整体健康素养水平。
本文的研究也存在一定的局限性:实验使用问卷形式来采集数据,不可避免受数据量的限制,难以真正达到机器学习算法普遍要求的海量数据集,进而导致模型整体精度还有较大提升空间;另一方面,本文提取的各类特征指标并没有覆盖所有可能对分享决策产生影响的因素,比如点赞、评论等互动行为可能也会对分享意愿产生影响。未来研究可以进一步完善特征指标的提取,同时考虑加入更多健康谣言材料本身的信息,以提高模型的完整性和泛化能力。
参考文献
[1]Li H,Sakamoto Y.Social Impacts in Social Media:An Examination of Perceived Truthfulness and Sharing of Information[J].Computers in Human Behavior,2014,41:278-287.
[2]Chua A Y K,Banerjee S.To Share or Not to Share:The Role of Epistemic Belief in Online Health Rumors[J].International Journal of Medical Informatics,2017,108:36-41.
[3]田梅,朱学芳.基于支持向量机的大学生网络信息偶遇影响因素研究[J].图书情报工作,2018,(8):84-92.
[4]辛宪会,叶秋果,滕惠忠.中小样本机器学习算法的特性分析与应用[J].海洋测绘,2007,27(3):16-19.
[5]让-诺埃尔·卡普费雷.谣言——世界最古老的传媒[J].郑若麟,译.书摘,2009.
[6]奥尔波特.谣言心理学[M].刘水平,梁元元,黄鹂,译.沈阳:辽宁教育出版社,2003.
[7]池慧娟.微信公众号健康谣言的传播与治理[J].数字传媒研究,2018,35(5):33-36.
[8]Liang C,Chou W S,Hsu Y L.The Factors of Influencing College Students Belief in Consumption-type Internet Rumors[J].International Journal of Cyber Society and Education,2009,2(1):37-46.
[9]李玮佳.健康谣言在微信平台中传播的成因探析[J].西部广播电视,2017,(15):12-13.
[10]郭泽萍.微信平台健康谣言的特征与治理思路——基于微信小程序“微信辟谣助手”的样本分析[J].现代视听,2019,(6):44-47.
[11]罗政锋,韩隽.微信健康类谣言的框架特征及其心理动力机制探析[J].新闻知识,2017,(9).
[12]陈红梅.网络谣言传播的特点及其应对[J].编辑学刊,2009,(6):37-41.
[13]叶辛.探析网络谣言传播特点及应对措施[J].传媒论坛,2018,1(15):95,97.
[14]邓胜利,付少雄.网络谣言特征分析与预测模型设计:基于用户信任视角[J].情报科学,2017,(11):10-14,24.
[15]Chua A Y K,Banerjee S.Intentions to Trust and Share Online Health Rumors:An Experiment with Medical Professionals[J].Computers in Human Behavior,2018,87:1-9.
[16]Chen X,Sin S C J.‘Misinformation?What of It?Motivations and Individual Differences in Misinformation Sharing on Social Media[J].Proceedings of the American Society for Information Science and Technology,2013,50(1):1-4.
[17]Rosnow R L,Yost J H,Esposito J L.Belief in Rumor and Likelihood of Rumor Transmission[J].Language & Communication,1986,6(3):189-194.
[18]邓胜利,付少雄.社交媒体附加信息对用户信任与分享健康类谣言的影响分析[J].情报科学,2018,36(3):51-57.
[19]汪青云,童玲.突发事件中的网络谣言特征分析——基于 2010-2014年间网络谣言的研究[J].新闻知识,2015,(6):6-8.
[20]赖胜强.网络谣言对受众再传播行为的影响机理研究[J].情报杂志,2014,33(5):153-156.
[21]王靖元,张鹏,刘立文.网络谣言传播效能评价研究[J].情报杂志,2016,35(1):105-109.
[22]贾欣欣.老年人群健康状况及其影响因素研究[D].南京:南京医科大学,2016.
[23]Kindig D A,Panzer A M,Nielsen-Bohlman L.Health Literacy:A Prescription to End Confusion[M].National Academies Press,2004.
[24]Ledford C J W,Cafferty L A,Russell T C.The Influence of Health Literacy and Patient Activation on Patient Information Seeking and Sharing[J].Journal of Health Communication,2015,20(sup2):77-82.
[25]Weiss B D,Mays M Z,Martz W,et al.Quick Assessment of Literacy in Primary Care:The Newest Vital Sign[J].The Annals of Family Medicine,2005,3(6):514-522.
[26]Norman C D,Skinner H A.eHEALS:The eHealth Literacy Scale[J].Journal of Medical Internet Research,2006,8 (4):583-590.
[27]Gould S J.Consumer Attitudes Toward Health and Health Care:A Differential Perspective[J].Journal of Consumer Affairs,1988,22(1):96-118.
[28]Dutta-Bergman M.Trusted Online Sources of Health Information:Differences in Demographics,Health Beliefs,and Health-Information Orientation[J].Journal of Medical Internet Research,2003,5(3):e21.
[29]靳雪征.健康信念理論的建立和发展[J].中国健康教育,2007,23(12):945-946.
[30]项典典,易燕娜,范新河.感知信息质量对信息采纳态度的影响研究——基于主客观路径的比较[J].情报科学,2016,34(7):86-90.
[31]So J C F,Bolloju N.Explaining the Intentions to Share and Reuse Knowledge in the Context of IT Service Operations[J].Journal of Knowledge Management,2005,9(6):30-41.
[32]耿骞,景然,靳健,等.学术论文引用预测及影响因素分析[J].图书情报工作,2018,62(14):29-40.
(责任编辑:陈 媛)