基于主题模型的社交媒体倦怠行为研究
2022-10-27李庆真
李庆真,唐 焘
(杭州电子科技大学 法学院,浙江 杭州 310018)
信息技术的快速发展和智能手机、平板电脑等移动社交工具的快速普及,改变了人们交流和传播信息的方式,极大地丰富了人们的数字生活。相关研究表明,个人每天使用手机的时间超过2.5小时[1],用户平均每天在应用程序之间切换101次,移动社交媒体是最受欢迎的应用程序之一。
然而,社交媒体用户数量目前的增长速度远低于之前,社交媒体使用率逐渐呈下降趋势[2]。2019年,46个社交媒体市场中有22个市场的消费者使用社交媒体的时间比2018年减少[3]。微信朋友圈的使用率从2017年12月的87.3%下降到2018年12月的83.4%[4]。新浪微博也不可避免地遇到了类似的问题,2016年《微博用户研究》显示[5],参与调研的手机用户中使用微博的占比71.7%,其中忠实用户占比31.2%,新增用户与流失用户占比分别为11.6%与28.9%。越来越多的用户采取措施以减少社交媒体的负面影响,如减少使用频率或时长,关闭社交媒体APP的消息提醒,关闭朋友圈,卸载社交媒体APP等。这种用户逐渐减少甚至放弃使用社交媒体的行为,被称为“社交媒体倦怠”(Social Media Fatigue,SMF)[6]。此外,由于信息过载、隐私担忧等问题,社交媒体平台上的不连续使用行为已经成为一个主要问题并引起了广泛关注[7]。
结合社交媒体倦怠动态性、长期性和矛盾性的特征,本文采用网络爬虫技术对用户长期的实际行为数据进行检索。通过社交媒体使用日志进行纵向研究,并采用主题模型和文本挖掘的研究方法,切实关注用户行为、态度和情绪的时序变化和演化阶段,并使用S-O-R理论模型对用户倦怠因素进行分析。本文的研究有助于丰富社交媒体倦怠的研究方法与研究成果,对了解和改善用户消极行为有一定的借鉴意义。
一、研究方法与理论模型
(一)社交媒体倦怠
Adam P在2004年首次提出了社交媒体倦怠的概念[8],引发了学术界对于社交媒体倦怠现象的探讨与研究。社交媒体倦怠反映了社交媒体用户的负面情绪,以及个人因感知的社会比较增加而避免使用或缺乏使用社交媒体动机的程度[6];它是用户在社交网络活动中负面情绪的一种表现,典型情况包括疲倦和冷漠[6,9]。Bright等人从信息过载的角度定义了社交媒体倦怠,并将倦怠归结为四个因素:社交媒体信心、社交媒体自我效能、隐私关注和社交媒体帮助[10]。Lee等人将社交网络过载分为系统过载、信息过载以及沟通过载,对三种类型的过载会在何种程度上影响社交媒体倦怠进行实证检验,并分析了导致这些过载的社交网络特征[11]。谢名家认为,当用户减少使用社交媒体的时间、降低使用频率时,意味着用户对媒体软件的热情已经消退并产生了疲惫与厌倦,负面情绪进一步加强则会影响行为,造成用户潜水甚至卸载退出使用[12]。刘鲁川等人[13]运用扎根理论对影响社交媒体倦怠的因素进行构建,认为用户产生的倦怠情绪是环境因素和个人因素综合作用的结果,这种负面情绪进一步导致用户的不持续使用行为。
虽然目前学术界对社交媒体倦怠还没有统一的、被普遍认可的定义,但是结合以往的研究成果可以看出,社交媒体倦怠包含两个层面的含义:首先,在心理层面上表现为情绪枯竭的内在情绪体验;其次,将不持续使用意愿外显在行为层面,降低使用频率,减少互动行为,产生间歇性中辍、转移软件甚至长期卸载永久退出社交媒体软件的行为。
(二)LDA主题模型
在互联网时代,数据的产生是井喷式的,短短60秒,微博、脸书就会爆发超过10万的新数据、600万条浏览信息,而这些数据背后蕴含着大规模的、潜在的重要意见,因此需要对数据进行价值“提纯”。无监督的主题建模成为文本挖掘中的重要任务之一,它利用聚类来查找数据中的潜在变量或隐藏结构,对非结构化文本进行文档聚类、信息检索和特征选择。
2003年David Blei, Andrew Ng和 Michael I. Jordan提出了一个全贝叶斯的概率主题模型LDA(Latent Dirichlet Allocation),它可以用来识别离散数据集,有效地提取文本主题,并对文本评论数据进行文本挖掘建模分析。LDA可以克服人工阅读能力的障碍,利用计算机高效的数据处理能力对文本信息进行处理,将复杂的文本信息拆分到“文档-主题-词汇”的概率中,从而对文档进行聚类。目前,LDA主题建模在各个领域的研究中均有涉猎:分析在线融资项目评论主题的演化过程[14];基于LDA对物流服务质量的影响因素研究[15];基于LDA模型对国内评论挖掘与情感分析领域的主题分析[16]。因此,本文通过该模型来识别微博使用者社交媒体倦怠的隐藏主题。
(三)SOR理论模型
Mechrabian A和Russell在环境心理学的基础上提出了S-O-R(Stimulus-Organism-Reaction)理论模型,指有机体(O)通过机体内部一系列复杂的反应对环境的刺激(S)做出反馈(R)[17]。该模型认为主体被外界客体如环境刺激时,其内在状态比如心理认知、情绪等会受到影响,进而导致主体产生内在意愿或者外在行为反应[18]。
在研究社交媒体倦怠因素及行为时,根据SOR理论,将整个过程分为三个部分,一是发现刺激源(Stimulus),二是刺激对用户作用后产生的倦怠情绪(Organism),三是由于倦怠情绪产生的远离行为结果(Reaction)。
(四)研究框架
研究框架如图1所示,该框架展示了数据爬取后隐藏主题的提取过程,并结合理论模型进行分析的步骤和过程。
图1 研究框架
二、数据来源及分析
(一)数据来源
本文选择微博平台对用户的社交媒体倦怠行为进行研究有以下两个原因。首先,微博兼具媒体与社交的功能,其使用门槛低,便捷性强,内容短小,可以随时随地地快速传播。其次,社交媒体倦怠的情况同样出现在微博用户中,相比于微信的熟人社交,微博上的社交关系更多的是陌生人之间的弱关系,大多数用户愿意把微博作为展示自我的平台来分享动态。
倦怠行为主要体现在两个方面,在控制并回避社交媒体行为方面,设置关键词为“屏蔽(关闭)朋友圈、关闭微博评论”;对于逃离、退出平台行为,设置关键词为“卸载(远离)微博、远离媒体”。使用python爬虫工具抓取包含有以上关键词的相关微博,抓取的时间范围为2021年1月—2021年7月,最终获得16 586条微博数据。
(二)数据预处理
在进行数据分析之前我们需要对数据进行预处理,主要包括去重、分词和数据清洗。在处理中文语料库时,由于缺乏参考词汇,文本可能会被错误地分割[19]。本文使用当下最流行的中文分词模块“结巴(Jieba)”方法来对每个序列进行切分,根据语料库的特点扩展了基本的停用词列表,添加了表情符号(^^,:- D,> <,…)、不相关的词($,#,@,…),来实现停用词的去除。此外,对语言字符进行转换,并删除标点符号。本文通过python自编程序对数据进行分词,删除标点符号、数字、url,删除重复微博,删除停用词等,以便更好地实现用户倦怠的主题提取。数据预处理后剩余15 673条微博数据进入LDA主题建模。
(三)主题个数
LDA主题建模需要首先确定狄利克雷分布的先验参数α和β,以及被试数即主题数K。根据既往研究[20],参数α和β的常见设置一般为0.1和0.01,在本研究中也遵循这样的设置。在对文档分类的过程中,主题数通常不是预知的,因此对于主题数K的确定是关键环节,主题相似性和差异性在主题分类聚类的过程中是需要考虑的因素。本文使用余弦相似度来判断主题间的相似程度,使用主题困惑度对主题模型的预测能力进行测量,这是衡量预测能力的标准方法[21]。
1.主题相似性
余弦相似度(Cosine Similarity)是一种广泛使用的度量方法,通过计算两个向量的夹角余弦值来评估它们的相似度,如公式(1)。将向量A和向量B根据坐标值,绘制到向量空间中,求得它们的夹角θ,并得出夹角对应的余弦值cosθ,此余弦值就可以用来表征这两个向量的相似性。
(1)
2.主题困惑度
主题困惑度(Topic Perplexity)是用来衡量主题模型对样本预测能力的准确程度。当困惑度越低时,可以认为主题聚类的效果越好。计算方法如公式(2)。
(2)
在上述公式中,分母Nd是数据集中所有单词之和;p(w)指的是数据集中每个单词出现的概率。
三、研究结果
对LDA模型中提取的主题结果进行分析。第一步是分类主题数K的确定,主要使用Python程序及其Gensim模块来完成建模,研究结果在传播学、社会学和心理学的角度上丰富了用户产生倦怠的相关理论研究成果,提供新鲜的研究视角。
(一)主题个数的确定
由于主题个数的确定往往没有统一的方法,主题相似性和困惑度虽然具有一定的参考依据,但是最终主题数的确定还需要根据实际的聚类结果进行选定,因此,本文综合使用主题相似性、主题困惑度以及主题聚类可视化的结果来选定合适的主题数。
余弦相似度表示主题间的距离,如果余弦相似度越高,表明主题间有较多的重叠,反之,余弦相似度越低,模型的分类效果就越好。建模发现随着主题数目的增加,余弦相似度逐渐呈整体下降趋势,主题数K=8、19时,主题相似性得分最低。困惑度是文档归属性的不确定性,发现主题数K=8、26时困惑度处于最低值区域,但是,其后存在局部的反弹,这是由于随着主题数目的增加,聚类程度逐渐降低,主题的可解释性下降了。
根据主题相似性和主题困惑度可以得出主题数的范围(K=8、19、26),主题可视化的结果发现,K=19和26时,主题间的重叠程度较高。根据全局主题视图得到K=8时主题间的重叠程度较小,因此,综合以上的结果,选定主题数为8。
(二)主题发现与分析
通过LDA主题模型可以得到潜在的主题个数及其对应的关键词,本文对关键词进行整合提炼得到主题名称来与主题id对应,得到了8个主题将其抽象为用户产生社交媒体倦怠的解释因素,将每个解释因素进一步细分,然后根据“主题”和“关键词”的逻辑关系对详细因素进行说明,如表1。
表1 主题分析
社交媒体平台因素和个人因素归属于刺激性因素,其中社交媒体平台因素包含了信息因素、社交压力、媒体环境和功能服务;个人因素包括用户个人上进意愿和个人敏感度。由此得到用户倦怠的S-O-R模型,如下图所示。
图2 用户倦怠SOR模型
(三)博文词云分析
对用户表达卸载、远离意向的博文进一步进行词云分析,更具体地探究用户产生消极使用行为的原因,得出词云图如图3所示,从词云图中可以看出,在媒体因素方面,“社交压力”“工作原因”“信息过载”“是非之地”是一部分用户产生倦怠并停止使用的原因;同时保持规律健康的生活,不断提升自己也是部分用户远离或卸载微博的原因。词云分析与主题分析的结果相似,进一步证实了主题归纳的合理性。微博平台的环境、内容以及用户自身三个方面的消极因素使用户产生负面情绪,如难过、烦躁、沉郁等,促使用户产生倦怠行为。
图3 用户倦怠的博文词云图
四、结语
社交媒体因素与个人因素是导致社交媒体使用倦怠的主要原因,其中社交媒体因素主要包括媒体的功能范围、媒体环境、信息因素以及微博所带来的社交压力。在媒体功能方面,垃圾广告推荐、微商的刷屏、屏蔽广告的困难是用户选择远离并停止使用软件的原因。在个人因素方面,个人敏感度较高的用户更容易产生倦怠情绪,在微博上进行发文宣泄,声称要离开或卸载。但是,个人上进意愿更有可能切实影响到用户的消极使用行为,当个人的上进意愿较强时,若社交媒体对他产生了侵扰感,用户会进一步作出实际的行为,比如关闭或者卸载。许多用户对社交媒体软件采取控制行为或暂停使用的原因是认为社交媒体软件的使用对现实生活产生了干扰,比如,对于学生群体而言,他们需要充足的时间和精力来完成艰巨的学习任务,因此,会主动地远离甚至停止使用社交媒体软件。因此,社交媒体平台方需要关注用户所受附加效应的影响,相关部门对微博网络环境的监管需要加强,并规范化。同时,着眼于丰富平台内容以此对用户进行保留,避免消极用户的情绪扩张对媒体产生负面影响,建立平台与用户间的情感纽带,来维持用户黏性。