内容生产及评论视角下的社交媒体关键用户识别
2022-10-08周亦文
安 璐 周亦文
(1.武汉大学信息资源研究中心,湖北 武汉 430072;2.武汉大学信息管理学院,湖北 武汉 430072)
国家的安全和稳定是社会发展进步的保障。随着国际形势和国内形势的变化,网络安全问题成为国家和社会广泛关注的问题。《中华人民共和国网络安全法》提出要“推动构建和平、安全、开放、合作的网络空间,建立多边、民主、透明的网络治理体系”[1]。随着技术发展,网络社交媒体平台成为民众交流的主要渠道之一。借助社交媒体平台,民众能够打破事件空间的阻隔进行交流。通过对社交媒体平台上的用户进行分析,可以及时对舆情进行引导,促进民众参与维护国家安全[2]。
随着互联网技术的发展,社交媒体内容生产范式快速发展,内容生产呈现去中心化的趋势[3-4],用户生产内容成为信息内容生产的新形势[5]。众多网站、平台积极促进普通用户参与内容生产[6],用户在进行内容生产的同时也能够通过评论他人生产的内容实现与其他用户的互动[7]。借助社交媒体平台,用户能够通过信息内容生产及评论他人生产的信息内容表达真实的感受[8]。在社交媒体舆情分析中,社交媒体中生产的内容及对内容的评论是重要的数据来源[9]。用户在扮演内容生产者时向信息受众提供信息资源[10]。用户针对信息内容进行评论时,可以视为用户对信息内容进行转译[11]。因此针对信息内容的评论能够体现用户对信息内容的接受程度。
互联网技术的发展打破了传统媒体自上而下的信息传播模式[12]。网络社交媒体中用户之间的互动成为常态,这也使得网络社交媒体中的信息真假混杂,危害社会安全。因此,本文通过用户画像,从信息内容生产者及评论者视角对社交媒体平台中的关键用户进行识别。其中,关键用户既包括能影响他人情感的用户,也包括易被他人影响的用户。通过与能影响他人情感的用户合作,相关部门能更好地引导舆论。通过关注易受影响用户的情绪状态,可以及时防范或阻止过激行为。同时,本研究结果也能够为内容服务平台的运行模式和行业组织的发展规划提供决策参考。
1 相关研究
1.1 用户画像
用户画像是从相关数据中提取整合有效信息[13]。用户画像的目的不同,构建的指标体系不同。因此,用户画像需要先确定所要描述的信息,再确定描述信息的方法[14]。王凌霄等[15]从用户资历、用户参与度、用户回答质量和用户发展趋势等方面进行用户画像以分析用户群体。Ruas P H B等[16]基于聚类方法利用Facebook中的用户交互记录和复杂网络指标对用户进行划分。Simsek A等[17]为了实现更好的广告推荐,利用文本情感和关注关系进行用户画像。郭顺利等[18]借鉴VALS2模型构建在线健康社区大学生用户群体画像的指标体系。Ouaftouh S等[19]基于改进的分区聚类算法整合用户信息实现用户画像。
目前的研究中,用户聚类的目的主要为用户个性化推荐和用户舆情引导。在针对用户舆情引导的用户画像研究中,大部分研究没有区分用户在社交媒体中扮演的角色,忽视了用户在扮演不同角色时的特征不同。本文将用户在社交媒体中的角色分为内容生产者和内容评论者,基于此提出两个指标体系对用户进行画像,并综合分析。
1.2 关键用户识别
网络的发展,加速了民众的信息交流。通过识别关键用户,可以实现对网络舆情的监测和引导,对网络用户的情绪状态分析研判,维护一个良好的网络社交环境。魏明珠等[20]基于用户画像分析社交媒体中的高影响力用户特征。王闯等[21]利用K核分解基于用户交互行为和文本特征识别关键用户。李亚星等[22]分别基于用户属性和传播能力对高影响力用户进行排名,对二者的结果进行加权计算后得出具有高影响力的关键用户。Cha M等[23]利用中心度和皮尔逊相关系数识别Twitter中的高影响力用户。Jain L等[24]利用网络结构特征和博弈论的原理进行识别关键用户。Siddhartha J等[25]利用社会网络分析方法识别关键用户。Yamaguchi Y等[26]基于用户—内容图识别具有高影响力的关键用户。Pal A等[27]利用高斯概率分布进行聚类分析识别主题高影响力用户。
以往的研究中,关键用户识别主要针对高影响力用户。在舆情治理中,不仅应当关注高影响力用户,也应当注意易被他人影响的用户。因此,本研究提出情感共振值的计算方法、情感传染能力指标和情感回馈值指标。根据这两个指标可以度量用户影响他人的能力和被他人影响的难易程度。
2 研究方法
2.1 研究路线
在社交媒体平台中用户可以划分为内容生产者和内容评论者。内容生产者是发布原创内容的用户;内容评论者是对信息内容进行评论的用户,是内容服务的使用者。同一个用户可以同时扮演内容生产者和内容评论者的角色。基于此,构建内容生产者识别指标体系和内容评论者识别指标体系。随后,计算各指标,基于两步聚类方法分别进行内容生产者用户画像和内容评论者用户画像。在综合内容生产者和内容评论者用户画像结果后,进行关键用户识别。研究路线图如图1所示。
图1 研究路线图
2.2 关键用户识别指标体系构建
互联网空间中,个体通过碎片化的文本表达情感。网络空间中过于情绪化的氛围可能影响现实社会的安全[28]。因此,有必要基于用户行为特征和用户情感的相互影响特征等指标对用户进行分析,以识别互联网空间中情感传递行为中的关键用户,用户识别指标体系如表1所示。
表1 关键用户识别指标体系
内容生产者识别指标体系的一级指标包括回答行为特征和影响力。回答行为特征包括回答长度、更新回答特征、广泛度、积极情感强度、消极情感强度和综合情感强度6个维度。回答的长度和用户的活跃程度是分析内容生产者的常用指标[29]。回答长度通过度量回答的长度反映用户在撰写回答时的用心程度。更新回答特征通过度量内容生产者的持续更新时间反映内容生产者在回答发布后的针对该回答的活跃程度。在进行用户行为分析时,用户兴趣也是常用的指标[30]。广泛度可以度量用户内容生产者的兴趣的多样性。在衡量内容生产者的情感表达特征时,情感的极性和情感的强度是常用的指标[31]。情感强度用于度量内容生产者的情感激烈程度。其中积极情感强度仅度量内容生产者表达积极情感时的情感激烈程度。消极情感强度仅度量内容生产者表达消极情感时的情感激烈程度。综合情感强度同时考虑积极情感和消极情感,能够反映内容生产者的平均情感强度及情感倾向。
在度量用户影响力时,需要考虑用户间的交互水平[32]。本研究选择用户间的评论关系度量用户的交互活动的水平。此外,情感变化是度量网络中用户情感交互的重要指标[31],能够反映用户的影响他人情绪的能力。因此,影响力的二级指标包括影响范围和正向情感传染能力、负向情感传染能力和综合情感传染能力。影响范围能够反映时间加权的用户评论关系。情感传染能力能够反映交互活动中的情感变化。正向情感传染能力是内容生产者促使他人对事件的情感与自己情感一致的能力。负向情感传染能力是内容生产者使他人对事件的情感与自己情感相反的能力。综合情感传染能力同时考虑内容生产者的正向情感传染能力和负向情感传染能力,能够体现内容生产者对群体情感的整体影响。
内容评论者识别指标体系从评论行为特征和易受影响程度两个方面对内容评论者进行划分。与内容生产者行为特征类似,内容评论者识别体系中的评论行为特征指标可细分为评论长度、关注度、广泛度、积极情感强度、消极情感强度和综合情感强度6个维度。评论长度通过度量评论的长度反映用户撰写该评论的用心程度。专注度可反映用户在特定回答中的活跃程度。广泛度可反映内容评论者兴趣偏好的广泛程度。用户情感的相互影响特征在内容生产者识别指标体系中体现为影响力指标,在内容评论者识别指标体系中体现为易受影响程度。内容评论者识别指标体系的易受影响程度指标可细分为正向情感回馈、负向情感回馈和综合情感回馈3个二级指标。正向情感回馈能够反映内容评论者与内容生产者对事件的情感趋同时的情感激烈程度。负向情感回馈能够反映内容评论者与内容生产者对事件的情感相反时的情感激烈程度。综合情感回馈同时考虑正向情感回馈和负向情感回馈,可以反映内容评论者是否倾向于与内容生产者对事件的情感趋同。
内容生产者识别指标及内容评论者识别指标都为正向指标,其符号仅代表情感的极性或情感变化的方向性,不代表数值大小,具体计算方式见第2.2.1节和2.2.2节。
基于以上定义,在接下来的章节将详细介绍各指标的计算方法。
2.2.1 内容生产者指标计算方法
内容生产者各指标的定义及计算方法如下:
1)回答长度
内容生产者识别指标体系下利用内容生产者答案的平均字数度量内容生产者回答长度。内容生产者答案的平均字数能够在一定程度上反映内容生产者撰写回答的投入的时间和精力。回答文本长度越长,内容生产者撰写回答所需的时间和精力越多。回答长度的度量需要使用每条回答长度和回答数,如式(1)所示:
(1)
其中ALj是内容生产者i的平均文本长度,alj是内容生产者i第j篇回答的文本长度,ni是内容生产者i回答问题总数。
2)更新回答特征
更新回答特征利用平均持续更新时间度量某位内容生产者在发布回答后的活跃程度。持续更新时间越长,内容生产者在回答问题后在回答中越活跃。在同一个问题下,内容生产者通常只有1个回答,但该回答可以被修改。因此,用最后一次修改时间和第一次回答问题时间的差值(以分钟为单位)来计算内容生产者在一个问题上投入的时间和精力。该指标的测量需要使用每个回答持续更新时长和回答问题数,内容生产者的专注度计算公式如式(2)所示:
(2)
其中AFi是内容生产者i的专注度。tj1是第j篇回答最后修改的时间,tj0是第j篇回答第一次发布的时间。ni是内容生产者i回答问题总数。
3)广泛度
广泛度可用于度量内容生产者回答问题涉及领域的广泛性。内容生产者回答问题的数量越多,其涉及的领域就越广。广泛度的计算公式如式(3)所示:
AWi=ni
(3)
其中AWi是内容生产者i的广泛度。ni是内容生产者i回答问题总数。
4)情感强度
情感强度利用回答的平均情感值度量内容生产者回答的情感激烈程度。基于情感词典进行文本分析是一种常用的文本分析方法。情感词典中收录了情感词和情感词的情感值。此外,利用句法依存分析可以得到句子中与情感词有依赖关系的否定词和程度词。否定词能够改变情感词的情感极性。不同的程度词具有不同的程度值,能够增强或削弱情感词的情感值。基于此,本文将文本的情感值计算公式表述如式(4)所示:
(4)
其中S是所有情感词的情感值的总和,swi是情感词wi的情感值,w是情感词总数,Nwi是与情感词wi有依赖关系的否定词总数,Dwj是第j个与情感词wi有依赖关系的程度词的程度值。情感强度指标用于分析内容生产者的情感激烈程度。积极情感强度能够反映内容生产者表述积极情感时的情感强度,计算公式如式(5)所示:
(5)
其中IDPi是内容生产者i的积极的情感强度。alip是回答者i第p篇表达积极情感的回答的长度。Siu是第j第p篇表达积极情感的回答的情感值。kp是内容生产者i的表达积极情感的回答总数。
消极情感强度能够反映内容生产者表述消极情感时的情感强度,计算公式如式(6)所示:
(6)
其中IDUi是内容生产者i的消极的情感强度。aliu是回答者i第u篇表达消极情感的回答的长度。Siu是回答者i第u篇表达消极情感的回答的情感值。ku是内容生产者i的表达消极情感的回答总数。
综合情感强度能够反映内容生产者更多的是表达消极情绪还是积极情绪,综合情感强度的计算如式(7)所示:
(7)
其中IDi是内容生产者i的综合情感强度。alij是回答者i第j篇回答的长度。Sij是第j篇回答情感值的绝对值。k是内容生产者i的回答总数。
5)影响范围
影响范围利用时间加权的平均评论数度量内容生产者的平均影响范围。生产者的回答被评论数量越多说明其影响范围越广。此外,用户在阅读答案时通常不会复习,因此评论者对答案的记忆会随着时间流逝遗忘。基于此,为了更精准地表示内容生产者当下的影响范围,引入时间因素对早期的评论者与近期的评论者进行区分。影响范围的计算公式如式(8)所示:
(8)
其中IWi是内容生产者i的影响范围,k是回答下的评论数,Tj1是第j条评论的评论时间,T0是当下的时间。
6)情感传染能力
情感传染能力能够反映内容生产者影响他人对事件的情感的能力。本研究将情绪传染能力分为正向情绪传染能力、负向情绪传染能力和综合情感能力。内容评论者对事件的情感和内容生产者对事件的情感一致时,情绪为正向传播。内容评论者对事件的情感和内容生产者对事件的情感不一致时,情绪为负向传播。评论的表现形式包括直接评论和间接评论。直接评论是内容评论者直接在回答下评论的意见表现形式;间接评论是内容评论者评论回答下他人评论的意见表现形式。回答、直接评论和间接评论关系如图2所示。根据搜集到的评论的对象可以分为对回答者/答案的评论、对事件的评论。评论情感可以分为积极情感和消极情感。基于以上特性,本研究设计了情感传染方向的判断规则,如表2所示。
图2 回答、直接评论和间接评论关系
表2 情感传染方向判断规则
为了判断情感传染的强度,本研究定义了情感共振值指标,每条评论的情感共振值的绝对值计算公式如式(9)所示:
(9)
其中|Gij|是第i篇回答下第j条评论的情感共振值的绝对值。|Sij|是第i篇回答下第j条评论的情感值的绝对值。|Si|是第i篇回答的情感值的绝对值。情感值可由式(4)得到。根据表2的规则,当情感传染方向为正向时,Gij为正数;当情感传染方向为负向时,Gij为负数。
正向情感传染能力能够反映内容生产者令他人和自己对事件的情感趋同的能力,正向情感传染能力的计算公式如式(10)所示:
(10)
其中TPi是内容生产者i的正向情感传染能力。Gip是对内容生产者i的第p条情感共振值为正数的评论。ktp是对内容生产者i的情感共振值为正数的评论的总数。
负向情感传染能力能够反映内容生产者令他人产生和内容生产者对事件的感情相反的情绪的能力,负向情感传染能力的计算公式如式(11)所示:
(11)
其中TUi是内容生产者i的负向情感传染能力。Giu是对内容生产者i的第u条情感共振值为负数的评论。ktu是对内容生产者i的情感共振值为负数的评论的总数。
综合情感传染能力能够反映内容生产者对群体情感的整体影响,计算公式如式(12)所示:
(12)
其中Ti是内容生产者i的综合情感传染能力。Gij是第j条针对内容生产者i的评论的情感共振值。k是他人评论内容生产者i的总数量。
2.2.2 内容评论者指标计算方法
内容评论者各指标的定义及计算方法如下:
1)评论长度
内容评论者识别指标体系下利用内容评论者平均评论字数度量评论长度。平均评论字数可以反映内容评论者撰写评论投入的时间和精力。评论文本越长,内容评论者撰写评论投入的时间和精力越多。计算平均评论字数需使用评论长度和评论总数,如式(13)所示:
(13)
其中RLi是内容评论者i的平均评论长度,rlj是内容评论者i第j篇评论的文本长度,mi是内容评论者i评论总数。
2)专注度
内容评论者专注度基于平均评论数度量内容评论者针对特定回答的活跃程度。内容评论者的平均评论数越高,专注度越高。专注度的计算需使用评论总数和评论回答数,计算公式如式(14)所示:
(14)
其中RLj是内容评论者i的专注度,mi是内容评论者i评论总数,ki是内容评论者i评论问题总数。
3)广泛度
内容评论者的广泛度指标利用评论的回答的数量度量内容评论者关注问题的范围。广泛度越高,内容评论者关注问题范围越广。广泛度的三级指标是用户评论的问题数量,计算方法如式(15)所示:
RDi=ki
(15)
其中RDi是内容评论者i的专注度,ki是内容评论者i评论问题总数。
4)情感强度
情感强度用于度量内容评论者的情感激烈程度。情感强度越大,内容评论者越情绪化。选择评论文本的情感值的计算情感强度。评论文本的情感值计算方法同式(4)。积极情感强度计算方法如式(16)所示:
(16)
其中REPi是内容评论者i的积极情感强度,Spj是内容评论者i第p条积极评论的情感值,mpi是内容评论者i发布积极评论的总次数。
消极情感强度计算方法如式(17)所示:
(17)
其中REUi是内容评论者i消极情感强度,Suj是内容评论者i第u条消极评论的情感值,mui是内容评论者i发布消极评论的总次数。
综合情感强度计算方法如式(18)所示:
(18)
其中REi是内容评论者i的综合情感强度,Sj是内容评论者i第j条评论的情感值,mi是内容评论者i评论他人的总次数。
5)情感回馈
情感回馈可以度量内容评论者是否容易受他人的影响。情感回馈分为正向情感回馈、负向情感回馈和综合情感回馈。情感回馈的绝对值越大,内容评论者的回馈情绪越激烈。情感回馈指标为正值时,内容评论者与内容生产者对事件的情感趋同;情感回馈指标为负值时,内容评论者与内容生产者对事件的情感相反。情感回馈指标基于式(9)的情感共振值计算。正向情感回馈可以反映内容评论者是否容易与内容生产者对事件的情感趋同,计算公式如式(19)所示:
(19)
其中RPi是内容评论者i的正向情感回馈值。mrp是内容评论者i发布的情感共振值为正数的评论的总数。Gip是内容评论者i第p个为正数的情感共振值。
反向情感回馈可以反映内容评论者产生是否容易与内容生产者对事件的情感相反,计算公式如式(20)所示:
(20)
其中RUi是内容评论者i的负向情感回馈值。mru是内容评论者i发布的情感共振值为负数的评论的总数。Gip是内容评论者i第u个为负数的情感共振值。
综合情感回馈可以测量内容评论者和内容生产者对同一事件更易产生相同情感还是更易产生相反的情感,计算公式如式(21)所示:
(21)
其中Ri是内容评论者i的综合情感回馈值。m是内容评论者i发布的评论的总数。Gij是内容评论者i第j条评论的情感共振值。
2.3 用户画像及关键用户识别
用户画像指提取用户的精炼特征,对用户进行标记。聚类分析是一种常用的用户画像方法,例如K-means聚类[33]、两步聚类[34]等方法常用于进行用户画像。两步聚类是一种能够自动选择最佳聚类数的聚类方法。用于两步聚类的数据可以是连续数据,可以是离散数据,也可以是既包含连续数据又包含离散数据的混合数据。
两步聚类是BIRCH层次聚类的改进方法,包括预聚类和正式聚类两步。预聚类步骤借鉴BIRCH层次聚类方法,生成聚类特征树(CF树)。聚类特征树的子节点代表聚类特征的组合。利用聚类特征树,预聚类过程能够将数据划分为若干密集的子簇,并在此过程中剔除离群点。
两步聚类算法利用预聚类中子簇的特征进行正式聚类。在正式聚类阶段,利用贝叶斯信息准则确定最佳类别数的大致范围,随后以最近簇距离为评判标准确定最佳类别数,并得到最终聚类结果。
本研究利用两步聚类,分别基于内容生产者识别指标体系和内容评论者识别指标体系进行用户划分。随后,根据聚类结果划分用户群体,根据识别指标进行用户画像。最后,基于用户在内容生产和评论中的画像,综合分析用户的特点,实现关键用户识别。
3 实证分析
3.1 实验数据
《国家突发公共事件总体应急预案》指出,社会安全事件包括恐怖袭击事件、经济安全事件和涉外突发事件等[35]。知乎平台是一个高质量的问答平台。用户可以在平台上自由提问,其他用户能够回答该用户的问题,也可以对回答进行评论。本研究选取知乎平台,利用Python编写爬虫获取数据。知乎平台中的问题以标签划分类别,本文选择2011—2019年包含“恐怖袭击”标签的问题作为实验数据,分析识别能影响社会安全的用户。其中评论19 529条、回答13 759条、用户15 120名。在去除匿名用户、已注销账户用户及其评论与回答后,共得到12 179名用户、14 959条评论、9 887条回答。
BosonNLP情感词典是基于微博、新闻等上百万篇中文语料库构建的中文情感字典。本文利用百度AI进行句法依赖分析,并利用BosonNLP获取文本的情感值。两步聚类能够自动选择最佳类别数。因此,可直接利用两步聚类分别基于内容生产者识别指标体系和内容评论者识别指标体系进行聚类分析,得到具备不同特点用户群体类别。对两次聚类的结果进行综合分析,可以识别关键用户。
3.2 结果及分析
3.2.1 内容生产者画像
根据内容生产者识别指标体系,利用两步聚类对内容生产者进行聚类分析,结果如表3所示。两步聚类能够自动选择最佳类别数,由表3可知内容生产者被划分为4类。表中的括号里的数值为类别指标的平均值。如类别1中第一行的数值“0.641”代表类别1的回答长度的均值为0.641。为了更直观地表述不同类别内容生产者的差异,将指标的平均值的绝对值划分为高、较高、较低、低4档。
表3 基于内容生产者识别指标体系的聚类结果
类别1代表用户无回答行为或回答次数极少,这一类用户划分为低产出内容生产者。
类别2代表有回答行为,但影响力较低的普通内容生产者。该类内容生产者撰写的文本字数较少,持续更新答案的时间较短,回答问题的数量也较少,影响他人的范围较小。回答表达的积极情感强度和消极情感强度都较高,说明回答表达的情绪较为激烈。综合情感强度较低,且为负数,表明该类内容生产者更倾向于表达消极情绪。该类内容生产者的正向情感传染能力和负向情感传染能力都较高,综合情感传染能力较低且为正数。这说明该类内容生产者容易引发他人较强的正向及负向的情感波动,且整体而言更易令他人的情感与内容生产者自身趋同。
类别3代表积极生产内容但内容具有争议的争议内容生产者。此类内容生产者撰写的文本字数较多,持续更新的时间长,回答问题的广泛度高,影响他人的范围较广。回答的积极情感强度和消极情感强度都为高,综合情感强度较高。这说明回答蕴含强烈的消极情感或积极情感,且整体而言蕴含积极情感的回答更多。正向情感传染能力和负向情感传染能力都为较低,但综合情感传染能力为较高且为负数。这说明该类内容生产者具备一定影响他人对事件的情感,但多数人与该类内容生产者对事件的情感不同。
类别4代表优质内容生产者。此类内容生产者撰写的文本字数较多,持续更新的时间较长,回答问题的广泛度较高,影响范围广。回答的积极情感强度和消极情感强度都为较低,综合情感强度较高。这说明其回答中蕴含的情绪较少,相对其他类别用户的回答更加客观,且多为积极情感。该类内容生产者的正向情感传染能力和负向情感传染能力都为高,综合情感传染能力高且为正数。这说明其能够影响他人对事件的情感,且大多数人与该类内容生产者对事件的情感趋同。
综合以上分析,用户能够被划分为四大类:非内容生产者(类别1)、普通内容生产者(类别2)、争议内容生产者(类别3)和优质内容生产者(类别4)。在舆情引导工作中,优质内容生产者可以起到良好的作用,有关部门可以加强与该类用户的合作。此外,争议内容生产者有积极生产内容的意愿,其生产的内容虽然具有争议,但经过适当引导、培训能够转换为优质内容生产者。
3.2.2 内容评论者画像
根据内容评论者识别指标体系,利用两步聚类对内容评论者进行聚类分析,结果如表4所示,两步聚类能够自动选择最佳类别数,由表4可知,内容评论者被划分为4类。表中的括号里的数值为类别指标的平均值。为了更直观地表述不同类别内容评论者的差异,将指标的平均值的绝对值划分为高、较高、较低、低4档。
表4 基于内容评论者识别指标体系的聚类结果
类别1代表评论问题较少,评论数量较多的专精内容评论者。该类内容评论者撰写评论的长度较短,专注度高,广泛度低,也就是说该类内容评论者多针对少量的问题进行大量的评论。此外,该类内容评论者积极情感强度较高,消极情感强度较高,综合情感强度较高且为正数。这说明该类内容评论者表达的情绪较为激烈,且多为积极情绪。该类内容评论者正向情感回馈和负向情感回馈为较高,综合情感回馈为较高且为正数。这说明该类内容评论者对事件的情绪与内容生产者对事件的情绪有程度较高的趋同或相反,且大部分情况下与内容生产者对事件的情绪一致。
类别2代表普通内容评论者。该类内容评论者撰写评论的长度较长,专注度低,广泛度高,也就是说该类内容评论者没有明确的内容偏好。此外,该类内容评论者积极情感强度较低,消极情感强度较低,综合情感强度趋近于0。这说明该类内容评论者的情绪较为平静。该类内容评论者正向情感回馈和负向情感回馈为较低,综合情感回馈为较低且为正数。这说明该类内容评论者对事件的情绪与内容生产者对事件的情绪有程度较低的趋同或相反,且大部分情况下与内容生产者对事件的情绪一致。
类别3代表钝感内容评论者。该类内容评论者撰写评论的长度最长,专注度低,广泛度较低,也就是说该类内容评论者没有明确的内容偏好,但会用心地进行评论。此外,该类内容评论者积极情感强度低,消极情感强度低,综合情感强度趋近于0。这说明该类内容评论者的情绪十分平静。该类内容评论者正向情感回馈和负向情感回馈为低,综合情感回馈为低且为正数。该类内容评论者正向情感回馈和负向情感回馈为较低,综合情感回馈为较低且为正数。这说明该类内容评论者对事件的情绪受内容生产者对事件的情绪的影响较小。
类别4代表敏锐内容评论者。该类内容评论者撰写评论的长度短,专注度较高,广泛度高,也就是说该类内容评论者没有明确内容偏好,且会多次在同一个回答下进行评论。此外,该类内容评论者积极情感强度较高,消极情感强度高,综合情感强度高且为正数。这说明该类内容评论者表达的情绪较为激烈,且多为积极情绪。该类内容评论者正向情感回馈和负向情感回馈为高,综合情感回馈为高且为正数。这说明该类内容评论者对事件的情绪与内容生产者对事件的情绪有程度极高的趋同或相反,且大部分情况下与内容生产者对事件的情绪一致。
综上基于内容评论者识别指标体系将用户划分为专精内容评论者(类别1)、普通内容评论者(类别2)、钝感内容评论者(类别3)和敏锐内容评论者(类别4)。专精内容评论者有明确的内容偏好,内容服务平台和行业组织应注重对专精内容评论者的内容推送。在进行舆情管理时,相关部门应更加注意敏锐内容评论者,因为此类用户更容易被他人引导,误信谣言等虚假信息的风险更大。
3.2.3 综合分析
在根据内容生产者识别指标体系和内容评论者识别指标体系对用户分别进行划分后,结合用户在两个指标体系中的不同聚类结果,本节对用户在网络中的特点进行分析,划分结果如表5所示。
表5 结合内容生产和评论的用户分析 %
结合用户在两个指标体系中的分类,本研究将用户划分为6个类别。如表5所示,84.8%的用户为积极内容评论者,该类用户基本没有内容生产行为,主要进行评论行为且其活动造成社会危害的可能性较低。11.5%的用户为中坚用户,大部分内容生产者属于该类,该类用户既是内容生产者也是内容评论者,其生产的内容对他人的影响较小。2.2%的用户为潜在优质用户,该类用户既是内容生产者也是内容评论者,但其生产的内容具有较大的争议。经过恰当的引导和培训,该类用户有可能转化为优质用户。0.37%的用户为优质用户,该类用户既是内容生产者也是内容评论者,其生产的内容对他人的影响较大。此外,93%的优质内容生产者是钝感内容评论者,而且钝感内容评论者都不是优质内容生产者。这说明相比于其他用户,理智冷静的用户更容易成为优质内容生产者。0.97%的用户是风险用户,该类用户对事件的情绪容易被他人影响且情感波动较大。0.025%的用户是高风险用户,该类用户不仅自身情绪易被他人影响,同时也生产具有争议的内容,影响他人对事件的情绪。此类用户可能更易受他人影响而传播虚假信息。
4 结 论
为了帮助相关部门更好地进行舆情引导,促进民众参与维护国家安全,本文构建内容生产者识别指标体系和内容评论者识别指标体系。基于以上指标体系,利用两步聚类算法进行用户画像。从内容生产的角度,用户被划分为非内容生产者、普通内容生产者、争议内容生产者和优质内容生产者。从内容评论的角度,用户被划分为专精内容评论者、普通内容评论者、钝感内容评论者和敏锐内容评论者。部分用户既是内容生产者也是内容评论者。因此,本文基于内容生产者的用户画像结果和内容评论者的用户画像结果,对用户进行综合分析。用户被划分为积极内容评论者、风险用户、高风险用户、中坚用户、潜在优质用户和优质用户。
本研究有助于相关部门进行舆情引导,及时防范风险。相关部门应注意优质用户、风险用户和高风险用户。与优质用户合作,相关部门可以更好地促进民众参与维护国家安全。此外,风险用户和高风险用户易被他人影响,相关部门也应当注意引导该类用户。相关部门应特别关注高风险用户对事件的情感倾向,避免其传播虚假信息。本研究对于内容服务平台和行业组织也有帮助。内容服务平台能够根据用户特点,为用户制定个性化服务,行业组织能基于用户特点制定发展规划,建立良好的社交媒体生态。本文提出的分析框架也能够为之后的关键用户识别提供参考。本研究仅对在知乎平台上“恐怖袭击”相关数据进行研究,在今后的研究中可以考虑采用不同平台或不同主题的数据进行研究。
致谢
感谢图书情报国家级实验教学示范中心为本研究提供的实验支持!