社交媒体平台用户参与行为强度测定与预判
2022-11-28黄微孙悦
黄 微 孙 悦
(吉林大学商学与管理学院,吉林 长春 130022)
截至2021年12月,我国网民规模已达10.32亿,互联网普及率达73.0%,我国的网民数量和网民规模都在稳步增加。作为互联网技术的典型代表,社交媒体的概念最早被Unger J B定义为“网络用户用以交换信息和内容创建的平台”[1-2]。社交媒体平台为用户提供了信息内容交流和创造的服务场所,在开放话题的关注讨论中,所有社交媒体平台用户既是话题的发起者、传播者,又是信息的消费者和生产者[3]。在国内,现阶段社交媒体平台主要包括微博、微信、抖音、小红书、知乎等。
由于微博的开放性,当前针对社交媒体平台用户行为的相关研究,大多基于微博这一主流的社交媒体平台,如林燕霞等[4]根据社会认同理论通过微博用户对感兴趣的主题进行特征提取,对微博用户进行了群体类别的划分,构建了以用户兴趣与行为态度为依据的不同主题兴趣的用户画像;部分学者针对微信这一社交媒体平台进行研究,如李嘉兴等[5]发现微信老年用户与其他用户群体相比使用强度、使用能力偏低,而且微信老年用户群体具有显著差异性,学历越高的老年用户使用能力、使用强度越高;抖音作为目前最火的短视频平台,日活跃用户已突破6亿,部分学者针对抖音这一社交媒体平台进行研究,如吴剑云等[6]提出了一种基于视频兴趣标签的个性化推荐方法,考虑了群体用户的喜爱度,不仅能较好地描述用户视频兴趣随时间的变化,也能通过视频兴趣标签结合用户画像匹配用户感兴趣的视频项进行推荐,提升了用户体验。
现阶段针对社交媒体平台用户行为分析的研究,大多都是针对单一平台的研究,这些研究都忽略了不同社交媒体平台由于用户群体(例如小红书主要用户群体年龄段多为25岁及以下的年轻女性,而微信主要用户群体年龄段多为26~35岁,性别分布较均衡)或其他差异会有各自独立的结构,而且同一用户可以只在某平台有注册信息、可以在一个平台上有多个账号、可以在多个平台上都有注册信息,同一用户拥有多重网络身份,但却有相似的行为表现模式,这就组成了一个巨大的跨平台社交媒体网络。当某个社会事件发生时,与之相关的信息传播一般不会只在单平台社交网络中,而是在跨平台社交网络中快速扩散[2],如当下新型冠状病毒肺炎疫情相关信息广泛传播于微信、微博、抖音、小红书、知乎等多个社交媒体平台[7]。在多元社交网络媒体背景下,网络舆情信息的跨平台性和非结构性都为发现用户参与行为的动向、准确预判用户对信息参与行为强度的响应以及用户参与行为强度对舆情事件传播造成的影响带来巨大的挑战。因此,以用户为中心,对用户实际使用的所有社交媒体平台进行参与行为分析,具有重要理论意义。
在大数据网络时代背景下,社交媒体平台用户的情感表达(转发、分享、发布等行为)能够迅速感染其他用户的情绪,导致舆论的爆发。然而突发事件产生后,具有负面情绪的评论/转发等内容更容易引发其他用户共情,因此更容易得到广泛传播,在应对措施不及时的情况下,负面情绪集中爆发,产生网络谣言和舆情危机[8]。但对于舆情事件,用户的浏览、收藏等行为并不会对舆情的传播产生影响,因此,对社交媒体平台用户的参与行为类别及参与行为强度进行测定,对舆论的引导与管控具有重要实践意义。
本文以用户为核心,考虑不同社交媒体平台之间的相似性,实现社交媒体平台用户参与行为强度的科学分析与精准预判。
1 社交媒体平台用户参与行为的构成要素
社交媒体平台用户参与行为的构成要素包含社交媒体平台用户参与行为的主体、社交媒体平台用户参与行为的客体、社交媒体平台用户参与行为的本体及社交媒体平台用户参与行为的媒体。
1.1 社交媒体平台用户参与行为主体
社交媒体平台用户参与行为主体是在社交媒体平台上为表达认知、情绪、意见、态度等言论而产生参与行为的主体,即社交媒体平台用户本身,在社交媒体平台用户参与行为分析的基础上,本文认为,社交媒体平台用户主体大体可以分为以下4种属性,包括用户自然属性、用户互动倾向度、用户情绪属性和用户偏好。
1)用户自然属性是社交媒体平台用户的基本信息,包含用户的昵称、头像、性别、年龄、地域、联系方式、会员类型、注册日期、活跃度等,可以在一定程度上辨别用户特征和用户在新舆情事件中的参与程度。
2)用户互动倾向度指社交媒体平台用户在社交媒体平台中参与讨论的主观意愿倾向度,互动倾向度体现了用户在@行为、评论、转发、分享、发布等方面的参与行为的强弱程度,越喜欢参与讨论的用户,对舆情话题的发展越有促进作用,这种作用可能是积极的也可能是消极的,受到其自然属性、情感属性、偏好和所处环境背景等因素的影响。而一个只浏览信息、从来不参与讨论的用户,对任何舆情事件的发展和传播都不会有影响。
3)用户情绪属性指社交媒体平台用户参与行为发生时的情感状态,情绪是对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态。无论正面还是负面的情绪,都可能会引发舆情事件参与行为。人类的情绪会根据舆情事件、所处的环境背景而发生变化,同一舆情事件、不同的环境背景,产生的情绪会有差异。
4)用户偏好指社交媒体平台用户对舆情事件的关注偏好,有些用户偏好关注政治类事件,有些用户偏好娱乐圈中相关的舆情事件,有些用户偏好关注科技数码类舆情事件等。不同用户的关注点可能不同,同一用户在不同的年龄阶段、不同的地域、不同的社交媒体平台的关注点也可能不同。在用户偏好的研究中,可以根据用户的参与行为,发掘用户的偏好,在类似舆情事件发生前,用于判断该用户可能产生的参与行为。
1.2 社交媒体平台用户参与行为客体
社交媒体平台用户参与行为客体指的是引发参与行为产生的刺激物,直接导致参与行为的产生,即社交媒体平台事件,有文字、视频、图片、音频等形式,不同社交媒体平台对事件的分类有所不同。
结合融媒体的发展特性,通过社交媒体平台构建特征发现,社交媒体平台基于Web2.0为核心搭建,因此具有相似的功能属性。从参与行为模式中揭示每个用户对不同话题类型的兴趣偏好,首先要找到社交媒体平台,尤其是主流社交媒体平台功能的相似性。
在微博这一社交媒体平台中,平台自带的对事件的分类给出了热门、抗疫、科技、明星、数码、国际等61种[9]。在微信收藏内容中的自带分类是按照收藏内容的形式划分的,即最近使用、图片与视频、链接、文件、音乐、聊天记录、语音、笔记、位置等[10]。此外,微信除了主要的通讯功能以及热门的支付功能外,其信息交互功能中的微信公众号、视频号、看一看等同为主要的信息交换方式,公众号默认是按照字母排序的,没有更明确的分类;视频号默认给出了推荐、直播、娱乐等11个类别;看一看则分为朋友在看和精选两大类别,其中精选又分为今日必看和推荐两个类别。抖音给出了娱乐、知识、二次元、游戏、美食等8种分类。小红书只有关注、发现和附近3个大类别。知乎分为圈子、科学、娱乐、数码等23个板块。
结合以上5种主流社交媒体平台对话题的分类可以看出,社交媒体平台对话题的分类尚未统一;部分社交媒体平台对话题几乎未作分类,比如小红书;同一社交媒体平台下不同话题内容存在高度相关性,比如微博中“美女”这一话题类别和“摄影”这一话题类别下均存在大量女性自拍/摆拍;“军事”这一话题类别和“国际”这一话题类别下均存在大量国际战事及军事武器等信息。因此,话题类别过多必然会导致信息内容出现交叉现象。此外,社交媒体平台作为一个以“用户”为构建中心的信息交流平台,支持用户自建话题,在对社交媒体平台话题分类的分析中,不能忽略用户的主观能动性、自主创造性和自主选择性,因此参考Jansen B J[11]对Youtube内容的分类,本文将社交媒体平台话题内容分为8类,如表1所示。
表1 社交媒体平台话题内容分类
1.3 社交媒体平台用户参与行为本体
社交媒体平台用户参与行为本体就是参与行为本身,是社交媒体平台用户针对某些议题、现象或事件,在社交媒体平台上表达的认知、情绪、态度和意见等具体内容的参与行为。
心理学词典规定,“行为”一词的意思是“有机体与其环境相互作用的活动”。该术语泛指所有活动或某一特定活动,被定义为有机体对生活环境的总体反应。对行为的研究,认知心理学领域主要从信息加工的角度进行。20世纪60年代后,大多数心理学家将内部心理活动与外显行为区别开来,试图从信息加工的角度描述心理活动的状态和过程,以此解释各种外显行为发生和发展的规律[12]。本文基于不同社交媒体平台主页面的主要功能及其附属功能,识别了包含浏览行为、收藏行为、@行为、点赞行为、评论行为、转发行为、分享行为、发布行为在内的8个类别的参与行为。信息加工理论(Information Processing Theory)从机能上将人脑和计算机从行为水平上进行类比,认为人的认知过程就是对信息的加工过程,涉及人如何对信息进行处理,以及如何利用信息做出决策并指导自己的行为等[13],强调的是人在对刺激做出反应时的人为选择而进行的对原有记忆的调取与新信息的加工和整合的人脑中的一系列需要提供不同强度认知努力的认知活动。根据适应性增益理论(AGT),任务投入的程度(由去甲肾上腺素诱导的神经元增益调节驱动的反应速度和敏锐度)受任务效用(收益减去成本)的调节,因此增加效用会产生更大的参与度,降低效用会导致注意力分散,更高的努力可能对应更高的参与度,而更低的努力对应于注意力分散、走神和注意力不集中。
因此,本文基于信息加工理论,对识别到的8个类别的参与行为都进行细分,基于付出认知努力的多少将每个行为类别都划分为2~4个特定动作的子组,总共21个特定动作,构建了社交媒体平台用户参与行为谱,如表2所示。
表2 社交媒体平台用户参与行为谱
1.4 社交媒体平台用户参与行为媒体
社交媒体平台用户参与行为媒体即传播媒介,也被称为渠道或参与行为产生手段,在社交媒体环境下,参与行为媒体具有物联网特征,主要包括PC、移动终端及智能电子产品,而这些产品的核心是操作系统(OS)。社交媒体平台用户常用的操作系统(OS)主要包含Windows、Mac OS和移动操作系统。操作系统提供3个基本功能,其中之一:它通过CLI(命令行界面)或GUI(图形用户界面)提供UI(用户与计算机的交互)。不同的操作系统针对同一社交媒体平台用户参与行为主体的人机交互界面设计会有不同,本文根据UI的不同,将社交媒体平台用户参与行为媒体分为Windows/Mac OS网页端(以下简称网页端)、智能手机(App)端和平板电脑(App)端。
2 社交媒体平台用户参与行为强度测定
2.1 社交媒体平台用户参与行为强度的概念
强度一词本指每单位(如面积、电荷、质量或时间)的量(如力或能量)的大小,面积、电荷、质量或时间的量越大,最终的强度也就越大。因此,本文将社交媒体平台用户参与行为强度定义为某特定话题类别下每单位(某特定话题类别,即特定话题的1个事件)的量(具体的参与行为数量/比例)的大小。例如,某用户浏览过10条娱乐八卦类事件,将2条信息转发给同平台内的某个好友,则该用户转发行为t1的强度为2/10即20%。
2.2 社交媒体平台用户参与行为强度测定方法
本文从社交媒体平台用户参与行为转换的频率和概率两个角度对用户参与行为强度进行了分析。
2.2.1 社交媒体平台用户参与行为转换频率分析
为了分析总转换频率,使用了修改的Deming-Stephan迭代比例拟合来产生期望值,同时考虑了结构零的存在,即,作为自转换或物理上不可能的转换的结果而出现的零。每种参与行为都使用了x2测试,以测试转换的频率是否明显偏离随机预期的频率。由于有一些期望值小于5,通过将低频动作和相关动作合并在一起,使用原始矩阵大小来计算自由度。
x2拟合优度检验用于将观察到的转换和预期的转换进行比较,因此,检查转换频率是为了检验关于转换概率的特定假设。假设任何行为原则上可以遵循任何其他行为,则转换频率可以以表格的形式列出。在这种制表模式中,观察到的紧跟在第i种动作之后的第j种动作的频率出现在第i行和第j列的表项单元格(i,j)中。因此,第i行列出了表格中每个不同类型的动作紧跟在第i类型之后的频率,而第j列列出了紧跟在j类型之前的表格中的每个不同类型的动作的频率。
(1)
其中xij=单元格(i,j)中的观测值,mij=(i,j)中的期望值=[(i行的和)×(j列的和)]/参与行为总数。
2.2.2 社交媒体平台用户参与行为转换概率分析
由Haynes和Birch设计的定型指数[14]被用来分析转换的概率。这为一阶矩阵中与特定行为转换相关联的定型水平分配了一个客观度量,并通过式(2)计算:
(2)
其中Pij=从行为步骤i到所有后续行为j的转换概率;ri=行为步骤i之前的可能的转换的次数。
2.3 社交媒体平台用户参与行为数据采集
根据前文分析的社交媒体平台用户参与行为的构成要素确定社交媒体平台用户参与行为数据。
2.3.1 社交媒体平台用户及传播媒介确定
在我国,微信的月活跃用户数已经超过12亿,已然成为我国互联网史上用户数量最多的应用,基本上人人都是微信这一社交媒体平台的用户。微博月活跃用户数近6亿,基本上半数的国人都是微博这一社交媒体平台的用户。小红书月活跃用户超过2亿。抖音月活跃用户超过5.5亿,且增势迅猛。
综合以上图1~图3的数据,结合Mob研究院的调研数据(85、95、00后人群洞察白皮书),可以看出社交媒体平台用户基本特征为:
图1 社交媒体平台用户性别分布(部分)
图2 社交媒体平台用户年龄分布(部分)
图3 社交媒体平台用户城市分布(部分)
①男女相对较均衡。
②城市无明显差异。
③年龄主要集中在35岁以下。
④总体人数约6亿。
⑤日均上网时长超过5个小时。
预先邀请了5名实验用户,采取滚雪球的方式随机获得与5名受试者具有社会相关性的人员25名,再随机获得与25名受试者具有社会相关性的人员125名,基于前文对社交媒体平台用户进行确定分析得出的社交媒体平台用户性别分布、年龄分布及日均上网时长等信息,最终选取实验人员20名,实验用户的性别及数量分布如表3所示,基本信息如表4所示。
表3 实验用户信息及数量分布
表4 实验用户基本信息(部分)
2.3.2 社交媒体平台话题内容及参与行为记录
通过对实验人员社交媒体平台使用情况进行调查,具体如表5所示。
表5 实验人员社交媒体平台使用情况
创建网页端,每天整理微博热搜榜、微博文娱榜、微博要闻榜、微信热点、抖音热点榜、抖音娱乐榜、抖音社会榜、小红书社区精选、知乎热榜等中的热点事件信息,每个平台选取热点事件120件(每个话题类别15件),将事件链接放到创建的网页上(顺序随机)。
实验用户登录网页后,首先选取自己使用的社交媒体平台情况(例如用户1需选取微博、微信、抖音、知乎,用户2需选取微博、微信、抖音),选取后,平台会根据用户选取情况分配事件(每个话题从所有选择平台中随机选取15件),将分配的事件链接到平台上,用户点击事件链接查看信息后,会跳转到用户相应的社交媒体平台软件中(网页端用户可在网页端完成),所有参与行为均在用户自己的社交媒体平台中完成,用户所有的参与行为采取录屏方式获取,每天的参与实验时间由用户自行确定,持续60天(前20天的数据用于参与行为强度测定,作为预判用户参与行为强度的基础,间隔30天,最后10天的数据用于对预判结果进行评估)。
2.4 社交媒体平台用户参与行为强度测定
本次实验记录了83 465个参与行为(前20天数据记录,如图4所示)。
图4 社交媒体平台用户(实验用户)参与行为数量分布
分析图4可见:
1)不同用户的活跃度有所差异
用户2在本次实验中最活跃,具体表现为产生的参与行为最多(7 373),其中娱乐八卦类话题下参与行为在所有话题中频度最高(1 002),占全部参与行为的13.59%,科技数码类话题下参与行为在所有话题中频度最低(872),一定程度上可以看出用户2对所有话题均感兴趣,且兴趣相当;用户12在本次实验中最不活跃,具体表现为产生的参与行为最少(2 909),该用户只在教育育儿类话题下活跃度较高(784)。
2)不同用户所关注的话题类型有明显不同
有些用户对所有话题活跃度均很高,如用户2和用户11;有些用户只对单一话题活跃度高,如用户5只对科技数码类话题活跃度高(849),用户13只对人类趣味类话题活跃度高(963),用户16只对政治生活类话题活跃度高(940)等。
以用户1(B1)为例对其参与行为进行分析。
分析表6、图5及图6,可以看出:
表6 娱乐八卦类话题的参与行为序列一阶矩阵(B1)
注:数字和相应的箭头是两种参与行为之间发生特定转换的概率。
图6 娱乐八卦类话题的参与行为转换定型指数(B1)
1)用户1最常见的参与行为序列有10种(转换概率≥50%):
e2→d1、e2→d3、l2→d4→t1、a1→d4、d2→t1、d2→s1、t1→d4、t2→s1→c2、t3→c1→t1、t4→s1→c2,具体为粗略浏览信息后对该信息进行评论或评论该信息下评论的内容、点赞后评论该信息下评论的内容并将该信息发送给某个好友、@某个好友后将此信息发送给平台外的某些人、对内容进行评论后将此消息转发给同平台某个好友或是发布至个人主页面、转发给同平台某个好友后评论该信息下评论的内容、转发给同平台某些个好友后将此信息发布至个人主页面然后依据个人见解发布信息、将此信息转发给平台外某个人后发布至个人主页面然后转发给同平台某个好友、将此信息转发给平台外某些人后发布至个人主页面然后依据个人见解发布信息。
2)某些定型指数SI无数值,表示该用户无此参与行为,可能是数据样本较少导致此现象的出现或是偶发现象。
3)在社交媒体平台用户参与行为中,全部浏览完毕(e3)的参与行为强度为96.67%,评论行为的参与行为强度为87.67%,其中98.48%为浏览完信息内容后查看评论,评论该评论的内容(d4);转发行为的参与行为强度为79.67%,其中97.49%为将此信息转发给同平台内某个好友(t1);发布行为的参与行为强度为50.67%,其中94.08%为将其他现有的内容发布到平台自身的账号页面内所产生的发布行为(c1),5.92%为依据自身已有的知识、见解和认知发布原创内容到平台自身的个人主页面内并不为私密发布(仅自己可见,c2)。
3 社交媒体平台用户参与行为强度预判
3.1 社交媒体平台用户参与行为强度预判算法
Apriori算法是挖掘数据间关联规则的算法,挖掘关联规则的主要任务是找出数据库中所有的数据集合(频繁项集)[15]。判断频繁关联规则的标准是指支持度和置信度都不低于用户给定的最小支持度min_support和最小置信度min_confidence。支持度用来表示项集在数据中出现的频繁程度,置信度则用于表示Y在包含X的项集中出现的频繁程度。
对于给定的数据集,在挖掘频繁关联规则时,首先设定最小支持度和最小置信度,然后挖掘出满足条件的频繁项集,最后生成频繁关联规则[15]。
Apriori算法基本思想是使用一种逐层扫描的方法挖掘频繁项集:
第1次扫描,找出候选集1,在第一次候选集基础上,求出第一次频繁项集1(>min_support)。
第2次扫描,找出候选集2,求出频繁项集2。
第n次扫描,找出候选集n,当最后生成的候选集n中,只有0个或1个的话,循环结束。
Aprori算法可以很好地找出关联关系,但是每一次求候选集都需要扫描一次所有数据记录,在面临数据较多时就会耗费大量的时间。本文通过改进的Aprori算法(Fp-Growth算法,Frequent Pattern Tree,频繁模式树)来提高运行效率,通过构造一个树结构(FP树)来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,且该算法不需要生成候选集合[16]。
FP树构建方法,以用户1娱乐八卦类话题为例,数据如表7所示。
表7 娱乐八卦类话题原始数据(B1)
第一步,令min_support=50(例),第1次扫描,找出候选集1,如表8所示,在第一次候选集基础上,求出第一次频繁项集为e3:290、d4:259、t1:233、c1:143、s1:51(逆序排序)。
表8 娱乐八卦类话题候选集1数据(B1)
第二步,构建FP树,数的根节点用null表示,如图7所示。
图7 娱乐八卦类话题FP树(B1)
1)预判用户1浏览到某娱乐八卦类话题内容时的参与行为强度
预判用户1浏览到某娱乐八卦类话题内容时参与行为强度≥50%的参与行为,结果为e3(290)、d4(259)、t1(233)。
预判用户1浏览到某娱乐八卦类话题内容时参与行为强度≥80%的参与行为,结果为e3(290)、d4(259)。
2)预判用户1浏览到某娱乐八卦类话题内容时的参与行为序列(频度)
预判用户1浏览到某娱乐八卦类话题内容时≥50%的概率会出现的参与行为序列(频度):
设置min_support=50%(150),计算出频繁项集,结果为:{e3,t1};{d4,t1};{e3,d4,t1},即用户1浏览到某娱乐八卦类话题内容时,超过50%的概率会浏览完全部信息,查看评论内容,对评论内容进行评论,并将此信息转发给同平台内的某个好友。
预判用户1浏览到某娱乐八卦类话题内容时≥80%的概率会出现的参与行为序列(频度):
设置min_support=80%(240),此时频繁项集的结果为{e3,d4},即用户1浏览到某娱乐八卦类话题内容时,超过80%的概率会浏览完全部信息,查看评论内容,对评论内容进行评论。
3)预判用户1浏览到某娱乐八卦类话题内容时的各参与行为强度之间的相关性
预判用户1浏览到某娱乐八卦类话题内容时出现某参与行为的同时会有≥90%的概率会出现另一参与行为:
设置min_confidence为90%,计算出频繁项集的结果为{t1,d4}、{l2,d4}、{l2,c1}、{a1,d4},即用户1浏览到某娱乐八卦类话题内容时,若将此信息转发给同平台的某个好友后,有≥90%的概率会对该信息下的评论内容进行评论,若对此信息下的某条评论产生兴趣并点赞该信息/评论则会有≥90%的概率会对该信息下的评论内容进行评论,若对此信息下的某条评论产生兴趣并点赞该信息/评论则会有≥90%的概率会将其他现有内容发布到平台自身账号页面内,若将此信息@给某好友则会有≥90%的概率会对该信息下的评论内容进行评论。
预判用户1浏览到某娱乐八卦类话题内容时出现某参与行为的同时会有≥80%的概率会出现另一参与行为强度:
设置min_confidence为80%,计算出频繁项集的结果为{t1,d4}、{l2,d4}、{l2,c1}、{a1,d4}、{e3,d4}、{d4,t1},即用户1浏览到某娱乐八卦类话题内容时,若将此信息浏览完毕则会有≥80%的概率会对该信息下的评论内容进行评论,若对该信息下的评论内容进行评论则会有≥80%的概率会将此信息转发给同平台的某个好友(前4项频繁项集的解释见上述min_confidence=90%的内容)。
3.2 实证预判
3.2.1 数据采集及处理
由前文分析的20位用户的参与行为数据,得出每位用户、每个话题下的每个参与行为的强度,结果如图8所示(以娱乐八卦类话题为例)。
图8 参与行为强度预判三维曲面图
对最后10天数据进行分析,共得到41 127条数据记录,得出每位用户、每个话题下的每个参与行为的强度,结果如图9所示(以娱乐八卦话题为例)。
图9 参与行为强度概率分布三维曲面图
3.2.2 预判结果
本文以总体偏差率作为评价指标对20位用户的参与行为强度预判结果进行分析,总体偏差率描述的是用户历史行为(前20天数据)中参与行为的强度与评估样本(后10天数据)中对应参与行为的强度差值的绝对值。若用户1浏览某条娱乐八卦类消息的历史行为显示该用户将此消息转发给同平台某好友的强度为80%,评估样本中该用户将此消息转发给同平台某好友的强度为70%,则偏差率为|80%-70%|=10%。
对所有用户所有话题类别下所有参与行为强度进行预判,如图10所示,最大的偏差率出现在用户12的教育育儿类话题中的e2、e3,偏差率为20%。
图10 社交媒体平台用户(实验用户)参与行为强度偏差率
3.3 社交媒体平台用户的参与行为强度预判效果评估
对所有实验用户所有话题下所有参与行为强度进行整理,提取出偏差率大于10%的数据,结果如表9所示。
表9 偏差率大于10%的话题及参与行为强度分布 %
由表9可以看出,几乎所有话题下均存在偏差率大于10%的数据,近半数用户存在偏差率大于10%的数据,可见偏差率和用户或话题无明显直接关系。其中,偏差率大于10%的数据量共有24个,其中浏览行为(e1+e2+e3)的数量最多,占总数的62.5%,出现该问题的原因可能是数据记录过程造成的:从记录的数据中无法真正判断用户的认知努力量,较难分辨实验用户的浏览行为是e2或e3(实验过程中一般按阅读时间为5秒进行区分,对于信息量较长或较短的适当增减阅读时间),有些用户浏览的速度很快,有些则较慢。
从总体偏差率可以发现,本文提出的基于全社交媒体平台对用户参与行为强度进行预判的方法其总体偏差率在20%以下(含),对用户的参与行为强度具有较好的预判效果。
4 结 论
本文对社交媒体平台用户参与行为的构成要素进行分析,认为社交媒体平台用户的参与行为包含社交媒体平台用户参与行为的主体、客体、本体及媒体,并据此设计观察实验,通过问卷调查和公开的历史数据,采取滚雪球的抽样方式,获取了20名用户数据,从用户使用的所有社交媒体平台中抽取热点事件,记录实验用户的参与行为,基于社交媒体平台用户的参与行为谱构建了社交媒体平台用户的参与行为强度序列一阶矩阵,对用户的参与行为强度进行分析及测定,基于Fp-Growth算法对社交媒体平台用户的参与行为强度进行预判,其总体偏差率可以达到20%以下(含),对用户的参与行为强度具有较好的预判效果,可以提高社交媒体平台推荐服务的质量,并能实现和提高舆情危机事件发生时的精准引导与靶向导控。