基于时序网络记忆效应的意见领袖动态识别
2023-02-21朱义鑫
朱义鑫,朱 恺
(新疆财经大学 信息管理学院,新疆 乌鲁木齐 830000)
0 引 言
在网络舆情传播[1]中的意见领袖的识别方面,已有许多学者做了广泛的研究,目前较为主流的研究方法有:
(1)使用网络舆情数据,建立指标算法实现意见领袖的识别。如郭博等通过建立活跃度、可信度、影响力等信息指标利用层次分析法得到用户的综合评价模型指标[2];马宁等建立人物、话题和网络三大维度,构建谣言和辟谣信息综合影响力模型[3];金海通过用户信息和微博信息的采集,使用神经网络算法实现意见领袖的识别和预测[4]。
(2)以网络舆情传播数据建立社交网络,通过用户间的连接识别网络中的关键节点,实现意见领袖的发现。如王日芬等提出了网络舆情生命周期阶段划分、网络舆情社区发现与关键节点识别、舆情事件主题发现3个研究内容[5];Chunlin Li等提出了一种基于内容相似度、时间相似度和用户拓扑结构的舆情社区检测方法,并在融合相似性的基础上提出了一种基于用户影响和情感分析的意见领袖检测方法[6]。马玉燃在PageRank算法的基础上,引入节点的权威度,并结合用户主观意向下对节点的选择偏好,提出 Au-2Step-PageRank算法[7]。
1 算法基础
PageRank算法最初由Google开发,用于其搜索引擎进行网页排序,通过对每个网页节点的重要性判断,优化其搜索结果。其原理为:若有网页A、B、C,其中网页C均可以由网页A和网页B中的链接指向,则网页C的PageRank值由网页A和网页B的PageRank值共同决定的,即一个页面的重要性取决于指向它的所有页面的数量和质量。其计算方式如式(1)所示
(1)
式中:q为阻尼系数,通常取值0.85,页面指向方向为pj指向pi, L(pj) 为pj的出度,PageRank(pj)为pi的射入邻接点pj的PageRank值。
PageRank算法在两个节点之间只存在一条有向边,即判断两个节点之间是否存在指向关系,并采取平均分配的原则将各节点影响力进行传递。近年来,已有学者在PageRank算法的基础上提出许多改进算法,如IARank算法[8]、UI-LR算法[9]、FW-Rank算法[10]等,均使用用户节点之间的互动关系进行连接,改进了节点影响力传递方式。
现阶段社交网络中意见领袖识别的研究方法依然存在较多挑战[11]:首先在构建网络时通常选取用户间一种固定关系作为用户节点之间的联系,较为片面不能真实完全反映整个社交网络中用户之间的复杂关系。其次,在构建社交网络的过程中,通常将整个网络舆情的发展作为静态网络进行分析,忽视了网络舆情传播的动态过程。最后,在网络舆情传播过程中每一时刻的舆情状态会对后续的舆情发展产生影响,且这种影响随着时间的发展而变化,而现有研究多考虑相邻快照之间的联系,忽视了各快照舆情状态对事件后续发展的动态影响。
针对网络舆情传播过程中用户群体互动性强,信息流动速度快的特点,本文爬取微博用户互动数据构建时序网络,使用快照内用户互动强度重定义节点间的影响力贡献来改进PageRank算法,计算网络快照中各节点影响力得分,引入网络快照的记忆效应参数,构建一种包含在线社交时序网络记忆效应的意见领袖动态识别算法——DWIR算法(dynamic-web interaction rank)。
2 意见领袖动态识别模型构建
2.1 模型构建流程
意见领袖动态识别模型构建及实验主要包括4个步骤:①获取实验数据,划分用户互动方式。②根据数据时间戳划分时间窗口,以用户为节点,互动关系为边生成快照网络,计算用户活跃度,得到快照网络中用户影响力得分。③所有快照网络组成时序网络,引入记忆效应参数,构建DWIR算法,计算网络舆情各阶段用户DWIR得分,以此排序得到意见领袖动态识别结果。④利用DWIR意见领袖动态识别结果与其它算法识别结果比较进行深入分析。
2.2 用户互动强度计算
快照网络中,每个用户的重要程度既取决于其它与其互动的所有用户的数量与质量,还取决于用户之间的互动方式,本文使用用户之间的互动方式和互动程度计算用户互动强度[12]。
对于一篇帖子,用户可以进行转发与评论,本文用WC(weight_comments)和WF(weight_forward)分别表示相邻用户节点之间的评论权重和转发权重。用Comment_times(Am,Aj) 表示用户Aj(j=1,2,3…n) 对用户Am(m=1,2,3…n,m≠j) 的评论次数; Forward_times(Am,Aj) 表示用户Aj(j=1,2,3…n) 对用户Am(m=1,2,3…n,m≠j) 的转发次数。用户Ai的评论权重WC和转发权重WF计算方式分别为式(2)、式(3)所示
(2)
(3)
本文使用式(4)进行用户互动强度(Interaction-Strength)的计算
IS(Ai,Aj)=α·WC(Ai,Aj)+β·WF(Ai,Aj)
(4)
式中: IS(Ai,Aj) 表示Ai的相邻节点Aj提供的互动强度,α对应评论的相对权重,β对应转发的相对权重。
根据在线社交平台的用户互动特点,评论和转发两种互动方式虽然都可以为用户增加影响力,但是重要程度明显不同。本研究采用AHP层次分析法求解[13],使用“1-9”标度法计算α和β。
令I1为评论的重要程度,I2为转发的重要程度,本研究根据评论和转发行为对用户提供的不同影响力,取I1的相对影响力标度为1,I2的相对影响力标度为3,构建判断矩阵如式(5)所示
(5)
将判断矩阵按列进行归一化处理,并逐行计算算数平均值即可求得其最终权重ω, 其表达方式如式(6)所示
(6)
经过一致化检验,最终解得:I1≈0.25、I2≈0.75。 即评论的相对权重α=0.25,转发的相对权重β=0.75,可得IS(Ai,Aj) 计算方式如式(7)所示
IS(Ai,Aj)=0.25·WC(Ai,Aj)+0.75·WF(Ai,Aj)
(7)
2.3 快照内用户影响力计算
本文通过用户之间的互动强度对PageRank算法进行改进,重新定义了相邻节点之间的影响力贡献方式,得到基于在线社交网络用户互动的PageRank改进算法(web interaction rank,WIR),其计算方法如式(8)所示
(8)
快照网络用户影响力计算过程描述如下:
输入:Gi为快照内用户关系集合;Ci为快照内用户评论数据;Ai为快照内用户转发数据;ε为迭代终止条件。
输出:快照内用户节点WIR算法影响力得分/*通过互动方式和次数计算各用户在快照内互动强度*/
(1) forCviinCido
(2)使用式(2)计算WC(Ai,Aj)
(3) end for
(4) forAviinAido
(5)使用式(3)计算WA(Ai,Aj)
(6) end for
(7)forviinGi
(8)使用式(7)计算IS(Ai,Aj)
(9)end for
/*使用计算的用户互动强度重新定义节点间影响力贡献方式, 改进PageRank算法*/
(10) forviinGi
(11) 使用式(8)计算WIR(Ai)
end for
(13) 输出快照网络用户节点WIR算法影响力得分
2.4 意见领袖的动态识别
在线社交网络的网络舆情传播过程中,用户影响力都会在记忆效应下向事件后期产生影响,而且随着事件发展,早期用户影响力记忆效应呈现衰减的趋势。本文引入了快照间的记忆效应参数,令时序网络中第j期快照在第i期快照上的记忆效应参数计算方式如式(9)所示
(9)
式中:Ti为第i期快照,Tj为第j期快照,且j
网络舆情传播过程中,各快照用户互动规模的不同导致各快照在整个事件中重要程度不同,本文引入快照活跃度,计算各快照在整个事件中的重要程度,体现不同快照间的差异性,计算方式如式(10)所示
(10)
其中,Ei表示第i期快照网络的用户互动次数,E表示整个时序网络中所有用户互动次数。
本文对时序网络以快照网络用户影响力记忆效应加权聚合[14]的方式,计算网络舆情发展至不同阶段的用户节点影响力,并根据其值进行排名,实现意见领袖的动态识别。
本文使用WIR算法计算用户在各快照内的影响力,引入记忆效应参数得到意见领袖动态识别算法——Dynamic-WebInteractionRank(Ti,Am)(以下称DWIR(Ti,Am)), 其计算方式如式(11)所示
WIR(Tj,Am)
(11)
式中:Am表示用户节点m,Ti表示第i期快照,Tj表示第j期快照(j≤i), Memory(Ti,Tj) 表示第j快照对第i快照的记忆效应参数, d(Tj) 表示当前快照活跃度。
3 实验与分析
3.1 数据获取及预处理
本文使用工具“八爪鱼”进行微博数据的爬取,选取主题“栖霞矿井爆炸”爬取了2021年1月12日至2021年1月31日共计20日间的主题微博搜索结果,根据爬取到的微博数据将没有得到转发、评论行为的用户节点作为孤立节点进行剔除,并根据时间跨度将其划分为5个快照,使用网络工具“Gephi”进行快照网络数据统计,经统计整个事件共有31 950名用户参与互动,共产生119 195次互动关系。
3.2 时序网络构建
本文使用的微博数据包含了用户j对用户i的评论与转发,在快照网络中可表示为:就转发关系而言,若用户进行了转发,则转发用户与原用户之间会产生一条用户互动关系连线,用户节点间的连线方向表示用户影响力的传递方向,其方向是由转发用户指向原用户;就评论关系而言,若用户进行了评论,则评论用户与原用户之间也会产生一条用户互动关系连线,用户节点间的连线方向表示用户影响力的传递方向,其方向是由评论用户指向原用户。
本文选取用户作为节点,基于用户之间的互动关系作为连接用户节点的边生成网络。通过时间戳对微博数据进行时间窗口切分,所有快照Gi(i=1,2,3…5) 的集合 {G1,G2,G3,G4,G5} 构成微博数据的在线社交时序网络[15]。
3.3 结果分析
在复杂网络中,PageRank算法、HITS算法与网络拓扑结构值排名在意见领袖识别中有较宽广的使用范围和较为准确的识别结果,是较为公认的具有良好识别效果的意见领袖识别算法。
对于DWIR算法得到的意见领袖动态识别结果,本文选取前5名在其它静态网络经典意见领袖影响力排序算法中的排名进行比较,见表1。
表1 微博数据意见领袖排名结果
通过表1可以看出DWIR算法意见领袖的识别结果在其它算法中的排名同样靠前,各个算法对于影响力较为突出的意见领袖的识别结果具有一致性,说明DWIR的意见领袖识别结果在其它算法中有较高的认可度。
本文分别选择PageRank算法、HITS算法与DWIR算法的意见领袖识别结果进行比较[16],验证DWIR算法意见领袖动态识别结果的用户重要度排序准确性。本文分别对3种算法在每个快照的意见领袖识别结果进行对比,在其它学者研究的基础上,计算每种算法在各个快照意见领袖识别结果的准确率和召回率,进而得到每种算法在各快照的F-Measure指标[17],并以此判断每种算法意见领袖识别结果的准确度,其计算方式如式(12)所示
Ranks=(RankDWIR∩RankPR)∪(RankDWIR∩RankHITS)∪
(RankPR∩RankHITS)
(12)
式中:Ranks表示所有算法识别的共有意见领袖集合;RankDWIR表示DWIR算法的意见领袖识别结果集合;RankPR表示PageRank算法的意见领袖识别结果集合;RankHITS表示HITS算法的意见领袖识别结果集合。
令model表示进行比较的各个算法,各算法识别结果准确率(Precision)的计算方式如式(13)所示
(13)
各算法识别结果召回率(Recall)的计算方式如式(14)所示
(14)
各算法识别结果F-Measure指标的计算方式如式(15)所示
(15)
本文在每一快照选取TOP20-TOP1000的不同意见领袖识别区间对各个算法的意见领袖识别结果进行F-Measure指标计算,分别得到各个快照的各算法F-Measure指标对比折线图,如图1所示。
图1 各阶段意见领袖识别结果F-Measure指标对比折线
通过事件各阶段不同算法之间意见领袖识别结果F-Measure值对比折线图可以看出,在每个阶段的意见领袖识别结果中,3种算法的F-Measure值均取得较高值,说明3种算法对于意见领袖的识别具有较为一致的结果,且随着事件的阶段进展,在各意见领袖识别区间上,DWIR识别结果的F-Measure值与PageRank和HITS算法的F-Measure值的差距逐渐增大,说明在记忆效应影响下,DWIR算法的意见领袖识别结果式中保持较为出色的准确度,在各阶段意见领袖动态识别过程中,DWIR算法在前400名意见领袖识别区间内准确率平均高达94%,明显高于PageRank算法的平均值90%和HITS算法的平均值88%,在几种算法中意见领袖识别结果的准确率最高。通过汇总各阶段的意见领袖识别结果对比,DWIR算法可准确实现事件发展过程中意见领袖动态识别的效果。
此外,为了确定DWIR算法中记忆效应的变化对于意见领袖识别结果准确度的影响,本文从集合 {0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9} 中选取不同记忆效应衰减率σ值进行意见领袖动态识别,与PageRank算法、HITS算法进行比较计算F-Measure值,并选取最后阶段DWIR算法相较于PageRank算法和HITS算法的F-Measure值的最大差值作为DWIR算法意见领袖识别优度,并统计各快照在相同记忆效应衰减率和相同识别区间下的意见领袖识别平均优度,其计算方式如式(16)所示。制作了记忆效应参数变化意见领袖动态识别平均优度对比表,见表2。
表2 记忆效应参数变化意见领袖动态识别平均优度
(16)
经过各快照不同记忆效应参数作用下意见领袖识别平均优度的对比,可以看到在不同记忆效应下,各意见领袖识别区间之间的DWIR算法意见领袖识别优度变化趋势较为一致;且在同一意见领袖区间上,不同记忆效应作用的DWIR意见领袖识别优度的波动较大,说明记忆效应作用力的选取对于意见领袖识别结果的准确度有较为明显的影响,通过对比各快照各意见领袖区间的DWIR算法意见领袖识别优度,可以看出记忆效应衰减率σ=0.3时,随着意见领袖识别区间的扩大,DWIR算法意见领袖识别优度较其它两种算法逐渐提高,随着σ取值区间的不同,DWIR算法的意见领袖识别优度有较为显著的影响,本文令0.3作为记忆效应衰减率计算记忆效应参数,并以此进行意见领袖的动态识别具有较好的准确度。
4 结束语
本文提出的DWIR算法通过建立快照时序网络,在快照网络内使用用户的转发和评论关系改进了PageRank算法计算快照内用户影响力,并引入快照的记忆效应,实现了网络舆情意见领袖的动态识别。本文通过计算每一快照DWIR算法与PageRank算法、HITS算法的意见领袖识别结果之间的F-Measure指标,经过对比,验证得到DWIR算法意见领袖动态识别结果具有更高的准确度。并通过选取不同记忆效应参数,比较得出记忆效应衰减率的不同取值对该意见领袖动态识别算法准确率有显著影响。
本算法的意见领袖识别结果准确实现了不同快照的意见领袖动态识别。通过对比意见领袖的动态识别结果,可以得到不同快照意见领袖的变化趋势,并结合意见领袖在不同快照的活跃度,从而根据网络舆情传播趋势的特点制定相应的网络舆情监管与引导措施,使得网络舆情监管手段更加灵活,更具针对性[18]。