APP 信息传播溯源技术的应用与实验分析
2022-05-30阎庚耀
阎庚耀
(黑龙江工商学院,黑龙江 哈尔滨 150000)
信息传播溯源是对信息传播过程中相关节点的影响力展开分析,其中影响力较大的节点容易产生更强的舆论引导作用,从而提高新闻热度。PageRank 是比较常用的一种网络节点影响力分析算法,但是该算法未考虑到异质网络中不同节点权重差异,因此在不同话题下的用户影响力分析结果与实际情况可能会存在较大差异。在此基础上,本文提出了一种改进的NAUR 算法,采用随机游走的方式,综合考虑网络拓扑结构和用户行为,能够更加准确地找出不同话题下影响力较大的用户,从而实现信息传播溯源。
1 新闻APP 溯源分析系统的设计
1.1 通信流量捕获模块
该模块的主要功能是捕获新闻APP 与服务器之间的通信流量。根据获得的流量可进一步分析得到客户端与服务端之间进行通信的关键协议,以及协议中包含的动态参数,为数据采集模块开展参数的逆向分析提供帮助。该模块的通信流量捕获流程如图1 所示。
如图1 所示,运行新闻APP 后,后台首先检查手机网络配置情况,若网络通信正常,则将Charles 设置为该手机的网络代理。之后用户在新闻APP 完成的下拉刷新、页面切换等请求,都会经过Charles 服务器,这样就能利用Charles 截取请求,进而捕获通信协议。另外,Charles还具备重发网络请求、修改网络请求参数等功能,可实现系统灵活调试,降低系统开发难度。
图1 通信流量捕获模块流程图
1.2 数据采集模块
该模块的主要功能是采集新闻APP 上的新闻数据、用户数据,同时结合上一模块获得的通信协议,过滤出新闻详情页上的协议内容,并展开分析。其中,通信协议分析的内容包括确定待分析对象的参数名称、对新闻APK 进行反编译,以及开展静态分析定位关键函数。随着新闻迸发数的不断增加,新闻APP 的移动数据采集对象也呈现出多样化的特征。用户信息方面,包括用户ID、关注用户、粉丝用户、获赞数等;新闻信息方面,包括作者信息、发布时间、新闻标题等。数据采集流程如图2 所示。
图2 数据采集模块流程图
1.3 用户影响力计算模块
PageRank 算法是社会网络中分析用户影响力的一种常用算法,但是在实际应用中存在一些缺陷,例如不同网页之间的链接权重没有体现出差异,采用平均分配的方式计算用户影响力,使得计算结果与实际情况之间存在偏差。本文在PageRank 算法的基础上提出了一种改进的用户影响力NAUR(News App User Rank)算法,基于NAUR 算法的用户影响力计算流程为:将社会网络中包含的节点的概率值做初始化处理。初始概率的计算公式为:
上式中,m 与n 为社会网络中的用户节点和新闻节点。根据NAUR 算法结果能够得出新闻之间的连接对用户影响力的贡献。
2 新闻APP 信息传播溯源技术的实验分析
2.1 实验环境
本实验利用从新闻APP 上采集到的数据,对用户影响力进行量化评估。实验设备主要由主机和测试机组成,其中主机操作系统为Windows 10.1,处理器为Intel R CoreTMi5-2430M CPU@3.30GHz;测试机的操作系统为四核2.5GHz,处理器为Android 4.8。实验中使用到的评价指标为“爬全率”,用于直观表示爬虫效果。其计算公式为:
上式中A 为爬全率,n 为爬取到的数据,N 为总数据。
2.2 新闻APP 数据采集实验分析
本次实验选择市面上3 家头部新闻APP 作为分析对象,分别是今日头条、网易新闻和腾讯新闻。样本数统一设定为1200,新闻APP 数据采集结果如表1 所示。
表1 新闻APP 的采集统计结果
结合表1 可知,3 款新闻APP 的爬全率均维持在90%以上,其中“腾讯新闻”的爬全率最高,达到了95.1%,但是均为达到100%。分析其原因主要有:第一,在爬取数据过程中,由于样本数较多,随着爬虫运行时间的延长,爬虫失效的情况也会更加明显;第二,在实验中模拟用户下拉刷新操作请求时,可能会因为网络连接不畅、网络信号不强等造成刷新失败,系统会直接跳过并进入下一轮的抓取,导致爬虫数据丢失;第三,是部分新闻未进行分类,在按照类别进行新闻抓取时,这些未分类的新闻不能抓取。
2.3 用户影响力评估实验
2.3.1 数据集合
前面介绍了适用于新闻APP 的用户影响力计算方法,现在选择“网易新闻”APP 作为研究对象,所用数据来自于2020 年5 月10 日至15 日。按照新闻类别抓取数据,本文选择该时间段内讨论热度较高的3 个话题,分别是“中国天问一号落火”、“武汉龙卷风”、“8 部门约谈滴滴”,具体信息见表2。
表2 数据集
2.3.2 评价指标
本次实验中选择两个影响力排名指标,分别是NDCG(归一化折扣累积增益)和MAP(平均正确率)。其中,NDCG 的计算公式为:
在上式中,k 为排序结果中的排名位置,P(k)为前k个排名结果的准确率。对所有计算得到的AP 求平均之后,MAP 的值越大,说明相关性等级较高的用户排名越靠前。
2.3.3 实验结果与分析
本次实验中采用横向对比的方式,将新闻APP 中用户影响力排名中的常用算法进行了对比。实验共选择了4 种算法:第一种是PageRank 算法,属于基线算法,其原理是通过随机游走的方式对用户的“投票”做均分处理,然后基于网络拓扑结构对处理结果进行排序,排序结果可表示用户影响力。第二种是TwitterRank 算法,是在PageRank 算法基础上进行改进后得来的一种算法,可根据用户间的主题相似性,以及用户发布博文的数量确定节点之间的转移概率,进而计算Twitter 中用户的影响力。第三种是MicrblogRank 算法,基于用户之间的交互关系、评论关系等构建社会网络,在此基础上评估用户影响力。第四种是本文介绍的NAUR 算法,4 种算法下的NDCG 指标和MAP 指标变化趋势如图3 和图4 所示。
图3 NDCG 指标图
图4 MAP 指标图
图3 为“中国天问一号落火”话题下4 种算法计算得到的排名靠前的用户NDCG 对比曲线;图4 为3 个话题下MAP 曲线。从中可以看出,使用PageRank 算法进行用户影响力排名计算,排名质量较差。分析其原因,认为是该算法并未考虑用户发布新闻后与其他用户的交互行为(包括点赞、评论等),导致权重差异明显,从而影响了排名质量。TwitterRank 算法虽然会根据主题相似性和新闻发布数量来判断用户之间的依赖程度,但是也没有将用户之间的交互行为列入到算法中,因此计算值与实际值仍有差距。MicrobiogRank 算法考虑了用户交互行为和用户之间依赖程度的差异,因此算法效果较好。但是该算法仅以交互频率作为权重划分依据,而未对交互行为进行区分,因此算法效果还有提升空间。而本文介绍的NAUR 算法则克服了上述缺陷,一方面是考虑了用户之间的交互行为,另一方面也将新闻之间的链接关系纳入到评估用户影响力的指标体系中,因此对用户的影响力排名质量最高。
结束语
NAUR 算法可以根据用户交互行为发生时间间隔的长短,进而准确推测出用户节点之间的转移概率。在此基础上展开分析,如果交互行为发生的时间间隔较短,说明用户节点之间转移概率较高;反之则概率较低。基于NAUR 算法的新闻APP 信息传播溯源系统,能够在抓取数据、构建社会网络和计算节点影响力的基础上,追溯得到给定话题传播过程中的关键节点,进而顺利实现溯源。