APP下载

B站热点话题初步分析与挖掘设计

2020-08-04姚凯译

数码世界 2020年7期
关键词:相关性分析聚类

姚凯译

摘要:对B站的个体视频综合影响力与整体影响两个方面提取热点话题因素进行聚类与耦合度分层计算,对热点视频进行话题相关性分析与话题挖掘研究,通过不同维度的线性关联,可对实时热点话题进行简单挖掘,或基于某一话题来计算整体热度。对青年人的信息传播与商业推广具有指向作用。

关键词:B站  聚类  耦合度分层  相关性分析  话题挖掘

前言

随着国内主流媒体的入住B站,传统媒体与新兴媒体混合发展,推动信息与话题的多样性,使信息量更大,层次更多。但在B站如此海量数据提取相关有价值的热点话题与用户关注点并非易事。同样从大量用户基数找到其高认同度的关注点与兴趣点具有极大的商业价值,通过相关性可发现潜在用户规模,进行产品服务推广。

1 数据选取

B站主流信息传播为视频创作,而计算机难以直接发现视频中的相同共性。所以视频信息采集点为视频基本内容,用户互动率与潜在影响力,推导价值信息。选取视频范围应为近期发布,或发布时间已久但依旧存在播放高增长率。

其视频基本内容,用户互动率与潜在影响力分别定义为维度F1 F2 F3。

其中F2维度存在预期模型值,实时值,趋于稳定值,F3存在基础值与不确定性的附加值具有实时性变化。但具体F2的实时性质如何进行主导性定义?这时就需要引入时间轴这一维度T。可以说时间维度T可以定义视频影响力何时趋于稳定。

2 模型设计元素与原理组成

2.1视频个体影响力

同一时间段收集的视频信息,视频的实时影响力与最终影响力会出现不同偏差。所以考虑传播影响力时,要作出对未来影响力的综合考量。

此时定义离发布时长为T,综合影响力为M,ε为误差。设时间维度存在T1

当T

当T1

当T2

当T3

2.2视频标签与话题关联匹配

如果个体视频中维度F1的信息符合时下热门话题,F2的最终取值也会相对应提高,其产生的综合影响力M也会相应提高。判断F1中的热点是否对整个F2的产生具体影响时,可以追溯UP主往期投稿数据,如果其新视频影响力远高于往期视频集的加权平均值,可认为新视频内容中存在热点话题与标签,但不可以排除样本数据过少,或该视频超水平发挥。

定向话题占比权重为hi(i=1,2,3...n),则该话题权重计算为

(A为相关系数,这里根据研究结果取1.32;c为与话题相关标签词;F1 数据取总标签数)。当数据大于1时,权重视为1;权重大于0.81,可认为视频与话题高相关;权重小于0.31,话题相关性低,可进行共性忽略(不参与话题整体计算)。

而话题关联标签词可进行人工定义或机器进行数据聚类判断。前者多用于大量视频中发现热点话题,后者多通过标签发现共性话题。如图:

h1=1.32c1/F1=0.935(ci=5,F1=7)尽管有些标签并没有出现在人工库中,存在误差,但依旧认为视频与话题高相关。

但如果单一通过标签关键词来进行匹配判断就会引发其他问题:同源不同类视频相互匹配,话题匹配杂化。如此时存在另一同类视频:

h2=1.32c2/F1=0.528(c2=4,F1=10),即使视频的话题权重占比高,数据上表现高关联性,但实际上是对同源话题中的共性元素匹配,这对某一话题的整体研究中会产生巨大误差,结果不是研究者希望看到的。

所以在匹配标签关键词时,建立高耦合度相关性判断词库(多为特有)与中耦合关联度词库(具有共性元素)。如先对标签词进行高耦合判断匹配,如果相关性hi>0.31,再与中耦合词库匹配,将其相加得新相关度hi可用于整体话题热点计算。否则因相关性低,不认为存在关联,后续不进行相关热点计算。如建立词库如下:

此时h2 <0.31,该视频不参与此定向话题的整体热度计算。基于耦合分层匹配最大的优势是提高相关性匹配率与降低时间复杂度,实现更高效更精准的话题匹配。

2.3词库聚类迭代与新建

单一人工定义话题关联词无疑工程量巨大,且人工词库时常存在缺失遗落,容易导致整体视频话题影响力计算误差偏大。简单聚类算法可以更加高效对非词库词是否具有关联性产生判断。

2.4话题整体热度分析

整体话题分析计算不能只单一进行各视频个体影响力加权累加,而是要对头部视频进行部分约束。每个视频对不同话题存在不同关联度,一个视频可以与多个话题产生关联,参与多次热度计算。在计算话题整体影响力时,更多对高个体影响力视频进行约束,避免统计的基尼效应。

3 仿真试验

通过以上设计对B站生活、科技、动漫区三区,其排行榜前20名热门视频进行不定向话热门题挖掘,发现其生活区搞笑类,科技区时政类,动漫区配音类与抖音相关方面热门话题重合率高达分别为74%,63.8%,58%。

同时在针对某类化妆产品进行定向话题挖掘时,可以较为精准的得出该类产品在各类化妆产品中的热点排行榜与对其感兴趣人群的大致规模。对商业产品推广与产品人群定位有极大的帮助。

4 结束语

在整個B站话题热点研究中,通过各方面数据的线性组合,对非线性研究对象进行简单分析。算法上简单聚类算法高效完善词库降低与实际差值,而耦合分层使话题误差减小。再对耦合度词库规划越细,相关关联度阈值不断调整后,可以从话题总影响力得出关注话题人群相关规模。同样对生产高个体影响力的视频博主进行分析,创造出合适的合作商业视频,也可以对产品推广有不小的帮助。对信息传播分析,市场挖掘起到指向性帮助。

猜你喜欢

相关性分析聚类
K-means算法概述
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
数据挖掘的主要技术
滨州市城区苔藓植物主要重金属含量的调查与分析
上市公司财务指标与股票价格的相关性实证分析
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究