基于区块链技术的网络舆情观点树挖掘研究*
2021-03-06王飞,姜鑫
王 飞,姜 鑫
(甘肃政法大学网络空间安全学院,甘肃 兰州 730070)
区块链技术的应用越来越普及,社会舆情事件迅速在网络上传播、扩展、衍生,甚至引发网络舆情危机。
由于单一的网民观点极性或者观点强度不能充分描述网民观点对网络舆情的影响,因此从网络舆情出发,对基于区块链技术的网络舆情中的观点树进行挖掘并展开研究。
1 基于层次划分的观点树挖掘
1.1 层次划分的方法
1.1.1 层次划分的主要方法及其优缺点
在层次划分过程中,应用较多的是自顶向下的方法,这种方法也称局部法,指的是在类别树中每一层都构建一个或多个分类器,每个分类器在其所在层工作,从根节点开始,逐层向下进行分类,直到到达叶子节点[1]。
层次划分的优点在于,它较平坦的分类可以获得更高的准确率,并且更能够准确地描述出类与类之间的隶属关系[2];其比较明显的缺点在于,一次分类错误就会影响后面每一步都出错,也就是 “一步错,步步错”。
1.1.2 面向网络舆情的观点树挖掘方法
网络舆情具有很强的时变性和环变性[3],为了进一步挖掘出网络舆情信息,本文提出一种面向网络舆情的观点树 (opinion tree)挖掘方法,进一步向下进行分类,实现观点属性的挖掘,从而基于层次划分思想构建观点树,并提出一种观点树的网络舆情层次信息表示的方法,构建网络舆情事件的观点树。
此树逐层向下展开,以此将某一网络舆情事件的观点极性、观点强度、观点属性构成观点树,并最终构建面向网络舆情的观点树挖掘模型。网络舆情危机关注者能够针对所关注细节内容,查看观点树中的任何一个节点[4]。
而网络舆情挖掘的过程实际也是一个网络舆情信息观点倾向分类的过程。在这个分类过程中,文档概念类别之间存在着层次关系,即观点极性分类下包含观点强度分类,观点强度分类下包含着观点属性分类[5]。
1.2 观点树的构建
1.2.1 观点树的构建过程
观点树的构建过程主要有3 种[6],以下分别予以介绍。
1)第一种:整体至上而下。首先,在主题确定的情况下,进行第一层粗粒度观点挖掘 (Opinion Mining,OM),得到关于主题的3 种观点 (正面、负面和中立)。其次,对正面、负面两种粗粒度观点进行中粒度OM,得到支持和反对的观点强度。最后,对各个等级的观点强度进行细粒度OM,得到某种强度观点的观点属性。
2)第二种:先确定根节点,再进行自下而上的观点树构建。首先,基于某一舆情主题下进行细粒度OM;其次,在细粒度观点的基础上再进行中粒度OM;最后,在中粒度观点的基础上进行粗粒度OM,整棵观点树构建完毕。
3)第三种:观点树的构建过程和前两种不同。首先,构建观点树的根节点;其次,根据预警指标的需要,构建观点树的第二层枝节点,即进行中粒度观点挖掘;最后,构建观点树的第一层枝节点和叶子节点。
1.2.2 观点树的构建步骤
事实上,观点树的构建是一个层次划分观点树挖掘 (Hierarchical Opinion Tree Mining,HOTM)算法。该算法的输入为待划分文档di和层次划分结构H=<C,≤>,输出为文档所属类别。
采用该算法,观点树的构建步骤如下:首先,预处理,层次特征选择;其次,根据各层的划分器对文档进行划分;最后,对待划分文档从最顶层划分器把文档依次分到其他多路径中,并给出文档的最终类别。
1.3 观点树的挖掘
具体观点树的挖掘步骤如下。
1.3.1 粗粒度节点
粗粒度节点值的计算公式为
粗粒度节点的解算,在于将正向态度、负向态度、中立态度等观点极性挖掘出来,以此了解网民观点中各种态度的分布情况。
1.3.2 中粒度节点
中粒度节点值的计算公式为
事实上,对于一件网络舆情事件而言,较极端的高强度网民观点对整个网络舆情所起到的推动作用更大,更能够影响其他网民的观点。因此,可以对较极端的高强度负向观点进行放大处理。
1.3.3 细粒度节点
Ahneg由Nhneg个二元组元素<对象,高强度负情感词>构成;Amneg由Nmneg个二元组元素<对象,中强度负情感词>构成;Alneg由Nlneg个二元组元素<对象,低强度负情感词>构成。
2 网络舆情观点树挖掘的实验与结果分析
2.1 网络舆情观点树挖掘的实验设计
选择3 个网络舆情事件 (分别标记为事件1、事件2 和事件3)在人民网强国论坛和微博等一些国内主流网络平台中的相关帖子,作为该实验数据来源。
2.2 网络舆情观点树挖掘的观点分析与结果分析
2.2.1 网络舆情观点树挖掘的观点分析
表1 为网络舆情观点树挖掘结果,显示了实验过程中分别对事件1、事件2 和事件3 进行挖掘之后的粗粒度节点值和中粒度节点值。
在3 个事件中,获得的负向观点持有率分别为76.8%,65.7%,25.3%。
2.2.2 网络舆情观点树挖掘的结果分析
第89 页图1 为事件1 的发帖总数折线图。网络舆情观点树给出了事件1 的各种粒度节点,网络舆情监控者可以根据各个节点值,对网络舆情事件的整体状况掌握透彻,能够判断事件1 的影响,并采取相关的管理措施。
如在事件1 中,仅仅对人民网强国论坛上的帖子进行统计,就可以发现其帖子总数在一段短时间内呈迅速上升的趋势。
在图1 中,横坐标为日期,纵坐标为帖子总数。抽取人民网强国论坛中一个月的帖子进行观察,通过曲线可以了解到该事件所引发的帖子总数并不是特别大,也没有达到经验值所设定的5 000 个(这一经验值可以根据实际情况放大或者缩小),这需要对网民观点进行进一步的挖掘。通过对负向观点持有率、各种强度的负向观点持有率以及观点属性的分析,从而判断事件1 的影响程度以及进一步走向。
图1 事件1 的发帖总数折线图
因此,这样一棵观点树能够反映出整个网络舆情状态,较好地表示了网络舆情,并且观点树可以实现网络舆情的量化。
面向网络舆情的观点树挖掘研究,实现了对网络舆情状态的挖掘,为网络舆情趋势提供量化基础,并提供进一步研究的基础。
3 结束语
在区块链时代,海量数据为网络舆情决策提供了充足的数据参考,但是基于区块链的网络舆情决策的价值并不在于数据的容量大小,就数据本身而言,它并不能自动成为高效的生产要素。只有经过加工、挖掘、分析的数据,才能充分释放其价值。
为了规避基于区块链的网络舆情决策的技术风险,需要不断创新基于区块链的网络舆情决策的数据采集、挖掘、分析和使用技术,为网络舆情决策提供更加可靠的数据。为基于区块链的网络舆情决策提供更加成熟、可靠、安全的技术支撑。