基于热点话题分析的网络舆情信息挖掘方法
2021-02-27文银娟李文娟赵静魏彩霞郭文龙冯月华
◆文银娟 李文娟 赵静 魏彩霞 郭文龙 冯月华
基于热点话题分析的网络舆情信息挖掘方法
◆文银娟 李文娟 赵静 魏彩霞 郭文龙 冯月华
(甘肃中医药大学定西校区理科教学部 甘肃 743000)
网络舆情热点话题在提取的时候需要运用到复杂的网络理论,同时需要使用复杂的算法罗列出其中的重点信息。网络舆情领域当中的分析技术主要分为两个方面的内容。其一是根据具体内容进行分析,其二是依据信息数据进行分析,这两种技术是极为传统的,在运营的过程中也没有结合现代网络特性而加以完善。针对以上的问题,需要对舆情分析领域进行更加具体的拓展,积极应用网络化的方法来解决相关问题。页面节点的设置将以舆情网络为重点内容,并将链接关系作为主要的支撑点,这样才能从根本上构建出符合当代复杂网络情况的舆情传播网。工作人员能够及时发现网络中的舆情热点。将维基百科中所存在的各项数据作为所使用的仿真数据集合,机采用新颖的数据提出方法,能够将其中潜在的相关领域热点内容挖掘出来。从仿真结果上能够了解到,两种方法在使用的时候都能够有效完成网络舆情热点的收集工作。真正获得具有实际价值的舆情热点话题。
网络舆情;热点话题分析;下载数据;信息挖掘
随着互联网技术在社会中的积极运用,各种形式的信息技术均得到了完善。网络在这样的发展环境中逐步凸显出了隐蔽性的特点,同时具有虚拟性和开放性。所以,舆情信息的收集需要运用更加复杂的计算程序。仅仅依靠人工进行相关信息的统计和监测将难以获得更加精确的信息。因此,怎样才能够在海量的信息数据中搜集到最有价值的舆情信息,需要相关领域的学者进行多方面的思考。将宝贵的工作经验和崭新的技术手段加以有机融合。让关键性的舆情信息能够在最短的时间内搜集起来。在近些年中,网络领域的舆情信息挖掘技术已经得到了社会各界的重点关注。其具有的优势是十分鲜明的,运用的范围也极为广泛,无论是进行各种信息的安全保护处理,还是对主题舆情信息加以跟踪,都能够积极利用这种信息技术,同时还能够对热点话题加以监测。本文针对网络领域的舆情信息挖掘技术加以多方面的考究,为舆情监测工作提供最有参考价的信息。
1 信息采集与分析过程
1.1 采集数据,提取热点话题
在进行信息挖掘工作之前,技术人员首先要做的便是对样本数据进行精细化的分析。这样才能够为接下来的工作打好坚实的基础。工作人员需要进行数据信息的统计,并根据文件类型的不同将其分为两类。一类是能够反映舆情主题的关键性文件,也就是所谓的热点话题文件,它其中所包含的内容能够真正体现出当前形势下的舆情关键点,其展现出的发展曲线也能够真正符合现阶段的舆情发展趋势。这种文件对于信息挖掘是具有重要意义的,需要相关工作人员进行重点关注。而另一类则是普通的下载文件,其中所包含的内容也是五花八门的,但是并不能彰显出现阶段的舆情特点。这类文件的下载曲线处于较为平缓的状态。并不会存在热点话题所具有的明显曲线特征。因此,在进行样本数据准备工作的时候,工作人员一定要根据曲线特征来判断下载文件的类型。这样才能够在众多的下载文件当中真正提取到热点话题文件,从原有的基础上提升工作效率,让样本数据准备工作能够开展得更为迅速。
1.2 数据整理、分类评估
在做好了样本数据采集工作后,工作人员所需要做的便是进行数据挖掘的训练。在广泛搜集到热点话题相关信息后,工作人员还要利用更加先进的技术提取其中所涵盖的重点信息,这样才能够将原本复杂无序的数据信息内容整合成规律性的训练集。持续链级的价值是极为重要的,能够为后续的工作打好基础。将各类测试数据进行合理分类,并对其中存在的价值进行科学评估。
1.3 开展数据信息测试工作
接下来,工作人员所需要做的便是对互联网上的热点话题文件信息进行挖掘,并对文件类型加以分类。在实施分类标准的时候,便可以将文件系统化的组合成不同的训练集,进而更加科学合理的对所有需要测试的数据加以归纳,在实施完信息挖掘工作后,互联网领域的热点话题都会自动生成一个分类标签。这样工作人员便可以极为直观了解到每种文件的主要类型,提取热点话题文件的工作效率将会得到显著提升。
2 常用舆情信息挖掘方法
依据上述的信息挖掘步骤,工作人员在实施舆情挖掘的时候能够使用的技术有以下几种类型。其一是爬虫网页解析技术,其二是分类技术,其三是聚类技术,其四是数据处理技术[5]。在这些技术当中,分类技术使用效率是较高的,在分类技术当中还有诸多的应用方法供工作人员进行使用,经常使用的有中心法、支持向量机法,以及k最近邻算法等。本文主要针对k最近邻算法进行重点分析。
K最近邻算法又称之为KNN算法。根据这种算法所具有的性质,可以将其分类为非参数性的分类算法。在当今社会当中,这种算法已经被积极应用到了各种数据信息的挖掘工作当中。该技术所包含的核心思想可以简单地阐释为假设每一类信息当中包含的数据样本数量是巨大的,同时每个数据样本又有唯一的评判标准将其进行合理分类。此时便需要计算等待分类的样本X相似程度与训练样本中的数据信息呈现出怎样的状态,并且寻找与X最为相近的样本数量k。这样工作人员便能够依据k个样本的类别进而确定X应该归属到哪个类别当中。
KNN算法所具有的优势是极为显著的。首先,这种算法的原理十分通俗易懂。在实施的时候也不会让工作人员面临很大的工作挑战。其次,KNN算法在使用的过程中,虽然严格遵守了极限定理,但是待分类文件所具有的相似度特点只与相关的相似样本文件有关联性,所以此类算法在使用的过程中能够从根本上避免样本不平衡情况的出现。另外,相似度在计算的时候能够根据样本所具有的特征加以考量,进而在最大程度上减少了工作人员采用特征不当所造成的计算误差。
但是,KNN技术在本质上依旧属于一种具有懒惰性质的学习方式。当所要分析的数据信息分布情况并不均匀的时候,或者存在严重的倾斜现象的时候,其中涵盖的样本信息数据的特征会呈现出频率增长的特点,这会直接影响到KNN算法的精确程度。另外,KNN技术在使用的过程中需要对训练样本进行逐个计算。
3 网络舆情热点话题的曲线相似度
3.1 统计日信息增长量
工作人员需要对每天的数据信息增长量加以统计,并将该日的信息数据量与前一天的信息数据量加以比对,这样才能够真正消除两种曲线的量级差别。信息日增长率的计算方式为:
公式中N表示时间点的信息量。
3.2 增长向量
工作人员依据曲线所呈现出的特点能够将每日增长率计算出来,同时可以将曲线变化一个周期所需要消耗的时间作为向量(设10天为一个周期)。因而定义曲线增长向量为:
={1,2,…,R,…,10}
上式反应了10天内的信息曲线增长情况,公式中R=(|)表示到时间段的信息增长量。
3.3 舆情信息热点话题曲线相似度
在计算曲线相似度的时候,工作人员采用日常工作中广泛应用的余弦夹角算法。该算法在使用的过程中,将每个文件夹中的向量信息进行单位化处理,随后就要进行内积计算,计算出的数据信息结果可以严格控制在0-1之间。曲线相似度的计算方法为:
公式中RZL表示热点话题文件曲线向量,YZL表示网络舆情文件曲线向量。通过精细化的计算后可以了解到,热点话题的曲线增长趋势于网络舆情文件的曲线增长趋势具有很大的相似性[5]。由此可以得出一个结论,热点话题文件和舆情文件之间存在必然的关联性。因此工作人员在今后的工作过程中,需要对热点话题进行深刻分析,将其中所具有的数据信息加以精细化了解。这样能够从根本上判断出舆情的发展趋势走向。在今后的工作过程中,也能够积极利用这些话题信息当中的各项数据来挖掘真正具有价值的舆情信息。
3.4 改进KNN算法
KNN算法需要进行进一步的改进,这样才能够更加精准的搜集到热点话题,并了解这些话题文件的下载走势,更好地挖掘到网络舆情信息。其主要的改进步骤如下。首先,工作人员需要计算出待分类数据所具有的特点,并将其余样本数据进行相似度(XSD)上的比较。其次,工作人员需要在了解到相似度特点后,在样本数据中寻找出十个与待分类数据信息相似度最高的数据,随后需要将这十个样本数据进行具体分类。最后,这一数据分类便是待分类数据样本所应该归纳到的分类类别。
4 舆情信息挖掘的实验结果
工作人员在执行舆情挖掘工作的时候,可以将其中的数据信息记录在WEKA平台上。WEKA平台上包含了大量的学习算法,并且能够将各项数据信息进行预处理,随后将信息进行分类,归纳总结。测试数据的运用能够进行舆情信息的挖掘,并且可以将各个数据进行精细化的分类。让工作人员能够直观察觉到各个文件的类别,工作人员能够在众多的文件当中寻找到最为需要的热点话题,切实了解到现阶段的网络舆情现象,了解到舆情事件的发展趋势。
因此,热点话题所具有的特点能够彰显出网络舆论的走势,让受众能够了解到真正的网络舆情现状。工作人员需要竭尽所能地在众多的网络信息中挖掘出最具有价值的数据信息。同时工作人员还需要具有敏锐的判断能力,这样才能够在诸多的信息当中了解到何种舆情信息是真实可靠的。最后,有一部分舆情文件的下载发展曲线特点,虽然能够和网络舆论事件的发展趋势相吻合,但其并不属于网络舆情,舆情发掘结果也会存在一定的误差性。造成这种现象的主要原因可能是热点音视频文件数量的激增,但这种情况是极少数的。工作人员在实行工作任务的时候,只是要注意将这类文件筛选过滤即可,这样就能从根本上保证舆情信息的真实准确性,让热点话题分析工作可以具有实际的效果。
5 结语
综上所述,在网络舆情信息挖掘工作的基础上,本文主要对热点话题文件的下载工作流程和意义进行了分析,并将其与网络舆情所具有的关联性加以科学合理的整合,详细介绍了KNN算法在此项工作中的重要价值。让舆情信息发掘工作能够开展得更加顺利。通过对热点话题下载趋势的分析,可以寻找到最具有实际价值的舆情主题,促进了网络领域舆情监测工作的进步。
[1]刘润奇,贺兴时,南夷非,王博.网络多媒体数据中舆情关联主题的挖掘方法[J].深圳大学学报(理工版),2020,37(01):72-78.
[2]高宾,王兰成. 基于Apriori数据挖掘算法的网络舆情信息索引研究[C]. 中国索引学会、复旦大学图书馆.2019年中国索引学会年会暨学术研讨会论文集.中国索引学会、复旦大学图书馆:中国索引学会,2019:72-77.
[3]姜玉坤. 舆情热点信息挖掘技术的研究与应用[D].天津大学,2017.
[4]刘继,李磊.大数据时代网络舆情信息集成机制研究[J].电子政务,2015(02):39-45.
[5]杨琳,张德贤,唐亚娟.基于热点文件下载的网络舆情信息挖掘方法研究[J].中国新通信,2014,16(14):116-118.
[6]衣波.网络舆情信息的话题发现和追踪技术的研究与应用[D].广东工业大学2013.
甘肃省高等学校科研项目(项目编号:2018A-179)