APP下载

网络舆情信息挖掘关键技术分析

2021-04-04郝云强尹雪雪

信息记录材料 2021年3期
关键词:倾向性关键技术舆情

刘 娟,郝云强,尹雪雪

(山东医学高等专科学校 山东 临沂 276000)

1 引言

网络舆情信息挖掘是指借助相关信息处理技术,识别、提取舆情文本中的热点词汇、倾向性词汇,为舆情引导工作提供依据的信息挖掘活动。借助挖掘活动配套关键技术,能够增强信息挖掘质量,提高舆情工作效果,因此,应对关键技术予以深入分析,并总结出优质的技术应用方案,促进舆情工作水平的发展。

2 TFIDF权重计算法

TFIDF权重计算法的应用常见于搜索引擎的信息挖掘,但在网络舆情信息挖掘中,则一般用于信息检索权重计算。其中,TFIDF中的TF代表词频、IDF代表反文档频率,由此可以看出,该项关键技术的主要思想为,若某一词、字在某一篇文本中的词频较高,而在其他文章中出现频率明显减少,那么即可认为该字、词,具备良好的区分能力,可以用于分类文章。基于此,在网络舆情信息挖掘中,该项技术的应用原理为,利用统计的形式,评估某个字、词,在一份网络文件内容中的重要程度,以便于工作者识别该篇文本的舆情关键字、词,实现网络舆情信息的收集、提取,为舆情引导工作提供依据。在舆情信息挖掘中,TFIDF权重计算法会按照字词出现的具体位置,来评估其的重要性,例如:在词汇重要性评估中,该算法会认定标题、首尾处出现的词汇,其重要性高于正文段落中出现的词汇,以准确找出表现该文章舆情倾向的关键词,达到舆情信息挖掘的目的。

3 文本聚类法

在网络舆情信息挖掘中,文本聚类法是一项常用的信息挖掘关键技术,其应用机理为,基于文本数据的不同特征,将文本群划分为不同数据类型的小文本群,以达到数据挖掘的效果,使同类舆情内容、倾向的文本被归纳到一起,方便工作者全面了解网络舆情状态,促进舆情工作决策活动的准确开展。从本质上来说,该项技术的运行方式,类似于无监督的学习机,无需工作者对算法程序进行训练,也不用提前标注文档类别,因此,其在实际的信息挖掘应用中,呈现出了较高的灵活性与自动化水平,提高了网络舆情信息挖掘效率。就目前来看,该算法的运行步骤为,首先,收集网络舆情信息文档。其次,采用词频统计、停用词去除等方法,构建出所收集文档的文本表示。第三,基于文本表示,结合对相似度的衡量,搭建聚类模型,对文本加以分类。第四,对分类结果进行验证分析,得出最终的舆情信息聚类挖掘结果。

4 ICTCLAS分词法

该技术是由中国科学院计算机技术研究所研发的,其运行主要依赖于ICTCLAS系统,该系统作为当前在网络舆情信息挖掘中,应用比较广泛的中分词系统,使ICTCLAS分词法逐渐成为了网络舆情信息挖掘关键技术。其中,该技术的信息挖掘机理为,利用层叠型隐式马尔科夫模型,对本文信息进行切分、标注、命名等操作,以达到词汇识别的效果,为后续的深度挖掘奠定基础。目前,已经有专家对该系统进行了测评,结果显示,该系统的分词准确率可达97.58%,分词与标注处理速度可达534.5KB/S,由此可见,ICTCLAS分词法具有良好的使用性能,有助于网络舆情信息挖掘水平的提升。此外,该技术的应用系统,以及动态链接库、概率词典,都能在官网上找到免费下载链接,因此,基于该技术的信息挖掘工作成本也比较低。

5 粗粒度情感倾向性分析技术

在网络舆情信息挖掘中,粗粒度情感倾向性分析技术主要用于文本的舆情倾向分析,相较于上述信息挖掘关键技术,该技术的挖掘层次更深。在此过程中,该技术的信息挖掘机理为使用语义角色标注对文本中的各个句子进行语义识别,得出句子中情感词的布局状态、句子与主题的关联程度,最终得出文本的舆情情感倾向信息,实现信息挖掘。在此过程中,该技术会借助相应的算法与程序,将文本中所有的干扰句、客观句进行筛除,然后针对剩下的句子,按照上述信息挖掘机理,进行逐句的舆情倾向分析,整合出整篇文本的舆情倾向状态,帮助工作者快速地了解网络舆情状态,以便于其采取相应的舆情引导措施,来改善网络舆情情况,净化网络舆论环境[1]。

6 细粒度情感倾向性分析技术

细粒度情感倾向性分析技术也属于一种网络舆情倾向信息挖掘关键技术,该技术的信息挖掘程序为,首先,基于常规的领域,建立相应的领域特征库,然后采用相似度计算的方法,结合现有同义词资源,充实每个特征下的相关词汇库。若所提出领域非常规,那么则需要对基本特征类进行自定义,再对其配套词汇库,予以词汇扩充。其次,以句子为单位,定位每个特征类的舆情倾向,再基于此,计算出文本信息中每句话的情感倾向值。最后,得出文本整体的情感倾向值,实现情感倾向的挖掘,实现对网络舆情信息的深度挖掘。从整体上来看,该项技术的信息挖掘过程,相较于粗粒度情感倾向性分析技术更加复杂,但该技术能够分析出更加精细的舆情信息,因此,现阶段该技术的应用更为广泛[2]。

7 结论

综上所述,增强信息挖掘技术应用效果,有助于网络舆情工作的稳健推进。在网络舆情方面,采取网络舆情信息挖掘关键技术措施可以找准舆情关键词、实现舆情信息分类、降低信息挖掘成本、提高舆情现状掌握效率、精细化舆情倾向分析结果,从而确保网络舆情工作得以顺利达到预期效果。

猜你喜欢

倾向性关键技术舆情
小麦春季化控要掌握关键技术
棉花追肥关键技术
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
成功育雏的关键技术
老苹果园更新改造的关键技术
舆情
舆情
舆情
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异