基于大数据的热点话题舆情分析系统设计
2022-11-16郑楠昱
秦 洋,郑楠昱
(佛山科学技术学院,广东 佛山 528051)
0 引言
2021年2月3 日,中国互联网络信息中心公布的《第47次中国互联网络发展状况统计报告》显示,截至2020年12月,我国网民规模达9.89亿,较2020年3月增长8 540万,互联网普及率达70.4%[1]。网络是信息传播的载体,而在这个信息高度发达的时代,舆情已经变成了汪洋大海。网络舆情在这种环境下的舆论导向作用异常明显。在当前的网络环境下准确、及时地对网络舆情的发展动态进行监控、预测和控制变得尤为重要。
2013年8月19 日,习近平总书记在全国宣传思想工作会议上提出,在当今社会关系重构的社交媒体时代,要建构我国科学有效的社会舆情管理体系,必须正视舆论生态新变化,树立大数据观念,善用大数据技术预测和引导社会舆论。本系统基于大数据,运用人工智能、深度学习、多元统计等技术,对热点话题数据进行分析,针对热点话题的热度和情感倾向进行展示,使用户精准、及时地把握和预测舆情的走向。
1 系统应用场景
1.1 热点话题
本系统主要针对当下热点话题的舆情进行分析。实事热搜,热点舆论,往往是都是舆论的战场。网络的多途径又大大降低了人们发言成本,人们踊跃地在各大平台发言。知乎、微博都有热点话题的栏目,人们在热点话题的舆论中,影响着舆论的同时也被舆论影响。
1.2 海量数据需求
我国网民数量众多,通过网络的载体,每一个热点话题在不同平台都能产生大量的数据。单纯的人工采集、抽样调查等方式已经满足不了需求。本系统利用分布式爬虫技术从多个平台的多个相关话题点获取大量的舆情数据。因为需要海量数据,全面宏观把控舆情为数据的质量提供了保障。
1.3 舆情监管效能
本系统将结果进行可视化,最终将舆情分析结果呈现出来。有助于公安、监管、权力等部门,进行实时监控,把握舆论的走向,对舆论做出相应的引导,防止公共事件的发生。有助于协助企业的舆情监测,为公关处理提供决策依据,避免舆情持续发酵损害企业利益[2]。
2 系统功能
2.1 舆情热度
本系统舆情热度主要集中于时事热点、头条话题。本系统从微博、百度贴吧、今日头条等多个网络社交媒体平台进行话题提取,通过各大平台的话题热度排序,如微博的头条排序等等,按照时间梯度进行热度分析,以多平台、多层次、多角度等方式对同一热点话题进行多维分析,从而形成一定程度上的客观热度数据,便于本系统的舆情检索及舆情分析。
2.2 舆情情感倾向
本系统对于热点话题的舆情走向的情感分析和精准把控,主要通过褒贬倾向性分析技术来发现舆论走向,以舆情事件的扩散路径、舆情不同时间节点的传播趋势变化和评估报道在社交媒体的扩散情况等进行分析研判,同时也从传播焦点、舆论热议的焦点、媒体聚焦点、舆论关注矛盾焦点等方面进行深层次解读,主要形成热点话题情感倾向的积极与消极的二者偏差,实时把握舆情话题的情感倾向和舆情走向,便于对舆论倾向进行实时监控和有效引导。
2.3 动态监测及展示
本系统主要以实时动态的形式进行舆情监测,能够根据用户的需求,灵活高效地进行用户个性化配置,通过系统提供定性定量的舆情分析数据,准确研判具体舆情或者某一舆情专题的发展变化趋势,从而自动生成舆情报告和各种统计报表,提高舆情管理的质量和效率,辅助用户掌握舆情动态,及时进行有效决策,并提供分析依据。
3 技术框架
3.1 数据采集与预处理
数据的来源既是舆情分析的数据基础,也是把握舆情的质量保证。针对各大网络平台的主要对象可能有着年龄段、兴趣领域等不同的特点,本系统采用分布式的爬虫技术,针对同一相关热点话题,对不同的网络舆情平台进行相关数据爬取。相关数据涉及话题点赞评论数、参与人数、评论内容、评论时间等。利用HDFS分布式存储系统对其进行存储。再利用数据清洗相关技术排除诸如“水军评论”、无效评论等噪音的干扰。
3.2 自然语言处理
自然语言处理技术是舆情分析当中最为主要的技术手段。本系统结合百度AI舆情分析技术与深度学习LTSM+Attention模型对话题的评论进行情感倾向分析。主要利用了百度AI情感倾向分析技术,调用其API,可直接对话题评论进行大规模打分。
由于自然语言处理技术对于应用场景较为敏感,所以面对热点话题的多样性以及实时性,单纯利用百度AI情感倾向分析API就没有很高的适应性。针对此问题,可采用深度学习LTSM+Attention模型,针对热点话题涉及的场景领域进行训练,具有较强的泛化能力。但因其训练成本较大,所以将其作为百度AI分析结果后的热点话题舆情结果的修正。
3.3 舆情评分模型
本系统的舆情评分系统主要展示了热度和情感倾向两个方面。热度分析的主要属性集中在点赞评论数和评论的时间属性上。运用贝叶斯平均法和牛顿冷却定律的结合方法对话题的热度进行评估,并对热点话题的热点词条进行提取。
通过自然语言情感分析技术,可以得到不同网络平台的多个相关话题点的多条情感分析结果。再将海量的情感分析结果进行综合。本系统利用威尔逊区间法从单条情感分析结果维度、不同话题点维度、不同网络舆情平台维度3个维度进行评分计算,得到单个热点话题的初始总分。为避免不可靠评分导致评分结果之间差异过大,可以采用贝叶斯平均法对3个不同维度以及不同的热点话题进行评分修正,得到热点话题的最终情感倾向得分。
3.4 数据可视化
舆情分析肩负着实时监控,及时把控的使命。所以,及时为用户提供可视化较好的舆情分析结果至关重要。本系统采用Django框架,前端结合Echarts制图工作,对后台所提供的实时舆情分析结果进行Web端的可视化呈现[3]。动态地、多角度地展示舆情分析的相关结果,如热点话题词云图、热点话题情感变化曲线、热点话题分布散点图等,很好地起到了舆情可视化监测的作用。
4 结语
该系统能够快速有效的区分出网络中的各个热点话题的舆情情况,通过数据可视化的手段,将此类数据更加直观地展示给决策者,从而对舆情风向进行一个判别。舆情分析为决策者提供及时、准确、客观、全面的舆情信息,让决策者弄清或测验信息中本质性的事实和趋势,协助决策者做出决策。
未来,随着我国的物质水平不断发展,人们的思想也会越来越开放。那时人们对于舆情态势了解的需求更高,而企业、国家对于舆情的重视也将会越来越高。随着相关技术的不断发展与深入,舆情分析技术也在更多的领域大展拳脚,展现出更为强大的活力。