APP下载

基于数据挖掘技术的网络热门舆情分析

2020-11-25吕波

电子技术与软件工程 2020年18期
关键词:热门舆情数据挖掘

吕波

(雅安职业技术学院 四川省雅安市 625000)

据最新统计结果显示,截止2020年3月,中国网民规模达到了惊人的9.04 亿,普及率上升到64.5%,并且伴有延展之势。宏观信息化时代生态下,互联网技术不断发展成熟,并日益深入到人们生产生活的各个领域,甚至成为了不可分割的一部分。在高度开放的互联网虚拟空间,用户的身份角色发生了巨大变化,有了更加广阔的发声渠道,更是加剧了不同国家之间的跨文化传播,日益成为复杂意见的集散地、舆论的温床,给相关监管工作提出了严峻挑战,数据挖掘技术在其中的应用发挥了重要作用。

1 相关概念释读

1.1 数据挖掘

在当前信息化引领的社会发展新潮下,技术创新达到了一个新的顶峰,包括互联网、大数据、人工智能等,进一步便捷了人们的生产生活,并产出了巨大的应用价值。数据挖掘技术作为现代科技创新的重要成果,是一种数据处理的技术,从大量的、不完全的、模糊的、随机的数据中提取有用信息和知识的过程。综合来讲,数据挖掘是一个循环往复的过程,其中的每个步骤如若没有达成预期目标,则需重回前面的步骤调整并执行。尤其是知识经济时代,各学科之间的交叉渗透趋势明显,信息总量激增,且更新速度加快,人们的需求取向已由简单的获取发展为个性化、专业化,网络舆情亦是由此变得更加个性化、专业化。面对海量数据的淹没,人们却仍然感到知识饥渴,数据挖掘技术则由此应运而生,并蓬勃发展而来,应用范围不断延展,显示出了强劲的生命力。从某种意义上讲,数据挖掘技术被视作为是知识发现技术在数据库领域中的应用。在现实的技术创新语境下,数据挖掘的技术支柱愈加繁多,包括数据库、人工智能、数理统计等,均能辅助人们进行更为合理、准确且富有针对性的判断,从而提高了网络热点舆情信息的处置效率。

1.2 网络舆情

根据百度百科的相关释义,所谓网络舆情即是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,通过互联网传播的公众对现实生活中某些热点、焦点问题所持有的较强影响力、倾向性的言论观点。有学者对此进行了较为科学的总结,认为“网络舆情以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合”。在如今互联网络高度发展的社会情态下,网络舆情的表现形式趋于多样,包括新闻评论,BBS 论坛、微博、转帖等,其本身庞大的受众基础,使之对政治生活和社会稳定的影响与日俱增,并深刻影响着人们的认知结构,一旦处理不当,很有可能引起民众的负面情绪甚至过激反应,是威胁社会稳定、和谐的重要因子。尤其是全球一体化生态格局下,互联网高度的开放性,打开了世界各国的信息交互通道,网络舆论成为了西方资本主义攻击中国特色社会主义的一大“利器”,是国家和人民关注的焦点。互联网与生俱来的开放性和虚拟性,使得网络舆情呈现出了直接性、随意性、多元化、突发性、隐蔽性、偏差性等特点,亦是给相关治理造成了较大的难度。

2 基于数据挖掘技术的网络热门舆情分析

2.1 关联

在数据挖掘领域,R.Agrawal 率先提出了关联规则,即两个或以上变量的取值之间存在某种规律性。作为数据挖掘最成熟的技术之一,关联分析可以发现一个事物中某些属性同时出现的规律和模式,并通过其内在的隐含特征建立关联。事实上,多数关联规则挖掘算法都能够毫无遗漏的发现所隐藏在对象数据中的关联关系,并总结出一类重要的知识,其目的就在于找出隐藏在数据库中的关联网。一般来讲,按照其运行机理的差异,关联规则又可分为简单关联、因果关联、时序关联等几类,核心参数指标包括可信度、支持度、作用度以及期望可信度。与此同时,当用前两项参数度量关联规则的相关性时,一般还涉及兴趣度、相关性等参数,作为一种补充限定条件,可最大限度满足数据挖掘需求。当支持度越高时,关联规则的重要性愈加突出,应用则更加广泛,折射出了其在所有事务中的代表性。基于关联规则技术的网络热门舆情分析,可以帮助人们从纷杂的数据信息以及行为现象中找出其所产生、变化的内在影响因素,最终得出网络热门舆情变动规律与影响因素之间的相互关系,对于其更加深层次的引导处置有着重要的现实意义。

2.2 聚类

所谓聚类即是指把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,从而使同一子集中的成员对象具有一些相似的属性,其并非一种特定的算法,而是一个大体上需要解决的任务,即探索性数据挖掘的主要任务。面对复杂多变的网络热门舆情,聚类分析可在不预先知道目标数据库到底有多少类的情况下,尽可能将所有记录划分为不同的类,并以某种度量为标准的相似性,在同一聚类内最小化、不同聚类内最大化,从而建立数据属性之间的相互关系。在商业领域,通过聚类分析,市场分析人员可以从庞杂的消费数据库中提取不同的消费者信息,并总结概括具有相似习惯的消费群体,针对性地输出服务,实现精准营销。而正是基于数据挖掘技术的这一优势功能,网络热门舆情分析中,可以对复杂多变的大数据系统进行聚类,亦可对网络用户进行聚类,从而得出相似的特征,以便于进一步的研究和应对。在此过程中,聚类的度量标准既可以是信息的使用情况,又可以是信息内容的特征。在数据挖掘技术高速发展的今天,聚类分析的方法有很多种,包括根据数据类型、聚类目的、应用情况的方法,亦有基于密度、基于网格、基于模型的方法等。

2.3 分类

作为数据挖掘的主要任务之一,分类分析是找出一个类别的内涵描述,其代表了该类数据的整体信息,并与其他数据区别开来,从而构造规则或决策树模型,现今发展已然相当成熟。对此,知名学者李志聪认为,“分类的目的是分析输出数据,通过在训练集中的数据表现出的特性,为每一个类找出一种准确的描述或模型,由此生成的类描述用来对未来的测试数据进行分类”。从这个层面意义上来看,分类与聚类有着较高的相似性,均附带有明显的数据分类分组功能属性,并根据一定条件对海量数据库信息进行筛选分组。但是两者有存在明显的差别,分类主要是根据预先设定好的特征参数对数据对象进行分组。基于分类的网络热门舆情分析,可以需求为导向,对海量数据信息进行初步筛选,并根据设定的需求核心,如民生问题、突发事件、公共安全等进行分组,为下一步的工作展开铺垫了基础。正是基于此,可进一步有效缩小数据挖掘的范围,从而避免了盲目搜索,对提高网络热门舆情分析的效率和质量作用显著,从而抽离出更加精准、有意义的价值信息,是迎接海量、碎片化干扰的重要技术方法。

2.4 时序

时序模式可视作为关联规则在考虑时间因素后衍生出的产物,是根据数据信息发生的时间序列进行升序或降序排列,并整合分析出重复发生概率较高的事件。基于数据挖掘技术的网络热门舆情分析,可充分运用时序功能,并搭配预测功能,实现更好地监控预警,继而对社会运行接近负向变质的临界值的程度所做出初步确定的早期预报。在现实生活中,一些危害社会公共安全、稳定、和谐的不良事件发生整个过程,从发生之前到最终结束,都会伴随有一定的现象,并可通过海量网络数据信息的收集分类,针对性地预判。基于此,可结合分类分析反馈的数据结果,对该类数据进行有规律的预测或优先等级排序,继而制定更为详尽、可行的网络热门舆情处置计划,有所侧重的逐级推进,可达到最佳的不良事件预防和控制效果。与此同时,数据挖掘中的时序功能,还有利于及时掌握网络热门舆情的发展动态,推动着网络热门舆情处理从即时处置向事前预警模式的转变,有助于进一步遏制很多事件向消极面的演变发展,相对精准地预测网络用户的倾向和意愿,及时封堵各类有害信息传播。通过网络热门舆情的时序分析,在其大规模爆发之前,充分发挥官方网站的先发优势,快速应对,以正视听。

2.5 偏差

在整个数据挖掘系统中,偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离,包括很大一类潜在的有趣知识。通过偏差分析,可及时查找出数据库中的异常信息,通过寻找观察结果与参照之间的差别,发现网络热门舆情中的异常情况,继而予以处置。早在2008年发生的“3.14 事件”中,西方媒体不约而同地刊载了一张西藏公安武警解救被袭击民众的照片,并将之生硬地说成是抓捕行动,完全忽视了照片中救护车上大大的“急救”二字。这种张冠李戴的现象在西方媒体的报道中比比皆是,明显的偏差,造成了恶意炒作、蓄意煽动舆论的影响,显示出了其明确的反华立场。偏差分析在网络热门舆情研究中的应用,其核心价值就在于识别虚假信息和不良信息,并进行及时的批判,从而纠正其中存在的偏差,让造假、诽谤等不攻自破。由此看来,基于数据挖掘技术的网络热门舆情分析,在偏差分析的功能辅助下,不仅可以治理既已发展的不良舆论,引导正确的走向,且有助于及时、准确地海量数据中与网络热点事件相关的真实信息,包括权威发布、相关评论、网络论坛等,从而形成正面舆论,通过多样化手段或多种渠道予以引导。

2.6 预测

所谓预测即是利用历史数据中找出的变化规律,建立专用模型,并藉此来预测未来数据的种类及特征等,继而总结出未来可能出现的结果。在此过程中,通过对历史数据的分析,找出其中隐藏的、未来可能发生的进行提前预判,为网络热点舆情的后续处理做充足准备,其核心关键在于精度和不确定性,一般可利用预测方差进行度量。基于预测的网络热门舆情分析,应当是一个系统化的组织过程,在具体的工作践行中要事先做好组织和指导,明确导向目标,并成立专门的参加专家团队,其带表面要广泛,一般包括设计、生产、管理和决策等多层面的人员,他们本身有着丰富的实践经验和理论知识。在此基础上,对其所反馈的意见信息进行汇总、梳理、统计和分析,最终得出预测结论。从某种维度视角上,预测即是趋势分析,根据德尔菲法应当组织四轮征询调查和反馈。其中,第一轮的调查并不限制条件,只提出需要预测的问题。第二轮调查则对上一轮提出的事件发生时间、空间、规模等进行详细预测,并给出相应的理由。第三轮与第二轮内容相似,只是加以修订,给出更加详尽的理由及相关理由。第四轮得出最终较为精准的结果。

3 结语

总而言之,基于数据挖掘技术的网络热门舆情分析十分重要和必要,是现实语境下的必然选择,作为一项庞杂的系统化工程,包括关联、聚类、分类、时序、偏差、预测等,以便于进一步稳固社会基础。作者希望学术界大家持续关注此类课题研究,结合实际情况,立足现实社会发展语境,从不同维度视角提出更多有效基于数据挖掘技术的网络热门舆情分析策略。

猜你喜欢

热门舆情数据挖掘
基于并行计算的大数据挖掘在电网中的应用
热门智能手机应用
舆情
舆情
疯狂猜图
舆情
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
微博的舆情控制与言论自由
2009年热门特色风味小吃