基于K-中心轮换算法的湖南省移动互朕网网络舆情服务系统的二次开发
2016-03-31潘建明赵晓军
潘建明,赵晓军
(1.湖南交通工程学院,湖南衡阳,421009;2.湖南工学院经济与管理学院,湖南衡阳,421008)
基于K-中心轮换算法的湖南省移动互朕网网络舆情服务系统的二次开发
潘建明1,赵晓军2
(1.湖南交通工程学院,湖南衡阳,421009;2.湖南工学院经济与管理学院,湖南衡阳,421008)
[摘要]移动互联网舆情传播具有用户数量庞大,发展速度快,信息交流和传播具有泛在性、永久在线性、交流的碎片化和舆论的趋同性的特点,舆情安全变得更加复杂。舆情监控服务至少要实现大数据采集、大数据挖掘和信息源定位三个功能。当前的网络舆情服务系统数据挖掘效率低、聚类分析功能弱,利用k-中心轮换算法可以避免出现局部最优,提高聚类分析的精准度,但仍存在需要事先输入簇数、伸缩性较差等缺点。
[关键词]移动互联网;网络舆情;数据挖掘
The Second Development of Online Public Opinion Service System of Hunan Mobile Internet Based on K- center Rotation Algorithm
PAN Jian-min1,ZHAO Xiao-jun2
(1. Traffic Engineering College of Hunan,Hengyang421009,Hunan;2.Hunan Institute of Technology,Hengyang421008,Hunan)
[Abstract]Mobile internet public opinion has a huge number of users and the rapid development. The information exchange and dissemination has features of being extensive, being permanent, the fragment communicating, and the convergence of public opinion, which make the public opinion security more complex. Public opinion monitoring service at least realizes three functions of the big data acquisition, the data mining and the information source location. As the mining efficiency of the current network public opinion service system data is low, and the clustering analysis function is weak, the use of k- center rotation algorithm can avoid local optimization and improve the accuracy of clustering analysis, but there are some weaknesses: inputing the number of clusters in advance, the poor scalability, etc.
[Key words]mobile internet; network public opinion; data mining
进入新世纪以来,互联网、特别是移动互联网技术迅猛发展,并已经对我国的经济、政治和社会生活产生了深远影响。借助便捷的移动通信工具,人们在实现高效沟通的同时,构建起了一个虚拟社会。如果没有行之有效的社会约束和保障体系,虚拟社会就会陷入无序状态。从实践来看,现实社会的矛盾与冲突和虚拟社会的矛盾与冲突的相互转化和影响已经成为考验党的执政能力的新难题。如何利用先进的技术手段,及时有效地发现和防范移动互联网上潜在的危险,确保网络舆论的安全已经成为国家相关职能部门面临的一个全新的问题,并倍受国家的高度重视。基于此,本文针对湖南省的实际情况,对移动互联网数据挖掘二次开发接口和服务网络舆情的设计进行了研究与分析。
1移动互联网舆情的发展现状
近年来,湖南省互联网发展十分迅速,网民规模的增长速度一直在全国31个省(自治区、直辖市)当中位居前列,网络信息源和信息数量剧增。作为互联网的新成员,移动互联网借助不断成熟的4G技术和移动寻址技术,不断地创造发展高潮。据长沙晚报的消息,截止2015年8月,湖南省的4G信号已经覆盖了全省90%以上的国土和95%以上的人口,移动4G手机及开通4G套餐的用户都已经突破了1000万[1]。手机网民的迅速增加使得越来越多的网民通过移动终端随时关注和传播信息,各种网络信息也因此而急剧增加。如此以来,利用数据挖掘技术,及时分析网络舆情的传播特点,及时制定并实施相应的措施,才能避免出现严重的舆情危机。
在移动互联网时代,信息的传播与发布更加便捷,自媒体、草根逐渐走上了舆论大舞台,拥有了极其重要的话语权,我们已经进入了全新的公民新闻时代。新媒体给人们带来了海量的、即时性的共享信息,舆论传播也呈现出了全新的特点。具体表现为[2]:
(1)用户数量庞大,发展速度快
根据2014年湖南省电子商务报,截止到2014年12月底,湖南省的网民规模同比增幅为7.0%,达到了2579万人[3];再结合长沙晚报的统计信息,可以看到,该省的手机网民已经占据了网民总数的38.77%,手机已经成为了重要的互联网终端,并呈现出了快速发展的态势。
(2)信息交流和传播呈现了泛在性
移动互联网的快速发展,给人们随时随地实现双向交流创造了巨大机会。移动互联网终端创造了一个泛在的广域网,人们既可以实现即时的业务和通讯需求,也可以实现信息的即时传播和评论。在这种情况下,几乎每一个新闻事件都可能会被网民第一时间发布到自己的微博和微信当中。如2013年湖南临武瓜农死亡案在案发当日即被网民发布到微博当中,当日的网络参与度就超过了180万[4],纠其原因,正是移动互联网信息交流与传播的泛在性使之实现了病毒性的传播。
(3)永久在线性和交流的碎片化
借助智能手机,我国白领的手机在线日均在线时长已经达到了3.93小时,湖南长沙更是达到了4.45小时。也就是说,除了睡觉和工作各占8小时之外,手机上网时间已经占据了长沙白领阶层的一半的是时间,甚至部分网民已经实现了24小时在线[5],这就使传统的点对点、时间集中的信息传播方式受到了挑战。移动互联网用户通过智能手机,可能根据自己的时间安排,随时随地地订阅、关注自己感兴趣的信息,并即时地发表自己的观点和态度。而由于网民上网时间呈现了碎片化趋势,使得焦点事件的舆论处于永久的动态变化当中,并有可能在极短的时间内受到不同地域网民的热议,使之演变成舆情危机。
(4)舆论的趋同性使安全性变得更加复杂
移动互联网的隐蔽性使网民随意表达自己的观点而不需承担责任成为可能。由于民众对事件信息的获取更多的是依靠网络,极可能受信息发布者的感情倾向影响,出现情感倾向一致化,使少量不同意见淹没在群众的盲从之中。这就给不法分子利用网络来满足个人私欲提供了机会,使网络变成了一把双刃剑,给网络监管部门的工作带来了巨大的挑战。
2主要功能需求分析
以舆情服务为目的的互联网数据挖掘的主要用户是政府机关、企业的宣传部门和网络安全部门的管理人员,但一般来说,这些人并不会直接操作和使用舆情服务系统进行数据挖掘,更多的是希望通过系统来实现有效的监控,希望通过舆情监控服务系统来减少工作量,提高工作效率,还希望能够通过简单的操作来准确、快速地获得有效数据。面对移动互联网所产生的半结构化和非结构化为主的舆情大数据,舆情监控服务至少要实现大数据采集、大数据挖掘和信息源定位三个功能。
2.1大数据采集
海量信息的采集是数据挖掘的对象和基础。一般来说,我们都是通过网络爬虫来获得微博、网页、微信等监控内容的。考虑到移动互联网对湖南舆论产生的影响,在舆情监控服务工作当中,大数据采集应该完成两项功能,一是要从传播范围、地理位置和行业角度上保证采集对象的全面性,也就是说要从关注传播面广的网站、论坛、博客、微信等社交工具上关注重点城市(如长沙、湘潭、株洲)、重点区域(如长株潭、大湘西、大湘南等)的相关新闻,关注行业主管部门、相关协会的相关新闻;二是要保证信息采集的及时性和高频率,在第一时间内获得权威媒体(如红网、交通918、长沙音乐频道106.1等)、重点论坛(如湖南论坛、湖南红网论坛等)、微博(如新浪湖南、天天向上等)及其他自媒体(如大湘网、潇湘晨报等)发布的新闻与评论,并有尽可能高的抓取频度,以即时了解舆论的变化趋势。
2.2大数据挖掘
大数据挖掘就是要从互联网海量的舆情信息当中找出热点信息,需要完成自然语言的识别、信息检索和数据挖掘三项工作。
自然语言识别就是利用人工智能技术,借用计算机实现中文语句的断句分词,对不同场景下自然语言的歧义和多义性做辨别。现在我国的一些分词算法已经达到了令人满意的准确度,如ICTCLAS开源项目的单机分词速度接近1Mbps,准确率也达到了98.45%。信息检索就是通过索引的方式从海量的数据信息当中找到所需要的信息。一般来说,数据检索都是根据神经网络、向量空间、模糊集合等各种模型来建立索引和查询的。但不管是何种模型,都是为了将互联网舆情数据进行整理、归类,完成初步的数据处理。
数据挖掘就是通过算法找出海量数据当中隐藏的信息,常用的方法包括回归分析、分类、聚类、关联规则、偏差分析、特征变化等。不同的分析方法挖掘数据的角度是不同的,如回归分析重在分析数据组合和序列的变化趋势,分类方法重在将数据映射到分类模型给定的类别当中,聚类处理侧重于将相似度较大的数据归入同一类别当中等等。但所有的数据挖掘都是为了对完成信息检索的数据进行处理,如湖南日报2015年6月20日发布了一条微博“双峰公安查处一起利用网络散布谣言案”,被抓取和归类到“时政”类,数据挖掘技术就可以在该类数据当中找到该言论。
通过自然语言处理、信息检索和数据挖掘之后,就可以完成海量、非结构化舆情数据的归类、索引工作,将其归纳成事件。而热点事件、热点舆情则通过其标志性的关键词集合得以表达。如2015年湖南省政府工作报告中,“优化”、“调整”、“创新”、“全面”分别出现了8次、7次、40次和29次,这些关键词及其出现的频率就构成了一个向量空间,成为这一报告的简单模型。
2.3信息源定位
在完成数据挖掘,找到了热点和焦点话题之后,既要限制有害信息的扩散,也要完成信息扩散源头的定位。移动互联网环境下不同的社交工具具有信不同的息扩散模型。如微信、QQ等即时通信工具的信息传播是嵌套式的,微博的信息传播则是兼有嵌套式和叠加式的特点。如果对微博进行信息源定位,首先需要通过博主的基本资料、行为数据、关系网、发布内容和评论进行收集和建模,其次利用模式识别技术匹配热点舆情关键词和博主关键词模型寻找相似度最高的博主[5]。
3关键功能的设计与实现
3.1数据采集功能的实现
数据是网络舆情服务的源泉。移动互联网上的数据多是非结构性的,必须经过预处理或预分析才能提取其中的有效信息。以微博为例,通常用python脚本来提取用户ID、名称、性别、地点、标签等有用信息,以下为获取用户粉丝ID的代码,其他代码类似:
print“粉丝ID”
fansurl=“https://api.weibo.com/2/{0}.json?access_ token={1}&{2}={3}&
{4}={5}&{6}={7}”.format(fansmethod,access_token, ‘screen_name',‘大都会’,‘count',2000,‘cursor',1)
fansurlfile=urllib2.urlopen(fansurl)
fansuid=fansurlfile.read()
fansidlist=eval(fansuid)[‘ids']
print“获取成功”
在用户的基本信息之后,我们可以用类似的方法获取用户的微博内容。在此之后,我们还要剃除广告、导航、版权信息等无关内容,其流程如图1所示。
图1无关网络信息剃除流程图
3.2数据挖掘功能的实现
通过数据挖掘和分析,从经过预处理后的舆情素材当中发现和跟踪热点信息是网络舆情服务的关键环节,其流程如图2所示。
图2网络舆情热点分析与跟踪流程图[6]
网络舆情热点的发现实质上就是将预处理后的文本信息归入不同的话题当中,完成聚类分析的数据挖掘过程,并根据需要建立新的话题。而热点跟踪就是用户根据自己关注的事件类型来选择性地操作,由系统通过数据挖掘来实现所获得的数据的分类,并从中筛选出用户感兴趣的内容,将其反馈给用户,并根据用户的反馈信息不断地修正反馈结果,使之越来越接近用户的需求。
在舆情监控服务当中,我们将人们对于话题的关注度称之为话题的敏感度。在不同的时间段,网络话题会呈现出一定的波动和变化。一般来说,网民所关注的话题都是对应时间段内对立度上升较快的话题。但是,如果某个话题的关注人群规模较小,即便在某一段时间内观点对立度上升较快,但也不能引起多数网民的关注,无法上升为敏感话题。因此,应该从规模和观点对立度两个方面来设定舆情的预警阈值。
3.3舆情上报与预警功能的实现
舆情上报与预警是以图表之类的交互界面反馈给用户的,使用户直观地感知舆情热点和敏感信息,完成在线分析,并在必要时自动发出预警提示。
4二次开发接口的应用
5结语
目前,湖南省移动互联网正以惊人的速度快速发展,我们所面临的网络舆情形势也在不断地发生变化。因此,根据工作需要,对当前的网络舆情监控系统进行二次开发已经成为摆在我们面前的重要任务。本文当中提出了利用k-中心轮换算法来完善网络舆情聚类分析的建议,但从实际来看,仍存在需要事先输入簇数、伸缩性较差等缺点,还需要进一步改进。
[参考文献]
[1]周游,蒲芷芊.上半年湖南4G用户数破千万[N].长沙晚报, 2015-08-12 .
[2]郭路.移动互联网时代的舆情传播特点[J].科技传播,2012,(17):14,20.
[3]电子商务处.2014年湖南省电子商务报告[EB/OL].]http://www. hunancom.gov.cn/swdy/552357.htm,2015-08-1/82015-08-23.
[4]汪玲.网络时代政府危机公关策略探究——以临武瓜农事件为例[J].新闻窗,2014,(2):47-48.
[5]黄斐一,孙立军,孔繁盛等.大数据与互联网的舆情管控[J].移动通信,2014,(13):19-23.
[6]青岛新闻网.日均用4小时手机智联《2013年白领手机指数调研》[EB/OL]..http://www.qingdaonews.com/content/2013-05/ 23/content_9765396.htm,2015-08-01/2015-08-24.
[6]何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报(理学版),2010,(1):82-85.
[7]陈慧萍,林莉莉,王建东等.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008,(19):76-79.
[作者简介]潘建明(1979-),男,湖南宁乡人,湖南交通工程学院助理研究员、硕士,研究方向:区域经济。
[收稿日期]2015-9-25
[中图分类号]TP393.02
[文献标识码]A
[文章编号]1671-5004(2016)01-0005-04