APP下载

大数据环境下公安网络舆情分析与监管

2015-02-18李丽蓉和小全山西警官高等专科学校山西太原0300山西省公安厅山西太原03000

山西警察学院学报 2015年4期
关键词:网络舆情公安机关大数据

□李丽蓉,和小全(.山西警官高等专科学校,山西 太原 0300; .山西省公安厅,山西 太原 03000)

大数据环境下公安网络舆情分析与监管

□李丽蓉1,和小全2
(1.山西警官高等专科学校,山西 太原 030021; 2.山西省公安厅,山西 太原 030001)

摘要:网络已经成为信息传播的重要途径,它在给我们带来诸多方便的同时也成为一些不法分子用来实施违法犯罪行为和传播不良信息的工具,公安机关作为职能部门应当加强监管,正确引导网络舆情。当前网络舆情呈现出大数据特征,可以在常用的网络舆情分析方法及其关键技术中采用网络舆情大数据分析的思路。 (3)网络舆情分析。包括热点和敏感话题识别、主题跟踪、话题倾向性分析、主题、舆情监控及预警等功能,采用的核心技术是自然语言处理技术中的话题检测与跟踪(Topic Detection and Tracking,简称TDT)、事件跟综、自动摘要、文本分类、聚类、观点倾向性识别等,网络舆情分析系统的研判模型如图1所示。

关键词:大数据;网络舆情;舆情分析;公安机关

公安机关是政府进行网络舆情监控的重要部门,进行网络舆情的分析和预警不仅可以有效地打击利用网络进行的各种违法犯罪活动,还可以运用网络传播规律,弘扬主旋律,激发正能量,建设和谐安定的网络环境和社会环境。公安机关对网络舆情的研判和危机预警应该充分利用大数据技术,对网络舆情大数据进行数据挖掘、分析和研判,提高网络舆情管理的能力和效率。

一、网络舆情的大数据特征

人类社会的数据产生方式主要有三种:一是运营数据,伴随着各类组织的运营而被动产生;二是感知数据,由遍布世界各个角落的传感器等设备监测社会运行和环境变化而自动产生;三是人类原创数据,由人单独创作和人际互动而主动产生[1]。其中,相当多的人类原创数据是个人或某些社会群体以网络为平台,通过新闻、评论、发帖、回复等为载体对与自身相关或感兴趣的事情发表评论、意愿、意见而表现出来的舆情,即为网络舆情。

大数据(Big Data)是指无法在一定时间内用常规软件工具进行抓取、管理和处理的数据集合[2],它的范围是PB级以上,网络舆情的大数据特征包括:规模性(Volume)、多样性(Variety)、快速性(Velocity)、低值性(Value)和复杂性(Complexity)。

(一)规模性

随着云技术的发展,大量用户的数据存储在云服务器里,由于平板电脑、智能手机等移动数字通信工具的普及以及互联网的开放性,广大网民和各种社会群体可以更加便捷地利用微博、微信、QQ群、论坛、新闻跟帖等社交媒体发表观点和意见,参与社会活动,从而使得网络舆情数量急剧增长,全球大约每天产生250亿字节的新数据,数字世界的规模将越来越庞大。

(二)多样性

网络舆情呈现多样性特征,表现在:数据源有文本、图片、声音、视频等多种形态;数据源来自多种平台,如论坛、微博、微信、QQ、播客等;现代社会思想、价值观念多元化,网络上的议论话题庞大复杂,网络舆情日益多元多样化。

(三)快速性

社交媒体上的数据处于动态更新的状态,当某一事件发生后,网民之间迅速实时交流,使各种观点和意见快速传播,由此形成的舆论压力十分强大。

(四)低值性

在每天快速产生的大量数据中,真正有价值的数据密度较低。例如连续一小时的监控视频中,真正有价值的数据可能仅仅有一两秒钟。如何设计出算法从海量数据中快速高效地提取出有用数据,是在大数据环境下舆情分析需要解决的问题。

(五)复杂性

随着社交网络、移动计算、传感器技术的发展,数据产生的方式呈现出多样化,与传统数据相比表现在数据类型、数据结构、数据模式等方面复杂多样,大数据主要是非结构化数据。

二、大数据环境下公安网络舆情监管方式

网络舆情是一把双刃剑,一方面它可以形成社会监督,促进社会的公平正义和发展进步;另一方面它也会产生一些负面影响,网络舆情失实、侵权以及由网络舆情处理不当而引发的突发事件,造成了社会的不稳定,危害社会公共安全。公安机关肩负维护国家安全和社会稳定的责任,有必要对网络舆情进行收集分析、科学研判、正确引导、实时监管,在实际工作中,可以采取信息监管、技术监管、行业监管等方式。

(一)信息监管

公安机关依据公安部颁布的《计算机信息网络国际联网安全保护管理办法》,对危害国家安全和社会公共安全、有害社会价值和文化价值、侵犯公民合法权益的网络舆情信息进行分类分级监管。

(二)技术监管

公安机关采用技术手段对网络信息进行限制、扫描、分析和过滤,确保实现对网络舆情的监测和管理。

1.限制非法网站链接。中国国家防火墙(Great Firewall of China)是国家公共网络监控系统,可以对境外涉及敏感内容的网站、IP地址、关键词、网址等进行过滤,直接切断相关链接。

2.扫描网络舆情信息。主要使用各种舆情监控系统来扫描网络舆情信息。舆情监控系统是指根据已知的样本数据,通过机器学习、统计分析等方法,获得数据间的内在特性,并进一步采用数据过滤技术在网络资源中提取出用户关注的信息,形成简报、报告、图表等分析结果,帮助公安机关及时掌握网络舆情动向,进行科学研判,即时预警和正面引导,对有可能造成重大社会影响的事件快速发现和快速处理。舆情监控系统的基本流程分为:数据采集、数据选择和预处理、舆情分析。

(1)数据采集。指从网上找到数据源,包括网页、电子邮件、电子文档、网站的日志数据等。数据采集采用网络搜索引擎技术,搜索引擎是一种高效地从海量网络信息中抽取需要信息的有效工具,它的工作原理是利用网络爬虫(Crawler)工具,采用多线程并发搜索技术,访问互联网中的各个节点,从中抓取网页,再根据该网页上的链接去访问其他网页,并对抽取到的信息进行分析。目前国内外研究较多的爬虫技术主要有通用爬虫技术:从一些种子URL扩充到整个Web进行信息采集,它通常是作为门户网站搜索引擎和大型的Web服务商提供的搜索引擎;主题爬虫:抽取与预先定义好的特定主题集相关的网页,这也是当前Web信息抽取技术的研究热点。大数据环境下要解决的关键问题是提高获取数据的速度和精度以及爬取不同领域内相关联的各种不同表现形式的数据。

(2)数据选择和预处理。包括网页信息清洗、文本分词、文本表示、文本分类等。就是从采集到的数据源中清除广告链接、导航条、版权信息、重复文本等无用的噪音信息,并将网络上大量存在的非结构化和半结构化数据进行结构化处理,转换成规范的数据文件进行存储,便于进行分析处理。现阶段数据的主要存储方式是把用网络搜索引擎获取的数据直接存储在SQLServer、Oracle、Sybase等数据库中,现在的数据存储技术已经不能满足大数据存储需求。

图1 网络舆情监控系统的研判模型

公安机关利用已有的网络舆情监控系统从技术上实现网络舆情监管,近年来国内出现的比较知名的舆情分析监测系统主要有:复旦大学和上海态格信息技术有限公司共同研发的PALAS(帕拉斯)网络舆情监控系统、谷尼国际软件(北京)有限公司研发的谷尼网络舆情监控系统、北京本果信息技术有限公司研发的鹰隼网络舆情监控系统、中科点击(北京)科技有限公司自主研发的军犬网络舆情监控系统、南京绿色科技研究院研发的绿科CCLA网络舆情分析系统、北京方正电子技术有限公司研发的方正智思互联网舆情监控系统等。

这些网络舆情监控系统偏向于对网页文本信息抓取,进行信息汇总,中文语义分析技术的精确度不高,难以处理复杂的中文含义和变化多端的网络语言。另外,对于图片、声音、视频等形式的舆情信息获取能力也较弱。目前对论坛、博客、新闻跟贴、QQ群、微信等舆情的分析还是主要依靠人工分析,缺乏深度分析和研究。人工分析具有较强的人为定性化色彩,分析结果受主观感情影响较大,具有相当大的主观倾向性,发布的舆情分析报告中经常出现“网民们普遍认为”、“多数网民支持,少数网民持反对意见”等定性化的语言,舆情分析的准确性有待进一步提高。

3.过滤不良信息。互联网上的不良信息包括:反动、色情、暴力、诈骗等违反法律类信息;虚假信息、私密信息等有害社会价值和文化价值、违反社会道德类信息;含有病毒、木马、后门等危害用户网络安全的高风险类信息等。对这些不良信息采用发现机制进行过滤:一是网络设备过滤。可以在服务器前端嵌入防火墙、主动防御系统等信息过滤设备,通过硬件技术实现自动识别和拦截不良信息。二是应用服务过滤。在服务器安装应用服务程序前端数据过滤软件,通过软件技术实现自动识别和拦截不良信息。三是程序过滤。在一些访问量较大的搜索引擎网站代码中嵌入信息过滤程序,分析网站用户提交的数据,通过关键词、热点词等设置过滤条件,自动识别和拦截不良信息。

(三)行业监管

公安机关应加强对社会上提供互联网服务的营业场所进行监管,严格执行信息网络实名登记制。实现网络实名制,一方面有利于公安机关打击网络违法犯罪行为,另一方面可以约束和规范网民的上网行为,保证网络环境的健康与安全。

三、网络舆情大数据分析的主要思路

当前在网络舆情监管的实际工作中,还存在很多不足之处,随着互联网技术及其应用设备的发展,网络舆情分析技术面临着巨大的挑战,公安机关需要创新大数据舆情分析的思路,提高网络舆情监管能力。

(一)提高实时分析和挖掘网络舆情信息的效率

面对日益增长的海量信息,提高实时分析和挖掘信息的效率是利用舆情分析技术,发掘事件产生的苗头、归纳舆论观点倾向、掌握公众态度情绪,并结合历史上的类似事件进行趋势预测、提出应对建议和采取防范措施的前提。

(二)增强关联数据的分析

互联网上大量存在的是非结构化数据,数据的实时性强,大量数据是随机动态产生,真正有价值的数据密度较低。按照大数据思维,每一个数据都是一个节点,可以将用户搜索数据、点击数据、人际关系数据、网民个人特征数据、相关社会数据等关联起来进行分析,深度挖掘有价值的舆情。

(三)用大数据分析方法实现大规模、复杂分析和挖掘网络舆情信息

实现这步需要依赖复杂的分析模型,包括进行更细粒度的仿真、路径分析、时间序列分析、图分析、社会网络分析等。网络当中舆情主体间频繁互动、相互影响,少数“大V”们的意见主导,都影响着舆论方向,可以通过分析“大V”们的动向和在社会网络中的影响作用来管理和引导网络舆情。

(四)增强不良图片和不良视频信息的识别和拦截能力

网络舆情信息呈现出文本、图片、声音、视频等混合多媒体数据的传播形式,目前的舆情监控系统对于文本形式数据的识别较为成熟,对于图片、声音、视频等形式的舆情信息识别能力较弱,还缺少有效的技术手段,有待进一步增强。

(五)利用云技术存储和管理大数据

当前全国公安系统正在积极部署开展大数据警务云计算建设工作,借助云存储技术可以利用最少的工作站和服务器集群建立一个共享的结构化的信息资源平台,有效解决大数据存储问题。基于云技术的并行处理和分治算法可以使处于云中的所有计算机同时处理网络舆情中的大数据计算问题,从而降低存储成本和数据处理成本,提高舆情分析的效率。

互联网已经成为人们思想文化信息的集散地和社会舆论的放大器,同时也被犯罪分子利用作为犯罪工具和渠道,公安机关应当适应大数据环境下的新形势需要,加强网络舆情信息监管,提高舆情研判能力,正确引导网络舆论,严厉打击利用网络进行的违法犯罪行为,建设和谐安定的网络环境和社会环境。

【参考文献】

[1]李奕.大数据应用方式:从数据服务、信息服务到知识服务[N].中国计算机报, 2012-07-09(24).

[2]王海燕.营销战略是企业竞争力的核心[J].现代营销(学苑版),2010(10):16.

[3]李佳师.大数据:观念影响速度[N].中国电子报,2013-05-31(5).

(责任编辑:刘永红)

【警察行政管理】

Analysis and Supervision on Police Internet Public Opinion Based on Big Data

LI Li-rong1, HE Xiao-quan2

(1.ShanxiPoliceAcademy,Taiyuan030021,China; 2.ShanxiPublicSecurityDepartment,Taiyuan030001,China)

Abstract:Internet has become the important way to spread information, which is used by criminals to take crimes and spread bad information and brings us much convenience as well. Pubic security organs should strengthen supervision and guide the internet public opinion. Internet is characteristic with big data at present, so analyzing way with public opinion big data could be used.

Key words:big data; public opinion; public opinion analysis; public security organ

中图分类号:G631.43

文献标识码:A

文章编号:1671-685X(2015)04-0053-03

作者简介:李丽蓉(1972-),女,山西太原人,山西警官高等专科学校副教授,主要研究方向为智能信息处理、网络安全;和小全(1972-),男,山西太原人,山西省公安厅经济犯罪侦查总队支队长。

收稿日期:2015-06-11

猜你喜欢

网络舆情公安机关大数据
衡阳市公安机关党员风采剪影
公安机关处置家庭暴力案件的实证研究
“互联网+”背景下高校平安校园建设研究
对已经移送公安机关案件的当事人做出罚款的行为是否涉嫌渎职犯罪?
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
基于大数据背景下的智慧城市建设研究
公安机关刑事案件侦查中的假说、推理和证据
突发事件网络舆情的演化规律与监控