基于大数据的公安情报研究
2014-04-07杨红平
杨红平
(湖北警官学院,湖北武汉430034)
基于大数据的公安情报研究
杨红平
(湖北警官学院,湖北武汉430034)
大数据时代的来临已经毋庸置疑。大数据具有数据体量大、类型多、价值稀疏以及速度快的特征,给公安情报工作带来了机遇和挑战。未来的公安情报工作必然要面对这些机遇和挑战,只有从意识、组织、技术、制度等方面着手,方能打造大数据时代公安情报的优势。
大数据;公安情报;情报工作
党的十八大报告提出坚持走中国特色新型工业化、信息化、城镇化、农业现代化道路。当前,信息化已经成为驱动社会发展的重要驱动力,大数据作为新一轮信息战的主角,将创造无限价值,关系到从政府到企业、社会以及每个人的生活。大数据时代的到来,是人类社会由信息时代、知识时代向智能时代迈进的标志。这一时代的特征绝不仅仅是信息技术领域的革命,数据的作用将会前所未有地凸显,数据将成为国家竞争的前沿、行业创新的来源;数据以及信息技术的发展将对社会的变革发挥重大影响。因此,对于公安机关来说,基于大数据的公安情报研究显得尤为紧迫。
一、大数据的含义与特征
(一)含义
大数据是一股新的技术浪潮,也是逐步形成的历史现象,其具体是指随着信息存贮量的增多,人类在实践中逐渐认识到,通过数据的开放、整合和分析,能发现新的知识、创造新的价值,从而为社会带来“大科技”、“大利润”、“大智能”和“大发展”等新的机遇。百度百科定义为:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。
大数据概念的提出,可以追溯到1980年代,但其“数据”二字却和我们传统的理解有所不同。传统意义上的“数据”,是指“有根据的数字”。但在进入信息时代之后,“数据”二字的内涵在扩大,它不仅指代“数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等。更重要的是,随着信息技术的进步,其数量在爆炸,特别是新媒体出现之后,数据的收集、保存、维护、使用等任务,成为横跨各个领域的现象和挑战。
大数据之“大”,并不在于其表面的“大容量”,而在于其潜在的“大价值”。由于新工具的出现,从以前的小数据当中也能发现大的价值。例如,美国把二十多年的犯罪数据和交通事故数据映射到同一张地图上后惊奇地发现,无论是交通事故和犯罪活动的高发地带,还是两者的频发时段,都有高度的重合性。这引发了美国公路安全部门与司法部门的联合执勤,通过共治数据“黑点”,交通事故率和犯罪率双双降了下来。又如,有学者将白宫200多年总统洗衣服的记录电子化,然后进行分析,也得出了一些新的结论。这些数据,都是地道的小数据。这说明,小数据只要在纵向上有一定的时间积累,在横向上有细致的记录粒度,再和其他数据整合,就能产生大的价值。从这个角度来看,大数据也可以理解为针对某个对象在时空两个维度上的“全息”数据。这种“全息”,在大数据的时代还表现为“多源”,即有多个源头在从不同方向对同一个对象进行数据记录,数据之间互相印证。
大数据的意义,也远远不局限于我们当前众多新闻报道中所津津乐道的“啤酒和尿布”等通过数据挖掘、实现精准营销的故事。事实上,数据挖掘已经不是大数据领域的前沿,取而代之的是机器学习。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的历史规律和未来的发展趋势,为决策者提供参考。时下兴起的机器学习,凭借的也是计算机算法,但和数据挖掘相比,其算法不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、运行次数的增多,即通过给机器“喂取”数据,让机器像人一样通过学习逐步自我提高改善,使挖掘和预测的功能更为准确。这也是该技术被命名为“机器学习”的原因,也是大数据之所以被称为革命性现象的根本原因,因为从本质上来说,它标志着我们人类社会在从信息时代经由知识时代快速向智能时代迈进。
(二)特征
一方面,网民数量不断增加;另一方面,以物联网和家电为代表的联网设备数量增长更快。随着宽带化的发展,人均网络接入带宽和流量迅速提升。全球新产生数据年增40%,即信息总量每两年就可以翻番。这一趋势还将持续。目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。
数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大。这就是大数据热的原因。对于大数据时代,目前通常认为有下述四大特征,称为“四V”特征:
1.量大(VolumeBig)。数据量级已从TB发展至PB乃至ZB,可称海量、巨量乃至超量。数据具有完整性和综合性,包括社会、经济、政治、自然等方方面面的数据。
2.多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。数据具有开放性和公共性,产生于一个开放的、公共的网络环境之中。
3.快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。数据具有动态性和及时性,是基于互联网的及时动态数据,不是历史的或严格控制环境下产生的东西。
4.价值高和密度低(Value High and Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出,数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。
二、大数据对公安情报带来的机遇与挑战
大数据时代,所有的社会信息都是公安情报的信息源,善用信息,将会为公安情报获取带来诸多便利。在社会安全管理领域,通过对手机数据的挖掘,可以分析实时动态的流动人口来源、出行、实时交通客流信息及拥堵情况。利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。美国麻省理工学院通过对十万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规律性,进行犯罪预测。
(一)大数据给公安情报工作带来的机遇
1.全面的数据,有利于提高公安情报的真实性。从数据来源上看,大数据主要包括交易数据、交互数据和感知数据等三种数据。其中,交易数据是以SQL数据库来存储的事务性数据,来源于商业ERP、SC M、CRM和Web交易系统;交互数据主要来源于社交媒体,如微博、Facebook、Twitter、Web日志、点击流数据、电子邮件等;感知数据主要来源于物联网,如传感器、RFID、GPS芯片,是对周围物理世界的感应。这些不同来源的数据从不同方面反映社会活动的方方面面,为公安情报的获取提供了足够的情报资源。数据将成为公安机关决策和创新的基础,成为社会管理科学化的核心,能够改变公安情报的运行方式。更为重要的是,用以分析的数据越全面,分析的结果就越接近于真实,办案个人经验、长官意志将被系统数据和集体智慧所取代。
2.社会化的数据,有利于提高公安情报的精准性。长期以来,政府各职能部门之间总存在着无形的隔阂,使公安机关难以客观、及时了解社会的有关信息。大数据时代的一个重要趋势是数据的社会化,从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,到处都可以发现社会各类网络活动所产生的相关数据记录。大数据反映舆情和民意。网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴含着丰富的内涵和很多规律性信息。数据的社会化使得公安工作更加贴近民众,使公安情报人员有机会收集民众的第一手信息,近距离加强社会面管控,为公安工作提供精准的情报信息。
3.即时传播的数据,有利于提高公安情报的实时性。当前,互联网的重心逐步向着移动互联网转移。根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿,通过分析相关数据,可以了解大众需求、诉求和意见。手机上网成为人们工作和生活的一种习惯,通过智能手机、平板电脑甚至具有网络功能的照相机、摄像机等泛互联网设备所产生的信息占互联网信息总量的1/3以上。如能利用好这些即时传播的数据,将极大地提高公安情报的时效性和社会管理的反应能力。
(二)大数据给公安情报带来的挑战
首先在数据收集方面。要对来自网络包括物联网和相关信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。第三是数据处理。公安情报的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。目前,尽管公安情报工作有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,针对大数据的公安情报分析方法尚需创新。
三、基于大数据的公安情报研究策略
当前社会违法犯罪信息技术变化快、隐藏深,利用科技犯罪更容易造成大范围危害和影响。这要求公安系统必须有效利用先进的设备和工具等技术手段,应对当前高科技犯罪行为,为人民安居乐业和为社会经济健康发展保驾护航。公安机关部门、警种繁多,造就了数据的海量化和类型的多样化,针对互联网信息、生物特征信息、图片、语音等大数据处理分析,是当前公安信息化建设的重点。不断加大包括公安内部的信息数据、社会资源和互联网资源信息的整合以及数据的深度挖掘,是公安信息化发展的方向。
(一)提高认识,树立基于大数据的情报意识
尽管大数据的迅速增长及相关技术的发展正在带来全新的机遇,但仍有很多人对大数据及其价值认识不够清楚。对大数据认识的不足,无疑会使公安情报工作落后于时代的发展。实质上,大数据是数据产生的速度和数量超出了人们数据处理能力而孕育的一个新概念,是数据发生从量变到质变的一个标志。大数据的兴起,正在促使公安机关审视数据战略,希望从大数据分析中挖掘更多的情报。事实说明,大数据的使用正成为公安机关服务民生的一种重要方式。可以预计,在不久的将来,善于利用和挖掘大数据价值的将会成为公安机关工作的主流方向,忽视或者反应迟钝的情报工作者将会处于落后被动的地位。
大数据是我们必须面对的一波汹汹大潮。公安情报人员需要正视大数据带来的机遇与挑战,转变思路,熟练掌握各种大数据分析技术,以便在第一时间捕捉社会变化,再以最快捷的方式推送给决策者,在最短时间内获知社会管理动态。如果采取无所作为、固守原状的鸵鸟政策,那么将使公安情报沦为鸡肋,最终失去存在的意义。
(二)加强培训,组建基于大数据的公安情报团队
大数据能够转化为可操作情报的前提条件是具有大数据分析能力的人才。从原始数据到公安情报的提炼过程,不仅是对IT技术人员的挑战,也是对业内专家的挑战,因为数据间的关联性已不完全都是技术问题,有些关联只有专业人员才能知道,必须在有关专业人士的帮助和解析下,才能建立起合理的数据结构。也就是说,未来的公安情报分析需要IT技术人员和公安业务专家的共同合作。因此,需要采取灵活的策略来建立大数据相关的人力资源储备。如加强技术培训。传统式查询、检索和报告方法难以适应大数据时代的要求,对于很多情报工作人员来说,亟需引入更多的特定技术培训,如Hadoop、MapReduce和NoSql等大数据平台的培训,让他们掌握熟悉下一代专业知识的方法和技术;加强统计学和分析学方面的培训,掌握在大数据平台上进行情报分析的理论、方法和工具;增加金融和市场营销等领域的业务技能培训,增强公安情报人员对未来业务的洞察力。
(三)拓展技术,构建基于云计算的公安情报系统
从技术的角度来看,公安情报系统要实现对大数据的处理,除了要充分运用MapReduce、NoSql、Hadoop等大数据技术之外,在基础构架上需要满足以下几点:容量足够大,可容纳Pb级数据;强大的分析能力,具有集成分析以加速高级分析建模和操作化流程;反应速度快,支持低延迟数据访问和决策。这使得公安机关在硬件和软件方面的成本压力巨大,而且会与日俱增。因此,公安机关必须考虑有关大数据利用的可行性和成本的问题,重新审视公安情报系统的构建策略。
云计算是一种将分布式计算、网格计算、并行计算以及互联网结合起来的全新的IT资源提供模式,可以实现IT资源的自动化管理和配置,降低IT管理的复杂性,提高资源利用效率。云计算具有“资源共享、快速交付、按需服务”等三个显著的特征。这三个特征能够有效地缓解大数据带来的冲击:资源共享。资源和存储能力的池化共享和管理,为大数据提供最基本的生存基础;快速交付,超大规模的计算资源集成赋予了用户前所未有的计算能力,提高了大数据分析的反应速度;按需服务,云计算中软、硬件资源以布式共享的形式存在,可以被动态地扩展和组合,为数据的实时应用环境提供可能性。以云计算为基础的信息存储、分享和挖掘手段为情报分析提供了工具,而通过对大数据分析、预测会使得公安情报更加精准,两者相得益彰。构建在云计算基础上的公安情报系统不仅成本低廉,而且具有以往无法想象的存储能力、分析能力和快速反应能力。
(四)完善制度,加强基于大数据的公安情报安全机制建设
技术的进步为大数据的存储与处理扫清了障碍,大数据已经成为公安机关的重要资源。然而,如果不能妥善保护这些资源,尤其是一些公安核心信息,一旦被泄露出去,将会带来重大的损失,造成“大数据就是大风险”的可怕后果。情报安全不仅是一个技术问题,更是一个管理问题。因此,大数据环境下,公安机关除了要从技术上实现反黑客、反病毒、防窃盗等方式来抵御外来入侵者的威胁,更需要重点加强在信息安全保障体系、信息资源共享制度、机密信息保护、信息审计等方面的制度建设,从管理上杜绝核心数据和秘密被泄露的漏洞。一是信息安全保障制度。建立公安机关信息安全风险评估的流程和规范;建立符合国家信息安全保障的信息安全保障体系;建立日常安全运行与维护机制。二是信息资源共享制度。包括设置信息密级,明确每个密级的信息传播范围;制定相关信息的存取、流转、借阅、复制等方面的规定;对于存储在云端的数据,按信息重要性级别,实施信息分“云”存储。三是机密信息保护制度。建立关键信息的识别机制,定期更新机密信息范畴;设置机密区域,减少机密信息的接触者和传播环节;机密信息进行加密;制定机密信息存储的安全规定,四是信息审计制度。构建统一的安全监控和审计防信息泄露的信息审计流程;建立信息审计与监控工作组,负责对整个信息资源系统进行安全监测与评估;确定信息审计的范围,制定信息审计的周期,定期对系统运行、用户操作等进行安全评估。
[1]黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].国书与情报,2012(6).
[2]李广建,杨林.大数据视角下的情报研究与情报研究技术[J].图书与情报,2012(6).
[3]陈伽明.大数据时代的挑战、价值与应对策略[J].移动通信,2012 (17).
[4]刘高勇.大数据时代的竞争情报发展动向探析[J].图书情报知识, 2013(2).
[5]吴金红.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1).
D631
A
1673―2391(2014)02―0006―04
2013-09-23责任编校:边草