从棱镜计划看大数据时代下的情报分析*
2014-04-14化柏林
化柏林
(北京大学信息管理系 北京 100871)
·专题·
从棱镜计划看大数据时代下的情报分析*
化柏林
(北京大学信息管理系 北京 100871)
棱镜计划自被曝光之日起,就受到了世界各方面的广泛关注,而大家关注的焦点主要集中在个人隐私与保护上,其实棱镜计划针对哪些大数据、通过哪些分析、实现了何种战略目标,更值得关注与讨论。文章从情报分析的视角剖析了棱镜计划的数据基础、分析过程与方法、实施目标,进而对大数据时代下的情报分析进行探讨。
棱镜计划大数据情报分析
1 引言
曾供职于美国中央情报局(CIA)的技术分析员爱德华·斯诺登(Edward Snowden)于2013年6月将美国国家安全局(NSA)关于棱镜计划(PRISM)监听项目的秘密文档披露给了《卫报》和《华盛顿邮报》,引起了大家的广泛关注。围绕美国情报监视的相关讨论、分析和评论可谓铺天盖地,指责美国家安全局侵犯公民隐私、非法窃取外国情报的批评声音成为关注与讨论的焦点。然而,作为情报研究人员,反以思之,如果我们拥有这些大规模数据,是否能够完成相应的情报分析?面对这些大数据与情报任务,该如何开展工作,经过哪些步骤,需要运用哪些方法?这些问题也同样值得我们深思。
PRISM是一项由NSA自2007年起开始实施的绝密电子监听计划。该计划的正式名号为“US-984XN”。根据报道,泄露的文件中描述PRISM计划能够对即时通信和现存资料进行深度的监听。许可的监听对象包括任何在美国以外地区使用参与计划公司服务的客户,或是任何与国外人士通信的美国公民。NSA在PRISM中可以获得电子邮件、视频和语音交谈、影片、照片、VIP交谈内容、档案传输、登录通知,以及社交网络细节等。《总统每日简报》里很多报告都使用了来自PRISM的资料。
与此同时,大数据研究计划主动公开。2012年美国奥巴马政府发布了“大数据研究和发展倡议”,正式启动“大数据发展计划”,并为此投入两亿美元以上资金。该计划将提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,推进和改善联邦政府部门的数据收集、组织和分析的工具及技术,以提高从大量、复杂的数据集中获取知识和洞见的能力,强化美国国家安全,协助加速科学、工程领域创新步伐,转变学习和教育模式。
把这两件事情关联在一起,我们不禁想到,如何针对大数据进行有效地分析与处理,更好地挖掘出有价值的情报,为国家的战略规划与制定提供必要的情报支撑,可能这才是从情报视角看PRISM的重点。鉴于此,本研究将深入剖析PRISM的数据基础、分析过程与方法、实施目标,从情报分析的视角全面展示PRISM,并对大数据时代下的情报分析进行探讨。PRISM在大数据与战略目标之间存在一个黑盒,而揭开此盒就需要剖析大数据情报分析的过程与方法(见图1),这正是本文的研究重点与价值所在。
图1大数据情报分析示意图
2 数据基础
2.1 数据来源
“棱镜”项目监视范围很广,参加PRISM的公司有近十家,包括(按加入项目的时间)微软(2007年)、雅虎(2008年)、Google(2009年)、Facebook(2009年)、Paltalk(2009年)、YouTube(2010年)、Skype(2011年)、美国在线(2011年)以及苹果公司(2012年)等(见图2)。这些公司都是典型的大数据公司,通过不同的方式掌握着海量用户的信息。
图2 加入PRISM的公司编年图
在数据的采集方式或来源方面,当前的大数据主要包括访问日志采集、社交网络数据、过程行为数据、传感网络数据、智能终端数据,移动终端、视频采集、语音通话等数据。数据获取技术的革命性进步、传感器等自动采集的数据、Web2.0等用户生成数据(UGC)以及移动设备生成的数据(位置、移动和行为信息等)等多源数据使得数据生产迅速、数据存量庞大。大数据的特点包括数据存量大且增长迅速、数据类型繁多结构复杂、价值密度低等。
2.2 数据类型
受到NSA信息监视项目“棱镜”监控的信息主要有10类:电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节(见图3)。NSA可从公共、商业等来源扩大通讯数据,来源包括银行代码、保险信息、社交网络“脸谱”档案、乘客名单、选举名册、GPS坐标信息,也包括财产记录和未具体说明的税务资料。来自交易、业务往来、事件和电子邮件等的内部数据能够为组织提供有价值的洞察与分析。
图3 美国PRISM监控的主要数据类型
技术的发展极大地扩展了信息的传播媒介和传播能力,印刷媒介(报纸、杂志、宣传册等)、电子媒介(电视、广播、电影、电话等)、网络媒介(社交网站、视频分享网站、博客等)、展示媒介(陈列、橱窗、广告等)和其他媒介(政府数据、航拍图片和学术信息)等形成了多位一体的公开信息来源渠道。据美国中央情报局统计,2007年的情报收集总数中超过80%来自公开信息。公开信息有多种渠道与来源,把不同渠道、利用多种采集方式获取的具有不同数据结构的信息汇聚到一起,形成具有统一格式、可以面向多种应用的数据集合,称之为多源信息融合。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在价值与情报。因此,综合利用多来源、多形式的数据是现代科学决策的鲜明特点。“兼听则明,偏信则暗”,多维度、多数据源的分析才有说服力。
2.3 数据规模
PRISM的每个数据源,其数据规模都是巨大的,是典型的大数据。如Facebook有10亿节点和千亿连边,YouTube月独立访问人数超过8亿,Google每天都会收到来自全球超过30亿条的搜索指令,每个月处理的数据量超过400PB。Yahoo!数据中心的Hadoop云计算平台有34个集群,总存储容量超过100PB。据美国《连线》杂志报道,NSA正在盐湖县与图埃勒县交界处建造一个新的数据中心,这个“数据中心”占地48万平方米,耗资17亿美元。在这个巨大的“数据中心”里,有四个25000平方英尺的大厅将用来存放服务器,NSA每6小时可以收集74兆兆级字节的数据,如此计算下来,这些收集的未经编辑原始数据几乎每24小时便能填满4个美国国会图书馆。
PRISM中较好地体现了大数据,而大数据存在、产生并应用于很多领域。从数据存量的角度,一般认为PB以上级别的数据就可称之为大数据。维基百科将大数据定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。万维网具有超过万亿的统一资源定位符(URL),淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB。百度公司目前数据总量接近1000PB,每天大约要处理60亿次搜索请求。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天都产生大量的数据。根据赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB(1ZB等于1000EB),年增长达67%。而麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计达到35ZB。如何处理超大规模的网络数据、移动数据、射频采集数据、社会计算数据,已经成为科研学术界和产业界亟待解决的关键科学技术问题。
3 情报分析
3.1 分析理念
邦弗朗尼原理表明并非给定数据集和挖掘任务就肯定能挖掘出合理的结果,因此,分析就变得很重要。数据具有累积性和关联性,单个地点或单一来源的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立地点聚集在一起时,他的隐私就很可能会暴露,因为有关他的信息已经足够多,这就是PRISM中大数据的原理。例如,通过Google的检索日志可以获取用户关注信息的兴趣点以及关注热点的变化,通过Facebook、paltalk等社交网站可以了解用户的人际网络与活动动态,通过微软、Yahoo!可以掌握人们联机工作的时间、方式以及内容等。而把这些信息融合到一起,可以较为全面地认识并掌握某个用户或某类群体的信息行为特征。
大数据时代在数据分析理念上有三个转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。大数据处理的一个重要逻辑就是将价值含量较低的海量数据进行价值凝练和萃取,在不失代表性的前提下进行数据简化处理。亚马逊的推荐系统用更快更便宜的方式找到数据的相关性,梳理出了有趣的相关关系,但并不知道背后的原因。在大数据环境下,知道“是什么”就已经足够,不必非要弄清楚“为什么”。
情报分析的理念在大数据时代也需要做出相应的调整与转变。如何有效地利用好大数据,从中分析出有决策价值的情报,值得我们关注。大数据时代下的情报研究应从单一领域情报研究转向全领域情报研究、综合利用多种数据源、注重新型信息资源的分析、强调情报研究的严谨性和情报研究的智能化五个方面。
3.2 分析流程
传统的情报分析流程包括计划与指示、搜集、分析与处理、报告撰写、研究传递等过程。大数据环境下的情报分析流程除了原有的过程之外,更加强调信息搜集与分析处理,具体包括:情报需求定义、情报计划制定、信息检索与数据采集、多源信息融合与清洗、信息分析与内容挖掘、信息展现与情报提炼、报告撰写与情报传递等一系列过程(见图4)。
图4大数据时代下的情报分析流程
大数据时代的情报分析,首先要明确情报任务的类型,确定情报任务的主题,分析情报任务的情境,捕捉情报用户的特点,然后把情报需要转化成情报需求,并明确地给予定义。在明确了情报需求以后,根据需求确定情报流程、构建指标体系、计划情报时间、组建情报队伍、选择合适的研究方法、选配相应的技术与工具。根据情报任务计划确定信息检索与数据采集的来源渠道、范围、规模、类型,然后制定收集策略并实施收集,对收集的数据结果进行评估,包括数据规模、时效性、真伪等。对数据进行预处理,把多种来源、不同结构的数据进行融合,重复的数据进行过滤、对重名、别名等问题进行识别、数据拆分提取、查漏补缺、数据降维等一系列操作。经过预处理的数据可以进行分析挖掘,形成有决策支持或参考价值的情报报告,在恰当的时间以合适的方式把准确的情报传递给正确的人。
3.3 分析方法
如何针对特定的情报需求,快速地获取准确数据、高效地分析海量数据、清晰地解读系列数据是情报工作者面临的严峻挑战。应对这一挑战,需要敏锐的思维以及专业的工具与方法。通过关联分析、聚类分析、孤立点分析、模式分析、网络分析、异常分析、时序分析、演化分析等一系列方法挖掘出有价值的情报。例如,通过模式分析可以识别某种罪犯的犯罪模式,通过关联分析可以分析恐怖分子的活动网络,通过聚类分析可以聚类某一类用户并分析该类用户的特征,根据爆发词分析可以分析关注热点甚至预测流感爆发的时间与地点。在科技情报领域,针对论文、项目等数据,通过统计排序、数量分布统计、年度增长统计、关联规则等实现关键人物发现、重要机构识别、国家实力对比、前沿热点监测等,根据这些结果可以判断科学技术发展各要素及总体的现状与趋势,并进一步分析出机遇和威胁,从而把信息变成情报。
4 结果与目标
4.1 棱镜计划的战略目标
据外媒报道,NSA自2010年11月起开始准许以海外情报意图来分析电话以及电邮记录,监视美国公民交友网络。根据NSA 2011年1月的备忘录,政策转向目的是在帮助该局“发现并追踪”海外情报目标和美国人民之间的关联。该文件指出,NSA得到授权,可在不检查每个电邮地址、电话号码或任何指针的“外来性”情况下,“大规模以图表分析通讯原数据”。在泄露的秘密文档内的一页幻灯片中,显示了两种数据来源:PRISM和Upstream(另一个监听项目的代号)。PRISM是从上述美国服务提供商的服务器直接进行收集,Upstream项目则在承载互联网骨干通信内容的光缆上安装分光镜,复制其通信内容。英国的政府通信总部(GCHQ,与NSA对应的信号情报(SIGINT)机构)最早从2010年6月起就能访问PRISM系统,并在2012年使用该计划的数据撰写了197份报告。
PRISM的目标不是关注某个普通民众的个人隐私,这对国家战略没有实质的意义。大数据其中一个特点就是价值密度低,普通民众的个人隐私信息对于国家的宏观治理并没有太大的价值,真正有价值的是普类群体特征或个别关键人物的活动信息。PRISM的主要战略目标可能包括以下几个方面:恐怖主义人物与活动的监测、预测犯罪行为模式与频率、部分国家领导人活动与政策动态、国际合作谈判所需的数据与情报支撑、新的战略新兴产业与机会发现、某些国家的不安全因素挖掘等等,这些都是国家战略。例如,通过关键词筛选、用户联系频率与地点与恐怖袭击可能存在的联系、不正常现金流向的分析,也许能从中找出“恐怖袭击”的蛛丝马迹,并进行有效的预测与预防打击。
4.2大数据分析的目标
奥巴马政府发布的“大数据研究和发展倡议”旨在提升利用大量复杂数据集合获取知识和洞见的能力,提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,协助加速科学、工程领域创新步伐,强化美国国土安全,转变教育和学习模式。还将在科学研究、环境保护、生物医药研究、教育以及国家安全等领域利用大数据技术进行突破。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。国土安全部项目主要推进可视化数据分析,应用领域主要为自然灾害、恐怖事件、边境安全、网络威胁等。
大数据虽然表面上是个技术术语,但实际上已经渗透或将要渗透到社会生活、经济运行、国防军事、科学技术等各个方面。数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。大数据是人们获得新的认知、创造新的价值的源泉。大数据还是改变市场、组织机构以及政府与公民关系的方法。当前大数据应用领域处于领先的是Amazon、Google、Facebook等美国新兴网络企业。他们已经开始通过基于云计算的平台,汇集来自互联网、无线标签、全球定位系统(GPS)、智能手机等采集的大量数据,经过分析后用于客户信息管理或者市场营销活动。IBM拥有一个5000人组成的数据分析团队,帮助石油企业更高效地勘测、开采和炼制石油。通用汽车投入15亿美元收购大数据分析公司,以充分挖掘多个数据点,找到有效的途径,延长燃气涡轮、喷气式发动机和其他重型设备的运行时间,同时也不必进行不定期维护。
我国当前在大数据等方面有一批有一定优势的企业,如电信企业、商业银行、腾讯、阿里巴巴、百度等。大数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像飘浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。而挖掘出这冰山下面的隐藏价值,可以实现很多目标。大数据从不同视角反映人物、事件或活动的相关信息,把这些数据融合汇聚在一起进行相关分析,可以更全面地揭示事物联系,挖掘新的模式与关系,从而为市场的开拓、商业模式的制定、竞争机会的选择提供有力的数据支撑与决策参考。
4.3大数据时代的情报目标
一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。如在赛博战领域如何利用大数据分析(Big Data Analysis,BDA)实现赛博态势感知、在电子战领域如何利用BDA实现有源与无源情报的分类与融合等。此外,随BDA而来的诸多新类型情报也有待进一步研究,如移动情报、云情报、社会情报、大数据情报等。
在大数据时代,情报人员需要围绕情报任务与需求,广泛搜集各类相关信息、运用多种工具与方法进行内容分析,监测其中的新现象、新情况、新异常,并根据蛛丝马迹发现其中的规律、本质、战略意图等,并将这些内容“填充”到情报分析结果的模式中,或按预定的模式组织所发现的内容,形成情报分析报告。这样的情报对于企业来讲可以服务于产品研发、市场开拓、技术合作、人才争夺等活动,实现跟踪竞争对手的动态、分析战略部署,把握主要趋势与次要趋势,厘清长期战略与近期目标,从而完成趋势判断、动向感知、前瞻预测、情景研判等情报目标,实现“耳目、尖兵、参谋”的情报功能。
5 结语
通过上述分析,本文认为,PRISM的真正目标并不在个人隐私与保护上,而是如何运用大数据提升科学决策与发展战略。大数据时代数据来源广泛、结构类型复杂、数据规模庞大,如何有效地获取、融合并进行关联、聚类、孤立点、模式、网络、演化等一系列分析,从中发掘出有价值的情报,为战略决策提供全面准确、客观有力的支撑与参考服务,是大数据时代情报分析的重点,也是情报从业人员的关键能力所在。
[1]汤镕昊.从“棱镜门”事件看美国的情报监督机制[J].情报杂志,2013,(9):6-10,22.
[2]方兴东,张笑容,胡怀亮.棱镜门事件与全球网络空间安全战略研究[J].现代传播(中国传媒大学学报),2014,(1):115-122.
[3]储昭根.浅议“棱镜门”背后的网络信息安全[J].国际观察,2014,(2):56-67.
[4]李娜.“棱镜门”暴露大数据时代隐私危机[J].科技导报,2013,(18):9.
[5]维基百科[EB/OL].[2012-10-22].http://zh.wikipedia. org/wiki/US-984XN.
[6]Big Data Across the Federal Government[EB/OL].[2012-10-22].http://www.whitehouse.gov/sites/default/files /microsites/ostp/big_data_fact_sheet_final.pdf.
[7]中国日报网.斯诺登再曝美监控公民细节(图)[EB/OL].[2013-10-12].http://www.chinadaily.com.cn/hqgj/jryw/ 2013-09-29/content_10225785.html.
[8]王新才,丁家友.数据知识图谱:概念、特征、应用与影响[J].情报科学,2013,31,(9):10-14,136.
[9]李广建,杨林.大数据视角下的情报研究与情报研究技术[J].图书与情报,2012,(6):1-8.
[10]美安全局机房曝光监控百亿亿兆级别数据[EB/OL].[2013-12-15].http://servers.pconline.com.cn/354/3541 237.htm l.
[11]W ikipedia.Big data[EB/OL].[2012-10-22].http://en. wikipedia.org/wiki/Big_data
[12]Cohen J,Dolan B,Dunlap M,et al.MAD skills:New analysis practices for big data[J].PVLDB,2009,2(2):1481-1492.
[13]维克托·迈尔-舍恩伯格,肯尼思·库克耶.盛杨燕,周涛译.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
[14]张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013,(1):18-22.
Intelligence Analysis in the Big Data Era in the Context of PRISM
The PRISM program has drawn extensive attention from all over the world after being exposed,and attention seems to focus on personal privacy and its protection.But in fact,what data are collected,how they are processed and what strategic objectives are to be achieved are more worthy of attention and discussion.This article makes a comprehensive analysis of the prism program from the perspective of intelligence analysis,which includes data resource,analysis process and methods,strategic target,and ends on a discussion about intelligence analysis in the era of big data.
PRISM;big data;intelligence analysis
G250.2
:A
:1003-6938(2014)05-0002-05
化柏林(1977-),男,北京大学信息管理系博士后,研究方向:知识抽取与情报分析。
*本文系国家社科基金重点项目“大数据环境下的计算型情报分析方法与技术研究”(项目编号:4ATQ005)研究成果之一。
2014-09-10;责任编辑:魏志鹏