正在窥探的大佬们
2014-04-29
免费获取信息、货比三家地购物,还有各种形式的通信和娱乐服务,互联网的好处实在太多,绝对不容错过,而且这些服务几乎都是免费的。不过,为什么免费的服务能够让Google这样的互联网公司最终盈利数十亿呢?这是因为它们获取了我们的数据,这些数据经过处理和分析之后,最终将产生利润,例如有针对性的商业广告。其次,所有的数据还可能被作为情报来收集,例如一个众所周知的秘密计划:棱镜。
网站运营商收集数据的方法最为简单,访问网站的用户,产生的每次点击、每次文本输入,浏览器都会将大量相关的数据(元数据)提交到网站上。其次,在Google+、亚马逊和Facebook之类的大型社交网站上,供应商可以通过用户填写的个人信息以及使用过程中泄漏的更多信息,结合元数据创建一个更全面的用户配置文件。此外,数据分销商还将收集离线数据,例如姓名、住址,并出售这些数据给商业广告公司之类的机构。软件提供商也同样会收集我们的数据,除了收集其他相关软件的信息外,还可能收集我们使用软件的时长信息以及定位数据之类的内容。
对于用户来说,要弄清楚是谁收集了数据、收集了什么样数据以及这些数据如何被利用是非常困难的。IT巨头通常都将自己塑造成用户的朋友,但是当我们对它们如何收集和利用数据心存疑虑时,它们通常都会说数据只会用于为用户提供更好的服务,并信誓旦旦地表示它们将严格遵守隐私政策。但实际上隐私政策是企业自己制定的,并且除了专业的律师以外,这些政策中的法规部分普通用户基本无法理解,涉及到重要问题的部分,巨头们通常也都是含糊其词。如果IT巨头最终不得不承认自己将用户的数据提供给了第三方,那么经典的说辞会是:“我们只向我们的附属机构和其他值得信赖的公司与个人提供用户的个人资料……”。不过,这样的慷慨陈词一点意义都没有,究竟提供给什么公司和个人?这样的说辞和“我们想给谁就给谁”,实际上并没有什么不同。
事实上,Google、Facebook等许多IT巨头对于用户个人隐私的处理方法已经被许多国家、地区判定为违法,但是通常IT巨头最多也只会针对这一国家或者地区的用户修改相关的法律条文,其他国家和地区的用户仍然无法得到保护。目前,围绕数据收集与利用的法律纠纷不断,但是仍然没有一个有效的方法对相关的企业进行约束。因而,对于用户来说,更有必要学习相关的知识,并学会如何保护自己。
先收集再分析
对于一个没有边界的互联网来说,通过法律约束难度极大。信息的全球流动,每天数百万GB的数据通过粗粗的光纤和电缆流入巨大的数据中心,要了解这些数据,就必须先收集,之后再进行分析。大型互联网公司在多年前就已经开始了这一工作,Google公司分析搜索请求,在用户输入搜索关键字的过程中给出最可能符合用户需要的关键字建议。亚马逊则分析我们一直以来的购物行为,因而,总是能够给出精确的采购建议。而警察通过数据的分析致力于预测罪犯的行为,这种技术已经在洛杉矶、西雅图和其他几个城市使用了很长的一段时间。至于情报部门和反恐单位,则更是依赖大量的数据分析,以求能够尽早发现潜在的恐怖分子。
然而,如果需要做出预测,不仅需要个人的数据,还必须结合用户的配置文件。为了识别用户,通常需要较长的一段时间汇总数据和创建用户配置文件。通过网站保存在用户电脑上的Cookie,可以跟踪用户并收集用户点击哪个链接之类的数据,结合浏览器访问网站时提供的软件版本、插件等相关的元数据,创建用户的配置文件,这就好像是在产生一个用户独有的指纹。
在离线世界中使用的数据收集方法技术含量较低,但这并不会影响其效果。除了一些政府机构公开地贩卖所掌握的资料外,数据经销商也收集数据并将它们卖给保险经纪人、房地产中介。这些批量销售的数据集,除了包含吸引购买者关注的特定“线索”外,通常还会包含用户的姓名、地址、电子邮件信息或者电话号码。另外还会包含一些其他的细节,例如大概的收入,是否是动物爱好者等。在美国,这种数据批发生意正在蓬勃发展,而在其他隐私保护法律相当薄弱的国家自然就更不在话下了。以美国为例,美国LeadsPlease公司销售的邮件地址价格最为低廉,1 000个地址仅售85美元,并且购买超过50 000个地址的可以获得超过40%的折扣。
在线和离线数据
对于用户来说,在线和离线个人数据的结合是一件非常令人担心的事情,不过,对于利用数据的人来说,这自然是一件非常令人兴奋的事情。结合在线和离线数据的公司,最有名的是美国的Acxiom。根据该公司自己的声明,Acxiom公司拥有全世界5亿多人、每人约1 500个数据项的庞大数据池。该公司使用超过75 000个网站收集在线数据,并结合运作数十年之久的离线数据库,建成了一个令人难以置信的巨大数据池。
Acxiom公司在德国的历史,可以追溯到1962年,首先建立起的是医疗公司和出版社的地址池,电话营销的运作始于1982年,2005年开始电子邮件营销。尽管在德国禁止将在线和离线数据建立关联,但是该公司仍然掌握着许多德国用户的资料。根据Acxiom公司德国总经理卡斯滕的介绍,该公司掌握4 000多万个德国用户的个人资料,其中包括姓名、邮政地址及大概的收入等信息,其中部分数据来自联邦统计局、国家统计局办公室直接公布的数据。不过,Acxiom公司强调,这一部分的数字并不指向个人,而是5户、1 000户,甚至是整个地区的统计数字,这意味着Acxiom公司可以向其客户提供统计概率,告诉他们,在目标地区他们应该销售什么产品。
情报机构的数据收集
美国国家安全局和其他情报机构也试图将网上收集的数据和离线数据合并,并将数据与具体的人联系起来。2013年6月初以来,前国家安全局分析师爱德华·斯诺登披露的数据显示,美国当局以反恐战争为借口进行了大范围的深度数据收集,电话和互联网服务供应商都是数据收集的目标。在当局认为涉及刑事起诉的情况下,电话和互联网供应商必须提供相关的数据,并允许调查人员监控个人通信。而且,情报机构不仅收集犯罪嫌疑人的数据,还通过网络接口进行深层的数据包检测,例如对数据进行过滤,去除流媒体数据和文件共享服务的数据,捕获电子邮件。据介绍,德国联邦情报局同样使用类似的方法过滤并检索特定的内容,例如检索用于制造炸弹的材料。不过,根据德国的相关法律,联邦情报局必须向德国联邦议会G10委员会提出关键词申请,在联邦议会监控委员会委员认可的情况下,才可以执行为期3个月的数据过滤分析。但是仅在2011年,联邦情报局已经对约300万人的电子邮件和电话交谈进行了分析。
供应商并不是数据的唯一来源。事实上,情报机构直接在网络节点和水下电缆连接点上截取数据,世界上最大的节点DE-CIX在法兰克福,其运营商断言外部无法访问该设施,但是世界各地还有约340个类似的节点,其中80个位于北美,是否外部也是无法访问,就不得而知了。据英国“卫报”报道,英国的监控程序“TEMPORA”有能力直接访问大西洋的光纤电缆,这是欧洲和美国之间的互联网数据大动脉。据报道,“TEMPORA”可以监控200多条光纤,同一时间能够并行捕获高达46条光纤的数据,捕获的数据存储时间长达30天。由于情报机构截取数据的海底电缆是各国互联网提供商的转接点,因而,这将会影响到全世界的互联网用户。
互联网服务供应商本身是第三个数据源,据爱德华·斯诺登所说,美国棱镜电子监听计划的程序能够直接访问Google、Facebook、微软、苹果、雅虎、Dropbox、AOL、Paltalk等网络服务提供商的服务器。2013年7月中旬,斯诺登详细介绍了棱镜电子监听计划的具体操作情况。据他介绍,尽管微软公司此前曾否认这一说法,但微软确实给国家安全局提供了直接访问的接口,国家安全局除了可以对数据进行深度挖掘之外,甚至还可以访问加密的数据。而对于微软下属的VoIP服务商Skype,国家安全局可以通过其服务产品录制音频和视频,美国国家安全局有一个接口可以采集数据。然而,微软和美国国家安全局则说,这种数据访问方式,只发生在法院批准的情况下。
通过不同来源收集的大量数据如何处理,情报部门面临着和Google相同的问题。这些非结构化数据中包含大量的信息,并且以不同的格式存储,处理和分析这些数据是相当复杂的事情。在几年前,这些数据的处理有时会需要花费几个星期。不过,使用现有的“大数据”挖掘处理工具,这种数据的处理和分析可以实时地进行。
过滤大数据的算法
在过滤、分析数据的过程中,首先需要将非结构化的语音输入、连接数据、文本和其他各种类型的信息进行处理,生成结构化的数据库。这样才可以通过简单的查询,例如谁和谁沟通?他们说什么?表达什么样的心情?获得可视化的搜索结果,这类似于Facebook新的搜索工具,我们可以输入一些像“3月在慕尼黑出生的朋友”的语句来进行查询,对Facebook的数据进行搜索和排序。
大数据处理最常用的工具是Hadoop,这是一个支持数据密集型分布式应用的软件框架,在此框架的支持下可以对分布式计算网络中PB级的数据进行分析,这个分析过程基于Google开发的MapReduce算法,Hadoop会将数据划分为块,其中每个都包含大约64MB的数据,然后将这些块单独排序。这种经过划分的数据对于接下来的步骤非常有帮助。数据集中的数据将被分发给分布式计算网络上的节点,每个节点会周期性地把完成的工作和状态的更新报告到中央收集点。在Hadoop的框架下,这个过程只需几分之一秒。
分析处理过程的第二个步骤将创建预测模型,根据目的的不同,该过程的具体方法有一定差异,通常是检测异常数据,并根据数据的特点或者关联,对数据流进行聚类分析,目标是将对象根据某些共同的或者相似之处划分成组(群),例如根据人们的电话或者电子邮件,获得一个可视化的社交网络。情报部门通过这种方法识别不同的人之间存在的关系,他们的方法跨越国界并且经过多年的时间积累。而我们则可以通过在线工具Immersion(immersion.media.mit.edu),检索自己的Google电子邮箱,以类似的方法标识自己的家人、朋友和同事。
根据国家安全局主任助理约翰·英格利斯的说法,监测范围大约是2个或3个层级的联系人。如果每个人的社交圈人数是100人,那么这个人的第三个层级的联系人就多达百万人(100×100×100),这意味着,在监控一个嫌疑人时,情报部门的分析师将收集百万人的信息,通过这些信息发现和调查某人。
数据收集的是与非
从数据分析的角度来看,关键的问题是能从数据中推断出什么。有一些积极的应用可以为人们带来巨大的价值,确实是必须通过数据收集分析实现的。例如信用卡公司通过分析用户的行为模式,可以更快地发现用户的信用卡被盗等问题。Google通过分析搜索查询的数据,甚至可以预测流感疫情。研究人员分析人类基因组,同样也需要收集大量的数据并加以分析。
然而,即使是积极的应用也可能会有危险,例如Google可能会显示错误的搜索建议;亚马逊可能会推荐我们不感兴趣的商品;最坏的情况下,问题可能会很严重,例如情报机构可能由于一个无辜的人在社交网络的观点而怀疑他,甚至和穆拉特·库纳茨一样,在错误的行为分析基础下被关押在关塔那摩湾,这从社会的角度看是绝对不能容忍的。
在两个极端之间存在一个广阔的灰色区域,对于大部分用户来说,身边的这些数据具体发生了什么,基本上是一无所知。而事实上别人将利用这些数据赚钱,例如从广告业的角度来看,有关病历、家庭状态和即将建立一个新家的个人资料与信息是非常有价值的。而对于网络犯罪分子来说,个人数据是非常重要的。从他们的角度来看,最有价值的是个人的完整记录,即所谓的“Fullz”,这一般包括个人的姓名、银行卡或者信用卡信息和电话号码、电子邮件等个人信息。利用这些信息可以伪造信用卡或驾驶执照,转手贩卖给其他人也同样价值不菲。根据戴尔SecureWorks公司的介绍,个人信息的价值可以高达1 000多美元,其中所谓的“Fullz”约值550美元。
然而,当我们清楚自己每一个点击的数据都将被收集起来、每一个操作及输入的每一个字符都可能有人在窥探时,我们完全可以有意识地决定给他们留下些什么,例如牺牲一点时间和精力采取一些小措施等。
大数据分析
实时:处理数个PB量级的数据
在线公司和情报机构需要解决一个相同的问题,那就是他们必须使用自己的数据中心实时处理巨大的数据量。通过复杂的算法,例如Google开发的MapReduce算法,就可以有效地解决这一问题。
数据分析的结果
群集分析方法,可以通过电子邮件提供商的数据可视化用户的社会关系。
数据销售
我们的数据为什么那么宝贵
有关疾病的信息,从广告业的角度来看,是最有价值的信息点,因为它可以帮助相关的行业投放有针对性的药品广告。
我们如何保护自己
对我们的通信进行加密
使用Gpg4win(gpg4win.de/index.html)加密我们在Outlook、Thunderbird等邮件客户端处理的邮件。
隐藏我们的IP地址
使用Tor(www.torproject.org)客户端连接到Tor网络,我们可以匿名上网冲浪,不留痕迹。
处理好我们的隐私
使用Privacyfix(www.privacyfix.com)检测并学习如何处理好自己的隐私问题。