大数据环境下情报分析对个人信息安全的影响*
2016-02-12于洁
于 洁
(1.北京大学信息管理系北京100871;2.北京电子科技学院管理系北京100070)
大数据环境下情报分析对个人信息安全的影响*
于 洁1,2
(1.北京大学信息管理系北京100871;2.北京电子科技学院管理系北京100070)
大数据环境下的情报分析工作不可避免地会涉及到个人隐私信息,注重保护个人信息安全是大数据环境下情报分析工作应当关注的问题。在明确“个人信息”的含义和内容、总结大数据环境下个人信息呈现的新特征的基础上,从网络搜索行为、社交网络、通讯、商务和金融四个方面总结大数据环境下情报分析对个人隐私产生的影响,提出情报分析工作应对个人信息保护问题的几条策略,包括严把情报收集入口关、合理运用情报分析方法、设定新的情报产品评价指标。
大数据情报分析个人信息安全个人隐私个人信息保护
1 引言
传统环境下的情报分析,是根据社会用户的特定需求,以现代信息技术和软科学研究方法为主要手段,以社会信息的采集、选择、评价、分析和综合等系列化加工为基本过程,形成新的、增值的情报产品,为不同层次科学决策服务的社会化智能活动[1]。情报分析侧重于通过收集和处理社会公开信息,从中获取有价值的情报,收集和分析公开的个人信息也是其中一项内容,但个人信息的情报价值和个人信息安全之间的矛盾在传统的情报分析中并没有激化。“大数据”是当下非常流行的一个概念,其产生和应用给网络环境和技术带来了重大变化,尤其是大数据带来了个人信息的情报价值的凸显和个人信息安全形势的复杂多变,也使得二者之间的矛盾越来越突出。大数据环境下的情报分析工作,面临着如何处理好挖掘个人信息的情报价值与保护个人信息安全之间的关系问题。因此,情报分析工作要明确大数据环境下个人信息的内容和呈现的新特征,了解大数据环境下情报分析方法可能对个人信息安全带来的威胁,思考从情报分析的角度如何保护大数据环境下的个人信息安全。
一些学者以“大数据环境下的情报分析”为主题开展研究。文献[2]辨析了大数据分析与情报分析的关系,认为二者有着天然的联系,共性表现在看重对数据的定量分析,关注多源数据融合和强调相关性分析三个方面。同时,两者在数据对象、数据规模、分析任务与分析时机等方面又各具特色[2]。文献[3]的分析结果表明目前国内图书情报领域大数据研究热点主要集中于八个研究主题,其中包括大数据与信息分析。面对海量非结构化数据,传统的样本信息分析方法已经很难揭示大数据的价值,也很难找到适合大数据分析的数学模型,大数据环境推动着信息分析工作的变革[3]。文献[4]探讨了大数据背景下情报分析面临着数据流分析倍受关注、信息粒度更为细小、情报问题动态复杂、分析技术丰富多样的新环境,提出情报分析注重情境研究,开展协同分析,分析实时数据[4]的发展趋势,指出在新环境下情报分析需要注意大数据的陷阱和待构建的指标两个问题。还有学者研究大数据环境下不同的领域情报分析问题,包括竞争情报分析、反恐和公安情报分析、情报分析系统的开发等。
一些学者研究“大数据环境下的个人信息安全问题”。文献[5]指出大数据时代公民个人信息数据面临的风险是和大数据本身相伴相随的,如何看待和认识这一风险将影响对大数据本身的价值认识和政策取向[5]。文献[6]分析了大数据带来的安全挑战及隐私保护所面临的关键方法,并指出大数据在引入安全问题的同时,也是解决隐私安全问题的有效手段[6]。文献[7]指出在大数据时代,个人信息安全必然和系统安全、智能化安全、物联网、云及虚拟化和数据安全紧密联系在一起,成为未来信息安全技术研究的趋势[7]。关于大数据环境下的个人信息安全问题研究,学者们大都遵循着“提出问题——分析问题——解决问题”的三段论,很多侧重于从法律研究的角度解决大数据带来的个人信息安全问题。
将上述两大研究主题结合,研究大数据环境下情报分析对个人信息安全的影响是本文的主旨,认识到情报分析对个人隐私带来的影响,注重保护个人信息安全是大数据环境下情报分析工作应当关注的问题。
2 大数据环境下个人信息的内容与特征
“个人信息”是可以识别自然人个体的所有数据资料[8]。个人数据是一个广义的概念,包含已经识别或可以识别的与个人相关的所有资料,并可以被计算机系统识别、存储、加工处理[8]。大数据环境下,个人信息的含义并没有本质的改变,个人信息是作为载体的个人数据和经过加工处理的个人数据的集合。
2.1 个人信息的内容
文献[9]的调查结果显示,个人隐私信息应包含的主要内容可以分为五大类:第一,个人基本资料信息,如姓名、性别、年龄、身份证号、电话号码、籍贯等描述公民个人基本情况的信息;第二,个人特质信息,如肖像、声音、病史、婚姻与生育状况、身高、体重、生活喜好等;第三,个人特殊资料信息,如档案材料、互联网账号、银行卡号等;第四,个人信用信息,如借贷与偿还记录、纳税情况、遵纪守法记录等;第五,网络活动踪迹信息,如上网记录、偏好等[9]。
文献[10]指出,至少有六种信息可以被理解为个人信息:一是被自己控制或拥有的信息,如邮箱里的邮件,硬盘中的文件等;二是关于自己的信息,如身份信息、信用记录、消费记录、医疗信息、纳税记录、网页浏览历史、图书馆借阅记录等;三是指向自己的信息,如接听的电话,电视广告,互联网广告等;四是自己发送、公布或提供的信息,如电子邮件,博客,个人网页,发表的报道和文章等;五是已经被自己体验过的信息,如已经读过的邮件,已经浏览过的网页,已经看过的广告牌等;六是与自己相关或对自己有用的信息,如与配偶、工作等相关的我们知道的或感觉有用的信息[10]。
传统的网络环境下,个人信息的内容侧重于个人直接相关的信息,本文认为,大数据环境下的个人信息内容,既包括个人直接相关的信息,还包括间接指向个人的信息,后者通常是一些表面上与个人并无直接关联的数据,但通过情报分析可从中挖掘出个人直接相关的信息。
2.2 大数据环境下个人信息的特征
通常认为,个人信息具备有用性、形式多样、信息之间的相关性、遭遇信息较多等特点。大数据具备数据规模大、数据种类多、处理速度快、价值密度低的特性,在数据分析处理过程中,关注的不是随机样本而是全体数据、不是数据的精确性而是数据的复杂性、不是因果关系而是相关关系。因而在大数据环境下,个人信息在涵盖内容、形式、价值属性和管理的难度等方面呈现出新的特征。
2.2.1 个人信息涵盖内容广泛大数据时代个人信息的范围广,涵盖的内容多,除了个人拥有的信息资源和涵盖公民身份相关的数据外,还包括公民网络搜索行为产生的需求类数据;在互联网中参与互动、发表言论等产生的互动类数据;在消费与金融活动中产生的交易类数据;在社交媒体平台上的各种行为产生的关系类数据;使用基于位置的互联网应用和服务过程中产生的观测类数据等。可以说,个人信息涉及到个人行为的方方面面,从吃穿住用行的基本生活需要,到学习工作娱乐等活动中,都包含着数量庞大、内容丰富的个人信息。
2.2.2 个人信息的分散化和隐藏性随着人类行为的日趋多样化和复杂化,虽然个人信息的分布越来越广泛,但认为所有的数据都包含个人信息的观点显然过于绝对。事实上,目前所采集的大部分数据都包含有个人信息。个人信息不再仅仅存在于特定的信息系统中,不再只为政府部门和少数垄断行业机构所掌握,而是分散并隐藏于各种有意识或无意识的个人行为以及与个人相关的事项中。有些数据从表面上看与个人信息并没有关联,但是经过大数据分析和处理之后就显现出来隐藏在数据中的诸多个人信息。例如,维克托·迈尔-舍恩伯格在《大数据时代》一书中举出的例子,美国和欧洲部署的智能电表采集的实时读数能够暴露诸如一个人的日常习惯、医疗条件和非法行为等个人信息,因为可以根据每个电子设备通电时独特的负荷特征,对电表的实时读数使用大数据处理和分析挖掘出诸多个人信息[11]。2.2.3个人信息的价值属性凸显传统环境下,为确保个人信息安全,人们十分重视和强调个人隐私,也就是个人信息的隐私属性。大数据环境中,各类数据的关联聚合可以准确地还原并预测个人的社会生活全貌,当数据量达到一定规模时将产生巨大的经济效益[12]。因此,许多组织和个人在经济利益的驱使下收集、加工、开发和销售个人信息,使得个人信息的价值属性凸现出来。个人信息价值属性凸显带来的信息窃取、销售等一系列非法活动对个人信息安全构成严重威胁,互联网个人信息安全的灰色产业链在我国已悄然形成。
3 大数据环境下情报分析对个人隐私的影响
大数据环境下个人信息呈现的新特征和强大的数据收集、分析处理技术相结合,给个人信息安全带来了极大的挑战。个人信息的匿名化已经不能确保个人信息的绝对安全,因为大数据促进了数据内容的交叉检验,在情报收集和分析的过程中,大数据可以将不包含任何个人身份信息的数据联系在一起进行分析,分析的结果可以精确定位到个人。自从斯诺登揭露了美国的棱镜电子监听计划之后,信息网络中的个人信息安全问题受到越来越多的关注。文献[13]中指出,邦弗朗尼原理表明并非给定数据集和挖掘任务就肯定能挖掘出合理的结果,因此,分析就变得很重要。数据具有累积性和关联性,单个地点或单一来源的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立地点聚集在一起时,他的隐私就很可能会暴露,因为有关他的信息已经足够多[13],这就是棱镜计划中大数据的原理。本文主要从网络搜索行为、社交网络、通讯、商务和金融四个方面总结大数据环境下情报分析对个人隐私产生的影响。
3.1 情报分析与网络搜索中的个人隐私
网络搜索技术的产生源于人们的信息需求,随着互联网的大规模普及,网络搜索技术迅速发展产生的影响是一把双刃剑。一方面,作为一种工具帮助人们解决日益增长的信息需求问题,另一方面,涉及网络搜索的不正当行为具有强大的攻击性和破坏性,不仅会威胁个人信息安全,甚至触犯法律。
大数据技术支持下的网络搜索,对个人的监控更加容易实现,而且十分隐蔽。存在于互联网上的个人数据和个人网络搜索行为数据作为一类重要的数据,在大数据环境下自然而然成为情报收集和分析的对象。涉及个人信息的网络搜索行为主要有以下几种,第一,发布于互联网上的个人信息被二次利用,常见情况是未经授权被作为情报收集的对象。网络搜索行为的广泛使用,使得网络对个人行为的监视从线上延伸到线下,个人信息未经任何授权而在不知不觉中被收集,如近年来不断发生的“人肉搜索”事件,已经成为了一种网络非理性表达和个人隐私曝光的主要手段。第二,个人网络搜索行为数据被作为情报进行收集和分析。无论是使用搜索引擎查找信息,还是在电子商务网站上搜索感兴趣的商品,你的搜索行为数据都会被记录下来,也很可能被泄露给第三方,用于发现并跟踪目标用户,进行个人信息的深入挖掘。
3.2 情报分析与社交网络中的个人隐私
随着互联网、移动互联网和便携式智能终端的普及,社交网站和移动社交应用已经成为人们日常社交的主要平台。社交网络上存在着规模巨大的个人信息,包括个人注册的账号信息,用于交流的文字、声音等信息,用于分享的图片、视频、地理位置等信息,用户关系网络信息,网络平台互联信息等等。这些信息包含着用户身份、日常行为、心理活动、人脉等很多方面的内容,其本身的用户指向性和相互关联就十分明显,并且具有很强的隐私属性,如果再加以有意的收集、处理和分析,对个人信息安全的威胁更大。大数据使得社交网络中个人信息的收集变得容易,这类信息也随之成为情报分析的对象。
与传统数据环境相比,大数据环境下社交网络用户账户被盗用的风险有过之而无不及,用户隐私的安全问题更加严峻。因为,大数据环境下数据的关联性更强,用户可以用同一个账户登录多个社交网站和移动社交应用,一旦账户被盗取就极容易产生多米诺骨牌效应。除此之外,大数据环境下,社交网络公司及其合作伙伴记录和存储的海量个人信息也面临着安全隐患,即使是在共享和分析用户个人信息过程中进行匿名化处理,也难以对个人信息起到有效的保护作用,因为使用情报分析方法进行关联分析,与个人身份相关的信息便可以被识别出来。
3.3 情报分析与通讯中的个人隐私
工信部于2015年初发布的2014年通信运营业统计公报显示,2014年全国电话用户总数达到15.36亿户,其中移动电话用户总数达12.86亿户[14]。手机已经成为最主要通讯工具。人们日常交流离不开手机,有些人甚至对手机过度依赖。通讯中包含着大量的个人信息,实名制的电话号码、通讯录、通话和短信内容及其反映出来的人际关系都是重要的个人信息。电信运营商们掌握着人们通讯相关的大量信息,安装在智能通讯设备中的应用程序读取着用户的个人信息,手机软硬件制造商可能留有的程序“后门”使得个人信息容易被窃取,人们正在进行的通话内容可能被监控和窃听。
即使采用正当的情报研究和分析手段,我们在通讯中的个人信息安全也会受到威胁。麻省理工学院的研究人员在研究中证明,只需要知道同一部手机的四个位置点和相应时间,就可以定位一个手机用户,准确率高达95%,以及通过移动手机通话时间、地点、时长、联系频率等数据,可以以较高的准确率预测手机用户的性格特质[15]。
3.4 情报分析与商务和金融中的个人隐私
无论是传统商务和金融领域,还是网络时代的电子商务和互联网金融领域,都包含着大量个人信息,尤其是金融领域对实名制的要求使得个人信息的隐私性格外突出,涉及的个人信息十分敏感。2015年7月发布的《第36次中国互联网络发展状况统计报告》中的调查数据显示,截至2015年6月,我国网络购物用户规模达到3.74亿,使用网上支付的用户规模达到3.59亿,购买过互联网理财产品的网民规模为7 849万,网上炒股的用户规模达到5 628万[16]。互联网商务和金融中如此庞大的用户数量带来了个人信息的大规模集聚,个人信息的商业价值和其产生的经济利益很容易诱发信息泄露、窃取等风险,12306网站、支付宝等用户数量庞大的网站和公司就曾发生过用户信息被窃取和泄露的事故。大数据环境下,商务和金融中的个人信息安全问题不容小觑。
大数据环境下的情报分析在商业和金融领域也是一把双刃剑。通过情报分析进行信息整合与挖掘既可以对广大消费者开展合法的用户消费趋势预测以实现精准营销和客户管理,也可以从事非法的身份窃取、消费欺诈和金融诈骗等犯罪行为。文献[17]的研究证明,采用大数据分析,仅需4组较精确的支付时间、支付商家和交易数额,就基本可以确定信用卡持卡人的所有消费记录,准确率可以达到90%,甚至仅仅有较模糊的支付数据,而没有明显的身份信息,也很有可能泄露个人的消费历史[17]。
4 情报分析应对个人信息保护的策略
在个人行为数据搜集十分普遍的大数据环境下,人们的个人信息基本上没有秘密和隐私可言。研究网络隐私的普林斯顿大学副教授阿尔文德曾说过,不泄露隐私是“在算法上不可能”的[18]。即便如此,也不能完全放弃对个人信息的保护。从情报学的角度来看,大数据环境下的情报收集和情报分析过程都有可能涉及到个人隐私信息,尤其是情报分析过程,将原本收集到的不属于个人隐私的信息进行关联分析和交叉印证,分析结果很有可能直指个人隐私。因此,个人信息保护问题应带引起大数据环境下的情报分析工作的高度重视。情报分析工作可以从以下几个方面制定相应的策略,保护个人隐私,确保个人信息安全。
4.1 严把情报收集入口关
传统环境下,个人信息保护主要通过法律来规范,制度来约束,形成一种“告知-许可”的隐私保护模式。这种模式的效用更大的发挥在一次数据的收集阶段,不能适应和用于规范大数据环境下对数据的二次处理和应用。而对于情报收集来说,收集对象不仅仅局限在一次数据,经过加工的二次信息也会纳入到情报收集的范围,而且二次信息占有相当的比重。因此,不仅要在收集一次数据时严格遵守“告知-许可”制度,而且要加强对二次信息的甄别筛选,二次信息中涉及到个人隐私信息的内容要谨慎使用,如与情报工作的目标无关,可以舍弃。
4.2 合理运用情报分析方法
虽然技术手段不是确保个人信息万无一失的保险箱,但是在保护个人信息的诸多措施中,技术仍然是非常重要的手段。既然大数据技术给个人信息安全带来了巨大的挑战,可以通过分析和挖掘外表上与个人信息并无关联的数据推测和判断出个人信息,可以使隐性的个人信息显性化,可以让匿名化不再成为保护个人信息的手段,同时也给个人信息保护提供了机遇,那么在未来,大数据极有可能为个人信息保护提供新的可靠的技术手段。如何合理运用情报分析方法,降低情报分析工作对个人隐私的威胁,乃至通过情报分析保护个人信息安全,是大数据时代情报分析工作需要思考的重要问题。
4.3 设定新的情报产品评价指标
目前存在各种类型的指标来评价作为情报分析产出和结果的情报产品,这些指标主要是评价情报产品对解决特定情报问题的针对性、科学性、及时性、可行性、有效性等方面,大多数评价指标没有对情报产品的内容是否涉及个人隐私信息进行评估。通过前文的分析论述可知,大数据给情报分析带来了与个人隐私信息相关的问题,因而在对情报产品的评价工作中,也应该关注情报产品中是否存在有关个人隐私信息的内容,及其对个人信息安全的影响。如何设定新的评价指标来评估情报产品对个人信息安全的影响,增设与个人隐私保护相关的指标,也应成为大数据环境下情报分析工作应关注的问题。
5 结语
大数据为情报分析理念、对象、方法和技术等多方面带来了深刻的影响,大数据技术为情报收集、分析、挖掘信息提供了快速便捷的方法的同时,也使得情报分析过程中对个人隐私信息的处理问题凸显,威胁个人信息安全。大数据环境下,个人信息涵盖的内容更加广泛,个人信息的分散化和隐藏性特征更为明显,个人信息的价值属性凸显,使得个人信息保护的难度不断升级。大数据环境下的网络搜索、社交网络、通讯、商务和金融等领域的情报分析工作给个人信息安全带来了的风险和问题增加。“以人为本”是科学发展观的核心,隐私权作为一项重要的个人权益,在国家治理和社会建设中都应当得到重视。大数据环境下如何保护个人隐私信息安全成为众多研究者努力探索的难题。个人信息管理是情报学研究方向之一,大数据环境下的个人信息安全问题是个人信息管理研究的内容,自然应受到情报研究人员,尤其是情报分析人员的关注。本文认为,大数据环境下,情报分析工作要处理好与个人隐私信息保护的关系,如何严把情报收集入口关,合理运用情报分析方法,设定新的情报产品评价指标将成为思考和研究的方向。
[1]包昌火.情报研究方法论[M].北京:科学技术文献出版社,1990:12.
[2]李广建,化柏林.大数据分析与情报分析关系辨析[J].中国图书馆学报,2014(5):14-22.
[3]王春华,李维,文庭孝.我国图书情报领域大数据研究热点分析[J].图书情报知识,2015(4):82-89.
[4]迟玉琢.大数据背景下的情报分析[J].情报杂志,2015(1):18-22.
[5]张茂月.大数据时代公民个人信息数据面临的风险及应对[J].情报理论与实践,2015(6):57-61,70.
[6]李英.大数据安全挑战与隐私保护[J].电脑知识与技术,2015(13):9-11.
[7]李瑞霞,郑睿,张领.大数据环境下个人隐私存在的安全问题研究[J].电脑知识与技术,2015(12):32-33.
[8]孙毅,郎庆斌,杨莉.个人信息安全[M].大连:东北财经大学出版社,2010:12.
[9]孟晓明,张军,谢少群.个人隐私信息安全现状调查与分析[J].图书情报工作,2012(21):72-76.
[10]Jones W.How is information personal?[C]//Proceedings of PIM Workshop.Florence:SIGCHI,2008:1-3.
[11][英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:196.
[12]惠志斌.大数据时代个人信息安全保护[N].社会科学报,2013-04-11(003).
[13]化柏林.从棱镜计划看大数据时代下的情报分析[J].图书与情报,2014(5):2-6.
[14]工信部运行监测协调局.2014年通信运营业统计公报[EB/OL].[2015-01-20].http://www.miit.gov.cn/n11293472/ n11293832/n11294132/n12858447/16414615.html.
[15]de Montjoye Y A,Hidalgo C A,Verleysen M,et al.Unique in the Crowd:The privacy bounds of human mobility[J]. Scientific Reports,2013(3):1-5.
[16]中国互联网络信息中心.第36次中国互联网络发展状况统计报告[EB/OL].[2015-07-22].http://www.cnnic.net.cn/ hlwfzyj/hlwxzbg/hlwtjbg/201507/t20150722_52624.htm.
[17]de Montjoye Y A,Radaelli L,Singh V K,et al.Unique in the shopping mall:On the reidentifiability of credit card metadata[J].Science,2015,347(6221):536-539.
[18]猛犸.只需4组数据,还原你的购物模式[EB/OL].[2015-02-01].http://www.guokr.com/article/439901/.
(责任编校田丽丽)
Influence of Intelligence Analysis on Personal Information Security in the Big Data Environment
Yu Jie1,2
1.Department of Information Management,Peking University,Beijing100871,China; 2.Department of Management,Beijing Electronic Science and Technology Institute, Beijing 100070,China
It is inevitable that intelligence analysis will involve personal privacy information in the age of big data.So great attention should be paid to personal information protection in intelligence analysis.This paper defines personal information and discusses its content.It also summarizes new features of personal information in the age of big data.On the basis of the above work mentioned,the influence of intelligence analysis on personal privacy information is discussed from areas of web search,social network,communication,business and finance. Finally,this paper proposes some measures for intelligence analysis to cope with personal information protection,including strictly controling intelligence-gathering entrance,applying intelligence analysis methods reasonably and setting new evaluation index for intelligence products.
big data;intelligence analysis;personal information security;personal privacy; personal information protection
G203
于洁,女,1989年生,2015级情报学博士研究生,讲师,研究方向为情报分析、保密管理。
*本文系国家社会科学基金重点项目“大数据环境下的计算型情报分析方法与技术研究”(项目编号:14ATQ005)的研究成果之一