多维度解读大数据与大数据安全
——访北京大学网络和软件安全保障教育部重点实验室副主任、北信源董事 胡建斌
2015-08-07
本刊记者 丁 超
多维度解读大数据与大数据安全
——访北京大学网络和软件安全保障教育部重点实验室副主任、北信源董事 胡建斌
本刊记者 丁 超
胡建斌:男,71年出生于湖北洪湖,2002年毕业于北京大学计算机科学技术系,获理学博士学位,高级职称。主要研究方向包括网络与信息安全、普适计算等领域,先后主持国家自然科学基金、科技部国际合作重大专项、军口863、总装预研等20余项课题,获得国家科技进步二等奖1项、军队科技进步奖5项,发表SCI/EI检索学术论文60余篇,拥有发明专利2项。现任北京大学网络和软件安全保障教育部重点实验室副主任、北信源董事。
记者:您眼中的大数据概念与定义是怎样的?
答:大数据是人类社会各类数字化信息的总和,它无法用通用的关系型数据库无法满足其存储、访问及分析需求,需要采用特殊的软硬件构架支撑,同时需要通过更复杂的分时或实时算法对数据进行交叉分析,进而形成新的知识,为人类决策提供新的支撑点,这样的技术及环境背景就是大数据。大数据包括大数据思想、大数据国家政策、大数据规划、大数据技术平台、大数据分析技术、大数据行业应用、大数据安全构架、大数据可视化展示、大数据人才等方方面面,构成大数据时代。
可以把大数据理解为 “无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”(麦肯锡全球数据分析研究所给出的定义),我们需要新的处理模式才能将大数据的价值挖掘出来,使其具有更强的决策力、洞察力和流程优化能力。
记者:您可否谈谈大数据的国外与国内现状?
答:“大数据”这个概念早在上世纪80年代,阿尔文·托夫勒便在《第三次浪潮》一书中将其热情地赞颂为“第三次浪潮的华彩乐章”,但直到2008年9月,《Science》杂志发表了一篇文章“BigData: Science in the Petabyte Era”,“大数据”这个词才开始被广泛传播。
目前,包括欧美地区传统IT强国的大数据战略也都处于摸着石头过河的试错阶段,国内外的专家学者对大数据只是在数据规模上达成共识。大数据热潮的掀起让中国期待“弯道超越”的机会,传统IT行业对于底层设备、基础技术的要求非常高,核心技术、核心设备或元件都掌握在传统IT强国手中,我们耗费大量人力、物力、财力也很难追的上,这种一步落后、处处受制于人的状态在大数据时代有望得到改变。
国外除在大数据的概念上的研究外,重点放在技术研究。美国政府认为大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。美国政府六个部门启动的大数据研究计划中,除了国家科学基金会的研究内容提到要“形成一个包括数学、统计基础和计算机算法的独特学科”外,绝大多数研究项目都是应对大数据带来的技术挑战,重视的是数据工程而不是数据科学,主要考虑大数据分析算法和系统的效率。美国政府2012年宣布投资2亿美元启动“大数据研究和发展计划”。
国内在大数据研究领域的重点在大数据与云计算、数据挖掘,并行计算和分布式处理等。同时国家也很重视和支持大数据技术的发展。李克强总理从2014年下半年起,多次提出的“大数据观”,提倡在疾病防治、灾害预防、社会保障、电子政务等领域开展大数据应用示范,举个例子,权利运行处处留痕,利用大数据手段把这些痕迹汇聚成为大数据进行分析,就可以把执法权力关进‘数据铁笼’,让新市场行为无处遁形,为政府决策提供第一手科学依据,实现 “人在干,云在算”。
总的来说,当前对大数据的研究大致也可以分为专注于研究大数据的复杂性和计算模型的基础理论,以及着眼于大数据的感知与表示、内容建模与语义理解,和大数据计算架构体系的关键技术这样两个层面。
记者:大数据能给企业带来怎样的核心价值?大数据将会对我们的工作和生活产生怎样的影响?
答:任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累,是企业的核心资产。随着互联网以及物联网的广泛应用,信息感知无处不在,不管是企业、政府还是个人用户,都在与大数据发生千丝万缕的联系。商业的发展需要大数据分析做决策,对于消费者行为的分析,既能帮助企业提供更快捷更个性化的用户体验,又能为消费者本身提供友好、可信的信息推荐,同时,大数据也正快速的被应用到政府日常管理和公开服务中,并成为推动政府政务公开、服务完善和依法行政的重要力量,成为政府改革和转型的技术支持杠杆。
2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。而预测是大数据的核心价值之一。举个例子吧,一个人对计算机的使用习惯所产生的各种痕迹数据包含了这个人的性格、喜好、习惯、动机、心态等各种信息。如果电商能够准确发现个人喜好和习惯,那么可以在某个特定的时间推荐他最有用的产品;如果公安机关掌握这些数据,那么可以辅助其侦破案件;如果企业能够了解员工的工作习惯,那么可以为他提供更好的建议帮助其提高工作效率。这样的例子非常多,我们都将从大数据分析中获益。
记者:大数据主要用到哪些技术?
答:在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 目前主流的技术有No SQL,泛指非关系型数据库,可以解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题;Hadoop,分布式文件系统,这个框架最核心的设计就是:HDFS和MapReduce,HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算;除此之外还有很多大数据分析计算方法(如流分析Storm),如数据挖掘算法、可视化分析技术、语义引擎、并行算法等。
记者:您怎么定义大数据安全概念?
答:我认为大数据安全包含两个层面的意思,大数据本身面临着安全挑战,同时大数据分析又能够保障实现信息安全。
大数据技术将分布在各行各业不同领域的数据资源快速整合,动态分配并最终实现数据集合的共建共享,这种趋势会使得用户在使用大数据时更加方便、快捷和开放,同时也更加吸引黑客的攻击。也就是说,开放的网络化社会,集中的大数据的潜在价值对于攻击者而言,相对低成本就可以获得“滚雪球”的收益,一旦遭受攻击,失窃的数据量是十分巨大的。但是,大数据也为数据安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性,对海量数据的分析有助于更好地跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客入侵。
记者:大数据主要面临着哪些负担和安全风险,有哪些技术和解决策略?
答:首先、大数据的巨大体量使得信息管理成本显著增加
大量数据的集中存储增加了泄露风险,黑客的一次成功攻击能获得比以往更多的数据量,无形中降低了黑客的进攻成本,增加了“攻击收益”;另一方面,大数据意味着海量数据的汇集,这里面蕴藏着更复杂、更敏感、价值巨大的数据,这些数据会引来更多的潜在攻击者。
首先要找到有安全管理经验并受过大数据管理所需要技能培训的人员,针对大数据管理人员的巨额教育和培训成本,是一种非常必要的开销。
与此同时,在流程的设计上,一定要将数据分散存储,任何一个存储单元被“黑客”攻破,都不可能拿到全集,同时对于不同安全域要进行准确的评估,像关键信息索引的保护一定要加强,“好钢用在刀刃上”,作为数据保全,能够应对部分设施的灾难性损毁。
其次、大数据的繁多类型使得信息有效性验证工作大大增加
由于不再拘泥于特定的数据收集模式,使得数据来自于多维空间,各种非结构化的数据与结构化的数据混杂在一起。
未来面临的挑战将会是从数据中提取需要的数据,很多组织将不得不接受的现实是,太多无用的信息造成的信息不足或信息不匹配。目前非常需要研究相关的算法来确保数据来源的有效性,尤其是比较强调数据有效性的大数据领域。
正是因为这个原因,对于正在收集和储存大量客户数据的公司来说,最显而易见的威胁就是在过去的几年里,存放于企业数据库中数以TB计,不断增加的客户数据是否真实可靠。
再次、大数据的低密度价值分布使得安全防御边界有所扩展
低密度价值分布使信息效能被摊薄了,大数据的安全预防与攻击事件的分析过程更加复杂,相当于安全管理范围被放大了。
大数据时代的安全与传统信息安全相比,变得更加复杂,具体体现在三个方面:
1. 大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险;
2. 因为一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题;
3. 大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。
确立有限管理边界,依据保护要求,加强重点保护,构建一体化的数据安全管理体系,遵循网络防护和数据自主预防并重的原则,并不是实施了全面的网络安全护理就能彻底解决大数据的安全问题,数据不丢失只是传统的边界网络安全的一个必要补充,我们还需要对大数据安全管理的盲区进行监控,只有将二者结合在一起,才是一个全面的一体化安全管理的解决方案
第四、大数据的快速处理要求使得独立决策的比例显著降低
大数据时代,对事物因果关系的关注,转变为对事物相关关系的关注。如果大数据系统只是一种辅助决策系统,这还不是最可怕的。事实上,今天大数据分析日益成为一项重要的业务决策流程,越来越多的决策结果来自于大数据的分析建议,对于领导者最艰难的事情之一,是让我的逻辑思考来做决定,还是由机器的数据分析做决定,可怕的是,今天看来,机器往往是正确的,这不得不让我们产生依赖。试想一下,如果收集的数据已经被修正过,或是系统逻辑已经被控制了呢!但是面对海量的数据收集、存储、管理、分析和共享,传统意义上的对错分析和奇偶较验已失去作用。
在依靠大数据进行分析、决策的同时,还应辅助其他的传统决策支持系统,尽可能明智地使用数据所告诉我们的结果,让大数据为我们所用。但绝对不要片面地依赖于大数据系统。
第五、大数据独特的导入方式使得攻防双方地位的不对等性大大降低
在大数据时代,数据加工和存储链条上的时空先后顺序已被模糊,可扩展的数据联系使得隐私的保护更加困难。过去传统的安全防护工作,是先扎好篱笆、筑好墙,等待“黑客”的攻击,我们虽然不知道下一个“黑客”是谁,但我们一定知道,它是通过寻求新的漏洞,从前面逐层进入。守方在明处,但相比攻方有明显的压倒性优势。而在大数据时代,任何人都可以是信息的提供者和维护者,这种由先天的结构性导入设计所带来的变化,你很难知道“它”从哪里进来,“哪里”才是前沿。这种变化,使得攻、防双方的力量对比的不对等性大大下降。
同时,由于这种不对等性的降低,在我们用数据挖掘和数据分析等大数据技术获取有价值信息的同时,“黑客”也可以利用这些大数据技术发起新的攻击。“黑客”会最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,大数据分析使“黑客”的攻击更加精准。此外,“黑客”可能会同时控制上百万台傀儡机,利用大数据发起僵尸网络攻击。
面对大数据所带来新的安全问题,有针对性地更新安全防护手段,增加新型防护手段,混合生产数据和经营数据,多种业务流并行,增加特征标识建设内容,增强对数据资源的管理和控制。
第六、大数据网络的相对开放性使得安全加固策略的复杂性有所降低
在大数据环境下,数据的使用者同时也是数据的创造者和供给者,数据间的联系是可持续扩展的,数据集是可以无限延伸的,上述原因就决定了关于大数据的应用策略要有新的变化,并要求大数据网络更加开放。大数据要对复杂多样的数据存储内容做出快速处理,这就要求很多时候,安全管理的敏感度和复杂度不能定得太高。此外,大数据强调广泛的参与性,这将倒逼系统管理者调低许多策略的安全级别。
当然,大数据的大小也影响到安全控制措施能否正确地执行,升级速度无法跟上数据量非线性增长的步伐,就会暴露大数据安全防护的漏洞。
使用更加开放的分布式部署方式,采用更加灵活、更易于扩充的信息基础设施,基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱“黑客”可以利用的空间。
记者:北信源在大数据与大数据安全方面有怎样的发展规划?
答:终端是大数据产生的源点,而北信源是终端安全管理领域的NO.1,通过大数据分析挖掘可以洞悉终端用户行为和安全威胁;通过有效的大数据分析,进一步规范用户行为,深挖安全威胁,保障信息系统的安全。 北信源的一些典型案例包括GA终端大数据分析,网情监测与应用分析平台(应用于竞争情报分析、舆情监测),大数据安全管理平台软件,区域反恐情报搜集与分析系统,国家电网(省级)终端大数据应用分析,某大型油田终端大数据应用分析等。
记者:大数据安全系统建设需要哪些方面的政策扶持?重点领域重要数据应该如何监管?
答:政策方面,需要促进政府及社会大数据的开放,从政策、人才、经费方面支持国产的大数据分析及信息安全产业,以及制定国家大数据系统及大数据安全策略、标准等。
监管方面,需制定国家重点领域重要数据监管标准与规范,对重点领域重要数据安全保护措施进行等级保护测评,对重点领域重要数据进行安全应急体系演练等。
记者:您认为国外对于大数据采集有怎样的法律管控?
答:大数据技术发展与隐私权保护的价值争议由来已久,在国际范围内主要体现为美国与欧盟政策取向的差异。在欧盟,个人数据被认为更具保护价值,因此欧盟及其成员国有着严格的个人数据保护立法。个人数据保护的主要执行机构包括:欧洲法院、欧盟数据保护专员(EDPS)、第29条工作组、第31条委员会及其他机构,如欧洲网络与信息安全局(ENISA)。
欧盟对侵犯个人数据的行为处罚措施十分严格,包括禁令救济,对公司工作场所和数据处理设施的稽查和调查,数额巨大的罚款,以及对于特大违法行为的刑事责任处罚等。除此之外,欧盟数据保护机构还会对侵犯个人数据的公司予以曝光,以增大惩戒力度。近年来,欧盟官方认为美国谷歌公司、苹果公司等搜索引擎与移动设备服务供应商通过提供服务非法获取、侵犯公民个人数据,曾多次表态要加强对有关企业的监管。而谷歌、苹果等企业也在对欧盟立法机构开展游说公关,以减轻可能面临的执法压力。
与之相对的,美国政府在大数据技术与隐私权保护之间更倾向于利用大数据技术促进经济社会发展,以保持美国在相关领域的领先地位。与此同时,美国政府希望以改良的政策框架与法律规则来解决隐私权保护的问题。由于大数据技术的发展运用将对隐私权保护构成严峻挑战,因此,越是希望鼓励大数据技术更广泛更科学的运用,越是应该通过政策、法律与技术加强公民隐私权利保护。正如《BigData:Seize Opportunities,Preserving Values》(美国总统执行办公室2014年发布)指出,”大数据正改变世界,但它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。”在此背景下,美国政府出台了《BigData: Seize Opportunities,Preserving Values》及其他系列文件,系统阐述了美国政府大数据战略,并以政策与相关法案构建了其隐私权保护的基本框架。
记者:可否用一段话或一句话来总结下您对大数据和大数据安全的理解?
答:在体量巨大、形式多样、快速增长的大数据集合中,快速处理、挖掘、分析出低密度但高价值的信息,在这个过程中既要应对信息安全风险,又要通过利用大数据分析的方法提高信息安全保障。
记者:您对大数据时代信息安全有怎样的建议?
答:大数据是信息化时代的“石油”。大数据转化为信息和知识的速度与能力将成为这个时代的核心竞争力之一,而大数据面临的安全挑战却不容忽视。只有大数据技术和大数据安全“两条腿”走路时,大数据才可以真正成为这个时代的驱动力量。因此我建议从大数据的存储、应用和安全三方面层层把关,有针对性的应对安全威胁。