大数据安全与隐私保
2015-01-03张营军
文|张营军
大数据安全与隐私保
文|张营军
在如今这个信息时代中,“大数据”俨然已经逐渐的称为了广受社会各界关注的热点问题之一。不口否认的是,大数据的存在对人们生活生产等多方面都带来了较为积极的作用,但不可避免的是,大数据的应用依旧存在着诸多的风险。那么,如何利用有效的措施来保护大数据的安全与隐私,显然已经成为了当下大数据应用领域中最需得到解决的问题。该文基于大数据的应用目标来对大数据安全与隐私的保护技术进行了系统的分析与探究。
在人们对数据使用量日益增加的背景下,继互联网、物联网、云计算过后,大数据已经逐渐的称为了信息技术领域当中的“标志”。大数据,具备了多样性、复杂性、高速性等特点,因此人们对其数据信息的分析与研究将不会那么容易。显然,要想较好的处理与管理这样复杂的数据系统,需要全面的安全、隐私保护技术。但就目前的情况来看,关于大数据信息安全及隐私的问题并没有得到实质性的解决。
大数据的应用目标
就目前的情况来看,大数据已经被广泛的应用于科学、商业、医药、教育等多种领域当中。而对于每一个不同的领域而言,虽然大数据的用途也存在着一定的差异,但整个应用目标来说,显然是极为相似的。具体而言,主要体现在以下几个方面:一是对数据进行长期性、多角度的分析、对比与积累,即能够有效的总结出用户的个性化特征。而对于企业而言,即能够通过对这些个性化特征的利用,来有效的了解与掌握用户的行为习惯,从而对用户进行科学合理的定位与分类,最终为不同的人群提供不同的个性化服务;二是经过对现有数据的深入挖掘与分析,即能够及时、有效的获取具有价值的信息。通过信息的挖掘,人们即能透过现象看到事物的本质,从而实现对事物发展趋势的正确预测,更快、更好的把握事物的发展规律。
大数据安全与隐私保护关键技术
数据溯源技术。之前,对于数据溯源技术的研究仅仅针对于数据库的领域当中,而目前这项技术也被广泛的应用的到了大数据的安全与隐私保护中。作为数据溯源技术中最为基础的手段,标记法的作用主要是实现对数据出处及计算方法的记录。通过对来源数据的标记,不仅能够帮助使用者对分析的结果进行有效的检验,也能够让使用在判断信息真伪的时间得以缩短。同时,数据溯源技术的作用在文件的恢复与溯源中也能够得到充分的发挥。
数据水印技术。所谓数据水印技术,即是指在不影响数据使用及数据内容的前提下将可标示信息以一些很难察觉的方式嵌入到数据载体当中[1]。这样的技术一般都用于媒体版权的保护,当然也有一些文本文件与数据库因员工数据水印技术。但是,在多媒体载体上与文本文档或数据库应用数据水印技术却有着极大的不同,即与这两者数据的动态性、无序等特点不相一致。从作用的力度来看,可以将数据水印技术划分为强健水印类与脆弱水印类。一般情况下,强健水印类都用于数据起源的证明上,能够有效的保护原作者的创作权等。而脆弱水印类则多用于证明数据真实与否。但针对于目前快速大量生产的大数据而言,水印技术明显还需要在很多地方进行改进与完善。
身份认证技术。所谓身份认证技术,即通过对用户以及其所使用设备行为数据的采集与分析来获取行为特征,从而通过利用这些所获取的特征信息来对相应的操作者、用户以及所使用的设备的行为进行有效的验证,最终确定其身份。显然,通过身份认证技术的应用,黑客入侵攻击的难度将得到陡增,不仅减轻了用户的负担,也让不同系统的认证机制得到了统一。
数据发布匿名保护技术。以结构化数据的角度来看,数据发布匿名保护技术即是保护数据安全与隐私过程中极为关键的部分。但是,就目前的情况来看,这项技术还存在着诸多的问题,需要进行不断的发掘与完善。目前,在数据发布匿名保护技术的基本理论中,绝大部分在设定环境的时候都是由用户静态的、一次性的对数据进行发布。比如:通过抑制处理方式和元祖泛化方式来对标识符进行分组,而针对于具有共同属性的集合而言,则采用匿名模式来对其进行匿名处理[2]。显然,这样的方式很容易将某些特殊的属性遗漏掉。但现实是多变的,一般情况下,数据发布都是多次的、连续的。在复杂的大数据环境下,要想让数据发布匿名保护技术得以实现,显然是较困难的。针对于攻击者而言,可以通过不同的渠道、不同的发布点来获取各种数据、信息,从而确定用户的信息。因此,针对于这一点而言,作为信息领域的相关研究人员,应该投入更多的精力对其进行深入的研究。
总之,就整体来看,国内外针对于大数据安全与隐私保护技术的相关研究而言,明显还不够充分。因此,我们不仅要进一步对技术手段进行改善与创新,同时也要建立健全相关的政策法规。只有这样,大数据安全与隐私的保护问题才能够得以解决。
(作者单位:空军指挥学院)