基因数据如何保护?
2018-07-03
基因数据越来越多
世界上没有两片完全相同的叶子,也没有两个完全相同的人,而背后基因是关键。简单来讲,基因数据有几个特点:一是基因数据不可篡改。基因数据从出生就决定了一部分来自于母亲,一部分来自于父亲,不会简单地随着时间的变化而变化。二是基因携带了很多很多信息,包括人的表情、体征、祖源、血型等等。三是基因数据代表的不仅仅是你,同时代表了你的亲属、家族的信息。可以说,掌握了你的基因就掌握了你家族的信息。这就是为什么基因数据保护如此重要!
据华大智造副总裁蒋慧介绍,现在基因测序的成本越来越低,以前做一个基因测序大概需要30亿美金,而现在仅需要600美金,人类基因组数据会越来越多。这就要求我们,在不断产生大数据的同时,需要更多更好的措施来进行隐私保护和安全共享。
数据保护的探索
为了实现隐私保护和安全共享要求,密码学家们也是绞尽了脑汁,最终不负众望练就了两项“绝技”,一项是全同态加密,另一项是安全多方计算。
什么是全同态加密?要搞清这个概念,我们首先设想这样一个场景:假如你有海量的数据,放在个人电脑上,这很占内存;放在云端,又担心不够安全,害怕数据泄露出去,怎么办呢?是的,对这些数据进行加密储存,这是一个好方法。
可问题来了!如果你现在要把数据中“A”和“B”做运算,比如做加法。通常来讲,我们先把“A”和“B”的密文解密出来,进行明文运算。不过,这个过程既繁琐,数据又容易泄露。
那怎么解决?全同态加密应运而生,即构建一种明文与密文之间的关系,在加密情况下直接进行运算,得到一个密文结果,再把密文结果解密出来,這就是我们想要的结果。
听起来好像比较简单,但直到2009年理论上才有所突破,实际应用起来的效率也不尽人意。而安全多方计算就要早一些,它在1982年提出。为了更好的说明,我们先来看看生活中的两个例子。
第一个例子:Alice认为她得了某种遗传疾病,想验证自己的想法。正好她知道Bob有一个关于疾病的DNA模型的数据库。如果她把自己的DNA样品寄给Bob,那么Bob可以给出她的DNA的诊断结果。但是Alice又不想别人知道,这是她的隐私。所以,她请求Bob帮忙诊断自己DNA的方式是不可行的。因为这样Bob就知道了她的DNA及相关私人信息。
第二个例子:两个金融组织计划为了共同的利益决定互相合作一个项目。每个组织都想自己的需求获得满足。然而,他们的需求都是他们自己专有的数据,没人愿意透露给其他方,甚至是“信任”的第三方。那么他们如何在保护数据私密性的前提下合作项目呢?
遇到上面两种情况你该怎么办呢?安全多方计算就可以应用到这样的场景。同样,我们来做这样一个计算:一个房间里有X个人,每人都有一定的财富,现在我们想把所有人的财富加起来,得到一个总数。但是,我们谁也不愿意泄露自己财富,哪怕是可“信任”的第三方。这个时候,我们可以做一个安全多方计算的协议,仅仅是个协议,无需加密,通过交互完成后得到最终的结果。不过,这并不是说信息完全不会泄露,如果在场的有一个很有钱,而其他人的都可以忽略不计,那么可以根据最终结果大致知道这个人有多少财富。
当然,选择哪项技术,还有赖于具体的应用场景。不过,目前这两项计算都需要很高的成本。但是,两项加密技术还在发展当中,相信未来会有更多更好更廉价的技术出现,来保障我们的数据安全。(编辑/任伟)