自私的数据组

2019-01-28编译韩真

世界科学 2019年1期

编译韩真

人类基因组大概有两张CD的数据，人类整体每秒能够产生20 000张CD的数据

你一定听说过这样的说法，“基因是进化中永恒的贵族，当肉体的宿主来来去去时，它们会照顾自己”。这个说法来自于理查德·道金斯的《自私的基因》，该书2017年被评为史上最具影响力的科学书籍。

而人类实际生产的可操作信息已经超过了所有我们遗传物质的编码信息，人类携带大多数可操作信息进入未来。我们将这些在我们生物之外的数据称之为“数据组”（dataome），数据组很可能构成了复杂生命的脚手架，提供了 “智能”不可靠特征的普遍公认的描述，甚至于还能教我们一些关于我们自身的知识。

同时，数据组所带来的能量负担也很大。这个负担使得我们去询问自己：我们仅仅是为了自身利益去制造和保护这些数据，还是像自私的基因，是因为数据使我们这样做，这样做才能确保数据一直传播到未来？

让我们来看一个例子：威廉·莎士比亚。这个吟游诗人已经成为人类数据组中的永生部分.

莎士比亚于1616年4月23日辞世，其遗体于两日后被安葬于埃文河畔斯特拉福德的圣三一教堂。他的著名的墓志铭对于任何“搬动我骨头”的人都带着诅咒。而据我们所知，在过去的400年间，没人冒险去承受莎士比亚的未亡之怒。

莎士比亚墓志铭

上天明鉴，来客谨记：安息于此，尘封我墓；

不掘寸石，缅者受福；乱动尸骨，动者招咒。

然而莎士比亚的生命却早已超越了坟墓。在他去世之时，他写作了37部戏剧，还有很多别的作品。这37部剧作有835 997个单词。当他的肉体离开尘世几个世纪之后，他的剧本和作品则一共印刷了大约20亿到40亿册。这些印刷品消耗了数千亿的纸张，包含了超过千万亿的印刷单词。

时光荏苒，这些数以亿计的书籍被搬来运去、丢弃又拾起、拿在手里或放在书架上。每次位移都消耗了一点体力，尽管只要几焦耳，但是这个数字是累加的。几个世纪以来，人们拿起和放下莎士比亚书的简单动作消耗了超过4万亿焦耳的能量，这相当于几十万千克煤炭燃烧产生的能量。

而当一个人因为阅读这些835 997个单词而神经元闪耀之时，当有人向着聚精会神的观众朗诵这些作品时，当有人耗费千万美元将莎翁戏剧拍成电影时，当有人打开电视观看这些戏剧演出时，当有人驱车前往莎翁戏剧节时，当有人买了一尊俗气“不朽的吟游诗人莎士比亚”的半身像并且把它挂到壁炉柜上时，都是在消耗额外的能量。再加之作品纸张、书的制造和运输消耗的能量，这个数字只会越来越大。

也许不可能完全衡量莎士比亚无意中倾倒在人类身上的能量负担，但是，这能量负担是巨大的。当然，我们不会因此而怪罪莎士比亚，因为他确实写出了传世名篇。可以这么来理解：莎士比亚的数据已经成为数据组的永恒部分，向未来传播，使我们支持它。

公平地说，莎士比亚只是广阔数据海洋的一粟而已。这些数据对我们的影响既缥缈又非常实在，这既是我们智人（Homo sapiens）的荣光也是负担。

从我们最初动听故事的口头交流开始，从我们在洞穴墙壁上尝试手写开始，我们就在不断产出持续的数据。尽管这两种数据都没有清晰地编码进我们的DNA，但是它们却能轻易超越创造它们的个体。事实上，类似这样的数据比一代又一代的人类更有生命力。

而随着时间的推移，我们生产数据的速度加快了。据统计，我们人类每天会产生2.5万亿字节的数据，即地球每转一圈（公转一年），我们就会产生超过10亿*10亿字节的数据，并且产出速度还在提高。这里面很多都是转瞬即逝的临时记录，比如说来自谷歌搜索、空中交通管制的数据等。越来越多的数据保留在环境中，宠物视频、GIF动画、政治谩骂、带节奏的帖子、医疗记录、科研数据、商务文件、电子邮件、推特、相册等等，所有这些以半永久电子记录的方式储存在硅基芯片或硬盘上的磁点。

这些数据的生产和存储需要大量能量来维持，从人们在土地中寻找稀土元素到建立支撑所有这一切的电力体系。像苹果这样的大公司，因为有巨大的服务器群，需要寻求优惠电力生产的方式，以满足那些开空调、电子驱动工厂的需要。因此，在内华达州建造巨大的太阳能发电厂，在俄勒冈州建水电站。

即使是莎士比亚作品的载体（传统的纸张）也依然是一个饥饿的耗能怪兽。2006年，美国造纸业消耗了大约2 400万亿BTU（约400万万亿万亿万亿焦耳），生产出了9 950万吨纸浆和纸制品，这相当于每克最终原料（没有印字的纸）需要28 000焦耳。换句话说，1页纸相当于燃烧5克的优质煤。

我们为什么要这么做？为什么要花费越来越多的努力来维持我们和机器所产生的数据？答案是，这种行为的意义可能远超我们最初的设想。

从表面上来说，非常明显的是：我们能够跨越世代携带如此多的数据是人类能够成功遍布星球的关键因素。我们能够通过这种方式不断构建我们的知识和经验，这是其他物种做不到的。我们的数据组给了我们巨大的进化优势，而它显然不是免费的。我们可能陷入了一个更大的达尔文式的现实（Darwinian reality，译注：互相利用之意）：事实上，我们只是作为我们的数据组的辅助细胞器。

这是看待自我的不稳定框架，但它在自然界的其他部分也有类似之处。我们身上的微生物组（由数以10万亿的单细胞生物组成）的永恒不是通过人类个体，而是通过人类之间代代相传的生物信息。我们也可以反过来，把这个现象理解成是微生物组携带我们人类穿越了时间，微生物选择寄生于我们是因为我们是好的“环境”。这是一种共生关系，微生物组要努力工作，维持人类这个“微生物支持系统”。因此，对微生物来说，人类既是进化优势也是能量负担。同理，数据组既是人类的进化优势同时也是负担。

问题是：我们和数据组之间的共生关系依然是健康的吗？现在数据组的能量负担已经是人类物种的历史最高水平了，这并不意味着我们正在经历相应的巨大利益。我们最好检查一下：数据组给物种所提供的进化优势和所带来的负担之间是否平衡，是否达到了最佳状态。

非常低效数据的泛滥可能是我们数据组功能障碍的迹象。换句话说，低价值数据的无差别指数增长很可能暗示了数据也会患癌。所以，我们要像对待全人类的健康问题那样来严肃对待这个事。而对此如果治疗得当，就能够减轻全球能量负担，减少对星球环境的影响。

提高我们数据的效用、清除浪费能源的垃圾可能并不流行，但也许可以加以激励。比如：通过家庭太阳能板联网并网发电获得数据积分的计划，或者在互联网产品中推广让数据消失这种特性。在这种方案下，人类和数据组的共生关系就可以成为自然界唯一由一方有意识管理的共生关系。而这在长时间演化的稳定性如何还比较难说。

但乐观的是，如果数据组真是我们进化路径中不可或缺的一部分，那么或许通过挖掘数据组，我们就能学会更多关于我们自身或我们健康的知识，也能学到关于广义的生命本质和智能本质的认知。如何询问数据组是一个非常开放的问题，其中可能有我们根本没有认识到的新兴结构，我们需要制定措施和指标来正确研究它。现有的工具，如网络理论或计算基因组学可能会有所帮助。。

这些分析的潜在收益是巨大的。如果数据组是真实的，那么它就是解决我们谜团、知觉物种的功能和进化的缺失拼图，我们最好看一下数据组。正如莎士比亚所说：“我们的生活之网就是由善和恶的纱线混合交织而成的”。

资料来源 Nautilus