AI能帮助人类找到下一个“地球”吗？

2018-10-23王梓辉

三联生活周刊 2018年41期

王梓辉

在太阳系之外找到另一个“地球”，一直是人类探索太空的最大梦想。为此，当人们在意识到地球的“行星”属性之后，就开始将目光瞄准在围绕其他恒星运行的“系外行星”身上。

如今，在望远镜光学（telescope optics）、太空飞行、计算机等技术的帮助下，人类已经开始侦测和探究其他恒星周围的行星。目前天文学家们搜寻系外行星的主要工具是美国航空航天局（NASA）于2009年发射升空的开普勒太空望远镜。这台太空望远镜被设计发射的目的，就是去发现更多的环绕其他恒星运行的行星。

自从2009年升空以来，开普勒太空望远镜可谓战功赫赫，在其四年的正常工作时间里，开普勒太空望远镜观察了近20万颗恒星，每30分钟拍一次照片，并创造了近140亿个数据点，这140亿个数据点相当于大约2000兆个可能的行星轨道。

2015年1月9日，美国宇航局“开普勒”系外行星探测器启动了K2任务，该任务时长为两年，以确定系外行星上能否支持生命的存在

如此大量的数据是天文学家们寻找系外行星的最佳宝库，在人类迄今已经发现的3700多颗系外行星中，有超过2700颗是由这台空间望远镜发现的。NASA开普勒项目（Kepler Mission）科学家马里奥·佩雷斯（Mario Perez）就曾表示：“开普勒提供的数据独一无二，因为它是唯一囊括了这些类地行星信息的数据库。理解这些类地行星在星系中的出现频率，有助于NASA在未来任务中直接为另一个‘地球拍照。”

然而，数据有了，摆在天文学家面前的难题变成了如何处理这么庞大的数据，以及如何更有效地分析这些数据。

一位来自互联网巨头Google的AI工程师克里斯托弗·肖尔（Christopher Shallue）出人意料地就这些问题给出了一个解决方案，而他的办法似乎能让天文学家们处理收集到的天文数据时不怎么费力，这也让他从一个单纯的互联网工程师变成了横跨人工智能与太空探索两界的科研明星。

“之前我在Google内部负责的工作是‘图像描述（image captioning），也就是将拍摄的一个照片给机器之后，机器能自动出现一个句子来描述这张照片。”肖尔对本刊介绍他此前的研究领域时如此说道。显然，对于图像的智能化分析正是他的专长。

一个偶然的机缘，他发现从开普勒太空望远镜拍摄的数据中寻找行星的工作与他所做的图像分析工作颇有相似之处。因为当一颗运行中的行星挡住了恒星的光线时，恒星的亮度会减小，天文学家正是以此原理为基础，将这种图像亮度讯号的变化用来辨识恒星周围运行的行星。

恰好Google内部有一个“20%计划”（Google员工可以利用20%的时间来做你喜欢或感兴趣的事情），于是肖尔和得克萨斯大学奥斯汀分校的天文学家安得烈·范德堡（Andrew Vanderburg）一起合作，利用自己擅长的人工智能技术来尝试分析开普勒太空望远镜所积累的数据。

“我们利用超过1万5000个经过标记的开普勒太空望远镜信号的数据集，训练了一个基于TensorFlow建立的机器学习模型来区分行星和其他天体。”肖尔说道。简单来说，就是他们利用天文学家标记过信号的数据，来“教导”机器也能学会辨别这些不同的信号，比如其中大约3500个是经过验证的行星或强行星的信号，另外的则不是。通过这种差异性的学习，可以训练神经网络区分什么才是行星的信号，最终使得机器能分辨出行星运动的通性和规律，以此来和恒星、双星系统及其他天体的规律相区分。

“最终，当我们利用这个系统来测试未曾分析过的信号时，它识别行星信号和非行星信号的准确率高达96%，这意味着这个系统是可以发挥作用的。”

为缩小搜寻范围，他们将研究范围定为了670个已知的可容纳两颗或更多系外行星的恒星。在这样的过程中，他们发现了两颗新行星：开普勒80g和开普勒90i。值得注意的是，因为开普勒90i是第八个被发现围绕恒星开普勒90运行的行星，这使开普勒90成为除了太阳系之外，人类已知的第一个拥有八大行星的星系。

同时，肖尔还利用新的工具与技术观测到开普勒90i要比地球大30%，表面温度大约800华氏度，所以它并不适合人类居住。利用这样的新方法，人类寻找下一个“地球”的步伐能加快不少。

去年12月，NASA举办了一场电话会议，同Google一起发布了这个天文探索领域的重大发现，也让人类在探索太空的过程中多了一个强有力的智能化工具。“就像我们期待的那樣，在我们所拥有的开普勒数据中潜藏着令人兴奋的发现，等待着我们用合适的工具或技术来挖掘它们，”NASA天体物理学部负责人保罗·赫兹（Paul Hertz）说道，“这一发现表明，我们的数据将成为未来几年创新研究人员们的宝库。”

在9月于上海举行的世界人工智能大会上，本刊也与首次来到中国的克里斯托弗·肖尔就人工智能技术与太空探索的相关工作进行了对话。

三联生活周刊：作为一个AI方向的工程师，你怎么会产生了利用AI技术去探索太空的想法？

克里斯托弗·肖尔：实际上我本人不是天文学家，但我平时对天文科学这类的理科比较感兴趣，我会在空闲的时候去读一些和太空科学相关的书。之前，我恰好读到一本书，名字叫《人类宇宙》（Human Universe），这本书讲的就是从宇宙起源到我们人类如何探索太空的故事。就是在这本书中，我读到了开普勒望远镜是在2009年的时候发射到太空的，然后它会发送回来很多的数据，而这些数据都需要人来进行分析，但是数据量实在太大。这点就给我一定的启迪，因为在Google，我们擅长的就是去分析数据，这是我们的一个专长。由此我就想到了一个合作的可能：它有海量的数据，这些数据又需要去分析，这就启迪我利用AI去进行合作。

三联生活周刊：这个项目中具体要完成的任务是你们和NASA一起商量出来的，还是你们自己发现并决定的？

克里斯托弗·肖尔：其实我们都知道，NASA发起了对开普勒望远镜的探索使用，他们面向大众公布了很多数据，这些数据在网上都可以找到，而我们Google这边其实是和得克萨斯大学奥斯汀分校一起去合作分析这些数据。但是当我们得到这些新发现之后，是和NASA一起来宣布这个结果的。

三联生活周刊：看起来，这个项目所使用的机器学习技术主要集中在图像领域，它是否和那些在医学领域的智能化诊断研究有相似之处？因为它们都是使用机器学习技术对图像进行分析。

克里斯托弗·肖尔：我们知道，在医学领域，像目前对糖尿病的研究就取得了很大进展，成果激动人心，而且对整个人类都有贡献，我们也发现目前有很多人都在这方面进行探索。这两种方向的研究确实有很多相似之处，因为它们都要分析很多的图片，所以它们都是利用机器学习的方法，采用深度神经网络技术，让机器能够对图像进行分析。这些是它们的类似之处。

三联生活周刊：除了行星的搜索之外，在其他的科学领域，比如物理学方面的大型粒子对撞机所做的也是粒子的搜寻工作。这种大量的数据分析工作可能和现在的搜寻行星类型差不多，你对这些不同的科学领域有涉足的计划吗？

克里斯托弗·肖尔：我本人并没有涉及大型粒子探测器的研究之中，因为我们知道，其实科学它的覆盖面是非常之广的，我们现在也是希望能够用机器学习技术来更好地了解科学，利用这些技术来分析数据。事实上，天文学里面所收集到的这些数据就已经是海量的了，已经足够我们去分析很长的时间。而且据我所知，行业里其实已经有人开始利用机器学习技术来开展对大型粒子对撞机的探索了。

三联生活周刊：随着人工智能技术越来越多地帮天文学家们处理数据，天文学家对人工智能技术的依赖也会越来越强，那他们有没有可能在这个过程中丧失一些自我发现新事物的创新能力？你是否听过学界有类似的担忧？

克里斯托弗·肖尔：事实上，你提的问题我也比较了解。我们训练的模型其实是通过我们对于这些已知的事物进行不断的培训，让这个模型能够了解这些已知的事物，然后再用这样的一个模型去发现类似的这些事物。所以说在这样的过程中，这些AI技术的应用是关系到人的参与。机器学习并不是万能的，相比起来，人类更善于观察和发现全新的事物。只有让人工智能和人进行协作，才能够帮助人类更好地发现更多新的内容。

三联生活周刊：把这种人工智能技术引入天文探索的工作中，這对于这个领域来说是否算是一个新时代的开始？

克里斯托弗·肖尔：这样一个所谓的“新时代”其实还是关系到海量数据的分析。像之前我们所讨论的开普勒太空望远镜的发射也是为了收集数据，它在八年时间中收集了海量的数据。另外我们也知道，NASA最近又发射了一个新的卫星，叫“TESS”（Transiting Exoplanet Survey Satellite），它所涉及的数据可能比开普勒太空望远镜的数据更多。这就要求在未来的时代里，我们必须有更先进的技术来对这些数据进行分析，而不能够单纯地依靠人去对数据进行分类，去手动地对数据进行检查。