黑客可以轻松愚弄人工智能算法

2018-09-26编译西岸

世界科学 2018年9期

编译西岸

2018年6月，在国际机器学习大会（ICML）上，一组研究人员展示了他们用3D打印出来的海龟。大多数人都说它看起来就像一只海龟，但人工智能（AI）却不这么认为。很多时候，人工智能把海龟当成步枪。类似的，它将3D打印的棒球视为浓缩咖啡。这些是“对抗性攻击”的例子——巧妙地改变图像、物体或声音，愚弄人工智能，却没有引起人类的警觉。

人工智能领域一些重大进步——尤其是机器学习算法，它可以在消化训练数据集以后识别声音或物体——促进了家庭语音助手和自动驾驶汽车的发展。但令人惊讶的是，这些人工智能很容易受到欺骗。在这次会议上，“对抗性攻击”是一个热门话题，研究人员报告了新型欺骗人工智能算法的方法以及新的防御手段。本次会议的两个最佳论文奖之一授予了一项研究，该研究表明受保护的人工智能并不像它们的开发者想象得那么安全。麻省理工学院（MIT）的计算机科学家安尼施·阿塔伊（Anish Athalye）说:“我们在机器学习领域的研究人员还不习惯于从安全角度思考问题。”

研究对抗性攻击的计算机科学家说，他们正在提供一种服务，就像黑客找到软件安全缺陷一样。麻省理工学院的计算机科学家亚历山大·马德里（Aleksander Madry）表示：“我们需要重新考虑机器学习算法的所有路径，使其更加安全。”研究人员表示，这些攻击在科学上也很有用，它们为研究人工智能提供了非常好的窗口，可以用来研究原本内部逻辑无法被透彻解释的神经网络。

这些攻击因其不易察觉而引人注目。2017年，加州大学伯克利分校的计算机科学家唐恩·宋（Dawn Song）和她的同事在一个停车标志上贴了一些贴纸，愚弄了一种常见的图像识别人工智能，使其误以为这是一个每小时45英里的限速标志——这个结果肯定会让自动驾驶汽车公司抓狂。

利用贴纸或其他难以察觉的元素，对抗性攻击欺骗图像识别算法，使其认为停车标志是限速标志，3D打印的乌龟是步枪

研究人员正在设计更加复杂的攻击。即将到来的一场会议上，宋女士将展示不仅误导图像识别人工智能算法，而且使它们产生幻觉的技巧。在一次测试中，Hello Kitty出现在人工智能机器的街景视图里，导致机器辨识不了街景里的汽车。

其中一些对抗性攻击基于对目标算法内部结构的了解进行攻击，即所谓的白盒攻击。例如，攻击者可以看到人工智能算法的“梯度”，它描述了输入图像或声音的微小变化如何将输出移动到一个辨识的方向。如果你知道梯度，你就能计算出如何一点一点地改变输入以获得想要的错误输出——比如“步枪”的标签——而不需要以改变输入图像或声音等容易被察觉的方式。在更具挑战性的黑盒攻击中，对抗性AI必须从外部探测目标AI，并侦查目标AI的输入和输出。

人工智能开发者不断加强他们的防御。一种技术是将图像压缩作为图像识别人工智能的一个步骤。这增加了算法中平滑梯度的锯齿性，挫败了一些攻击者。但道高一尺魔高一丈，这种“梯度模糊处理”的方法已经被破解。在ICML一篇获奖论文中，加州山景城谷歌的计算机科学家尼古拉斯·卡利尼（Nicholas Carlini）、阿塔伊和一位同事分析了最近人工智能会议中提及的9种图像识别算法，其中7种将梯度模糊处理作为一种防御机制。该团队能够通过避开图像压缩等方法成功破解这7种算法。

一个更强大的方法是训练一种具有一定约束的算法，以一种可验证的、数学的方式，防止它被对抗性攻击引入歧途。但这些可验证的防御，其中有两个就在ICML上被提及，到目前为止还没有扩展到现代人工智能系统中的大型神经网络中。

卡利尼希望开发人员除了关心如何使AI在基准测试中表现良好，还能够更加深入地研究防御系统是如何工作的，以及可能失败的原因。

资料来源 Science