马斯克倡导成立的AI机构放大招

2019-03-26黄珊李亚山

海外星云 2019年5期

黄珊　李亚山

你在键盘上输入开头：“这是一个关于小狗Boo的故事。”片刻之后，AI为你返回一个完整的叙事：“这是一个关于小狗Boo的故事。Boo是一只拉布拉多犬，它爱人类胜过一切。一年多前，弗吉尼亚州阿灵顿市的狗狗救援行动救助了Boo，它是一只被遗弃的小狗（现在两岁）。Boo的故事令人动容。”

这不是假新闻，而是OpenAI开发出来的最新语言模型所能实现的效果。在此前的DOTA2 AI惨败后，这家马斯克倡导成立（现已退出董事会）的AI机构在今天发布了其自然语言处理（NLP）模型——GFF-2。GFF-2最大的亮点是可以生成给定单词或句子的连贯文本，而且在一系列NLP测试中实现最佳（或接近最佳）性能。我们可以简单地将其理解为一款“洋葱新闻AI”，但它的价值远不止于此。

自然语言处理专家、Salesforce首席科学家Richard Socher对《麻省理工科技评论》表示，OpenAI这次的工作展示了一个更通用的语言学习系统，这些通用学习系统代表着未来。

人类语言的力量已经不必多说，但也正是因为其强大，构建真正理解人類语言的AI的过程也异常艰辛。目前，我们已经迎来几项标志性成果，例如谷歌的BERT，它利用预训练好的模型，可以在几个小时内在单个显卡上训练最先进NLP模型，而Facebook的PyText，则可以每天为社交网络的应用程序和服务生成超过10亿个预测。这些成果已经推动了NLP相关的研究。但是，在没有人工制作的语法规则和精心标记的数据集辅助的情况下，AI目前还难以实现自然“说话”。这也是为什么OpenAI这次的研究非常值得关注的原因。

先前的研究表明，无监督学习从非分类、无注释的数据中学习可以用于从通用模型到特定的语言任务。OpenAI认为，GFF-2的诞生表明，足够大的语言模型可以在不需要特定领域数据集或修改的情况下学习NLP任务。

这些模型核心的神经网络由神经元组成，这些神经元仿照生物神经元松散建模实现数学功能。这些神经元与层层排列的能传递信号给其他神经元的“突触”相连。数据信号从一层传递到另一层，然后通过调整每个连接的突触强度（权重）来缓慢地“调整”神经网络。随着时间的推移，神经网络就能从数据集中提取特征并识别样本之间的趋势，最终学会做出预测。

GFF-2基于OpenAI先前的研究成果GPT。有意思的是，2018年轰动NLP领域的谷歌BERT模型，其很多思想也与GPT这个“前辈”有关系。GPT-2继承了GPT的一些特性，在一定程度上同样依赖Transformers实现其效果Transformers是一种相对新颖的神经结构，于2017年由Google Brain团队在论文《Attention Is All You Need》中引入。

Transformers为这一复杂过程增添了“自注意力机制”。神经元群以不同的速率传递信号，并将信号以某种智能的方式传送到下一层。这种结合40GB、800万条网络评论、帖子和文章相当于100亿个单词的架构调整，可以让OpenAI模型查询之前经验的相关信息，而且十分简单快速。OpenAI数据解决方案和语言研究主管Alec Radford在一次电话简报中告诉表示：“一些人工智能模型强行将上下文的所有信息汇总或压缩成一个固定长度，这是一项非常困难的任务。这与以自我关注为基础的模型截然相反，自我关注模型将所有不同的单词放在上下文中，并学习如何查询之前信息的功能。如果模型看到像‘先生或‘太太这样的单词，就可以学习如何查看文档和前面所有的单词，并判断出哪一个名字可能跟在这一称谓后面。”

已有的测试显示，输入“敏捷的棕色狐狸跃过了一只狗”，模型处理后写到：“敏捷的棕色狐狸跃过了一只狗。这只狗真懒！这有什么了不起的？我问到，棕色狐狸笑了，狗也舔了舔嘴唇。我不知道。但你不必知道，因为一旦你懂了……我懂了，我说。输入“John今天早上醒来感觉很饿”，模型返回“John今天早上醒来感觉很饿。这是因为这家餐厅一般会营业到7月份，但由于感恩节假期，餐厅有些窗口关门了。John的晚饭只有一份拌上奶酪和调味品的新鲜蔬菜沙拉。土豆是棕色的，沙拉很有味道。”

而在另一类Amazon模型的测试中（用于指定产品类别、产品名称、评论得分和评论摘要），输入“一个很棒的手机”，随后，产品切换设置为“手机及配件”，评论等级设置为“5”。它生成的是：“这款手机太棒了！我是2013年7月买的。我还会购买第二部的。它能通过麦克风发短信、播放音乐和与他人交谈，而且音质很好。不过耳塞戴上几个小时后，耳朵有点不舒服。我遇到的唯一问题是电池的寿命。这只是技术上的问题，手机使用一段时间后就会耗电严重。除此之外，我喜欢这款手机。这是我用过的最好的手机。这是一款很棒的手机。机壳的触感很好，但是很容易变脏。如果你的手机上有摄像头，你可以用它拍照。我上传了自从我有了手机后的照片。不得不说上面这个评论已经和人类用户给出的评论非常接近了，无论是表达还是信息组织的逻辑。

对此，OpenAI表示，模型在第一次运行时，大约有一半的时间会生成“有趣的”和“连贯的”文本。Radford说：“它试图在尽可能少的信息下预测下一个单词。你能给出的上下文越多，它就会表现得越好。”而在zero-shot任务迁移的实验中，模型没有事先在任何特定于测试的数据集上进行训练，OpenAI表示，该模型的四种语言系统中最大的语言系统OpenAI gps-2在八个基准测试中，成功地在七个测试中获得了最佳分数，包括LAMBADA测试（模型在文本中建模长期依赖关系能力的测试）、Winograd模式挑战（解决文本中歧义的能力的测试）和Penn Treebank（包含数百万个标记了部分的文本的演讲集合）。

它还显示出无监督学习任务的执行能力。在回答问题的测试中，它在获得上下文的情况下的准确率达到83.4%。“它能够利用更大的模型和更多的数据成为一个‘多面手，一般的语言预测任务都能执行得很好。在一些非常有针对性的任务中，如汇总或翻译，它也展示了初步的潜力。这太令人兴奋了，因为我们没有明确针对这些任务进行训练。”Radford说。尽管如此，Radford和OpenAI技术人员杰弗里·吴（Jeffrey Wu）也承认，这还远远不是自然语言处理的终点：这些模型一次只能看到一页以下的数据，而且在推理时逻辑并不完全一致——有时会有很夸张的数字，或者以一种荒谬的方式跑题了。OpenAI团队未来将继续改进这些问题。

与以往的做法不同的是，这一次，OpenAI既不发布用于培训NLP模型的数据集，也不发布相关的语言模型或培训代码。它认为，发布这些信息可能会为滥用打开大门。OpenAI在博客中写道：“同样的工具，一个艺术家可以利用来帮助他们写一个短篇小说的故事，可以用来制作关于某个公司的财务新闻，也可以在知名网站上创建虚假评论，甚至是强化政治性舆论影响……基于这些考虑，我们本着负责任的态度发布这个模型，希望贡献或者得到沟负责任的讨论，從而使记者、决策者等其他重要利益相关者也能够理解和验证我们所做的事情。”

OpenAI所做的这项工作，其实也呼应了当下全球信息传播中的一个重要议题——可以用来生成误导性内容的AI系统正受到越来越多的审查。2018年9月，美国国会议员就要求情报机构就deepfake（AI视频造假）对国家安全的潜在影响提交报告。在2018年末的一次国会听证会上，国会议员们在与Facebook首席运营官谢丽尔-桑德伯格和推特首席执行官杰克-多尔西交谈时，也表达了对操纵deepfake的潜在影响的担忧。

我们不排除，甚至可以肯定的说，未来OpenAI最新的这款语言模型或者其他类似的模型一定会被用来生成不真实或误导性的故事。数据显示，2018年3月，半数美国人表示在新闻网站上看到了故意误导的文章。有机构预测，如果目前的趋势持续下去，到2022年，大多数发达国家的人每天将看到更多的虚假信息，而非真实信息。因此，OpenAI的顾虑是完全合理的。

现在也有不少团队正在开发能够与假新闻AT对抗的AI。例如，麻省理工学院的研究人员就在试图用自动化工具来对抗人工和AI编写的假新闻，这些工具可以判断消息来源的准确性或政治偏见。但是，一些专家不相信这样的做法能取得多显著的效果。

卡内基梅隆大学机器人研究所的科学家迪安·波默洛参与组织了“假新闻挑战赛”，这是一项众包偏见检测算法的竞赛。他在一次采访中透露，AI缺乏对语言的细微理解，而这些理解是研究不真实和虚假陈述所必需的。“实际上，我们一开始就有一个更宏伟的目标，那就是创建一个能够回答‘这是假新闻吗，是还是不是？这个问题的系统。”“他说。“但我们很快意识到机器学习无法胜任这项任务。”但也不用如此消极。很明显，各国在政策领域还有很多改善的空间。OpenAI也希望通过这次研究，不仅能展示它在NLP领域取得的成果，还能在研究人员和监管机构之间引发辩论。

除了对假新闻的担忧以外，这次的研究还继续佐证了目前深度学习研究领域的一个“法则”（甚至可以认为是“诅咒”）：数据、计算资源和人才三大关键因素缺一不可，突破性成果越来越可能只有大机构大企业才能支撑完成。无论是去年3亿参数的BERT，还是现在动用了15亿参数、每小时训练价格高达2048美元的GVF-2，都没有避开。（摘自美《深科技》）（编辑/多洛米）