越来越精通写小说的AI

2019-09-10叶佩

电脑报 2019年47期

叶佩

前段时间“狗屁文章生成器”这个词语因为调侃娱乐八卦新闻火了一把，吃瓜群众也了解到了“机器会写较为成型的文章了”这一新鲜事物。OpenAI在上个月还正式放出GPT-2最后一个部分的完整代码——包含15亿参数的最大版本。

今年涌现出了许多机器学习的精彩应用，令人目不暇接，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言，GPT-2 并没有特别新颖的架构，它和只带有解码器的 transformer 模型很像。然而，GPT-2 有着超大的规模，它是一个在海量数据集上训练的基于 transformer 的巨大模型。

俄勒冈州波特兰市的艺术家达里乌斯·卡兹米观看了来自准小说家的大量推文，11月是“全国小说写作月”，这个时期人们渴望在几周的时间里写下50000个单词。对于计算艺术家卡兹米（其首选媒体是Twitter机器人）来说，这个想法听起来有些曲折。他说：“我当时以为自己永远不会那样做。”“但是，如果一台计算机可以写作，我会试一试。”

卡兹米发出了这样的推文，一群志趣相投的艺术家迅速投入了行动。他们在Github（面向开源及私有软件项目的托管平台）上建立了一个仓库，人们可以在其中发布他们的项目并交换想法和工具，几十个人开始编写可以编写文本的代码。卡兹米编写了一个程序，该程序抓取了适合特定模板的推文，还进行了一些有趣的对话，但并没有满足作者的要求。

Github仓库逐渐包含数百个项目，但“小说”的定义很松散。一些参与者为经典的叙事感到疑惑，比如古典小说通过算法转化为超现实主义的模仿。文章按情感进行汇总和排列，总以奇怪的组合方式进行混搭。

但是经过数十亿个单词训练，新型机器学习模型使计算机能够开始生成读起来很像人类撰写的文本。训练模型以遵循语言的统计模式，学习语法的基本结构，即使它们没有故意的含义，它们也会生成完全可读（至少在语法上）的句子甚至段落。

关于AI写作，还有很多方法可以提升代码生成的文本，今年麻省理工学院数字媒体教授尼克·蒙福特提出了Nano-NaNoGenMo（一个小说写作大赛项目）的想法，要求使用不超过256个字符的代码段制作新文章的挑战。

他说，这可以追溯到“密码朋克”时代，将编码器在20世纪80年代对Commodore 64进行处理时遇到的种种限制，而不需要花哨的机器学习代码。除了怀旧之外，蒙福特还是读取和解释代码和数据集的爱好者。他更喜欢避免使用新语言模型的黑匣子，黑匣子产生的文本植根于海量数据集的统计变化中。他说：“我期待阅读代码以及小说，我确实从头到尾彻底阅读了计算机小说。”

从字面上看，在某些情况下。蒙福特已出版并装订了几本NaNoGenMo小说，其他小说最终通过重新调整基本代码以产生其他语言的文本来对其进行“翻译”。他用165行Python代码花了几个小时编写了程序，下一个努力的目标是建立在塞缪尔·贝克特（Samuel Beckett）的小说《瓦特》（Watt）的基础上的，这个版本更加稳定，几乎可以读成是计算机化的。他认为通过生成自己的版本，找到合适的特征和样式进行扩充，他可能会成为贝克特的更好读者。

OpenAI在博客中表示：过去九个月以来，我们在GPT-2开发方面的经验，帮助我们为AI模型负责任发布工作中存在的挑战与机遇建立起宝贵的见解。我们也参与到Partnership on AI的“機器学习负责任发布规范”项目当中，希望通过合作关系与研究界的同行们共同讨论，为解决模型发布问题贡献力量。

HackerNews网站上，有关GPT-2的讨论一直没有停止。在15亿参数版本发布后，更多参与者加入了话题讨论中，目前的讨论者分为两个主要阵营：

这一类讨论者主要在研究GPT-2的实用性，一些开发者也附上了自己做的测试模型，感兴趣的读者可以前去体验。

当然也有一些讨论者提出：GPT-2开放代码的可读性较差，有不少意义不明的内容，在生成文本的时候，甚至会出现一些常识性的错误等等。这些问题让部分讨论者质疑OpenAI放出的有可能是微调过的“阉割版”。

这一派讨论者主要将目光聚焦在GPT-2的安全性上，毕竟官方也已经承认：确实存在安全隐患，这部分讨论者的观点都认为GPT-2完全开放后，必然会引发一阵滥用风潮。