APP下载

可以解决人工智能版权问题

2024-02-01麦克·罗克德斯蒂姆·奥赖利

南风窗 2024年2期
关键词:拉尼人工智能文本

麦克·罗克德斯 蒂姆·奥赖利

美国版权局最近发布指导意见认定,除非人类创造力进入生成人工智能图像的提示性指令,否则人工智能所生成的输出图像不应属于版权保护的范围。但上述规定还留下许多问题,如究竟需要多少创造力?它与艺术家用画笔实现的创造力是否是一样的问题?

还有一组案例涉及文本 (通常是小说)。有人认为,用受到版权保护的材料训练模型本身就是侵犯版权,即使该模型永远也不会在输出部分中复制上述文本。但自书面语言存在以来,人类学习过程就一直包含着阅读文本。我们花钱买书,但我们却无需付费从书中学习。

我们该如何理解这一点?首先,目前的版权法保护“添加某些新内容的……变革性用途”。显而易见,这恰恰是人工智能模型在做的事。像ChatGPT这样的大规模语言模型(LLMs)由训练过程中所吸收内容的一组庞大参数构成,它代表一个词跟在另一个词后面出现的概率。当上述概率引擎做出一首莎士比亚从未写过的莎士比亚体十四行诗时,哪怕这首新十四行诗水平很烂,此举也同样具有变革性。

技术专家加伦·拉尼尔认为,创造更好的模型是一种为所有人(甚至就连那些作品被用于训练 AI的作者也包括在内)提供服务的公共产品。模型因此值得被保护且具有变革性。但拉尼尔的“数据尊严”理念存在一个问题:在“训练”现行的人工智能模型和以小说家杰斯明·沃德的风格“生成输出内容”之间,很难进行有意义的区分。

人工智能开发者通过进行零散输入并要求模型数十亿次地预测下一个单词来训练模型,并在此过程中,小幅调整参数以改进其预测性。但同样的过程也被用于生成输出,而这本身就存在版权问题。

那么,如何在恰当的情况下补偿作者所創作的作品?尽管可能无法追踪到当前生成型人工智能聊天机器人的数据来源,但故事并未到此为止。在自ChatGPT发布以来一年左右的时间里,开发者一直在现有基础模型之上构建应用程序。许多人运用检索增强生成功能(RAG)来让人工智能“了解”其训练数据中所没有的内容。如果你需要生成产品目录文本,你可以上传公司数据,而后,将其发送给人工智能模型并附上说明文字:“在结果中只使用此提示中所包含的数据。”

尽管“检索增强生成”被视为某种在不经过劳动和技能密集型培训的情况下使用专有信息的方式,但它也顺带在模型的响应和创建响应的文档之间建立了联系。这意味着我们现在找到了出处,从而使我们更接近实现拉尼尔有关数据尊严的愿景。

如果我们在书中出版了一位人类程序员的货币转换软件,而且,我们的语言模型在回答问题时复制了这一模型,我们就可以将此举归因于初始来源,并恰当地分配版税。同样的原则也可以适用于模仿瓦德的作品《唱吧!未安葬的魂灵》而创作的人工智能小说作品。

谷歌的“人工智能概述”,就是说明我们对“检索增强生成功能”期望的很好例子。因为谷歌已经拥有全世界最好的搜索引擎,其摘要引擎应当能通过运行搜索并将排名靠前的结果输入大规模语言模型生成用户所要求的概述内容,来对提示进行响应。模型将提供语言和语法,但它却从提示所包含的文档中提取内容。同样,这可以提供缺失的出处。

既然我们知道有可能制作出尊重版权并补偿作者的输出作品,监管机构就需要加大力度。我们不应接受顶级大规模语言模型企业的说法,称这项任务从技术上看不可能完成。事实上,这只不过是它们能够而且必须克服的众多商业及道德挑战中的一项内容。

麦克·罗克德斯,奥赖利媒体公司内容战略副总裁;蒂姆·奥赖利,奥赖利媒体公司创始人兼首席执行官,伦敦大学学院创新与公共目的研究所客座教授。本文已获Project Syndicate授权。

猜你喜欢

拉尼人工智能文本
拉尼娜来了,这个“小女孩”不简单
在808DA上文本显示的改善
2019:人工智能
基于doc2vec和TF-IDF的相似文本识别
人工智能与就业
梅拉尼娅:世界上最受欺凌的人是我
最小的一个
数读人工智能
下一幕,人工智能!
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻