表达型人工智能版权合理使用制度研究

2019-09-06卢炳宏

现代出版 2019年4期

◎ 卢炳宏

目前，我国学者正在如火如荼地研究关于“人工智能生成物的法律属性及可版权性”等问题，但本文的意图不是讨论人工智能输出内容的法律属性，而是关注人工智能未经授权使用版权数据（内容输入）的合法性问题。探讨输出内容的版权性问题应该建立在输入内容的合法性证成基础之上，然而学界对此问题的研究成果寥寥。人工智能正在以“读者”的身份快速消费人类的作品，并从中挖掘数据表达内容的价值。在人工智能算法培训数据库中，如果包含未经授权复制的版权数据，合理使用制度能否为其进行侵权抗辩？面对此问题，传统的合理使用制度出现了理论失灵，现有理论应对能力不足。需要重新审视人工智能语境下合理使用制度的价值功能，合理配置各权利人之间的利益需求，以求维护版权数据所有人的利益，促进人工智能产业的良性发展。

一、人工智能使用版权数据的侵权风险

1.侵权防御机制核心要素：非表达性使用

非表达性使用是指仅使用他人版权作品的事实性信息或着重分析原始数据文本的物理特征，而不涉及版权作品独创性表达内容的使用。在Sega v .Accolate案中，被告未经授权复制了原告运行游戏机的源代码，法院判定被告的中间复制行为是合理使用。被告复制的目的是实现软件兼容功能而采取的必要技术手段，最终产品仅包括为实现兼容目的界面代码，并不具有利用原告作品表达内容的目的，属于非表达性使用。在Authors v.Google案中，谷歌搜索引擎向用户展示的仅仅是关于图书的事实类信息，复制图书的目的仅限于提供搜索服务功能，并没有直接将图书的表达内容提供给公众全面阅读欣赏，法院裁定谷歌扫描复制图书的行为属于合理使用。非表达使用的复制行为属于实现技术功能的必要手段，使用的是版权数据的事实类信息，并没有将版权作品的独创性表达内容公开传递给消费者，没有产生作品独立利用和传播的负面影响，不会影响原作品的正常使用，使用非表达性事实信息的行为并不在作者版权权能的可控制范围内。非表达性使用具有很强的目的转换性功能，即使谷歌公司的商业属性也可以得到合理使用制度的原谅。与此同时还可以为机器学习技术提供丰富的训练素材，促进人工智能产业的良性发展。无论从法律制度还是产业政策上，非表达性使用得到合理使用制度的庇护均具有正当性和必要性基础。

2.侵权防御机制的漏洞：表达性使用

非表达性使用作为认定合理使用的标准之一，很大程度基于这样一种假设：计算机无法像人类作者一样具有表达创作能力，无法产出具有版权保护的独创性表达。但是这种假设似乎对那些具有表达性功能的人工智能不太适用。人工智能可以“创作”的事实并不算新鲜事，例如“微软小冰诗歌作曲项目”“下一个勃朗特绘画项目”“腾讯Dreamwriter新闻写作项目”等。这些人工智能生成品在不告知受众信息来源的情况下，已经很难分辨出到底是人工智能还是人类作出的。据笔者统计，我国多数学者认为人工智能生成物具有可版权性，符合独创性标准。我们不得不面对这样的事实，人工智能已经具备了一定的表达创作能力，笔者称之为“表达型人工智能”，它们可以充分利用版权数据的独创性表达内容，利用精确统计、分析数据的能力，通过模拟人类神经网络的方式进行数据学习训练，根据自身获取的数据来实施创作，并且可以创造出具有很高商业价值的数据成果，它们已经学会从作品的表达内容中挖掘出价值，而不再局限于事实信息的整理分析。

3.侵权风险评估：表达型人工智能的使用

合理使用不是表达型人工智能随意剽窃作品的许可证。在数据输入阶段，为培训算法模型，未经授权或者破译技术保护措施使用版权作品的行为，属于推定的版权侵权。在算法培训阶段，版权数据可能会被多次复制、修改和反复运行，虽然有些复制版本存在的时间很短暂，但是确实创建了侵犯版权的副本，并有可能从输入数据中衍生出具有相同或类似风格的演绎作品。虽然风格属于思想的范畴，不受版权法保护，但是相似的输出很可能会影响原作市场的价值，甚至形成市场替代效应。即使使用授权的版权数据也有可能会承担法律责任，因为权利人授权使用作品的目的与表达型人工智能使用的目的并不一致。将授权作品用于培训表达型人工智能进行创作，目的是产生具有市场竞争性的同类衍生作品，可能会超出版权许可协议的使用范畴。为了避免侵权的风险，使用者一般会采取“用户服务条款”的方式来免费获取用户版权作品数据的使用权，为其人工智能算法培训而服务。但是这种格式条款协议本身的合法性值得推敲，平台服务商可能没有尽到合理的提示注意义务，导致多数用户并没有过多地关注版权协议的内容，用户知情权、信息自决权等权益无法保障，基于互联网巨擘企业利用数据垄断的优势地位，主体地位的不平等很难保证利益分配的公平。用版权数据利益换取平台提供的免费服务，这种交易对价的公平性也值得怀疑，协议内容的合法性缺乏有效的外部监督机制。

二、表达型人工智能的合理使用分析

人工智能的新兴利用不再局限于非表达性使用，不符合合理使用制度的规范条件。主要表现为：第一，表达型人工智能的商业性使用具有营利性目的；第二，表达型人工智能的使用行为构成了市场替代威胁，对作品的价值及潜在市场利益产生了不利影响。

1.表达型人工智能的营利性使用目的

使用者免费使用他人作品并获得实质性利益而没有对作者进行任何补偿，不符合合理使用制度利益平衡的价值功能。谷歌利用“深度学习”技术推出的 Gmail 功能，可以帮助用户阅读邮件并进行智能回复。为了让智能回复功能算法更加智能化、人性化，谷歌开始利用数字图书馆中的小说类图书，因为小说的表达内容更贴近人们日常生活中的表达方式，这种使用行为盗用了小说作者丰富多彩的表达性内容，不属于非表达性使用，是一种推定的版权侵权。一般来说，合理使用限于已发表的作品，对于未发表的个人信件，无论出于什么目的，都有可能侵害作者的“发表权和隐私权”。谷歌很有可能利用该数据库培育出具有巨大商业价值的表达型人工智能，创造出大量的具有独创性表达内容的“作品”，进而威胁作者的地位及潜在的市场利益,此时缺乏先定力的合理使用制度能否为这种营利性目的使用开脱是值得质疑的。

2.作品价值及潜在市场利益的威胁

表达型人工智能的营利性使用行为，对作品的价值和潜在市场利益会造成一定损害，这种损害是真实存在的，也绝非合理使用制度所能包容的轻微性损害。若毫无限制地放纵此类使用行为，将会颠覆以作者利益为核心的版权制度范式，打造以“人工智能使用者权”为中心的、失衡的版权利益分配格局。

人工智能学习技术可以从毫无价值的数据中产生价值，并培育出前所未有的数据许可、数据共享市场。通过输入海量数据培训人工智能，可以创造出具有巨大商业潜力的算法模型，而每个输入数据的价值与算法模型的价值相比远远不及。对于培训数据所形成的市场，作者是否有权利参与其中并获得相应的收益呢？从“谷歌数字图书馆”一案所达成的和解协议内容上看，谷歌愿意对未经授权复制作品的非表达性使用行为进行谈判，并愿意同版权数据所有者分配市场利益。可以确定海量数据的许可使用能够产生相当可观的市场收益，并且为版权人提供一个非表达性使用需要付费许可的可能性。如果表达型人工智能使用这些数据的行为被定性为合理使用，作者可能无法参与数据许可市场利益的分配。

从长远角度看，表达型人工智能衍生的版权市场不仅侵害作者的数据许可市场利益，更有可能威胁到整个人类作者群体在版权交易市场的地位。“相对稳定的市场向相对固定的用户群提供相对不变的产品，因而即便是新型衍生市场吸引相当小部分的原市场用户也会被视为具有商业影响而构成对原产品的商业替代，具有影响原产品相对稳定市场的风险。”“考虑到人工智能创作物的低成本、高效率,一般的人类作者在版权市场的定价能力将受到削弱。”当版权市场充斥着大量的人工智能作品时，某些创作领域的人类作品可能会被替代，尤其以数据主导的创作行业的作者地位更是岌岌可危。

三、表达型人工智能合理使用的困境

1.定性侵权不利于人工智能创作科技的进步

绝对化的将表达型人工智能的使用行为定性为版权侵权，将会产生难以挽回的后果。版权法提供的侵权补救措施与数据作者的损失可能无法适当匹配。例如“谷歌数字图书馆”一案，如果输入数据是享有版权的，那么每个数据的作者可以获得750美元的法定损害赔偿。可想而知，谷歌数字图书馆数据库包含数十万乃至数百万条的版权数据，如果利用此标准，那么谷歌这样强大的企业也会面临瘫痪的风险。或许法院不会采取过激的法定赔偿标准去判决，但是一项不利的判决会在整个技术行业内引起“寒蝉效应”,甚至包括那些非商业性、非表达型人工智能的使用行为也会担心触碰版权侵权的界限。合理使用制度不是现代科学的对立物，现代科学技术也不是合理使用制度的掘墓人。

2.定性为合理使用会导致版权利益关系严重失衡

毫无限制的允许表达型人工智能大量消费作者的版权数据，可能会导致作者群体地位的边缘化。此外，当版权市场充斥着大量可版权性的人工智能作品时，基于版权垄断效应反而可能会限制社会公众的表达自由。也许有人会质疑，何必在乎是由人类创作还是由人工智能创作的。这种想法恐怕与版权法的精神相违背，版权法是以人类为中心建立的法律制度，它在乎作品的数量，更加在乎人类弥足珍贵的创作表达能力和表达自由。而毫无限制地放任表达型人工智能的使用，可能会因缺乏激励对人类的创作表达能力和表达自由产生不利的影响。试想人工智能消费版权作品不需要提供任何补偿，而人类作者却要为翻译、改编版权作品支付费用，这显然有点荒谬。更令人担忧的是，表达型人工智能合理使用模式可能会进一步拉大社会的贫富差距。人们创建了大量的文本、视频、图像和其他数据，并将这些数据通过“用户服务条款”授权给互联网平台公司以换取免费的服务。而强大的公司利用人工智能技术从版权数据的使用者逐渐向人工智能版权作品所有者身份过渡，这一身份的转化提醒着我们：传统的合理使用制度在人工智能时代开始出现失灵，即无法公正地在用户和公司之间分配利益，正在促使版权利益从作者那里转向商业集团。互联网平台公司的商业模式遵循这样一种赢家通吃的经济循环链条，帮助公司巩固了市场竞争的优势。合理使用制度作为公共利益的安全阀，平衡了使用者表达自由与版权所有者经济权利的冲突。但是如果这一理论发展到毫无限制地赋予表达型人工智能免费使用版权者数据的权利，换取的是以损害版权者数据的权利来滋养公司垄断版权数据市场的野心，这种利益分配的集中化最终会导致社会贫富差距的进一步扩大。

四、表达型人工智能版权合理使用的出路

1.人工智能合理使用的类型化分析

合理使用制度与生俱来的不可预测性在人工智能时代表现得更加突出，可以采取类型化的分析方式，将使用目的作为界定合理性的逻辑基础，为使用者提供一种清晰明确的行为预期，有效平衡技术发展与版权保护的冲突。

以获取事实性信息为目的使用行为。在“Authors Guild v. Google Inc”“Perfect 10 v. Google”“Blake A. Field v. Google”三个案例中，谷歌公司未经授权使用版权作品的行为均构成转换性的合理使用。因为其主要使用的目的并不是利用作品的表达性要素进而形成原作的替代品，而是利用了作品中的非表达性事实信息，如并非再现网页内容的快照浏览功能、并非美学或娱乐目的缩略图搜索功能、并非提供图书版权表达内容的事实信息检索功能。这些服务公众利益需求的功能具有高度的目的转换性，符合合理使用制度促进文化信息共享的理念。

以生产性表达为目的的使用行为。需要强调的是，并不是所有未经授权使用作品表达内容的行为都是侵权行为，如为了评论、介绍他人作品适当引用的行为，为了时事新闻报道不可避免的使用行为等属于侵权例外，这些行为可以激发使用者生产新的表达、美感或信息，他们自己就是新作品的生产者。新作品的受众群体与市场不同于原作品，并不会形成替代作用。构成“转换性合理使用”是为了防止版权垄断的冰冻效应阻碍公众对知识的利用，激励使用者生产出更好的作品，使用内容的数量也是限定不能超过一定的比例，而且要求注明使用作品来源信息，不会影响原来作品的正常使用。具有高度内容转换性的使用方式同样可以适用于人工智能生产创作，符合合理使用制度促进文化事业繁荣的理念。

以技术实施与进步为目的的使用行为。“判断促进技术进步的合理使用，其重要的考虑因素有：作品使用的目的是否属于转换性的使用，社会公众是否受益于该技术的发展，该技术对版权作品的使用是否构成对原作的替代性使用。”为测试人脸识别算法性能而使用海量图片数据库的行为，是以技术进步为目的的，并没有使用版权图片的表达性因素，也不会对原作版权市场利益造成严重影响。为了纠正算法偏见引发的不公正危害，算法问责程序对作品的利用，都应当纳入合理使用的范围，使其获得更全面、更客观的数据信息。以技术实施与进步为必要的使用行为，符合合理使用制度促进科技产业发展的理念。

2.合理使用向法定许可的过渡：建立使用版权数据的补贴机制

人工智能学习技术扩大了作品的使用方式，必然会导致一定范围内合理使用向许可使用的过渡。法律经济学的核心思想是效益，根据帕累托标准即效益的提高必须是对各方都有益，以损害某一方利益来改善他方利益的方法是非效益的。合理使用只有对作者和使用者都有利时方属“合理”，否则将因“经济合理性”的欠缺而导致无效益。人工智能使用行为给人工智能产业公司带来了实质性的收益，是否处于公平考虑而给予著作权人适当的补偿？法定许可制度在简化作品获取和使用程序的同时，能较好地平衡作品的保护与技术发展的诉求，平衡各方利益，长远来看不失为一种可取的理想方案和制度安排。

技术进步与版权保护总是在处于动态平衡之中。为了缓解数字磁带技术的应用损害音乐版权产业发展的问题，美国颁布的家庭录音法案允许个人非商业性使用音乐作品，数字录音设备制造公司应当向音乐版权人缴纳合理的使用费用。法案产生的背景与当今表达型人工智能使用困境十分相似。建立类似法定许可制度的税收分配机制，可以有效平衡使用者与权利人之间的利益。可以参考谷歌数字图书馆的和解协议中规定的方式，“建立图书版权登记机构，分配谷歌图书销售的收益及广告盈余，并将其分发给版权所有者”。另外，对于孤儿作品的使用收益可以考虑分配给社会保障机构，以保障版权作者及那些可能被人工智能取代的群体的利益。建立版税征收制度是西方国家版权立法的趋势，必然存在一定的合理性基础，绝不可轻易作出否定的评判。

注释：

① 以吴汉东、易继明、熊琦、梁志文等教授为代表的大多数学者都认为人工智能生成成果具有可版权性，王迁教授持反对意见。

② JISUK W.Redefining the “Transformative Use” of Copyrighted Works： Toward a Fair Use Standard in the Digital Environment[J].The Hastings COMM/ENT Law Journal,2004：12.

③ 曹源.人工智能创作物获得版权保护的合理性[J].科技与法律,2016(3)：503.

④ 吴汉东.著作权合理使用制度研究[M].北京：中国政法大学出版社,2005：239.

⑤⑦EDWARD L.Technological Fair Use[J].Cal. L.Rev,2010(83)：22,61.

⑥ 张颖.人工智能编创过程中的著作权问题探析[J].中国编辑,2018(9)：85.

⑧ 刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报，2019(2)：78.

⑨ 马丽萍.谷歌数字图书馆事件中的合理使用问题研究[J].图书馆学研究,2012(19)：88.