APP下载

挑战与应对:机器翻译的发展与翻译权行使的未来

2021-08-03尹锋林赵旖鑫

科技与法律 2021年3期
关键词:机器翻译著作权深度学习

尹锋林 赵旖鑫

摘    要:20世纪30年代,法国科学家G.B.阿尔楚尼便提出用机器进行翻译的设想。近一个世纪以来,机器翻译实现了从规则驱动到统计驱动,再到神经网络驱动的技术进步,人类目前可以较为准确地实现外文作品的语言转换,授权他人翻译、出版以获取经济回报这一翻译权行使的基本模式因此面临着重大挑战。当语言转换非限于个人使用目的时,智能翻译机器的训练者、所有者可能面临着承担间接侵权责任之指控。同时,智能翻译机器的训练将会不可避免地使用现有作品,并可能会借鉴体现于其中的独创性表达,这一行为无法援引现行合理使用制度豁免之。从历史经验与利益平衡角度出发,版权补偿金制度的借鉴有利于在新技术的发展与著作权的保护间找寻微妙的平衡。

关键词:人工智能;机器翻译;深度学习;著作权;翻译权;翻译作品

中图分类号:D 926   文献标识码:A          文章编号: 2096-9783(2021)03-0045-10

引   言

人工智能的发展总体表现为从机械学习(Mechanical Learning)到机器学习(Machine Learning)的进步过程。机器翻译伴随现代信息处理技术而生,是计算机语言学下的一个重要分支[1],目前以神经网络技术的驱动为主要发展方向。从规则驱动,到统计驱动,再到神经网络驱动的机器翻译,反映了深度学习算法对于人工智能技术的强大驱动力。机器翻译为作品开辟了新的利用方式,然而这种新兴的作品利用方式所带来的利益授予给谁,在现行《著作权法》中却尚无明确的答案。技术的进步总会使权利人深陷于权利被侵犯的担忧之中,这一问题的消解依赖于技术趋势的分析与权利脉络的研究。作为《保护文学和艺术作品伯尔尼公约》所承认的第一项权利,翻译权是将作品从一种语言文字转换成另一种语言文字的权利,作者因此可以自行翻译或授权他人在原作品的基础上创作演绎作品。

机器翻译的发展给著作权制度带来两大挑战,分别体现于第一重的翻译权与第二重的翻译作品之上。作为机器翻译的基础——机器学习高度依赖于训练数据集,将含有作品在内的数据集储存于服务器、上传到开源平台或将非数字形式展现的作品转换为数字形式,并将之以非人类阅读的方式供机器翻译系统进行学习和训练,这样的行为是否构成对翻译作品或其原作品复制权、演绎权等权利的侵犯,是事关机器翻译技术能否健康发展的重大问题。同时,机器翻译的发展所催生的“个人翻译”行为使得著作权人行使翻译权的空间受到挤压,如何平衡著作权人、机器翻译系统开发商、机器翻译系统使用者之间的利益,亦是一个值得深入研究的问题。立于著作权人、新技术培育者与社会公众之间,《著作权法》将以何样的回答消解上述困境?本文试对此问题进行分析和研究。

一、机器翻译发展历史

机器翻译(Machine Translation)是指利用自然语言处理技术,由机器将某一语言文本或语音转换为另一语言文本或语音,进而实现不同语种人群间交流的技术。不同于由翻译记忆技术驱动的计算机辅助翻译技术(Computer aided translation),机器翻译的目标是由计算机独立实现文本输出任务,其发展因而表现为从规则驱动,到统计驱动,再到神经网络驱动的进步过程。

(一)缘起:基于规则的机器翻译

基于规则的机器翻译(Rule-Based Machine Translation)的开发高度依赖于规则库与语言资料库的建构[2],其在20世纪90年代前引领着机器发展的主要研究方向。双语语言学家需将已有的翻译知识全部转换为翻译规则,然而,语言的翻译规则是无法被穷尽的,面对海量的翻译任务,语言学家定义规则的难度越来越高,非恰当定义的某个规则可能导致某一个或某几个规则的变化。基于规则的机器翻译因而呈现出开发成本高、开发周期长的特点,在面向具体场景应用时,该种翻译技术常常会面临“答非所问”的窘境。

(二)进步:统计机器翻译

统计机器翻译(Statistical Machine Translation)对机器翻译进行了数学建模,谷歌翻译首席科学家 Franz Josef Och曾言:“基于统计的谷歌翻译需要构建非常大的语言模型,比人类历史上任何人曾经构建的都要大。”[3]统计机器翻译对于语料库的读取集中于模型建构的前端而非处理翻译任务的过程中,因为双语文本的转换基于统计概率而非对于语料库的机械依赖。

(三)发展:神经网络机器翻译

谷歌与蒙特利尔大学在2014年搭建出首个神经网络翻译模型,2015年,百度上线了首个互联网机器翻译系统,这标志着机器翻译步入新的发展阶段,深度学习算法(Deep Learning Algorithm)實现广泛应用,而统计机器翻译的地位迅速被取代。

神经网络机器翻译(Neural Machine Translation)通过算法模拟搭建人类大脑中的神经元结构,通过“编码——解码”的过程实现计算机对于目标语言的输出,其核心在于拥有海量节点、具有自组织和自学习能力的深度神经网络可直接从数据中学习,且能有效捕获长距离依赖[4]。基于此,计算机能够自动在海量语料中获取语言特征与翻译规则,机器翻译因此逐渐克服了基于规则阶段时穷尽翻译规则之困境与统计阶段时搭建庞大语料库之所难。

(四)机器翻译发展的趋势与特征

从基于规则驱动、到统计驱动、再到神经网络驱动,机器翻译的开发周期不断缩短,开发成本逐渐降低,这一进步反映了半个世纪以来深度学习算法在人工智能技术发展中所凸显的强大作用。只要具备足够复杂的网络结构、难以想象的海量数据和高效的运算力,深度学习便能充分发挥出其强大的数据拟合能力。根据面向场景的不同,可以将机器翻译技术发展的趋势与特征总结为以下两点:

第一,在简单任务中,机器翻译的准确度越来越高,人类角色在机器翻译中的参与度越来越低。在机器翻译的开发过程中,人类角色的参与主要集中于训练阶段。应用无监督学习(Unsupervised Learning)算法训练时,算法工程师无需为数据“打标签”1,只需将相关语料转换成低维向量[5],智能翻译机器便可自动识别特征、实现译文输出并将学习的经验保存下来。通过给定输入值与输出值,智能翻译机器可以拟合出某一函数表达式的系数,而这组函数将成为神经网络里新的神经元。因此,神经网络机器翻译模型得以被不断训練,不断学习新的规则。

目前,腾讯、百度等多家互联网企业均已上线在线机器翻译服务,其中,百度在线翻译平台已经能够实现200余种语言的互译,并支持拍照、手动输入等多种形式的翻译。借助这些网络服务,人类基于出行、工作等需要时,可以在瞬时内得到一个较为准确的翻译结果。

第二,在复杂任务中,机器翻译的表现能力有待提升,其主要作为人类译者的辅助工具出现。以百度在线翻译平台为例,用户虽可以在瞬时间免费得到翻译结果,然而,当用户追求更高质量的翻译文本时,其只能点击“人工翻译”按钮载入到付费翻译界面当中。

处理一些复杂的翻译任务时,机器翻译的发展还未达到一个完全理想化的水平。严复曾在《天演论》中提到:“译事三难:信、达、雅。”目前,机器翻译已经基本能够达到“信”的标准,即在某些领域中保证翻译内容的准确性;然而,要求其完全符合“达”(以接近母语的方式表达)和“雅”(追求文章本身的简明优雅)两个标准,还需等待一个奇点的到来。以文学作品为例,天马行空的想象力、起承转合的撰写风格与极具特色的表达方式是其主要特点,不同形式的作品展现独创性之方式有所不同[6]。由于“感知”能力的缺乏,智能翻译机器还不能较为出色地完成文学作品的语言转换。因此,完成一些复杂任务时,机器翻译主要作为人类译者或读者的辅助工具出现。

二、翻译权的发展与变迁

作为人类交流思想、传播文化的重要工具,语言在社会发展中起着举足轻重的作用。目前,世界上的现存语言已超7 000种,事实证明,翻译人类语言比上个世纪的任何科学难题都更有挑战性[7]。翻译权的概念最早在《保护文学和艺术作品伯尔尼公约》中被确定下来,如今,授权他人翻译并出版传播其作品是当前著作权制度中作者行使翻译权的基本模式。翻译权的行使不仅是作者获取经济报酬的主要途径,还是打破贸易壁垒、促进文化交流和传播优质作品的重要渠道。

(一)国际公约中的翻译权

1. 《保护文学和艺术作品伯尔尼公约》中的翻译权

翻译权是《保护文学和艺术作品伯尔尼公约》(Berne Convention for the Protection of Literary and Artistic Works)(下文简称为“《伯尔尼公约》”)所承认的第一项权利,1967年,被各国广泛认可为“经济权利之首”的复制权才被纳入到《伯尔尼公约》。

19世纪,各国迫切需要打破文化贸易的壁垒,而事实上,作者通常并不会自行对作品进行翻译。因此,在当时的文化背景下,国际条约对于翻译权的承认就显得尤为重要。1886年《伯尔尼公约》第五条2划定翻译权的保护期限为作品发表后的十年,并将翻译权定义为自行或者授权他人对作者作品进行翻译的权利;同时,第六条对于翻译作品提供了保护,其享有与原作品同等的保护,这种保护不应带有任何偏见。

后来,该公约几经补充与修订,翻译权的相关内容也有所变化。1896年,公约成员国代表在巴黎举行了一次增补公约内容的会议,将翻译权的保护期限延长;1908年,《伯尔尼公约》进行第一次修订,翻译权的保护期限得以与复制权等其他权利的保护期限相统一3;1971年对公约进行修订时,应发展中国家的强烈要求,《伯尔尼公约》附件中增加了对于翻译行为的强制许可证条款4。1995年,世界知识产权组织在《关于伯尔尼公约议定书的备忘录》中申明,翻译的概念过去和现在都针对实际语言即人类语言[8],因此,翻译权的概念仅限于人类所使用语言间的相互转换。

《伯尔尼公约》作为一个整体,目的是在每个成员国中对与该国存在关联的外国作者提供保护[9],这就要求其成员国按照公约之要求调整本国法律。以日本为例,虽然文学界人士一贯强调日语的特殊性及和西欧语之间的翻译差异[10],但是,作为亚洲最早加入《伯尔尼公约》的国家,日本仍然需要主动修改其《著作权法》以履行成员国的义务。

2. 《世界版权公约》中的翻译权

为协调《伯尔尼公约》成员国与非成员国之间的关系,鼓励文学、科学与艺术的发展,在联合国教育、科学及文化组织的推动下,《世界版权公约》(Universal Copyright Convention)(下文简称为《版权公约》)于1952年通过。同时,《版权公约》要求各成员国不作任何保留。

首先,《版权公约》明确提出对于翻译权、复制权、广播权及表演权四项经济权利的保护。其次,《版权公约》第五条第(二)款之甲提出了对于翻译权的限制措施:如果一部文字作品自首次出版算起七年期满而翻译权所有者或在其授权下尚未以该缔约国通用语文出版译本,该缔约国任何国民都可从主管当局得到用该国通用语文翻译该作品并出版译本的非专有许可证。当然,该许可证的颁发只能用于教学、学习或研究5。

(二)我国《著作权法》中翻译权的变迁

我国于1992年加入《伯尔尼公约》与《世界版权公约》。1990年9月7日,《中华人民共和国著作权法》(下文简称为“《著作权法》”)于第七届全国人民代表大会常务委员会第十五次会议通过,其中,第十条提供了对于作者人身权和财产权的保护,复制、表演、播放、展览等使用作品的权利被统一称为“使用权与获得报酬权”6。同时,第十二条提供了对于翻译作品的保护,翻译、注释、改编、整理的行为被视作创作演绎作品的行为,相关行为应当尊重原作的著作权。这样,翻译的行为被规定于演绎行为之下,翻译作品与改编作品等共称为演绎作品。

2001年,《著作权法》进行第一次修正。其中,第十条采用列举的立法方式,将著作权中的经济权利分类为十二项权利,翻译权作为一项“将作品从一种语言文字转换成另一种语言文字的权利”被规定于第(十五)项当中。至此,我国《著作权法》对于翻译权的保护框架基本被确定下来,2010年进行第二次修正、2020年进行第三次修正时,《著作权法》中翻译权的原有条款被立法者保留下来。

因此,我国《著作权法》对于翻译权的保护主要分为以下两个维度:第一,著作权人的翻译权受法律保护,著作权人可以自己翻译或授权他人翻译作品。第二,翻译已有作品的行为会产生基于演绎作品的著作权,翻译作品的独创性在一定程度上受制于原作品的独创性。译者应尊重原作品的著作权,使用原作品需获得原著作权人的许可,并向其支付报酬。同时,第三方使用翻译作品时,需同时征求原作者与演绎作者的许可,并向二者支付报酬。

三、机器翻译的训练对于翻译作品的使用

机器翻译加快了世界一体化的进程,使人类遥不可及的梦想成为可能,但其也带来了一些著作权难题。目前,机器翻译技术以研究神经网络方法最为盛行,具体之训练依靠深度学习算法为之。神经网络是模拟人脑搭建的类神经元结构,深度学习算法则是帮助机器实现智能的主要驱动力。

日本于2018年开始“大刀阔斧”地进行《著作权法》改革,允许互联网及高科技企业直接使用作品而无需经作者同意7,这传递出一个信号:于机器学习而言,作品的自由使用存在着一些障碍;而于著作权人而言,机器对于作品的使用存在着“隐秘的风险”。

(一)機器翻译的训练过程中将不可避免地使用现有翻译作品

机器翻译的训练目标是帮助计算机独立、准确且快速地实现译文输出,其开发与改进需要学习海量数据。基于规则的和统计翻译机器需要语言学家与算法工程师共同协力,将翻译规则转化为储存在机器内部的语料库,而神经网络机器翻译能够自动识别输入数据的特征并进行学习,通过学习经验的累积实现翻译文本的准确输出。

2017年,由微软开发的机器人小冰出版“诗集”《阳光失了玻璃窗》,据开发者所言,小冰的训练量达到10 000次,其共学习了1920年来500余位现代诗人的作品8。人工智能的“创作”不是简单的大数据组合,而是一种基于数学模型的再数据化输出[11],因此,表达型人工智能的训练将会不可避免地使用现有作品和其他文本。

然而,文字是人类可以理解的表示符号,为实现机器的自我学习,训练者需将文本语句向量化并层层传递直至转化为机器可以理解的机器语言,再经过多重传导运算,最终生成译文[12]。诸如小冰一类的诗歌创作型机器的训练以学习诗歌作品为主要途径,通过分析不同流派(作者)的不同表达方式,小冰得以在选定的参数下输出类似风格的诗歌作品。智能翻译机器以学习双语或单语语料为主要路径:理想状态下,输入双语平行语料能够在最短时间内实现训练目标;以上语料匮乏时,以单语语料训练机器也可以帮助其了解该种语言的表达规则与撰写逻辑。

智能翻译机器的训练需要数以万计的数据辅助之,且训练数据以存在双语形式为最佳。虽然著作权的保护只是公有领域中的几座“孤岛”[6],但仅仅从公有领域中抓取双语训练数据恐难以满足其数量和质量要求,因此,许多人工智能公司选择使用包含作品的训练数据集,而这些数据本身可能又是利用爬虫技术从其他数据库中非法抓取的[11]。当这些公司未经权利人许可并支付报酬,将一篇中文文章与其英文译文(或者其他平行语料)转化为低维向量训练机器学习时,这一行为可能会落入到《著作权法》的保护范围中。

机器学习的过程主要表现为“输入数据——机器分析——输出结果”的过程,这一过程高度依赖训练数据集与测试数据集。训练过程中,包含某一翻译作品(与其原作品)的训练数据集可能被储存于某人工智能公司的服务器中用以反复训练一台或多台机器,同时,这一训练数据集也可能被上传到某一开源平台中,这时,以上行为触犯了复制权9的边界。

即将于2021年6月1日实施的新《著作权法》第十条之(五)实现了复制权权利范围的扩大,“数字化”这一方式被纳入到复制权的保护范围中10。有研究认为“数字化”是指依靠计算机技术把一定形式的信息输入计算机系统并转换成二进制数字编码的技术[12]。总而言之,“数字化”是将人类语言转换为机器语言并储存在机器中的行为,当训练者将非数字形式存在的作品转换为以数字形式存在的作品并储存在服务器当中时,其也应当面临着侵犯复制权的指控。

同时,机器学习以模仿为主要手段,译文的输出以在训练数据中抽取可供优化翻译模型的特征为基础,这一行为中抽取了原属于翻译作品的表达。翻译作品的独创性主要体现在译词的选择、译文的编排上,其独创性在某种程度上受制于原作品的独创性[13]。机器对于双语语料的分析并非针对性体现于作品当中的思想,而是基于其表达。与人类利用参考文献写作文章的机理相同,海量数据的输入也使得机器增长了新的知识并实现了知识增值,这些“知识”将转化成为机器内部新的模型参数。

(二)现行合理使用制度难以包容此种行为

现行《著作权法》第二十二条以封闭列举的方式将合理使用限定在十二种情形中,机器翻译的训练对于作品的使用行为并不包含在此范围内。近年来,有法院主张对于封闭列举立法例的突破11,这一声音为新《著作权法》所回应。新《著作权法》第二十四条将原见于《中华人民共和国著作权法实施条例》(下文简称为《实施条例》)第二十九条12的内容移入,并扩大了合理使用制度适用的情形,第(十三)项“法律、行政法规规定的其他情形”作为一条封闭性兜底条款被引入。

然而,在“音乐喷泉”案中,北京知识产权法院明确表达了适用此类兜底条款之态度:“能否作为著作权法所称的其他作品,必须由法律、行政法规规定,不能由其他规范性文件规定,以保证法制的统一。”13第二十四条之(十三)的设立试图在新技术的发展与著作权保护间找寻平衡,因为合理使用的判断标准产生变动的原因,是新技术背景下对作品全新利用方式的激励[14]。但是,缺乏其他法律、行政法规的指引时,不能直接引用该条款进行合理使用的辩解。

不过,神经网络技术具有不可解释性,在人工智能系统输入的数据和其输出的结果之间,存在着无法洞悉的“隐层”,即“算法黑箱”[15]。因此,认定具体侵权行为时,仅从某一次或某几次的译文输出判断,无法推知机器学习了哪一部或哪几部作品,更无法推知机器为何生成这一翻译结果。这时,应要求训练者提供原始训练数据集。虽然机器翻译技术的发展有其政治、军事及文化意义,未经著作权人许可而对他人作品加以利用的行为却不能因此得到《著作权法》的豁免,然而,基于人工智能训练行为的非公开性,这种风险总是隐秘存在的。

四、机器翻译的发展与翻译权行使的挑战

“Dreamwriter”案中,Dreamwriter系腾讯科技(北京)有限公司开发并授权给原告方深圳市腾讯计算机系统有限公司使用的智能新闻写作软件,该软件可以自动撰写股市财经综述类文章,且原告的创作人员每年可在该软件的协助下完成大约30万篇作品。深圳市南山区人民法院否认了该软件独立为“创作”行为的正当性,但其认为,作为创作人员的工作助手,Dreamwriter参与撰写的文章是具有独创性的法人作品14。人工智能技术正不断迈入到文学、艺术领域当中,虽然其“作者”地位并不为《著作权法》所包容,利用其进行创作却已成为一种新的风尚。

神经网络机器翻译的开发成本低,运行速度快。由翻译记忆技术驱动的计算机辅助翻译技术与专业译者的配合度更高,自动生成翻译结果的机器翻译则面向更多非专业译者。目前,准确度不断提升的机器翻译对于翻译权行使的挑战主要有二。

(一)机器翻译的普及打破了翻译权行使的固有模式

知识产权的客体是无形的智力活动成果,它以信息的方式存在于那里,虽然其具有鲜明的地域性,但对于相关的智力活动成果的利用却是没有国界的[16],这为某一作品在世界范围内的传播提供了可能。然而,作品的广泛传播存在一个前提:该作品需被译为多国语言,基于此,作者得以通过授权他人翻译或自行翻译(若其掌握该门语言的话)的方式行使翻译权,并获取经济报酬。

当读者对某一部外国作品产生兴趣,其会产生阅读该作品的文学性需求,这种需求的实现以将该部作品翻译为本国通行语言为前提。神经网络机器翻译的普及与发展使读者的私人翻译行为成为可能。当某一读者对于某部外国作品的需求仅限于了解其基本含义而非欣赏文学性、准确度更高的专业译本时,其可以借助机器翻译将部分或全部作品翻译成其熟练使用的语言,当然,这一行为应基于个人欣赏或学习之目的。长久以往,读者对于外国作品的本国译本的需求相应下降,这时,著作权人行使翻译权的空间相应缩小。即使作者仍通过翻译权的行使在该国出版了该译本,该译本的销量可能也会因机器翻译的迅速普及而不甚理想。

(二)机器翻译为侵权者提供了便利

继续上文的假设,某一外文作品在某读者所在国家内依据国际公约或双边条约享有著作权,某读者非基于个人欣赏或学习之目的,未经著作权人许可,擅自借助机器翻译实现了该外文作品的语言转换以获取非法收益时,这名读者毋庸置疑应面临侵犯著作权人翻译权之指控,其应承担直接侵权之责任。

无论基于合法或非法的目的,当用户将需要翻译的文本输入至在线翻译平台中并点击“翻译”按钮时,机器翻译将在几秒钟之内生成翻译结果。因此,当用户未经许可翻译他人作品时,机器只能别无选择地继续完成辅助工作。对于这一法律风险,以百度公司为首的机器翻译服务提供商在《翻译协议》中指明:“其对于键入内容和翻译结果造成的侵权、纠纷、损失概不负责,亦不承担任何法律责任。”15

当用户基于未经许可的翻译行为构成直接侵权时,智能翻译机器实际上成为了直接侵权者的“侵权工具”,其训练者或所有者开发新技术的行为客观上为直接侵权者提供了侵权的便利,这一技术支持行为[17]可能面临着承担间接侵权责任中辅助侵权[18]之指控,这一行为无法通过以上的免责条款进行规避。面对浩如烟海般的“私人翻译”行为,权利人直接起诉机器翻译用户是不明智的,因此,其有可能将诉讼的矛头指向训练者或所有者。这时,机器翻译便面临着美国“索尼”案中的尴尬处境。

作为本案的原告,环球影视公司和迪士尼公司就一系列电视节目享有版权。由于索尼公司生产的家用录像机的购买者通过电视广播录制了原告享有版权的节目,1976年,二位原告在地方法院提起了针对被告索尼公司的诉讼,并向法院控告索尼公司售卖的录像机构成辅助侵权。在该案的审判中,地方法院作出了有利于被告的判决,然而,上诉法院的判决则主要支持了原告的诉求。当案件进入美国最高法院的审理程序当中时,最高法院再次支持了被告的主张,认定改变观看时间使用录像机录制电视节目的行为构成合理使用,而录像机具有除侵权外的其他用途,被告的行为并没有构成帮助侵权。“索尼”案认为:只要产品能够具有一种潜在的“实质性非侵权用途”,产品的制造商和经销商就无需承担辅助侵权之责任16。

若按照“实质性非侵权用途”标准,机器翻译的开发者或许无需承担间接侵权之责任。然而,这一技术的发展与普及带给著作权人的冲击却是切实存在的。间接侵权责任以直接侵权责任的成立为前提[19],“索尼”案中,改变观看时间使用录像机录制电视节目的行为构成合理使用,然而,非基于个人欣赏、学习之目的,未经许可利用机器翻译实现他人作品语言转换的行为却不具有适用合理使用进行抗辯的空间。

同时,“索尼”案中所确立的“实质性非侵权用途”标准为故意设计一种主要用途在于侵权, 却具有至少“一种”“潜在”的合法用途的产品打开了方便之门[20],其正当性也有待一事一论的探讨。事实上,本案中持不同观点的法官曾发表这样的言论:“可以认定被告构成帮助侵权,但是可以通过判给损害赔偿金或权利金的方式维持被告的生产与售卖行为,这样,购买者也可以继续使用录像机而不受打搅。”[21]

五、利益平衡视角下的风险应对路径:版权补偿金制度的借鉴

技术中立原则与利益平衡原则是《著作权法》立法始终应遵循的两大原则。《著作权法》基于回应印刷技术的发展而产生,基于回应网络技术的发展而变化,也将基于回应人工智能技术的发展而面临挑战。

(一)版权补偿金制度产生于利益平衡的需要

上世纪六十年代,德国正面临着这样一个问题:伴随着各种复制设备的普及,私人复制的成本愈发低廉,大量的私人复制作品涌现出来,这严重冲击了正版作品销售的市场。然而,依据当时德国的《著作权及邻接权法》,个人复制行为并不具有非法性。因此,这样一个问题被置于立法者眼前:当私人复制行为不具有法律上的可责性,却又切实影响到作者的收益时,该采取何种措施来平衡二者之间的利益关系?

1965年,德国的《著作权及邻接权法》吸收了1955年“Grunding Reporter”案与1964年“Personalawsweise”案中法院的基本做法,将版权补偿金制度从立法的层面确定下来。由此,复制设备的生产商与进口商需要缴纳不超过销售额百分之五的补偿金,该补偿金的收取由著作权集体管理组织承担。后续,伴随着科技的发展,德国又将该制度进行了两次革新,该制度的征收对象(复印设备等也被纳入到征收对象中)不断扩大,受益人范围不断被扩展(邻接权人被纳入到受益人范围中),同时,制度开始对不同设备收取不同金额的版权补偿金。

在美国,“索尼”案的判决虽然释明了“帮助侵权”与“合理使用”的问题,但是,这一判决并没有完全把握住新技术发展与著作权保护间的微妙关系。1990年,索尼公司再次陷入诉讼中,以作曲家Sammy Cahn为首的大量音乐版权人认为索尼公司生产的数字录音机影响了作品的“潜在市场”17。这场诉讼虽因原告方Sammy Cahn的撤诉结案,却在客观上推动了《家庭录音法》( Audio Home Recording Act of 1992)的通过,该法后成为《美国版权法》中的内容。《家庭录音法》要求在数字录音设备中设置控制复制行为的技术措施,并要求其制造、销售商按照申报的销售数量缴纳版税[6]。

试图弥补合理使用偏差的版权补偿金制度的导入,在某种程度上缓解了模拟复制技术条件下的权利人与使用人之间的紧张关系[22],复制设备的生产者可能并不携有生产侵权工具的目的,消费者在购买设备时也并非都携有使用该设备为侵权行为之目的,但是,为应对私人复制行为带给著作权制度的冲击,版权补偿金制度所采取的“一刀切”设计符合利益平衡原则。一方面,私人复制行为仍具有合法性,但是,版权补偿金最后都将转换为设备的成本,该部分金额实际上被转嫁到了购买产品的消费者身上,这在一定程度上约束了消费者的行为;另一方面,著作权人的潜在利益或许因私人复制行为受到影响,但是,该制度使其获得应有的经济补偿,这在另一种维度上维护了其合法权益。

(二)应借鉴版权补偿金制度建立我国的“人工智能税”

版权补偿金制度是数字技术时代下调和不同主体间利益冲突的重要路径,随着新一代科技革命[23]的到来,其还应被赋予更多的内涵。尽管许多欧洲国家都参考德国《著作权法及邻接权法》建立了各具特色的版权补偿金制度,但由于种种原因,我国《著作权法》中并未建立起这一制度。

文學艺术作品在本质上是流动的、无形的、共享的,且不会被消耗, 具有公共产品属性[24]。神经网络机器翻译和其他人工智能技术在其训练、商业性应用过程中对于作品的利用、翻译行为对著作权人的潜在利益造成了影响,而这些行为却总是隐秘发生的。新技术的发展与培育,使得著作权人的利益长期处于不安宁的状态之中,某一作品被纳入到机器的训练数据集时,该作品的权利人往往难以发现或举证这一侵权行为。同时,由于作品自由利用的障碍性,训练人工智能模型时常会面临数据稀缺问题。因此,应在人工智能时代下建立与我国国情相适应的版权补偿金制度,可以称之为“人工智能税”。

人工智能的训练者、所有者寻求作品等数据的开放获取以实现相关模型的训练与提升,著作权人则迫切希望智力成果能够得到合法、理性的使用。因此,人工智能训练者与所有者是该种版权税的义务主体,著作权人相应作为受益主体,同时,该种版权税应由我国的著作权集体管理组织进行征收。不过,在我国设立“人工智能税”的前提是以下两个问题的顺利解决:

第一,加强著作权集体管理组织的建设。《著作权法》第八条确定了集体管理组织的非营利性特征18,该组织的目标应是通过使用费的代收取与维权诉讼行为保障著作权人合法利益的实现。在我国,基于制度环境与自利动机[25],著作权集体管理组织缺乏相应的市场基础,目前,这一制度设计并未实现《著作权法》的预期目标。赋予著作权集体管理组织收取版权税义务的前提应是相关组织具有一定的市场接受度,并且能最大化地维护著作权人利益的实现。

第二,确定一个合适的征收税率。版权补偿是一种折衷方案,赔偿基于著作权法人的实际损失,而补偿则基于法律的例外规定。因此,这一制度设计不应将更多的砝码加于著作权的保护之上,而应在市场规律的指导下,确定一个折衷、合理的征收税率。“人工智能税”中的版权补偿基于具体的开发、销售行为,补偿金额则以开发商、服务商的申报数量为主要计算基点。过高的税率无疑是为新技术的发展增加了新的负担,这一负担不应重于单独为作品的利用而付费的负担,同时,过低的税率无法弥补著作权人潜在市场受到挤压而带来的利益受损。

结   语

虽然,新技术的发展总能为人类带来生产、生活方式上的变革,但革新中的“阵痛”应得到理性地分析与对待。智能翻译机器的训练需要海量的平行双语语料,在深度学习中,其将会不可避免地复制、改编某部作品与其翻译作品,这一行为无法为现行的合理使用制度所包容。同时,伴随着神经网络技术的普及与应用,当用户基于合法或非法目的使用机器翻译实现某部作品的语言转换时,著作权人的潜在市场及利益会因此受到影响,其作品面临着被擅自翻译并利用的风险。

技术中立视角要求《著作权法》在新技术的发展与著作权的保护间寻求微妙的平衡。版权补偿金制度的借鉴既可以扫清人工智能开发者使用作品进行深度学习的法律障碍,扩充其训练数据集,又给予了深陷于担忧权利被侵犯的不安宁情绪中的著作权人以合理补偿,《著作权法》应朝着这一方向迈出步伐。应当认为,机器翻译对于《著作权法》的挑战尚不足以动摇法律的根基,但是,身处这一洪流时,《著作权法》应当基于利益平衡的信念发出声音。

参考文献:

[1] 黎亚飞,张瑞华.机器翻译发展与现状[J].中国轻工教育,2019(5):38-45.

[2] 侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-66.

[3] 斯介生,宋大我,李扬.大数据背景下的谷歌翻译——现状与挑战[J].统计研究,2016,33(5):109-112

[4] 刘洋.神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144-1149.

[5] 蔡圆媛,卢苇.基于低维语义向量模型的语义相似度度量[J].中国科学技术大学学报,2016,46(9):719-726.

[6] 李明德.美国知识产权法[M].北京:法律出版社,2014.

[7] Erik Ketzan. Rebuilding Babel: Copyright and the Future of Online Machine Translation[J].Tulane Journal of Technology and Intellectual Property,2007(205):206-234.

[8] 郑敬蓉,陈波.图书馆馆藏作品数字化的法律性质与立法完善[J].新世纪图书馆,2020(11):22-26.

[9] 乔治·库曼托 ,郑成思.国际私法与伯尔尼公约[J].法律科学(西北政法学院学报),1992(3):57-65.

[10] 李志红.翻译权在日本的变迁[J].出版发行研究,1992(6):56-59.

[11] 马忠法,肖宇露.论人工智能学习创作的合理使用[J].山东科技大学学报(社会科学版),2020,22(5):32-47.

[12] 刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019,22(2):68-79.

[13] 应明.数字化技术的发展对现行著作权制度带来的新问题[J].知识产权,1994(6):7-13.

[14] Matthew Sag. The New Legal Landscape for Text Mining and Machine Learning[J]. Copyright Socy of the U.S.A.(2019)66:291-365.

[15] 徐小奔,杨依楠.论人工智能深度学习中著作权的合理使用[J].交大法学,2019(3):32-42.

[16] 徐凤.人工智能算法黑箱的法律规制——以智能投顾为例展开[J].东方法学,2019(6):78-86.

[17] 李明德.知识产权法.[M].北京:法律出版社,2014.

[18] 刘文杰.信息网络传播行为的认定[J].法学研究,2016,38(3):122-139.

[19] 刘平.著作权“间接侵权”理论之检讨与展望[J].知识产权,2018(1):67-96.

[20] 罗斌.云计算环境下的著作权间接侵权规则探讨——从“索尼案”到“Cablevision案”的适用原则变更[J].中国版权,2012(3):48-51.

[21] 王迁.“索尼案”二十年祭——回顾、反思与启示[J].科技与法律,2004(4):59-68.

[22] 曹世华.论数字时代的版权补偿金制度及其导入[J].法律科学.西北政法学院学报,2006(6):143-151.

[23] 张今.数字环境下的版权补偿金制度[J].政法论坛,2010,28(1):80-87.

[24] 尹锋林,肖尤丹.以人工智能为基础的新科技革命对知识产权制度的挑战与机遇[J].科学与社会,2018,8(4):23-33.

[25] 向波.著作權集体管理组织:市场功能、角色安排与定价问题[J].知识产权,2018(7):68-76.

Challenges and Solutions: the Development of Machine Translation and the Future of Translation Right

Yin Fenglin, Zhao Yixin

(School of Intellectual Property, University of Chinese Academy of Sciences, Beijing 100040, China)

Abstract: In 1930s, French scientist G.B. Artsouni proposed the idea of machine translation. In the past century, machine translation has achieved its progress from rule-Based machine translation to statistical machine translation, and then to neural machine translation. It can be foreseen that in the future, machine translation will perform a pivotal role in text translation, which will challenge the normal approach of exercising the translation right of the author, that is, to authorize others to translate the preexisting works to obtain the royalty. When the language conversion is not limited to purpose of personal use, the trainers and owners of machine translation may be charged with indirect infringement liability. At the same time, the training of intelligent translation machine will inevitably use a number of preexisting works, and may learn from the original expression embodied in them, which cannot be exempted by fair use. From the perspective of historical experience and balance of interests, the reference of copyright compensation system is helpful to find a delicate balance between the development of new technology and the protection of copyright.

Key words: artificial intelligence; machine translation; deep learning; copyright; translation right; translation works

猜你喜欢

机器翻译著作权深度学习
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
MOOC与翻转课堂融合的深度学习场域建构
大数据背景下石油科技翻译
大数据背景下石油科技翻译
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
数字出版的著作权保护问题研究
机器翻译不可盲取
基于深度卷积网络的人脸年龄分析算法与实现