AIGC 赋能学术出版的时代机遇与版权合规之道
2024-12-24孜里米拉·艾尼瓦尔
摘要:在出版业融合发展的大背景下,生成式人工智能技术被应用于学术出版业的各个环节中,使学术出版与人工智能呈现一体化融合趋势。人工智能生成内容在学术出版中的应用已经深入到学术出版链全生命周期中,包括从选题策划组稿、学术文章同行评议、审查校对,到编辑加工排版、印刷出版,再到学术传播。人工智能生成内容重塑了出版内容生产模式,优化了传统学术出版业,给出版业带来了极大的便利和发展机遇,但在推动学术出版创新发展的同时也给学术出版业的升级带来潜在的版权问题,成为制约人工智能生成内容在学术出版领域进一步发展的关键因素。各国政府及出版机构陆续出台法规政策,采取宽严相济的治理思路来规范人工智能生成内容引发的版权问题。本文聚焦人工智能生成内容在学术出版中的应用场景,梳理其存在的版权问题,并以此为基点探寻新技术的应用与规范之间的共赢之道。
关键词:生成式人工智能;人工智能生成内容;学术出版;版权问题
从2022年底的ChatGPT到2024年初的Sora,全球出版行业都深刻感受到了人工智能生成内容(ArtificialIntelligenceGeneratedContent,以下简称AIGC)对行业的强烈冲击,出版业的应用场景、运营管理、底层逻辑都可能产生革命性的变化。2022年11月30日,美国人工智能研究实验室OpenAI发布基于第三代大模型GPT-3的AI聊天工具ChatGPT,引起全球各界关注和热议。2023年则更是被誉为“生成式人工智能元年”,2023年3月14日,基于GPT-4的ChatGPT诞生,各行各业纷纷跨入生成式人工智能的大门。从技术原理来看,依靠深度学习和自然语言处理技术的ChatGPT是属于AIGC的一种新型商业化应用方式。以ChatGPT为代表的生成式人工智能(GenerativeArtificialIntelligence,以下简称GAI)新版本被用于学术生产中,进一步优化了智能算法,解锁了更高的专业学术基准以及识别能力,刺激数字出版市场加速更新迭代。一些学者已经在使用ChatGPT作为研究助手,帮助其组织思维,对其工作产生反馈,协助其编写文章并总结研究文献。
AIGC的涌现让出版企业既欣喜又困惑,欣喜的是AIGC能够为出版工作全方位赋能,困惑的是AIGC可能对传统出版的未来发展产生重大影响。其中,AIGC涉及的相关版权问题再次引发了学术界的关注,关注的焦点集中在三个方面:一是AIGC的“作者”身份问题,有主张认为现有法律框架未能充分适应AI生成作品的特殊性,也有学者建议,应考虑将AI视为“辅助作者”,而非完全排除在著作权法之外;二是AIGC生成内容的原创性问题,分析如何利用文本相似度检测工具来识别潜在的抄袭,并建议出版机构加强内容审核机制;三是在AIGC训练过程中,所使用数据集的合法性问题,建议建立明确的许可和使用政策,以保障数据使用的合规性。可以说,国内学术界对AIGC应用于学术出版业的研究尚处于起步阶段,现有的大多数文献侧重于在理论层面分析AIGC在学术出版中的应用场景、带来的机遇、风险及其应对措施等,但未形成体系化的研究成果。大数据和人工智能是新质生产力的重要因素,为充分发挥人工智能在出版业的运用,推动学术出版高质量发展,对AIGC与学术出版相关问题的研究,具有理论和现实价值。鉴于此,本文将从AIGC的概念、工作原理以及在学术出版中具体应用场景及可能面临的版权问题进行分析,同时为学术出版机构提供相应的解决之道,以期在理论上丰富AIGC赋能学术出版发展的研究内容,在实践上助力学术出版业更加适应数字化、时代化大势,尝试在AIGC赋能背景下为我国学术出版业的良性发展提供适宜的路径。
一、AIGC在学术出版中的应用
学术出版是学术活动与出版活动的有机融合,指将学术作品进行选题策划与组织、作品评审与选择、稿件编辑与加工、产品印刷与复制等专业出版活动,并将其传播给同行和公众的行为。{1}AIGC在学术出版中的应用已经深入到学术出版链全生命周期中,从学术选题策划、组稿、文章同行评议、审查校对,到编辑加工、排版、印刷,再到出版和学术传播等多个维度提供行业增长动能。AIGC在学术出版中的广泛应用改变了学术论文的写作、出版、传播方式,不仅提高了学术出版效率,还激发了学术生产和学术创新,同时将传统出版向智能出版加速跃升,为出版业带来新的发展机遇。
(一)AIGC技术原理
AIGC即采用人工智能技术来自动生产内容。目前,对AIGC这一概念的界定,尚无统一的规范定义。学术界对于AIGC的理解是指继专业生成内容(Professional-generatedContent,以下简称PGC)和用户生成内容(User-generatedContent,以下简称UGC)之后,基于预训练大模型,通过已有的数据模型自动生成相关内容的技术。例如,如今热火的聊天对话模型ChatGPT,是基于自然语言处理(NaturalLanguageProcessing)预训练大模型发展而来的。中国信息通信研究院与京东探索研究院共同发布的《人工智能生成内容(AIGC)白皮书(2022年)》中对AIGC是这样定义的:AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生产的一类技术集合。{2}在Web1.0时代,PGC是内容制作的一种主要方式;在Web2.0时代,UGC的重要地位开始凸显;在Web3.0时代,面对元宇宙场景下的海量高质量内容需求,AIGC将扮演更为重要的角色。从生成主体来看,与早期出现的PGC和UGC不同的是,AIGC作为一种自动生成内容的新型生产模式,其生成内容的主体是人工智能。从生成内容来看,AIGC的具体生成内容可划分为文本生成、图像生成、音频生成、视频生成、多模态生成等。AIGC在学术出版中的应用,基于自然语言处理、变换器模型、深度学习等技术原理,实现了高效的内容生成和文献处理。这些技术的结合不仅提高了学术出版的效率,也为研究人员提供了新的工具和资源。随着技术的不断进步,AIGC在学术出版中的应用前景日益广阔。
(二)AIGC赋能学术出版的场景
出版行业作为内容产业,天生就有适合AIGC应用的土壤,在内容供给、编辑审校、发行营销等环节,AIGC将为学术出版带来新的机遇。进入Web3.0时代,对数字内容的需求急剧上升,尤其是出版行业,需要更快地生产出更新、更差异化的内容,AIGC可以提高生产效率、降低生产成本、赋能用户群体。作为当前新型的内容生产方式,AIGC已渗透到学术出版选题策划、审稿、编辑、传播等各个环节,深刻地改变了学术出版的内容生产模式,为学术出版全面赋能,成为推动学术出版融合发展的重要力量。当前AIGC主要应用于学术出版业的以下几种场景中。
1.知识聚合
在传统的学术研究中,研究人员获得专业化的创造性突破需耗费大量时间和精力。生成式人工智能在学术研究工作中可以对海量的文献进行知识图谱化,进而对学术知识图谱进行深度挖掘、分析、检索和融合。学术知识图谱的出现将大大缩减研究人员筛选、整合以及组织知识数据的时间,帮助研究者更好地理解学术领域的知识结构,从而进一步提高研究人员知识萃取的能力。此外,生成式人工智能基于算法技术,为科研人员提供一站式科研协作平台,使其不同领域的科研人员可以无障碍地共享学术资源和数据。{3}例如ChatGPT基于云计算和大数据技术,将大量的学术文献进行整合,将其提供给科研服务平台,实现交互式体验,帮助学术研究者能够深度并快速了解特定领域的最新研究动态和相关研究成果,进而起到学术资源整合、提高科学研究效率。
2.智能选题
在出版过程中,AIGC的出现可以代替一部分编辑的工作,实现人机协同。生成式人工智能在学术出版选择策划组稿过程中,依据编辑的意图和目标受众,分析大量数据,多维度地动态挖掘,结合当下热点智能推荐有研究价值的选题,进而显著提升选题策划的适时性与针对性。而传统的人工编辑很难捕捉到内容市场上的全部热点,且很难短时期内基于数据做出一份客观准确的可行性分析报告,AIGC则很好地弥补了传统学术出版中的这一缺陷,为其选题策划带来显著的改进和优化。
3.智能生成
生成式人工智能通过辅助创新技术能够自主产出众多内容,使其学术论文创造过程更加高效和智能化。生成式人工智能作为辅助创新工具,基于强大的自然语言处理能力,从大量的数据中获得有用信息来完成基础性工作,甚至是协助完成创造性工作,进而节省科研人员为知识创新所花费的人力成本。生成式人工智能的辅助创新方式贯穿于整个创作环节中,它可能完成的辅助性内容包括:自动摘要、关键词提取、文献综述、文本生成、提炼核心观点、整合文献、专业翻译、数据分析和统计等。{4}例如ChatGPT可以根据特定的研究选题为科研人员生成学术论文的整体思路、摘要及关键词,甚至可以为学术审稿人归纳学术文章的核心观点,以便提高审稿效率。AIGC的能力不仅仅体现在转换的过程,还有高效地自动化生产、批量生产数字内容,以及扩大AI内容衍生品类的能力。
4.智能编校
在学术出版物编辑、校对过程中,生成式人工智能通过其先进的交互式学习、自然语言处理以及内容生成技巧,优化了传统人工智能技术对固定数据集的依赖,使其生成的内容更接近于人工编辑的效果;而且能迅速地浏览、检索和标记文档,自动完成大部分内容的规范调整,包括识别错别字、敏感词语,纠正排版、标点符号、格式错误,以及实现排版自动化,保证版面的准确性。在学术文章审稿过程中,生成式人工智能不仅能够快速进行审稿文章原创性检查,还可以辅助同行评议,做到快速匹配相关领域专家,实现审稿阶段高效分发文章,以及快速将专家笔记转化为规范的审稿意见,实现同行评议的自动化,进而优化同行评议过程。
5.个性化营销
在传统营销中,往往需要出版机构搜集用户的大量资料,寻找目标用户群体,但是基于ChatGPT的模拟情境对话,出版机构可以深入挖掘和分析用户反馈的大数据,为数字出版行业在个性化营销、目标用户锚定、用户行为洞察、用户特质描述及付费机制设计等方面提供有力的策略支持。通过这种方式,出版机构有望推动数字出版走向更为定制、细分与智能的营利模式,为不同的用户提供个性化的推荐和营销。
总之,生成式人工智能技术应用在学术出版领域能够帮助人们更快速、更低成本地获取密集知识,进而提升学术出版的效率,实现学术知识更广泛的传播,为传统出版业赋予新的生机和活力。
二、AIGC涉及的学术出版版权问题
纵观人类技术发展史,新技术广泛应用必将带来新的法律问题。AIGC技术的应用为学术出版业的智能化实践与革新带来了福音,进一步提高了学术出版物的传播力和影响力,但其中涉及的版权问题也不容忽视。
(一)AIGC训练数据引发的版权问题
AIGC的技术原理主要包括了模型训练与应用两个阶段,其结果的输出主要源于模型训练中的数据采集。以ChatGPT为代表的生成式人工智能基于强大的数据挖掘和搜集功能,在获取某一个特定目标的操作指令后,在算法程序指引下,对现有的有用数据进行挖掘、筛选、分析和加工,执行“搜索—整合—生成”指令来生成文字或者图片。AIGC的技术模型训练阶段所采集的数据来源于但不限于公共数据集、公共网站、自有数据、众包数据、合成数据等数据源,在这一过程中还涉及生成式人工智能“数据挖掘”中是否存在未经授权使用他人作品的问题。
我国现行《著作权法》对人工智能数据挖掘、数据爬取等行为是否属于合理使用,尚没有做出明确规定,业界学者对此探讨热烈,主张合理使用或法定许可者兼有。在司法实践中,随着AIGC平台的兴起和迅速风靡,与之相关的版权案件,在国内外均已出现。例如StabilityAI公司推出的人工智能绘画工具StableDiffusion依赖于人类创造的巨量图像来获取训练数据,而这些数据通常是在未经创作者知情或同意的情况下从网络上抓取的。对此,2023年1月,美国盖帝图像有限公司起诉人工智能绘画工具StableDiffusion的开发者StabilityAI公司,称StabilityAI在训练文生图工具StableDiffusion时,未经授权使用了包含在LAION数据集中的1200万多个图像作为其训练数据。此外,还有三位艺术家对另一人工智能绘画工具Midjourney,以及艺术家作品集平台DeviantArt提起诉讼,称这些组织通过在“未经原作者同意的情况下”从网络上获取的50亿张图像来训练其人工智能,侵犯了“数百万艺术家”的权利。又如2023年12月27日美国报业巨头《纽约时报》向美国最知名的人工智能平台OpenAI及其投资人微软公司提起侵犯版权诉讼,指控这两家公司未经许可就采集该报数百万篇文章来训练人工智能产品——OpenAI的ChatGPT和微软的Copilot。{5}《纽约时报》表示,OpenAI和微软的非法知识数据采集和传播行为,损害了该报获得订阅、广告和其他附带收入的能力,威胁了该报为读者和用户提供新闻信息的行业领先地位,造成的损失高达数十亿美元。这是全世界首个AI平台被大型媒体起诉侵犯版权的案例,目前尚未结案,其结果将对出版业的未来产生深远影响。开发生成式人工智能产品的科技公司辩称,可以根据合理使用的法律规定,使用开放互联网上的内容来训练其人工智能产品,这一规定允许在某些情况下使用受版权保护的材料而无需许可。如前所述,我国现行《著作权法》尚未对此问题做出明确规定,因此提醒学术出版机构在利用AIGC技术在选题、策划、组稿、出版的过程中注意版权问题,未经许可使用作品的行为可能会因为侵犯被使用作品的复制、改编、信息网络传播权等权利而落入到侵权困境当中。
(二)应用AIGC也可能面临版权问题
如果AIGC生成的内容包含创作者的个性化筛选和创作,那么该内容就有可能被认定为受《著作权法》保护的作品。因此将ChatGPT应用于学术写作场景中就有可能构成版权侵权。一方面由于ChatGPT可以将现有的文章作为“学习”的对象,在生成内容上,即使不是直接复制数据库中他人享有版权的作品,也可能会产生与他人作品构成实质性相似的生成内容,会导致侵犯他人版权。即使应用ChatGPT的用户并非有意抄袭,但根据《著作权法》的有关规定,创作与他人作品的结构、表述以及观点等实质性相似内容的行为也可能会构成版权侵权。
(三)AIGC的版权归属问题
AIGC技术介入学术出版领域,其争议焦点之一是AIGC的版权归属不清。这其中主要涉及以下两个问题。
第一,AIGC的法律属性问题。AIGC是否构成作品,主要取决于其是否满足《著作权法》对作品的定义,关于这一点当前学术界和实务界仍无定论。在我国司法实践中,AIGC是否在《著作权法》意义上构成作品的判断结果并不一致,法院对于AIGC的版权问题,依然延续“自然人+独创性”的思路,并将其作为判断作品资格的关键因素。例如威科数据库报告案被称为中国AIGC版权侵权第一案,该案争议焦点之一为“利用威科数据库自动生成的分析报告是否构成文字作品”。法院尽管认可了该报告具有独创性,但受制于现行《著作权法》规定作品应由自然人创作,因此认定该分析报告不是著作权法意义上的作品。而腾讯公司与上海盈讯公司著作权侵权案作为我国第一个认定借助人工智能创作的文本内容可以构成作品的生效案件,该案的核心问题在于判断“利用Dreamwriter软件生成的财经综述文章是否构成文字作品”。法院认为,腾讯机器人Dreamwriter自动撰写的这篇文章属于文学领域表达,其特定表现形式体现了创作者的个性化选择与安排,且其表现的内容具备可复制性,故认为该文章是著作权法意义上的作品。{6}根据当前我国司法裁判精神,多数司法裁判趋向于将AIGC视为著作权法意义上的作品,即将AI视为一种类似于照相机的工具,只要能体现出人的独创性智力投入,AIGC就应被认定为作品。对此笔者认为,此观点在当下时代发展的背景下具有一定的合理性。针对AIGC挤占人类创作空间等问题,或许可以参考威科数据库报告案中法院的判决,尽管AIGC凝结了软件使用者的投入,但其保护并非必须通过赋予知识产权的方式,可以考虑从其他角度赋予一定的权益保护,以促进其使用和传播。
第二,AIGC的版权归属。现阶段,对AIGC的版权归属,法律亦没有明确规定。理论和实践中存在以下几种可能性:1.AI;2.AI开发者;3.AI使用者;4.AI开发者和使用者共享;5.不授予版权而采用其他方式保护。{7}OpenAI网站的“使用条款”中将使用公司产品生成AIGC的所有权利、所有权和权益都转让给用户,侵权责任用户自负。百度“文心一格”的“免责声明”则要求“基于本服务产生的知识产权与相关权益,均归我方或我方关联公司所有”。在海外多起关于人工智能版权诉讼案中,原告的主诉对象仍是AI生产商而非用户。AIGC技术应用于学术出版实践使人机创作的临界值发生改变,如何界定生成式人工智能在学术出版中的辅助作用成为棘手的问题。对于以ChatGPT为代表的生成式人工智能直接参与到学术研究和学术出版的过程,多数学术出版机构的态度较为审慎。国内外多家出版机构以及一些著名国际期刊均明确表示,以ChatGPT为代表的生成式人工智能将不被视为文章作者。例如“Nature”“Science”《肿瘤学》等期刊发表声明,明确否定以ChatGPT为代表的生成式人工智能的作者资格,并且指出不接受与ChatGPT合著的学术文章。目前,学术界主要存在两种观点:一种认为以ChatGPT为代表的生成式人工智能可以被视为作者,享有版权;另一种则认为其不具备享有版权的资格。然而更多的观点倾向于认为ChatGPT成为著作权人仍无法完全成立。在国内,相关领域亦对AI参与创作的文章发布了不认可声明。《暨南学报(哲学社会科学版)》发布了三则关于使用AI写作工具的说明,表示暂不接受任何大型语言模型工具单独或联合署名的文章。2023年12月21日,我国科技部监督司发布的《负责任研究行为规范指引(2023)》中指出,不得使用生成式人工智能直接生成申报材料,不得将生成式人工智能列为成果共同完成人,不得直接使用未经核实的由生成式人工智能生成的参考文献等。对于AIGC版权归属的问题,笔者亦持保留态度,理由是:一方面,现阶段AIGC生成尚未完全摆脱人类的控制和管理,传统的著作权法基本规则和法律逻辑不应被颠覆;另一方面,目前生成式人工智能还不具备独立承担相应法律责任的条件。未来随着强人工智能时代的到来,生成式人工智能或许完全脱离人类的介入进行广泛应用,可以满足版权主体资格,成为独立的民事责任主体。
对AIGC涉及的以上版权问题,我国法律尚没有作出明确规定。期待即将修订的《著作权法实施条例》对此做出相关解释和规定,以推动人工智能产业的发展及其在千行百业的应用,进而推动版权强国建设。
三、AIGC版权合规治理的域外经验
考察AIGC版权合规治理的域外经验,对推动我国人工智能产业和学术出版高质量发展具有重要意义。自2017年加拿大成为第一个采取人工智能战略的国家以来,截至2023年底,至少有60个国家发布了某种形式的人工智能政策。随着由AIGC引发的人工智能应用热潮席卷全球,各国政府监管部门逐渐提高对人工智能风险防范意识,陆续推出法规政策来规制AIGC应用带来的版权风险。各国在治理AIGC版权风险方面的路径多样,反映了各自的法律传统、技术发展和社会需求,特别是以下三种治理模式值得关注。
(一)美国的动态治理探索
2023年1月26日,美国国家标准与技术研究院正式公布《人工智能风险管理框架》(ArtificialIntelligenceRiskManagementFramework)。该文件作为一份非强制性的指导性文件,没有法律效力,仅供设计、开发、部署或使用AI系统的组织自愿使用,以便社会能够从人工智能技术中受益,同时避免其潜在危害。《人工智能风险管理框架》提供了一个灵活、结构化、可衡量的流程,提出了循序渐进的分布式风险管理方法,使各组织能够应对人工智能风险。遵循这一流程来管理人工智能风险可以最大限度地发挥人工智能技术的效益,同时降低人工智能对个人、群体、社区、组织和社会产生负面影响的可能性。{8}其中针对生成式人工智能训练数据集要求AI公司公开训练数据来源,报告模型风险和局限性,防止不准确或有害信息。
(二)英国的软治理探索
2023年3月29日,英国政府发布了人工智能新监管框架的提案《一种支持创新的人工智能监管方法》(APro-innovationApproachtoAIRegulation)。它的目标是“提供一个清晰的、有利于创新的监管环境”,使英国成为“世界上建立基础人工智能公司的最佳地点”之一。英国政府提出了一种“常识性、以结果为导向的方法”——在2030年成为“人工智能超级大国的目标”与“按比例监管”人工智能带来的严重风险之间取得平衡。显而易见,英国政府对人工智能风险治理实行“软治理”,旨在新监管框架的提案中促进人工智能创新,同时解决其带来的风险。《一种支持创新的人工智能监管方法》提出人工智能监管的5项原则,包括安全性、透明度和可解释性、公平性、问责制和监督治理及可竞争性与后果补救,其中针对生成式人工智能训练数据集要求做到“透明度和可解释性”,部署人工智能的组织应该在何时以及如何使用人工智能进行沟通,且能够解释一个系统的决策过程。{9}另外引入问责制和监督治理等措施,确保对人工智能进行适当的监督。显而易见,上述文件和内容体现了英国政府在推动人工智能技术创新和确保技术安全、公平、透明方面的综合考虑。
(三)欧盟的强治理探索
2024年3月13日,欧洲议会通过欧盟《人工智能法案》(ArtificialIntelligenceAct),作为世界上第一部人工智能全面监管法律,标志着欧盟扫清了立法监管人工智能的重要障碍。《人工智能法案》的一个突出特点是注重基于风险来制定监管制度,以平衡人工智能的创新发展与安全规范。在人工智能发展和治理的全球博弈中,针对人工智能技术带来的风险,不同于美国的“动态治理”以及英国的“软治理”,欧盟一如既往地奉行“强治理”基调,相较于鼓励创新而言,更注重防控风险,不仅突出强调了要防止高风险人工智能对个人基础权利、社会民主法治、环境可持续性的侵犯,还为人工智能的功能性应用划定了明确的禁区,并按照使用场所规定了相应的应用规范。{10}此外,法案中还包括对生成式人工智能工具(如OpenAI的ChatGPT和谷歌的Bard)实施一系列控制措施。其中针对生成式人工智能训练数据集强制生成式人工智能公司披露任何用于训练数据的材料,包括使用受版权保护的作品的情况等。这些措施旨在确保人工智能系统的安全性、可靠性和透明度,同时保护用户的隐私和数据安全。
总的来看,无论是欧盟的“强治理”、美国的“动态治理”还是英国的“软治理”,各国政府和社会都刚刚开始理解人工智能,其治理仍然处于探索阶段,未来还有很长的一段路要走。随着AI技术的不断进步,国际交流与合作将变得愈加重要,以共同应对这些挑战并推动全球范围内的法律和政策协调。
四、AIGC应用与学术出版共赢发展之道
AIGC广泛而大规模地应用到学术出版的各个方面已经成为必然发展趋势。{11}在我国,《生成式人工智能服务管理暂行办法》于2023年8月15日起正式施行,在国家安全和风险防范上,该办法规定了新闻出版等部门要依据各自职责依法加强对生成式人工智能技术的管理。在新的技术革命大潮中,面对未来内容产业发展,学术出版机构应当全面贯彻《生成式人工智能服务管理暂行办法》的要求,加快AIGC与学术出版的深度融合,同时充分认识AIGC的局限性,积极应对可能产生的版权风险,以促进学术出版业蓬勃健康发展。
(一)发展促进角度:学术出版机构通过规范标准引导AIGC合法合规应用
中国是较早对人工智能技术进行监管的国家之一,采取了发展与治理并重的管理思路,通过一系列的政策法规,积极实现安全、可控的治理目标。《生成式人工智能服务管理暂行办法》第三条规定:“国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。”目前,一些国家科技管理机构、期刊等针对AIGC在学术出版中的使用进行了研讨,并提供了一些相关的准则、指南等(见下表)。2023年9月20日,在科技部科技监督与诚信建设司的指导和支持下,中国科学技术信息研究所牵头联合施普林格·自然(SpringerNature)等三家国际出版集团,共同编制了《学术出版中AIGC使用边界指南》(以下简称《指南》)。{12}《指南》规定学术出版中AIGC的使用边界、标注、责任划分等问题,同时就学术出版流程中的各个环节可否使用AIGC给出建议,且明晰了相关利益主体在学术期刊论文准备、写作、投稿、评审、出版、传播各环节应该履行的最佳行为实践,提供规范的AIGC使用指导。学术出版机构应参考上述《指南》,结合自身资源和发展需求,藉由规划指引,围绕AIGC的合法合规应用和健康有序发展,进一步细化学术出版各个环节中应用AIGC规范标准,明确界定使用边界、适用范围及方式,以及防范版权风险的措施等,支持AIGC赋能学术出版。
(二)风险防范角度:学术出版机构强化技术监管与内容治理
透明度和问责制是学术出版中使用AIGC最基本的原则。在学术研究到出版发行阶段的全部过程中,所有使用AIGC应用功能的使用者,包括研究人员、作者、同行评议人和读者,都应了解并明确披露AIGC在其工作中的使用情况,应用程序提供者、技术开发者应该明确披露说明该应用程序接受过的数据训练及其内容来源。《生成式人工智能服务管理暂行办法》第七条中规定了学术出版机构使用AIGC训练数据的要求:“生成式人工智能服务提供者应当依法使用具有合法来源的数据和基础模型。”因此在选题策划阶段,为了保证数据来源的合法性,学术出版机构利用AIGC服务时应严格审查AIGC训练数据,保证使用合法的生成式人工智能服务和合规的数据集,同时以合理的方式为使用的数据支付相应的版权费。在审稿编辑阶段,为了防范AIGC引发的版权风险,学术出版机构应当深化AIGC滥用带来的风险和危害的认知,提升对不良AIGC的防范意识,提高对AIGC的识别和检测能力,维护学术出版机构的学术品质。相较于以往的人工智能技术,以ChatGPT为代表的生成式人工智能技术在语言组织的逻辑性和系统性方面都有明显的优势,因此使生成的文本与人类作者所创造的文本之间的边界并非很清晰,这给审稿工作带来了很大困难。因此学术出版机构需要优化审稿流程,借助各类检测工具进行学术论文的原创性审查。目前,国内外已经有十余种检测ChatGPT学术抄袭工具,例如斯坦福大学推出了AI检测工具DetectGPT与OpenAI,专门针对ChatGPT发布了AIClassifier;网易推出LOFTER创作平台“反AI盗用”系统等,均用以检测文章是否是由ChatGPT生成。{13}学术出版机构应当严控编辑初审环节,优化初审模式,在初审阶段重点关注文章原创性审查,提高审稿质量,做到从源头消灭学术抄袭,保证学术论文不侵犯版权。对此国内期刊也做了一些新尝试,在采编系统中加入写作检测功能是进行学术诚信与风险管控的重要实践。中华医学会杂志社与南京智齿数汇信息科技有限公司合作,首次在全球推出了在采编系统中集成AI写作检测工具,成为世界上第一个把AIGC检测内嵌至采编系统的刊群出版单位。{14}在出版传播阶段,为了避免AIGC引发的版权归属争议,要利用区块链、数字水印等技术对生成的AIGC出版物进行版权确权,明确归属问题。
(三)合作发展角度:学术出版机构建立版权协同治理机制
《生成式人工智能服务管理暂行办法》第五条规定:“支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。”在未来的出版实践中,AIGC版权风险的治理思路是通过保持著作权法的基本逻辑,积极开展全方位合作,共促发展,共护安全,共享成果。学术出版机构可以充分发挥政府、企业和第三方机构的作用,积极探索联合多方力量,包括作者、行业协会、政府相关部门以及其他学术出版机构等,建立版权协同治理模式,构建创新的商业模式和交易规则,实现长效的人机协作机制。{15}该机制的建立可以统一AIGC在学术出版应用场景中的使用规范和标准、实现AIGC训练数据一键调取,搭建更加可信的数字版权生态。
五、结语
当前,全球人工智能发展进入新一轮跃升期,AIGC技术及其应用有望成为出版创新发展的新引擎,为数字出版发展注入全新动能。人工智能的身份由先前的人类发明物发展到协助人类创作的辅助工具,重塑了传统的学术出版模式。AIGC技术作为一种人类共同面对的新技术,对学术出版实践的影响日益凸显。尽管AIGC技术的便捷性、高效性、智能性大幅提升了学术出版效率,但其可能衍生的版权侵权风险不容忽视。人工智能技术的快速发展正呼吁全球治理体系的相应完善。对此,许多国家和地区已经探索其立法规制,而我国《人工智能法》草案已被列入国务院2023年立法工作计划,提请全国人大审议。2024年3月16日,《中华人民共和国人工智能法(学者建议稿)》公开发布。
未来,AIGC对学术出版业的影响和促进是值得期待的,人工智能产业和学术出版机构应当将“技术向善”理念融入实践之中,秉持开放性探索与合理规制并重的态度,一方面积极面对学术出版业的迭代升级,加快推进AIGC技术在学术出版各个环节中的开放性应用;另一方面,学术出版机构合理规制AIGC在学术出版领域的应用,提出前瞻性的措施尝试解决其带来的问题,使得AIGC与学术出版业互相赋能、互为助力、高质量发展。
(作者系新疆社会科学院法学研究所助理研究员)
本文系国家社会科学基金青年项目“生成式人工智能生成内容(AIGC)确权模式的嬗变及制度创新研究”(项目编号:24CFX072)的阶段性成果。