生成式人工智能时代学术不端防范及规制
2025-02-19杨荔晴
摘 要:生成式人工智能以强大的知识生成能力为基本特征,在拓宽学术研究领域及提升学术研究效率的同时,也给学术不端治理带来新的挑战,一方面,其在创作主体性及内容原创性方面给当前学术不端概念带来了冲击;另一方面,在生成式人工智能的加持下,学术不端行为呈现出新的特点,致使学术不端治理更为复杂。为排除生成式人工智能对学术不端治理的妨碍,需将学术不端治理推向法律规制与技术手段并重的阶段,并通过重塑科研规范,构建学术不端治理新框架。
关键词:生成式人工智能;学术不端 ;法律规制;技术手段
中图分类号:G230.7 " " " " " "文献标志码:B 文章编号:1671-0142(2025)01-0032-04
2022年底,ChatGPT-3.5以其强大的信息整合和自然语言处理能力引发了全球人工智能风暴,生成式人工智能迅速嵌入社会各领域,其嵌入社会的深度、广度、速度叠加推进,不断重构着人类社会的现在及未来图景。
生成式人工智能以强大的知识生成能力为基本特征,其不仅能够生成文本,还可以生成图片、视频等多媒体内容,革命性的人机交互模式为社会生活的许多领域带来了新的可能性,给肩负文化传承与技术创新使命的学术研究带来颠覆性影响。同时,基于人工智能的强大能力,学术不端问题也会大量出现,并以新的形式和特征出现,为学术研究范式带来了一系列的变革和挑战。
1 学术不端概念在生成式人工智能背景下的重新定义
根据《中华人民共和国著作权法》《中华人民共和国著作权法实施条例》等法律法规的规制,参照科技部、教育部、新闻出版总署等部门的有关规定,学术不端行为是指违反学术规范、学术道德的行为,一般体现为三种形式,一是捏造数据,指虚构或编造数据、事实的行为;二是篡改数据,指故意修改研究数据或事实,使作品失去真实性的行为;三是剽窃,主要是指采用不当手段,故意窃取他人研究方法、数据、观点、 图像、文字表述等并以自己名义发表的行为[1]。实践中一稿多投、不当署名、重复发表等行为也可包括进去。
一般而言,著作权认定必须同时满足或具备两个条件,其一是著作权主体要件,其二是客观上内容符合作品的特征。人工智能生成文本能否获得法律保护及受法律规制,在于其创作过程中是否存在创作者的主体性、作品内容的独立性以及原创性,探讨使用人工智能作品是否构成学术不端行为,必须以违背著作权法为基本特征。
1.1 创作主体性
我国著作权法将作者限定为“自然人、法人或其他非法人组织”。“作品是作为有血有肉的自然人对于思想观念的表达……由非人类‘创作’的东西不属于著作权法意义上的‘作品’”[2]。人工智能技术因其强大的数据生成能力引发了对机器人是否具有法律主体地位的思索。基于法理论的认识,法律上的“人”应具有两个条件:一是法律赋予该主体享有权利、履行义务的法律资格,即规范条件;二是该主体必须具有实现前述法律资格的意志能力,即事实条件。其中,法人作为拟制的人,通过“归入”技术和生物人的行为建立起联系,其法律自认最终由生物人承担。而人工智能因其不可能承担独立责任而被排斥为法律主体。既然生成式人工智能不能是作者,那么也就不能成为学术不端行为的担责主体,这对当前学术不端概念的内涵带来了冲击。
1.2 内容原创性
“原创性”或“独创性” 一方面要求作者独立完成作品,另一方面要求作品具有一定的创新性,即作品中要有作者的智力创造,带有作者的个人意志。而人工智能生成物通常是在大量数据广泛训练的基础上,通过寻找规则,借助强大的综合能力和生成能力自动生成新的作品,其创作过程受到算法和数据的限制,创作灵感和决策过程与人类创作者有着本质的区别,不符合著作权法规定的原创性标准,无法获得著作权法的保护,而一旦这样的作品得以传播,可能会导致其他作者随意使用、引用他人的观点和数据,因无法寻根溯源,将使其被推向被动利用他人研究成果的尴尬境地,并带来此类被动行为是否属于学术不端行为定义的疑虑。
2 人工智能引发的新型学术不端行为
生成式人工智能的迅速迭代为学术研究的发展带来了新机遇,其通过非常强的可访问性、参与性和协作性,在很大程度上能将科研人员从重复、繁杂的数据资料收集、归纳、分析等劳动中释放出来,随着人工智能技术的发展,其生成的内容质量也越来越具有真实性,语言理解和生成能力越来越趋于人性化,还能够根据用户特定需求量身定制各种个性化方案,为拓宽科学发现的边界,提高科学研究的效率以及提升数值模拟速度和准确度方面带来了前所未有的突破[3]。但同时,生成式人工智能对网络数据的肆意使用、组合必将带来一系列学术不端问题。
2.1 人工智能直接参与写作
人工智能独立写作模式是当前学术研究领域借助生成式人工智能进行学术抄袭的主要模式,人工智能直接参与写作是指人工智能按照使用者的语句指示,直接生成与使用者数据请求有较高关联性的文章或文字组合,如直接生成论文、生成论文摘要、生成文献综述、论文翻译、论文降重等。当前,使用者通过人工智能生成文章或论文主要服务于两种目的,一是在校学生为完成学业任务,借助生成式人工智能直接写作或润色其文章、论文;二是担负学术研究任务的个别主体,利用生成式人工智能进行虚假研究、论文写作、寻求在学术期刊发表。针对此类学术不端行为,目前各高校及学术期刊编辑部都提出了相应对策,如要求作者主动声明,增加技术和人工审查及加大惩处力度等,但一方面这些对策不具有普适性,另一方面人工智能因其强大的学习能力,其生成能力越来越强大,文本质量越来越高,必然带来识别难度的增加,使用人工智能直接参与论文写作构成学术抄袭的行为仍是防不胜防。
2.2 人工智能洗稿行为
“洗稿”就是对别人的原创内容进行篡改、删减,利用其部分思想内容和素材,通过调整结构、转换表达方式、变更词语等方式产生新的作品并以自己的名义发表的行为,修改后的作品好像焕然一新,但其实最有价值的部分还是抄袭的,是典型的学术不端行为。人工智能时代使信息的收集、整理、传播更为迅捷和方便,洗稿行为也变得更为简便易行,不同于传统时代的抄录、复制粘贴,人工智能时代不仅能短时间内实现“一稿多洗”“多稿多洗”,而且更具隐蔽性,能逃避查重技术的检测。使用者不但能借助生成式人工智能在庞大的网络数据库中进行数据收集,还能在与人工智能的“互动”中不断提出各种要求,使人工智能在其“引导”下一步步完善文本,达到洗稿目的。人工智能给洗稿行为带来的便捷性和隐蔽性进一步加剧了洗稿行为。
2.3 人工智能技术缺陷导致的学术不端
(1)数据调研带来的学术不端风险。人工智能在技术层面,主要是通过对使用者的数据命令或请求,聚类搜集、梳理和分析海量网络数据,依据使用者指示探索、归纳数据规律以及数据与指示之间的关联,按照使用者要求智能处理、生成答案。在这一过程中,首先,人工智能必须在受到外界刺激后才能启动智能思维模式,即必须由使用者对其发出指令,而同时,人工智能设定的迎合式代码要求其必须完成使用者发出的指令,即必须响应使用者指令、回答使用者问题,在代码运行中,数据编造与事实的相符与否并不在人工智能的判断中。其次,生成式人工智能信息辨别数据真实度的能力受限于其计算能力,其在收集信息时并不能严格判断收集的数据信息是否正确、是否真实,比如涉嫌学术造假的数据也可能被人工智能所收集。此外,生成式人工智能对模糊数据或加密数据的还原能力有限,比如某些模糊的图片或经过人工加密的语言,甚至拼音缩写等都会对人工智能还原信息造成误导。由此导致的结果就是这些真真假假的数据在使用过程中就可能产生各种矛盾,而使用者基于其实际使用目的、学术研究态度和能力,或是不关心数据的真假,或是排除假数据,甚或有可能排除真数据,如果将此类最终生成结果应用于学术研究必然产生学术不端行为。
(2)文献引用侵害他人权益。规范地标注引用是区分学术论文写作时合法使用他人学术成果与剽窃行为的最佳方法。生成式人工智能进行“学术创作”的前提是“学习”海量的文献资料,借助资料作为其训练数据,模拟学习文献的逻辑、内容、语言表达等,再根据指令要求模仿写作,如果按照规定正确引用其使用所有文献,这些文献占据的篇幅甚或超过正文内容。因此,人工智能最终的生成文本都会不同程度地存在着漏掉引注、错误引注的现象,甚至胡乱伪注,从而构成对他人学术论文或学术观点的剽窃,产生学术不端行为。
(3)反复使用扩散学术不端。生成式人工智能提高了学术生产的效率,更加速了学术成果的传播。人工智能生成的学术文本得以发表或在网络进行传播后,人工智能通过精准捕捉用户兴趣,精准定向推送相关研究成果,并在内容和形式上保持高度的定制化风格,从而实现更好的用户体验和传播效率,加速传播效果,如这类文本本身涉嫌学术不端,存在造假、剽窃等行为,人工智能则加速产生了新的传播造假,扩散加剧了学术不端行为。
3 人工智能时代学术不端行为的规制框架
3.1 法律规制:强化敏捷善治顶层设计
技术发展的“加速度”与传统技术治理的“滞后性”的矛盾一直存在,技术是呈指数级增长的,但社会和法律系统只会缓慢发展,但生成式人工智能发展迅猛,推广应用价值广泛,亟需治理速度与之相匹配。
(1)逐步确立生成式人工智能主体资格。人工智能背景下产生学术不端行为的原因之一是人工智能在法律上的地位未定,其生成的作品是否受法律保护存在争议。
由于目前人工智能还未完全摆脱人工控制,不具有独立的意志能力和责任能力,暂不宜确定为“人”。“法学理论和法律制度应当及时关注和回应技术带来的新问题,不可以抱残守缺,但也不能脱离体系化思维”[4],故我们亟需建立一套能够将“包容性”和“适应性”统合起来的治理人工智能学术不端行为的法律体系。比如可以适当借鉴拟制民事主体学说,在某些领域承认其拟制的法律主体资格,在权利义务的承担上,将人工智能的研发者、投资人、使用者或其他实际控制人作为权利义务的最终承担对象。
(2)完善法律法规体系。我国现行法律体系中《网络安全法》《个人信息保护法》《互联网信息服务算法推荐管理规定》等均有与人工智能相关的规定。2023年7月10日,我国颁布了全球范围内首部生成式人工智能法规,即《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),《暂行办法》明确规定“国家坚持安全和发展并重,促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管”[5]。这部法规对生成式人工智能划定分级监管“红线”,将审慎容错纳入监管框架,能有效弥补技术发展和治理能力之间的空隙,健全了我国人工智能法律治理体系。
3.2 技术手段:规范人工智能技术开发及使用,防范学术不端行为
(1)研发阶段:完善人工智能技术,严密防范学术不端行为。人工智能研发企业是引导技术向善的重要源头,也是防范技术不端行为的第一践行者。《暂行办法》明确了生成式人工智能服务的法律红线:不得生成违法内容;在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止歧视;尊重知识产权和其他合法权益;提高生成内容准确性和可靠性[5]。据此,研发企业在研发和升级智能技术时,应将负面影响作为优先和研究重点,全面预防人工智能技术的恶意使用;同时,提高人工智能信息过滤的能力,严格把控信息输入,加强数据来源的识别,审查内容并人工标记,优化训练数据集,通过增加限制性条件等从技术上控制人工智能接触不良信息,并设置警示系统,一旦发现虚假性、危险性内容,能够迅速做出警示或拒绝反馈。此外,还要注重保护隐私信息,植入相关程序,增强系统防护能力。
(2)使用阶段:生成式人工智能甄别学术不端的利用和进步。中国学术不端检测软件最早是2008年3月研制成功的PaperPass检测系统,目前使用最广泛的是中国知网学术不端检测系统,但该系统只能对文本相似度进行检测,无法检测图片的相似性,在论文图片抄袭检测上有所欠缺。因此,利用生成式人工智能升级学术不端检测系统的检测能力,在文献引证识别功能、图表识别技术等方面加强技术进步,检索论文中涉及的文献数据,使论文抄袭行为无所遁形。同时,还要确保检测系统的及时性,即要保持期刊、出版社与检测系统的数据共享、数据同步更新等,堵住学术不端行为主体利用时间差规避学术不端检测系统的漏洞。
(3)技术防范:抵制并严惩助长学术不端行为的软件工具。利用软件查杀降重助长了学术抄袭、剽窃等行为,对当前的学术规范工作造成了极大的干扰,必须将此类软件纳入“恶意软件”范畴进行治理。通过技术手段,限制或禁止其安装、使用及传播,当前在淘宝搜索“论文降重”已无内容显示,但这种治理仅依靠单个或几个平台单独治理无法根治,需要各平台协调才能实现根治,网络安全和网信平台应统一出台相关治理措施,限制此类信息搜索及相关软件的安装。
3.3 道德引领:重塑科研规范,营造良好的科研生态环境
生成式人工智能在科研中的广泛使用会不断影响冲击现有的科研道德和规范,但不能因此而抵制人工智能,因噎废食。认可接受人工智能是社会发展的必然,法律政策约束为学术研究提供了重要的规范机制,而加快形成道德伦理共识则有助于推动政策落实。首先,对待人工智能要持开放和积极的态度,但也必须树立“数据应用,安全第一”的意识,在限定合理范围内安全使用人工智能,对于使用人工智能的部分,作者应予以声明,采用人工智能生成数据的,必须审核数据的真实性,且不得在未充分引用和注明出处的情况下介绍他人的观点、数据等。其次,一定要坚持“以人为本”的学术理念,坚持生成式人工智能对人类科学研究的辅助地位,坚持学术研究过程中人的主体性及自主权,不断提高各类研究主体的人工智能素养,克服现有人工智能的部分缺陷,提高科研效率。再次,积极开展学术诚信教育,塑造人工智能时代学术诚信价值观和伦理观念,建立科研诚信跨部门跨区域共享平台,各级管理部门依法依规对学术不端行为进行惩戒,提高学术不端行为成本。
3.4 惩戒机制:建立AI监管和问责机制,严格学术不端责任
针对学术研究中利用AI抄袭、直接生成、洗稿等学术不端行为,必须确立严格的问责机制,可以从法律责任、行业责任两个方面进行规制。在法律责任层面,若研究人员在期刊投稿过程中存有此类行为,需对涉事作者追究退还稿费、赔偿名誉损失等民事责任;除涉事者须承担因违背诚信造成其他主体损失的民事责任外,还应在刑事法律框架下加以规制,即当学术不端行为造成严重后果时,涉事者或将面临刑事法律的追究。
在行业责任层面,首要措施是建立科研诚信信息共享平台,推动对不端行为的认定标准统一,确保结果互认,建立科研失信人数据库,对于情节严重者,给予列入失信名单之惩戒并予以公示;在学术不端频发的领域,包括高校、科研机构等,要完善相应惩戒制度建设,构建科学合理的惩戒规范体系,以严密的监管网络,用更加严格的标准和更为严厉的手段来维护学术的纯净与尊严。对于在读学生的不诚信行为,特别是学位论文中的抄袭、造假等,应实施终身追责制度,一经被发现,涉事者将丧失其学位资格及后续所有相关学位。对于科研人员,除承担法律责任外,还可进一步处以撤销科研奖励、阻断职称晋升通道、解除职务或禁止投稿等处罚。
4 结语
“使用这项技术是不可避免的,因此,禁止它是行不通的”[6],人工智能时代的到来开辟了学术研究快速发展的新航道,但随之而来的风险也不可避免,探索有效的化解之道,必将是一个复杂、长期而艰巨的过程,必须直面生成式人工智能在科研应用中的挑战,前瞻式及动态式调整既有法律规范,构建学术不端治理新框架,同时不断完善技术手段,重塑科研规范,更好地推动生成式人工智能向上向善发展。
参考文献:
[1]杨顺.ChatGPT等生成式人工智能对学术诚信的挑战及应对[C]//《新兴权利》集刊2024年第1卷——智慧法治学术共同体研究文集.上海大学法学院,2024.
[2]李明德,许超.著作权法[M].北京:法律出版社,2009.
[3]刘瑶瑶,梁永霞,李正风.生成式人工智能与科研伦理:变革、挑战与展望[J].科学观察,2024,19(4):1-8.
[4]李琛.论人工智能的法学分析方法——以著作权为例[J].知识产权,2019(7):14-22.
[5]姜涛,叶思雨.生成式人工智能浪潮下的学术生态:机遇、挑战及应对[J].河北科技大学学报(社会科学版),2024,24(2):85-92.
[6]Van Dis Eam,Bollen J,Zuidema W,et" al.ChatGPT:five priorities for research[J].Nature,2023,614(7947):224-226.
(责任编辑 顾雅丽)