APP下载

机器参与论文写作的出版伦理风险与防范对策

2022-05-20张小强

中国科技期刊研究 2022年4期
关键词:不端伦理机器

■张 萍 张小强

重庆大学新闻学院,重庆市高新区大学城南路55号 401331

人工智能已经被广泛用于各学科的学术研究和论文写作。由人工智能模型GPT-3写作的一篇关于COVID-19疫苗有效性的论文获得C等级分数,其得分比人类作者高[1]。将完全由机器生成的论文伪装成人类作者的作品,也能通过不少期刊的评审,最终被录用,机器自动生成论文在近几年撤稿原因中也呈现上升趋势。早在2005年,美国麻省理工学院三名计算机专业的研究生编写出论文生成软件SCIgen,所生成的论文被学术会议录用[2],此后机器生成的毫无意义的论文经常被学术期刊或会议“录用”。2008年,德国学生利用该软件生成论文,并向武汉举办的IEEE国际会议投稿,机器虚拟的Schlangemann教授被当成知名学者,并受邀为会议主持人,机器暴露真实“身份”后让举办方异常尴尬。2012年,康奈尔大学数学系博士后Nate Eldredge对SCIgen进行了修改,制成数学专业的论文自动生成器Mathgen,虚构“Marcie Rathke”教授投稿,被广受赞誉的期刊《理论数学进展》(AdvancesinPureMathematics)录用[3]。可见,没有识别出机器生成假论文的不仅有一般学术期刊,也有知名学术期刊。据Nature2021年5月的报道,SCIgen软件至今还在使用,导致科学文献中仍然潜伏着数以百计的胡言乱语论文[4]。Cabanac和Labbé[5]的最新研究指出,截至2020年11月5日,还有197篇疑似机器生成的问题论文没有任何警告或撤回通知,仍在被下载,主要来自中国(64%)和印度(22%)。

Babel Generator,一款输入3个关键词就能迅速生成一篇完整论文的软件,自动生成的一篇内容荒谬但文法正确的论文获得了5.4分(满分为6分)的高分,在“重点和意义”和“语言使用和风格”方面被评为“高级”[6],该论文足以应对一般的审查工具。随着生成论文的机器越来越智能,生成的文本质量越来越高,识别难度也越来越大。在基于神经网络的语言模型方面取得的重大进展可能迟早会产生新的科学写作方式,且乐观主义者认为,自动翻译等智能工具可以帮助作者生成更好的科学论文[7],未来的写作是协作式、算法式和自主式的[8]。从这一趋势来看,机器参与论文写作是无法完全禁止的现象,出版单位需要提高警惕并早做准备。

国外学者早已观察到机器生成论文对学术诚信构成重大挑战[9],并提出不少识别机器生成论文的方法[10]。2015年Jones等[11]调查了学生利用软件翻译剽窃的行为,近来国外大学报告称COVID-19疫情期间实施在线教学后,学生作弊行为因自动化写作技术的进步而有所增加[12]。国内对机器参与论文写作的零星研究集中在学术不端方面,包括机器洗稿的学术不端问题[13]、利用软件翻译的“语际变换式”剽窃行为[14]等。国外研究机器写论文是基于英文工具,随着中文自然语言处理技术的进步,对中文写作软件的调查研究也非常重要。本研究对当前机器参与论文写作的现状进行调查,对参与论文写作的工具展开网络调查并进行实验验证,从出版伦理视角分析机器参与论文写作的识别方式和风险,并提出防范对策。

1 概念界定及研究方法

1.1 概念界定

从提供语法写作指导的Grammarly到生成假论文的学术钓鱼软件SCIgen,技术可以帮助科研人员提高效率,也可运用于学术造假。科研人员使用的工具包括非智能的自动化数据分析工具、具有机器翻译、机器写作功能的智能绘图工具,以及无法查明是否智能的学术钓鱼软件(可生成论文伪装成人类投稿)、降重软件等,本研究将这些工具统称为“机器”。使用“机器”而不用“人工智能”的原因是部分软件无法查明其智能程度,机器这一概念能涵盖智能或非智能的相关工具。此外,机器相对于“程序”“软件”而言,其能动者的意蕴更浓厚,表征的是当前直接或间接地参与论文写作过程的具有计算功能的各种程序。机器参与写作的论文(以下简称“机器参与稿”)是指研究或写作环节使用了各种有不同程度自主性工具的那些学术论文。

1.2 研究方法

(1) 规范研究。先以学术期刊出版伦理为标准,判断相关案例和实验调查的机器参与稿的伦理问题;再以行动是否能推动出版伦理规范实施、降低出版伦理风险为判断标准,提出相应的风险防范对策。

(2) 实验调查。选取自媒体文章和用户推荐最多的中文软件A、英文软件B展开实验,共生成50篇稿件进行实验观察。在软件A中输入题名、学科类目、关键词即可自动生成学术论文,生成的段落可以编辑、复制、删除、调整顺序,无限刷新生成新内容,也可以生成空白段落由作者参与写作,支持上传云端保存等,软件A因其强大的功能已经俘获了大量用户。在软件B中,只需要输入论文标题就可以自动生成1000~2000字的英文内容,并附详细的引用来源。为了让场景更真实,笔者从中国知网随机抽取已发表的自然科学、社会科学论文标题,分别输入A、B软件中自动生成稿件,再将稿件提交Paperpass检测系统检测重复率(经调查,该系统与中国知网检测结果的误差在5%左右)。

(3) 网络调查。首先,对各类参与论文写作工具的市场应用情况展开调查;然后,对Retraction Watch中以“随机生成的内容”为撤稿理由的情况进行调查,分析机器写作论文的撤销情况。

2 机器写作论文的发表现状及伦理争议

2.1 现状

2.1.1 机器间接参与写作

自然科学和社会科学学科都越来越广泛地使用人工智能进行研究互动,使用人工智能,特别是机器学习和深度学习方法的研究数量正在快速增长[15]。机器学习被用于多个领域的分类、回归和优化任务,科学研究不再完全依赖人类研究者分析结果和得出结论,人类研究者还可以从机器学习中获得新的见解和科研灵感[16]。机器作为科研成果产出的重要工具和方法,已经广泛地间接参与学术论文的写作。但是,大多数人工智能参与的研究在规划、实施和报告成果方面存在问题,其稳健性、可重复性和适用性低[15]。对于这一新出现的问题,已经有学会、期刊和学者针对其中的伦理风险,提出有关人工智能参与研究的成果汇报指南。

2.1.2 机器直接参与写作

机器直接参与论文写作是指论文的文字表达阐述的部分或全部内容由机器生成,以前这都是由人类作者完成的。这类论文分成两种情况:第一种不涉及学术不端但存在伦理争议,这类论文作者往往会在论文中声明机器的参与,文中有“由算法生成(generated by algorithm)”“由机器生成(generated by a machine)”这类的表述,表明使用了算法或机器生成论文的部分内容(图片、数据、计算模型等)。虽然不被认定为学术不端,但仍然存在数据、代码、软件引用,算法黑箱,以及机器的贡献署名等出版伦理问题。如果作者未直接说明,需要通过其他特征(如“人工智能”“算法”等研究成果)识别出来,则需要编辑鉴别是否存在学术伦理问题。第二种情况是指作者存在刻意隐瞒使用机器生成假论文的学术不端行为,涉及严重的学术不端问题。这时机器成为剽窃的工具,产生多种剽窃方式:(1)对现有文献进行改写降重,自动生成重新措辞的内容,逃避剽窃检测;(2)由机器利用现有文献形成语料库,根据输入的标题、关键词等参数直接生成论文;(3)机器翻译并拼接来自其他语言的文献,生成相关论文。近年来,因使用机器生成论文涉及学术不端被撤稿的情况越来越普遍,对此需要警惕。

本研究使用国际数据库Retraction Watch进行调查,发现截至2022年3月14日,Retraction Watch中因“随机生成内容”(即机器参与论文写作)原因被撤销的论文共819篇,其中署名单位来自中国的论文有502篇。中国作者使用机器生成论文被撤销始于2009年,在2021年此类论文数突增至361篇,可能有两个原因:一是论文写作技术进步了,有更多机器写作论文被发表;二是学术不端检测技术的进步,导致更多论文被发现。这些撤稿往往还有“虚假同行评审”“使用流氓编辑器”“论文工厂”等其他学术不端行为,说明这种刻意隐瞒使用机器直接生成论文并成功发表的假论文存在多种学术不端行为。

2.1.3 论文写作工具调查

网络调查发现,当前机器直接参与论文写作有直接生成论文、论文降重、翻译论文、生成论文摘要、生成文献综述5种方式(表1)。使用最多的市场工具是机器降重、机器翻译软件,且完成度较高。直接生成英文论文的工具数量比直接生成中文论文的工具数量多,且几乎都需要付费,每篇生成论文价格在50~500元范围内。

洗稿降重工具种类多、价格低、销量大且增长明显。截至2021年7月31日,通过搜索引擎检索到29款降重工具,在淘宝检索到25家店铺。淘宝主要销售“经纬智能降重”和“早降重”,销售价格平均为9.9元,部分卖家根据字数定价,每千字的价格为2~5元。有3家店铺月销量超1000,其中一家的销量一周内从200增至1000多,但部分用户使用降重工具后在评论区留言“词不达意” “内容生硬” “勉强读通”。2022年3月14日,笔者再次调查发现,在淘宝中搜索“降重”已经没有任何商品,说明该平台对这些工具进行了治理,但使用百度搜索“降重”,排在前4位的搜索结果是付费推广的降重服务广告。

网络调查发现机器翻译工具共有58种,大多数可免费使用且不限字数,支持一键上传自动翻译整篇文档。部分工具致力于特定领域的翻译,如生物医学领域的MedPeer,法律专业的云译通等。工具的版本不断更新升级,翻译结果也越来越准确。

专门自动生成摘要的工具种类不多,多是在其他翻译工具、降重工具中附加生成摘要功能。本研究随机选取三款工具(E书联盟、吉山数据、点心工具)进行调查,发现虽然这些工具生成摘要的逻辑性、连贯性、完整性不够,但语句通顺,可能达到一般期刊论文摘要的要求。

自动完成文献综述的工具种类最少,其中最受欢迎的工具是英文语言处理的Paper Digest,尚未检索到中文语言处理的工具。

表1 论文写作工具调查

2.1.4 机器直接生成论文实验

本研究按照上文所述的方法进行实验,结果如表2所示。机器自动生成的论文若不加修改,其重复率都达不到现有期刊的发表要求;即使经过自动洗稿降重,也达不到大多期刊要求的15%以内的重复率。但是,如果人工再加入其他内容,则形成可投稿而不被检测工具和编辑初审发现的论文并不难。

利用中文软件A生成了20篇社会科学论文、10篇自然科学论文,文章长度为5000~6000字,稿件包含标题、摘要、关键词和参考文献,除公式和特殊符号乱码外,语句通顺流畅。查重检测结果表明,当前中文机器写作的智能程度并不高,生成的论文基本是对已有论文的复制组合并且不加引用,属于严重的抄袭和剽窃行为。社会科学论文的最高重复率为99.50%,最低重复率为70.70%,平均重复率为88.96%;自然科学论文与社会科学论文的重复率差别不大。但是,使用“经纬智能降重”软件洗稿后,重复率的最大降幅为78.50%,降重效果明显。

利用英文软件B生成社会科学论文和自然科学论文各10篇,文章长度为1000~2000字,稿件包含标题、参考文献,语句通顺、无明显语法错误。英文软件B生成稿件的重复率明显比中文软件A低,说明英文软件生成的稿件可能同时自带洗稿降重功能。调查还发现,个别稿件经洗稿后的重复率反而比原稿件的重复率更高,其原因可能是表达的方式有限,英文软件生成的稿子已经被洗稿降重,再经过其他软件洗稿降重后又恢复了原来的表达方式,导致重复率上升。

表2 机器参与稿的重复率检测结果

2.2 伦理争议

除了上文所述的机器参与论文写作,当前还有将中文论文由机器翻译成英文、再请第三方润色机构修改后投稿到英文期刊等情况。但是讨论机器翻译论文的学术伦理问题的研究却很少,可能是因为机器翻译没有产生“创意表达”,忽略了机器翻译的伦理问题。从学术论文应真实给出作者贡献的出版伦理视角来看,若刻意隐瞒使用机器翻译的内容,起码属于没有正确标示论文写作中作者的真实贡献。例如:机器生成的摘要虽然不是文章的创意部分,但也不属于作者本人的贡献。特别是自动生成摘要的相关技术也可以运用于文献梳理,辅助文献综述写作,如果不声明机器参与文献综述写作,同样会涉及学术伦理问题。比较合理的做法是在文中适当的位置予以说明或投稿时告知编辑部。已有论文通过脚注注释了论文的摘要是由作者及其提出的模型共同撰写[17]。

伦理问题未得到解决,也会影响相关工具的市场化。重庆大学的张小强教授在评审数字出版项目时发现,国内某知名学术文献数据库已经开发出人工智能辅助论文写作的专业网络服务,却担心大量使用该服务写作的学术论文在投稿后带来伦理争议,给公司造成负面影响,故尚不敢向市场推广。

当然,也有机构大胆将类似工具推向市场,如目前多所高校图书馆购买的数据库资源“笔杆网”,提供了选题分析、资料收集、在线写作、参考文献梳理、查重等一站式写作服务。Trinka也是一个以学术论文写作为核心的工具,不仅能修改专业术语、语法、句子结构的错误,还可以根据学术出版标准改善论文的语法、表达和措辞[18]。SCInote可以根据参考文献中的数据和实验流程,将用户自定义的内容串联起来,生成一篇学术论文的草稿,已有论文主动声明使用SCInote管理参考文献和实验数据[19]。除了使用技术提供商的工具,部分作者还自己开发算法工具辅助论文写作,如PaperRobot[20]。这将引发新的学术伦理争议:若作者隐瞒机器的“学术思想和创意”将论文投稿,是否属于学术不端?创意和思想由作者之外的人类提供,作者未添加署名,似乎属于学术不端问题,但由机器提供则是一个新问题。因为要认定为学术不端的一个前提是由人类代写论文,但现在代写者是机器,而使用软件辅助研究和写作早已是惯例,本质区别是现在的软件自主性和自动化程度非常高,人类干预程度则非常低。这类论文投给期刊也带来新的伦理挑战,如何界定人机的贡献并署名?作者主动声明机器参与论文写作,机器产生了学术贡献,且稿件质量达到发表水平,具备了发表的前提条件。期刊是否接收?应如何审查?如何发表?这将是编辑面临的伦理大考。

2.2.1 数据伦理问题

数据伦理是机器学习的热点话题之一,对数据源的收集、处理都有具体的伦理要求。机器学习的训练数据源包括免费的开源数据、网络和物联网收集的数据、人工培训的数据集[21]。不同数据源可能潜藏着不同的学术不端风险和伦理问题。免费的开源数据同样存在数据污染的风险,如公开数据中的部分科学数据所有者可能会出于保持既有竞争优势,更有甚者是个人主观因素,蓄意造成原始数据污染,最典型的是数据造假[22]。编辑应要求作者公开原始数据,以审查防范数据污染的问题。

来源于网络和物联网的数据,则易侵犯个人信息和隐私,违背研究伦理。立命馆大学研究小组的研究论文因机器收集猥琐词语时公开了小说作者的网名和URL,发表的第二天就被撤销了[23]。

此外,人工训练的数据集大多属于作者的独家数据(如实验数据),这就涉及数据的可重复、可再利用,以及数据是否满足算法充分训练的问题。编辑应要求作者公开原始数据以便审查。

2.2.2 学术创新争议

为了鼓励学术和科学创新,只有那些创新性强、水平高的论文才能在学术期刊发表。而这类论文往往需要作者在学术研究上投入较多的时间,发表则是对投入的“奖赏”。学术和科学界在论文发表上展开激烈竞争,目前这种竞争主要是人类智力的竞争。机器生成内容与人类写作论文大不相同,特点是前期开发投入大,但开发出来后创作速度快、产出多。如果不提高算法创新性要求,作者利用算法完成多种同类型研究,一个算法可能就是一个“论文工厂”,造成研究内容的“低水平重复”。如果作者使用某工具但又不了解工具的算法原理,无法提供算法透明度,也就无法得知算法是否存在学术不端或违背研究伦理。即使是作者自己开发新算法,也要做好算法透明度解释。

由算法引起的学术创新争议还涉及更严重的学术不端问题。如果同一算法生成不同论文发表,是否属于传统意义的“重复发表”?随着技术进步,当前的论文买卖和论文工厂也由人工代写朝着机器代写方向演变,这对学术出版秩序的冲击不容忽视。

2.2.3 算法黑箱与偏见问题

科学研究应该透明、可重复、客观中立,算法有可能破坏学术创作的这些规则。无论是作者开发的算法还是作者使用工具的算法,都可能带有学术偏见或学术歧视。人类对权威期刊、高等院校、职称的偏见也会体现在算法的学习中,因为算法的开发设计和数据筛选都有人的价值观注入,算法承袭了这些偏见后会更严重地歧视期刊、学者单位,甚至是学者本人。网站Algowritten专门记录算法写作(如GPT-3)中的偏见问题,工具是有偏见的,机器写作代表特定公众的文化规范(即那些来自主流地区的文化),来自其他地区、亚文化和非主流文化的作者可能会发现,他们的创造性表达受到这些工具的阻挠[24]。算法的数据来自互联网和现有文献,数据中出现的偏见必然会反映在算法输出的结果中,还有可能造成人工不容易发现的偏见、偏差被累积放大。因此,算法写论文也会造成学术论文中存在观点或结果偏见。

参与论文写作的算法的透明性和可解释性是另一个重要的伦理问题。要解决这一问题,只有要求作者在论文或其他附属材料中尽量详尽、准确地解释所用算法,或者要求作者提供相应的代码供其他学者检查或重复研究。

2.2.4 引用问题

机器为得到充分训练,需要学习海量文献资料。如果机器存在漏引、错引的失误,则也存在剽窃的学术不端风险。如果正确引用所有文献,机器参与稿的参考文献所占据的篇幅甚至超过正文内容。Springer Nature第一本机器产生的学术著作《锂离子电池:机器生成的当前研究总结》4章的参考文献数量分别有450、562、165、288条。如果大量的引用没有得出新观点和结论,通常会被判定为无效引用或违背学术规范中的适当引用原则。但机器参与稿有其特殊性,因为人工智能的优势是把大量文献当做数据来完成写作,而人类作者无法在短期内消化大量文献。机器写作的综述符合出版条件,说明机器也能产生学术贡献,但其发表伦理问题则值得进一步研究。

机器学习文献的方式不同于人的理解方式,机器使用文献资料作为训练数据,学习文献的逻辑、表达、语言风格等,再模仿写作,形成自己的风格。机器写作的内容可能既不是文献观点的直接引用,也不完全是转述文献观点的间接引用,如何正确标注参考文献成为难题。

在未经许可的情况下,机器学习使用版权受保护的文献训练算法,还涉及版权侵权的问题,但如果要求每一篇文献都获得授权,又会产生较高的权利交易成本。对此,法学界提出的解决思路有:为人工智能的数据输入创设不侵权的例外[25],“非作品性使用”(Nonuse)和“合理使用”(Fair Use)等未经许可但合法的自由使用情况[26],以及机器形成的作品采用开放获取的出版模式,因此上述机器生成的图书可免费开放获取。

此外,如果使用商业软件参与论文写作,也应该按照出版规范给予引用。但当前国内外不少学术出版规范中对如何引用代码并没有规定,作者们也没有引用代码或软件的习惯。

2.2.5 署名问题

人和机器合作发表论文比人和人合作的情况更为复杂,机器参与稿很有可能出现由人机贡献模糊导致不当署名的情况。特别是算法背后牵涉的责任主体众多,包括算法的开发者、投资者、数据提供者,使用者等,从贡献的角度来说他们都具有署名的权利。人和机器贡献的界定困难体现在两个方面:人与算法的关系、人与算法的贡献比例。即使机器参与稿由算法独立完成,也不能排除人类作者开发算法的贡献,所以对机器参与稿贡献的界定首先需要弄清楚人类作者和算法的关系。算法与作者的关系包括算法由投稿作者独立开发、投稿作者与其他主体合作开发、投稿作者委托其他主体开发、投稿作者直接使用算法等情况。不同的关系代表研究创意和思想来源不同,署名的方式就不同。如何界定人机贡献比例和署名方式都有待进一步研究。当然,除了署名,还有引用、致谢、在正文以脚注或其他形式表达机器的贡献,对此还需要深入研究。

3 机器生成论文的识别

根据实验机器参与稿的特征和Retraction Watch对机器生成稿的撤稿声明,总结出以下几种特征可供编辑参考。存在这些特征的稿件极有可能涉及学术不端,编辑需要特别留意。

(1) 警惕陌生奇怪的术语表达。在仔细阅读实验生成的50篇论文后,笔者发现为了降低重复率,降重软件会通过词语、句式转换,将专业术语改成非常规用语,还出现一些奇怪的词组表达。部分众所周知的科学术语被“新”词取代,如“深度神经网络”被修改成“深层神经组织”[7]。国外降重工具Spinbot号称“提供精心重新措辞的文章与100%独特的内容”,被怀疑已投入使用并成功发表了论文。这说明即使重复率低、语句流畅,如果有不常见的术语表达,编辑也需要警惕,因为这是软件逃避检测的惯用伎俩。

(2) 关注研究方法或研究结论反常。算法黑箱使机器生成的稿件具有“编造不符合实际或无法重复验证的研究方法、结论等”[27]的风险,正如算法虽然可以帮助检测虚假新闻,但算法编造虚假新闻的能力更强[28]。IOP出版公司宣布撤回的5篇确认为计算机生成的会议论文[29]都存在编造研究方法的现象,研究结果与研究方法也毫无关联。部分论文中的公式看似形式规范、推理步骤完善,但推理内容与公式却风马牛不相及,还有图文不符等情况。这不仅需要编辑在初审时格外关注那些研究方法不规范、研究结论过于反常的论文,还需要同行评审专家严格把关。算法越高级,其编造的方法和结论可能越隐秘,更需要先进的检测技术和高超的人工鉴别能力,甚至还需要专门审查算法的团队发现问题。

(3) 提防引用过少等其他异常引用现象。实验生成的稿件平均每篇论文遗漏的引证文献有15篇,要么仅显示引用标注,没有具体的文献内容,或不能准确标出第一手文献出处,或随意标记参考文献,加入实际未参考的文献,甚至没有参考文献。机器生成的稿件还会引用根本不存在的文献,这和Cabanac等[7]对某期刊已经发表的人工智能生成论文的观察结果一致。Labbé[30]利用SCIgen生成稿件进行虚假引用实验,让机器生成100篇论文并每篇都引用这100篇假论文,这些论文发布到网络后被谷歌学术收录,造成虚构作者“Ike Antkare”成为计算机科学领域谷歌学术h指数排名第6的学者。可见,审查稿件的引用规范是编辑识别机器生成稿的重要技巧之一。

(4) 加强审查积极推荐审稿人的行为。同行评审造假是机器生成稿被录用的重要原因,其造假的方式可能是编造审稿人信息、审稿意见,或者向编辑推荐与自己有利益关系的审稿专家,或者私下与审稿专家交流,甚至与评审专家交换同意票等。上述IOP出版公司撤回的机器参与稿没有被同行评审专家发现,原因就在于“有合理的证据表明,其中一些论文的同行评审过程受到了影响”[4]。因此,对作者自荐审稿人且审稿意见过于完美的论文,需引起编辑关注。编辑既需要审查审稿人的真实信息,也要尽可能调查两者是否存在利益关系,督促审稿人遵守学术规范。

(5) 留意异常更改署名等论文买卖线索。调查发现,部分网站、店铺表面在销售降重软件,实际上还进行论文买卖业务,当买家反馈工具写作效果不佳时,卖家(中介机构)就会提出代写代投的人工服务,从而促成论文买卖。买卖的论文除了自带论文工厂的上述特征,有时还体现在署名变更上。为了将论文卖出高价,论文工厂有时会先将论文投稿,待录用后再待价而沽。如论文被录用时要求更换署名信息或添加署名,编辑应进一步核查更改署名原因,挖掘出背后可能存在的论文买卖。

(6) 根据关键表达识别其他类型机器参与稿。上述几种情况是涉及学术不端的情况,识别更为紧迫。还有大量的论文在研究的某一环节使用了人工智能等工具,也需要编辑予以识别。编辑需要特别留意那些论文中提及的某些内容或成果是由“算法”“人工智能”“机器”“大数据”等“自动”“自主”生成的情况。判断的标准应该是机器的独立自主程度,如果情况不明,还应进一步咨询作者。

4 出版伦理风险的防范

4.1 完善收稿规则,改进审查技术

为防范机器参与论文写作的学术伦理问题,期刊首先需要完善收稿规则,要求作者主动声明是否使用机器参与写作,凡是机器参与写作的部分都需要区别标识,机器生成摘要也应注释说明。期刊可以设置有机器参与写作和没有机器参与写作的两种投稿通道,不同通道对应不同的审稿流程,以选择投稿方式来代表作者声明。一般作者主动声明使用机器辅助论文写作的,可能不存在学术不端的故意,但仍可能存在学术伦理争议和学术不端相关问题,应要求作者在投稿时提交原始数据、算法原理说明甚至代码,以供专家审查算法透明度,并提交人和机器的贡献说明、署名理由等,以及署名机器作者的详细信息,以供编辑、学界评价是否符合学术规范。作者不主动声明的,则属于故意学术不端或忽视机器的贡献,两种情况都应防范。

在传统审稿流程增加技术和人工审查,从词汇、短语、语法、表达风格等细节审查机器生成、降重的痕迹,排除机器自动生成的学术不端论文。智能机器参与论文写作时,其学术不端行为更隐秘,存在“洗稿”式论文的风险更高,现有检测技术可能难以识别,编辑需要使用更高级的人工智能技术进行识别,例如通过大数据自动挖掘、人工智能分析、智能图像数据库的建立,以及区块链技术的运用,应对文字观点和图像剽窃、篡改、伪造研究数据、一稿多投、作者和审稿人身份问题等学术不端行为[31]。运用人工智能新技术打击学术不端行为是必然的趋势,出版单位需要投资升级稿件检测系统。可以通过外包服务,要求那些给编辑部提供采编系统的软件公司升级自己的系统来提供相应服务。

4.2 培训编辑鉴别处理机器参与稿的能力

培训编辑对机器参与稿的鉴别能力,首先需要分析总结机器参与稿的共性特征,建立机器参与稿的问题库,制定编辑处理机器参与稿的工作手册。编辑应特别留意机器参与稿的特点如洗稿式的语句、模板式的结构、不当引用、专业词汇错误较多等基础问题,提高对机器参与稿的敏锐度。编辑还需要特别留意奇怪的机器表达方式,对未出现过的学术短语、没有说明的新术语、无法直接推断得出的语句都要仔细甄别。编辑也要调查那些提供写作服务的工具,熟悉各类工具写作的风格特点后有针对性地应对。学术期刊行业可以定期开展编辑讨论会,通过编辑之间的交流学习与合作,不断完善机器参与稿的问题库,提高编辑处理机器参与稿的能力。

4.3 建立更严格、开放的同行评议机制

可以将论文出版的全流程置于评审和监督之下,及时纠正机器参与稿可能出现的各种问题,防范作者对同行评审造假。通过专业编辑和开放同行评审保证机器参与稿的学术水准和质量,并吸引更广泛的学术社区参与,避免少数审稿人的判断失误或偏见。从版权角度来看,机器参与稿经过开放同行评审后在期刊开放获取出版,将现在的发表前同行评审制度转变为发表前与发表后开放评审共存的模式,既保证了机器参与稿的质量,又避免了可能存在的版权纠纷。

同时,出版单位应在审稿意见书中增加对机器参与稿识别和审查的独立模块,借助更为专业的评议专家判断是否有机器参与写作、是否有学术不端风险、人机贡献比例不合理等问题。

4.4 增加机器参与稿的算法审查环节

为提高算法透明度,机器参与稿需要有专业的算法专家或团队对算法进行审核评议。首先需要通过投稿者提供的信息,审查算法的原始数据是否存在污染、侵犯隐私、不充分等问题;其次,审查算法的科学性,是否有学术不端,特别是算法的反事实解释。

对机器参与稿算法审查存在两种方案:一种是作者在投稿前自行投递给算法团队审核,审核通过后交给编辑部审核;另一种是编辑部组织算法专家进行审核。选择何种审核方案取决于科技期刊的算法审查队伍的建设能力。

为了鼓励更多优秀的算法进入学术生产,编辑部需要审查算法的创新性,并将其作为录用标准之一。这样既可避免作者利用算法生成大量机器参与稿扰乱学术出版市场,也可防范算法出现剽窃风险。一个算法再次或多次使用生成的内容,也可能有很高的学术价值,但应降低其在学术评价和创新性方面的意义。如果作者使用一种算法发表过论文,第二次使用该算法时,所得论文的创新性评价应相应降低,这就需要编辑部根据办刊宗旨来设置新的规则。此外,算法的偏见问题也需要通过专业的审稿人审核来避免。

为了能使编辑和审稿人更好地审查算法,应该提高算法的透明性。除了要求作者在论文中更详细准确地解释算法外,还应该在论文的相关环节详细、明确地表达出算法使用的类型、用途、过程等信息。

4.5 规范机器参与稿的署名

现有国家标准和伦理规则均以贡献度为署名标准,机器产生了贡献应该被署名,在期刊发表时需要注明机器贡献的部分,避免把机器的贡献混淆为学者的贡献。在明确机器和人类各自的学术贡献后,需要确立新的署名方式以及署名顺序规则来指导机器参与稿的署名。

建议依据独创性和贡献度进行机器参与稿署名,以独创性判断机器能不能署名、如何署名,以贡献度判断署名的顺序。这方面法学界的研究成果可供学术期刊出版界参考,例如:王熠等[32]提出以独创性作为评价标准,在人工智能与人类共同署名的图书中增加贡献度声明页面以标明独创性来源,创设人工智能专门的署名方式,将人工智能作者与人类作者区别署名。如果机器产生了具有独创性的“学术思想和创意”,作者隐藏机器的贡献,不署机器名投稿也属于学术不端。

当前,由人工智能独立生成全部内容的出版作品,署名大多是人类给人工智能机器取的“名字”,如微软的人工智能机器“小冰”创作的诗集在出版时署名为“小冰”,Springer Nature第一本机器产生的学术著作署名是“Beta Writer”。在版权研究中主张将机器的署名与机器的版权分开,如加拿大版权法中,“作者”“所有者”和“制造者”是不同的概念,认为智能主体创作的作品可以满足独创性和作者身份的检验,机器可能是作品的作者,但不是版权所有者[33]。许辉猛[34]也提出署名权规则应将著作权行使人与署名人分开,人工智能作品的署名只能留给人工智能本身,如果人工智能有自己专属的名称,就署该名称(如“小冰”);如果没有自己的名称,也可以署类似“微软公司人工智能创作”之类的描述(或该人工智能的编号),人工智能的“署名”只是客观事实的自然反映,并不构成人工智能的人身权、财产权。因此,人工智能的署名可以与其背后复杂的相关利益主体分开。受此启发,算法的开发者、投资者、数据提供者可以通过适当的方式(如致谢或声明)出现,但不能作为署名者。

署名的顺序应该通过独创性检验后再依据贡献度排序。不能区别人和机器的贡献度的情况,可以参考现有规则署名为共同第一作者或者予以明确说明。对于人和机器的贡献度评价,当然不能简单地以篇幅判断,而要综合判断,但是更多情况恐怕无法判断,这是因为对人类和机器的写作部分有不同认知,人类也可能无法理解机器的贡献,争议会比较大。稳妥的操作是分别署名,并在论文中公布各自的贡献,由学术界自行判断。

4.6 提高“机器”在论文中的透明度

机器的透明性,不仅仅是指其内在代码和算法的公开。本研究认为,从出版伦理视角,凡是机器参与写作的论文,都应该在论文的显著位置表达出来。本研究整理出当前国外期刊和学者们提出的人工智能在参与论文写作时编辑加工的详细指南,供国内期刊编辑参考。该指南的核心内容包括[15,35-36]:(1)在标题和摘要中汇报,即在标题或者摘要中明确表明使用何种类型人工智能。(2)在研究设计中汇报。明确针对什么重点问题使用了人工智能,说明使用人工智能工具的预期目的;在引言部分,明确人工智能对研究问题或研究假设的支持。(3)在研究方法中汇报。在方法设计部分,指出人工智能算法相对于其他方法的作用,特别是数据处理的详细过程,包括数据筛选、缺失,建模过程,模型训练,评估、人工智能的可解释性和可信度等,如果详尽的描述导致论文篇幅超出了期刊的字数限制,需要在论文附件中提供完整的细节。(4)在研究结果和结论中汇报。在结果部分说明数据集的结果和模型的表现;在结论与讨论部分说明是否以及如何访问人工智能模型/数据,包括访问或重复使用的限制。

4.7 完善大数据引用规范

规范科学数据引用(Data Citation)既能体现数据创建者的贡献,又能对数据进行溯源验证。对于机器参与稿使用的海量文献数据,可以参照科学数据引用规范审查这些引用是否正确。国内外对数据引用规范高度重视,对如何引用、何时引用、引用什么的问题已有深入探讨。对于机器参与稿,亟需完善的是数据引用规范,主要包括:完善数据引用对象——数据集的界定规范;完善引用强度、引用粒度的规范;完善引用元素的规范。

(1) 完善数据引用对象的界定规范。机器学习的数据,无论是作为直接引用、间接引用的文献,还是作为模仿对象的文献,或是来自物联网设备记录的数据,作者都需要将它们整理成数据集,再进行数据引用。

(2) 完善引用强度、引用粒度的规范。引用粒度是数据引用层次的问题,机器参与稿的引用粒度可能是整个数据集(所有文献),或数据集子集(几篇文献),或一个特定记录(文献中某一句),机器参与稿学习文献的多种方式注定了需要完善不同引用粒度的格式规范。引用强度是指引用内容对施引文献研究的重要性或支持程度[37],机器参与稿使用海量文献,需要对不同重要性文献的引用格式进行完善。

(3) 完善引用元素的规范。目前各个机构对引用元素的规范并不统一,必需元素和可选元素的标准存在较大差异,机器使用多种类型的数据,更需要统一的引用元素来防范学术不端。为了能够对数据集进行溯源审查,统一标识符数据和解析网址是机器参与稿的必需元素。依据专业数据存储机构生成数据集的访问网址,完善引用对象所处位置的规范。机器参与稿学习文献的方式并不全是直接引用或间接引用,无法在正文中直接体现,而科学数据的引用位置则需要行业共同约定并纳入规范。

4.8 完善参与写作的代码、软件和服务的引用规范

具有自主性或自动化的代码、软件、服务等工具若在论文写作过程中发挥了重要作用,除了通过署名体现代码和软件开发者、服务提供者的贡献,还可以通过被引频次体现那些可以公开获取的代码、软件和服务的贡献。当前软件引用尚未形成统一的标准。机器参与稿使用的代码和软件,无论是作者自己开发的,还是市场已有的软件,都应该作为参考文献引用或者在脚注中添加说明,作者自己开发的软件如果不存在保密需要,最好公开源代码以供审查。FORCE 11软件引用工作组发布了软件引用规则,包括重要性、归属性、唯一标识性、持久性、可访问性和特异性[38]。国外有出版机构开始实施的这些软件引用原则,可供出版单位编辑加工稿件和制定征稿简则时参考。

软件代码也可以像数据出版一样进行网络共享。2018年,Taylor & Francis出版社和剑桥大学出版社与基于云计算的可复制平台“代码海洋”(Code Ocean)合作,使研究人员可以轻松共享和运行代码,以帮助读者和终端用户理解、可视化和重复使用代码,还可以通过包含文章链接的元数据来更好地实现软件引用[39]。国内也需要建设类似的基础设施平台支持代码、软件的共享和引用。

4.9 为机器参与写作的论文设置不同的版权模式

由于机器参与论文写作的方式与人类不同,技术的贡献、前人的贡献因为无法像传统论文一样很好地在论文中界定和表达,很有可能带来伦理问题和社会争议。为了降低风险,建议将机器参与论文写作的版权模式变更为开放、共享。目前开放获取出版商为了平衡各方利益,出现了很多新的模式,出版单位可以根据具体情况选择更为适当的开放获取模式。

4.10 综合治理助长学术不端行为的软件工具

通过提供降重工具来逃避剽窃检测的技术对学术规范构成了极大威胁,应将其纳入“恶意软件”的范畴进行限制治理。提供论文降重、论文代写代投服务的软件明显是“怀有恶意目的”和“完成恶意功能”,理应进行技术限制,治理工具买卖乱象。

首先,应限制其传播渠道。限制论文降重、代写等相关敏感词的搜索,如“论文代写”“论文降重”“降重修改”等。当前在淘宝搜索“论文降重”已无内容显示,说明电子商务平台已经采取行动。但这种治理需要各平台协调才能实现彻底根治,例如限制“论文代写”“降重工具”等推荐介绍类的自媒体文章传播。搜索引擎也应该限制这类搜索结果。

其次,限制安装和使用。利用软件查杀降重、代写软件的下载和安装,屏蔽论文降重、代写的网址。部分工具使用时需要转发宣传页,获取点赞后才可以升级服务,以达到宣传扩散目的,技术上应将其作为违规信息拦截转发,限制使用。限制软件安装则需要我国网络安全和网信部门出台相关的治理措施。

最后,学术出版业应联合抵制。各出版机构、学术规范管理部门定期曝光参与论文代写、改写的降重工具,由行业共同抵制。

5 结语

机器参与论文写作是大势所趋,但其投稿发表存在诸多伦理问题,编辑机构需提高鉴别防范能力,以成文的出版伦理规范或编辑规范来约束作者、编辑、审稿人。由于伦理问题,本研究无法调查编辑部对机器参与稿的识别能力究竟如何;加上篇幅所限,对机器参与论文写作出版伦理问题的分析还不够系统和全面。未来可以继续研究其中的问题,例如制订机器参与论文写作的编辑出版规范等。此外,由于机器写作应用是黑箱的,受专业局限还无法完全理解其工作原理,未来还应该加强跨学科合作研究。

猜你喜欢

不端伦理机器
《心之死》的趣味与伦理焦虑
机器狗
机器狗
灵长类生物医学前沿探索中的伦理思考
关于采用《科技期刊学术不端文献检测系统(AMLC)》的声明
护生眼中的伦理修养
论文作者学术不端行为类型
未来机器城
伦理批评与文学伦理学