学术不端检测系统缺陷分析
2014-02-04文/陈燕丁岚
文/陈 燕 丁 岚
自从2008年中国知网首次推出“学术不端检测系统”软件供加入其数据库的期刊编辑部免费使用以来给各期刊编辑部的稿件初审工作带来了极大便利,对杜绝学术论文的不端行为起到了积极的威慑与防范作用,被称为学术审稿的“第三只眼”。[1]然而在使用过程中,期刊编辑对系统中存在的各种不尽如人意的问题一直在不间断地探讨,发表了许多相关的研究论文,大多数论文作者把解决问题的目光聚焦在使用者身上,针对各自行业的期刊特点提出如何分辨或谨慎使用“学术不端检测系统”的检测结果和检测报告,一直处于被动防守的状态,很少有人提出目前正在广泛使用的“学术不端检测系统”存在的设计缺陷及主动解决的思路。本文对我国期刊界目前广泛使用的中国知网数据库的“学术不端检测系统”存在的缺陷进行了思考并就如何改进提出建议,有不当之处,欢迎批评指正。
一、系统命名内容欠妥
学术期刊作者的论文著作权包含两部分内容,一是人身权、二是财产权。其中人身权中的人格权应包括作者接受期刊的审稿服务时享有人格尊严。本文认为中国知网的“学术不端检测系统”的命名前提是对论文的“学术不端”进行检测,那就意味着编辑对所需要检测的论文存疑,怀疑作者存在学术不端行为,才进行检测。那么什么是学术不端行为呢?国际科学界和我国科学界对“学术不端”的定义都非常明确:是指在学术活动中伪造、抄袭、剽窃、篡改、侵占他人成果,重复发表论文等,由此看出被认定有“学术不端”行为,对学者的人格名誉是有损害的。因此这一认定的过程和证据是应当严肃和严谨的,而“学术不端检测系统”在检测判断上缺乏严谨,给出的结论比较武断,列出的报告中定义了不同复制比属于不同程度的抄袭、正常引用有时被定义为“剽窃观点”这种法官式的判断在事实不清楚、证据不确凿、有时在违背逻辑的情况下随便下结论,对作者的人格权会造成伤害。我们在应用该检测系统时,如果按照检测系统的语言告知作者,对您的论文要进行学术不端检测,检测结果有百分之几的复制比属于某种程度抄袭,哪句引用是剽窃观点等,作者心中会是什么感受呢?作者在接受审稿过程中,被轻易怀疑或判定有抄袭、剽窃等学术不端行为,对大多数没有这种主观故意行为的作者,都会感到备受侮辱。尽管目前在功利主义目标评价导向下,学术期刊会收到一些有抄袭嫌疑的论文,但是大多数学术论文还是研究者遵守学术规范的心血之作,即使有些不规范的引用属于年轻作者对相关规则不清楚,也不是故意抄袭行为,学术不端现象并不是我国学界的主流行为。况且由于系统设计的局限性,很多情况都会造成误判,因此,即使按照系统检测所谓有问题的文章,也不能轻易下“学术不端”的结论。
同样我国其他两家学术期刊数据库推出的具有类似检测功能的软件就选择了比较中性客观的称谓,如:万方公司推出的“万方论文相似性检测系统”和重庆维普公司推出的“通达论文引用检测系统”。无论是系统命名还是检测报告都没有使用刺激作者人格尊严的词语。同样国外也有类似的学术论文检测系统,如爱思唯尔出版集团的检测系统名称为“出版道德资源工具包(Pub lishing E thics Resource K it,PERK)”[2]像中国知网这种直接判定式命名的比较少,因此本文建议这一命名能够尽早更改。同时,检测系统给出的检测报告,不具有权威法律效力,因此其中一些定义为“抄袭、剽窃”的结论式词句也希望能以一种中性的和尊重被检测者人格尊严的名称来命名比较好。
二、误判公共领域内容表述
在使用中国知网的“学术不端检测系统”时,很多使用者发现有些公知公认的名词术语、定义、定理、公理、原理、常用的名言警句、中国古诗词中的经典词句经常被检测结果标红为复制抄袭的内容,实际上这是一种误判。系统设计者认为,只要在之前数据库中的文章中出现过,现在比对结果再出现就是复制抄袭。而按照著作权法理解释,这些内容只要符合著作权法规定的条件,如,著作权保护期满的作品,著作权法不予保护的作品,著作权法中作品不予保护的成分,缺少著作权法保护实质要件的作品,作者放弃著作权的作品,孤儿作品,等等,就应当属于公共领域作品,不受著作权保护,任何人可以自由利用。[3]
公共领域概念是理解著作权法价值构造的一个非常重要的概念,而在“学术不端”检测系统中,设计者并没有注意到这方面的知识。目前发表的多数学术论文都是在前人研究成果基础上的继续。每篇论文的有一些内容是作者的创新,而另一些内容可能是作者从公共领域的素材中移植借鉴的非原创部分,用作论据、说明或比喻。如果按照系统的检测规则是把这些素材作为论文的原创内容保护起来,后面的作者要使用就要受到限制,至少要列出参考文献加以注释,但是注释最早的文献与数据库中已经发表的引用过此素材的文章不符,显然是不能通过检测的,注释转引的文献,显然也不准确,系统往往会把数据库中出现过这些素材的文章全部罗列出来,把相同的复制比进行累加,会出现一个很高的复制比,即论文被判定为抄袭。这就让编辑和作者哭笑不得,很难处理。著作权法的法理精神是鼓励原创,目的是希望作者向社会贡献更多有用的信息,以繁荣科学和文化,而在相当大程度上构成了我们社会的科学和文化的正是公共领域的知识和信息。如果将这些公共领域的知识和信息作为著作权保护的私权禁止他人利用,动辄冠以复制抄袭之名,将有悖著作权的法理精神。
因此,希望学术不端检测程序设计者能够从公共领域的角度认识著作权法的理念和精神,从更高的角度理解著作权的制度价值,对属于各学科已经进入公共领域的知识信息与需要标注的其他作品内容区分开来,不需要显示公共领域知识信息中被复制的文字,以免给期刊编辑工作造成困扰,对作者的论文造成误判。
三、未注意不同学科特点
尽管目前中国知网的“学术不端检测系统”已经根据功能特点划分为针对科技期刊的AMLC、社科期刊的SMLC、学位论文TMLC等不同的检测系统。但是通过近年来各类检测系统的实际应用,在各系统的实际运行中仍然存在一些问题,尤其在科技期刊检测系统中,由于没有细分科技期刊的学科门类,导致不同学科之间用一同种尺度来衡量时出现误判以致得出比较荒谬的结论。例如,对于医学期刊论文的学科特点而言,作者写作时运用的一般资料比较与统计学方法等内容大都具有共通性、普适性、权威性,所以医学论文中在对一般资料及统计学方法进行描述时,语句表达方式难免有所雷同。[4]而AMLC在进行全文比对时,如有超过10%的雷同句式,就会标出判断为句子轻度抄袭。这属于此系统软件设计者不了解医学领域研究共同体的通用语言所造成的误判。该论文很可能就会被退稿或要求作者修改表述方法,而作者为了能够发表论文,有时候会迁就编辑的要求,把本来被业内公认的简洁明白的通用表述语句改成非常别扭、啰唆甚至难以理解的倒装语句,才能够通过检测。
类似的情况也会出现在其他学科的科技论文中,如某些专业论文中涉及专业领域公知、公认的原始标准,作者必须原文引用的情况,而在进行分析讨论时又必须依据这些详细、具体的理论来说明问题,由于这些内容具有专业性与权威性,大部分论文引用该理论依据时都会原文引用。[5]由于这种引用是业界通用的惯例,作者即使标引出一个参考文献,AMLC在进行全文比对时也会将数据库中所有出现过这一内容的论文进行比对,认为抄袭了所有的已发表包含该内容的论文,标红判断为段落抄袭。其原因在于数据库已经存入公共领域的海量知识信息素材,作为数据库的内容整体受著作权保护,如检测软件设计者未对其中部分不受著作权保护的内容进行分离,就会造成系统的误判,这显然是该检测系统不了解期刊的学科特点、对著作权法理精神不甚明白所造成的。
因此建议科技期刊AMLC检测系统能够在内部进一步细分学科类型,邀请各专业期刊专家、资深编辑共同制定检测系统的细则,将不同专业内容中受著作权保护的专有知识和不受著作权保护的公共领域知识进行区分,将不同专业论文表述特点进行划分,把行业内约定俗成的表述语言设为默许使用。根据学科特点进一步划分作者论文中符合著作权的合理使用与默许使用的范围,将著作权的法理思想贯穿于“学术不端检测系统”的技术设计中,本着尊重作者人权、尊重科学规律的态度不断完善该系统的技术设计。
四、检测系统设计有漏洞
“学术不端检测系统”在设计中出现的漏洞,使一些想方设法要通过检测系统的论文作者有空可钻。目前在网上就流行着“应对学术不端论文检测系统的修改论文技巧”的帖子,网上还有专门兜售替作者修改到能通过检测的反检测软件,这些反检测软件的流行与检测软件本身的缺陷和漏洞不无关系。
笔者仔细阅读了这些应对检测系统的帖子,归纳出各种逃避检测的方法竟然有十几种,之所以能成功逃避检测,原因还是系统设计存在漏洞和问题。系统的设计理念是把文字表述作为审查的重点,因此作者就通过比对系统替换同义词、近义词、改变句式结构等手法规避雷同,比如网上公开示例:损坏=破坏;渠道=途径;原理=基本思路;不可见=隐藏;优点尤其突出=优势尽显无疑。[6]
类似的逃避学术不端检测方法带来了学术界的新问题,正如本文前面所言,按照著作权的法理精神,公共领域是一个公众得以对其对象进行利用而阻却违法性的制度场域。[7]对于公共领域的知识信息、专业领域的权威论断,如果任意替换词句,就会消解科学知识信息正确地传播,甚至会以讹传讹,误人子弟。无论作者怎么搬弄文字,对于论文的独创性和文章的可读性没有任何提升,反而会增加信息的冗余度。可以预见,随着时间的推移,经过规避手段通过检测而进入数据库的文章会越来越多,类似的文字排列组合将被穷尽,再有新的文章要用到这些素材时,无论如何都再也绕不过与数据库中某篇文字重合复制的检测结论,依然会判定抄袭,正是“当潮水褪去就会看到谁在裸泳”,只是裸泳者的尴尬和无奈是源于系统检测设计者对著作权公共领域认识的缺陷。假若推出“学术不端检测系统”的结果是引导作者不断地做文字游戏,逃避检测,那么与设计者的初衷和学界的希望就会南辕北辙。因此,建议“学术不端”检测系统针对网上流行的逃避检测软件的各种手法,认真核查系统漏洞和存在的问题,在设计理念上不断反思、在设计方法上不断更新。
无论多么先进的科学技术手段都代替不了人的智慧和思想觉悟,要从根本上消除学术不端行为的发生仅仅依靠技术手段是行不通的,它与社会风气、法制建设、评价体系、编辑的职业素养、作者个人的学术修养紧密相关,是一组多元函数题,不是无解、单解、而是多解。
[1]王宇.学术不端文献检测系统研究综述[J].西南民族大学学报:人文社会科学版,2013(4)
[2]张旻浩,高国龙,钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究,2011,22(4)
[3]陈小玲.著作权法上的公共领域研究[D].重庆:西南大学法学院,2011-04-10.
[4][5]江霞,方玉桂,陈伶俐,简若姗.医学科技期刊应用《科技期刊学术不端文献检测系统》判断抄袭时应慎重对待的几种情况[J].中国科技期刊研究,2010,21(4)
[6]佚名.应对学术不端论文检测系统之修改论文技巧,[EB/OL]http://www.http://wenku.baidu.com/[2011-11-19]
[7]冯心明,丘云卿.现代著作权法公共领域的危机和出路[J].华南师范大学学报(社会科学版),2011(4)