APP下载

学术不端文献检测系统应用现状评析

2014-02-04赵晓兰

中国出版 2014年19期
关键词:不端学术期刊学术

文/赵晓兰

近年来,学术界虚假浮躁之风盛行,学术不端事件时有发生。据中国学术期刊(光盘版)电子杂志社学术不端检测研发部门于2009年检测统计,在3200家学术期刊上传的92万多篇文献中,仅文字重合率在30%以上的就高达近10万篇。[1]“国际学术期刊《晶体学报》声称来自中国某大学两位教师至少70篇论文被证明是伪造的;英国《自然》杂志报道,中国某期刊发现31%的投稿存在抄袭;国内多家媒体披露,一篇医学论文遭16个单位25人6轮连环抄袭”。[2]学术不端行为因其严重程度的不断加深,已经脱离了学术领域而成为公共话题,科学道德问题受到了广泛关注。学术不端的高发现象将科研机构、高校以及学术期刊推向了舆论的风口浪尖,运用技术手段防范学术不端,研制一种能够帮助学术期刊、高校、科研机构进行全文快速比对查重的检测软件势在必行。

一、学术不端文献检测系统的产生及应用概况

在国际上,20世纪70年代就开始了利用技术手段检测不端行为的研发工作。90年代以后,提出了数字指纹等检测方法,并得到了应用,如论文作业抄袭检查平台turnitin,研发后应用于多所高校及科研机构,包括美国加州大学伯克利分校、杜克大学、德国汉堡大学等;加拿大sciworth公司开发的mydropbox,提供学生作业抄袭检测服务;mydropbox使用微软搜索技术,可以检测互联网资源、可公共存取的部分数据库资源以及机构内部文档,等等。[3]

随后,我国的研发工作也陆续展开,最具代表性的是中国学术期刊(光盘版)电子杂志社与同方知网公司的共同研发。他们首先建起了《中国学术文献网络出版总库》,该数据库收录了包括期刊论文、学位论文、工具书、年鉴、报纸、专利等在内的多种文献,覆盖了工程技术、信息技术、自然科学、农业、医学、哲学、人文社会科学、经济与管理等各个领域。它还是世界上最大的连续动态更新的全文数据库,并成为随后研制的学术不端文献检测系统的比对数据库。2006年下半年,中国学术期刊(光盘版)电子杂志社与同方知网公司开始合作研制学术不端文献检测系统,这“是一个系统工程,涉及检测方法设计、比对数据库建设、规范数据库建设、大规模数据测试、系统性能测试等多个环节。”[4]2008年12月,学术不端文献检测系统开发完成,研发者宣布将在各相关机构开放使用。

学术不端文献检测系统的比对数据库为《中国学术文献网络出版总库》,检测时输入任何一篇文章,就能同数据库中的所有文章进行比对,从而发现这篇文章跟数据库中的哪篇文章、哪些句子是重复的。它还是世界上第一个以全文文献为比对资源的检测系统,国外的检测系统基本上是题录摘要的检测而非全文检测。学术不端文献检测系统可用于期刊审稿、学位论文检测、职称评定、项目立项评审、项目验收评审和报告审查等方面。为了从多个角度反映文字复制情况,检测系统设计了总重合字数、总文字数、总文字复制比等多个检测指标。而对于篇幅较大的学位论文,除了设置总检测指标,系统对每一章节都设定了文字复制比、重合字数、引用复制比、段落数、最大段长等多个子检测指标,用以检测每一章节的复制情况。

该检测系统面世后,迅速地被各相关机构采用,不少机构还以公告形式宣布启用该系统。例如《浙江大学学报(人文社会科学版)》,在检测系统刚面世的2008年年底,就正式建立了该系统的使用账号,在全国社科期刊中率先采用了这一系统,通过检测后的论文才能进入下一轮的专家审稿流程。《中国肿瘤生物治疗杂志》宣布:“稿件审查过程中,本刊编辑部将采用‘学术不端文献检测系统’,通过大量国内外学术文献的全文比对,对稿件进行学术不端行为的检查。”[5]目前,我国大部分学术期刊已使用该软件对来稿进行不端检测,高等学校、科研机构等也广泛采用了该系统。

以学术不端文献检测系统为标志的反剽窃软件的出现,反映了人们希望净化学术生态环境的良好愿望。然而,学术不端是一个非常敏感的话题,以技术手段检测学术不端行为是个更为敏感的话题。系统投入使用后,迅速引起各方的强烈反响,人们有着许多不同的看法。“这个‘检测系统’还没正式应用,它的准确性和科学性便受到一些老师和学生的质疑,继而引发了一场争论。”[6]虽然学术不端文献检测系统的范围包括期刊论文、学位论文、职称论文、项目评审等多个领域,但目前对检测系统进行学术研究的多为期刊编辑,所以热烈的学术讨论也基本在期刊编辑中展开。

二、学术不端文献检测系统的功用

不少期刊编辑认为,检测系统为防范与抵制学术不端行为提供了行之有效的技术手段,它是学术失范的克星,他们将检测系统称之为“学术不端行为测试仪”。该软件具有搜索速度快、精确度高、范围广泛的特点,通过它编辑能够快速掌握被测文献的信息,给学术期刊带来了巨大的应用价值。“在已发表的论文中,研究者无一例外首肯了学术不端文献检测系统的使用,有效地防止了一批抄袭、剽窃、伪造、篡改、不当署名、一稿多投文章的发表;与以往检测文章的方法相比较,其方便、快捷、高效的优点是显而易见的。”[7]

在学术不端文献检测系统诞生之前,编辑要将来稿在海量的学术论文中进行查重比对。查找学术不端证据难度较大,要对每一篇来稿都进行学术不端方面的检查几乎是不可能的。编辑只能对某篇有怀疑的稿件进行查证,而查证的主要方法是根据题目、关键词等在数据库中进行检索,如果作者将题目、关键词进行改变或者替换,就很难验证查找了。学术不端文献检测系统完全改变了这一状况,该系统具有快速鉴别的能力,秒级响应速度,对一般的抄袭、重复发表等不端行为的检测十分快速、精确、有效,论文从上传至结果显示,仅仅需要几秒钟。它还能提供具体的比对结果与抄袭百分比。有研究者认为,学术不端文献检测系统在学术论文审查过程中主要有以下几方面作用:①在审稿中能快速检测学术不端行为,特别是多源抄袭的论文,所有相似文献与复制比例都能显示出来。②判断稿件修改情况,利用检测系统,将论文修改前后的内容进行比对,辅助编辑对论文修改情况作出判断。③利用检测系统对参考文献进行比对,有助于编辑核对参考文献著录的准确性。④通过查阅已发表文献检测报告,了解投稿人的诚信情况,多方防止学术不端行为发生。[8]

还有一些期刊编辑认为,反剽窃软件为学术期刊提供了有效的技术支持,其效果十分明显。为了使它成为防范学术不端行为的最重要防线,还应该加大使用频度,初审、刊前、刊后都实行检测,从而将检测系统的反剽窃功能发挥到最佳。[9]

总之,学术不端文献检测系统在遏制学术不正之风方面取得了较好的成效。“试用一年多来,学术不端现象下降效果明显,据统计,1000多个期刊下降了约80%,1500多个期刊下降了60%,230多个研究生培养单位降低了70%以上。”[10]“检测的目的,符合学术研究和学术期刊质量提升的要求,也符合学术规范和学术标准、期刊规范和期刊标准的要求。……在当今学术不端较为泛滥的年代,为避免和遏制学术不端,提升学术期刊的质量,文献检测无疑起到了不可缺少的重要作用。”[11]

三、学术不端文献检测系统存在的局限性

在许多研究者对检测系统大加赞赏的同时,也有不少人提出了不同意见,认为决不能以检测结果作为判定是否学术不端的唯一标准,它存在许多负面效应。他们认为,检测系统仅仅是编辑提高检测效率的辅助工具,而不是判定是否学术不端的唯一标准,检测结果可能存在假阳性。“《中国青年报》就高校引进学位论文学术不端行为检测系统反抄袭对网民调查的结果显示: 有77.01%的网民不相信仅仅靠检测系统就能杜绝造假。有人担心系统全面推广会成为人肉搜索和互相倾轧的工具; 有人认为为防止造假而制造专门的学术‘测谎仪’是学术界的悲哀; 还有相当比例的人担心越检测造假越精明。”[12]而且,利用机器进行检测必然存在使用盲点,它还有许多需要进一步完善的地方。

1.知网数据库收录文献的有限性。《中国学术文献网络出版总库》是检测系统的全文比对数据库,尽管数据库的收录种类上已经具有明显的优势,但收录上的盲区仍然存在,例如图书,大量的博客、微博、论坛上的文章,大量的外文文献,内部资料文献,期刊的增刊论文,内部刊物论文,其他一些网络数据库的文献,等等,未能收录。任何数据库资料的收集都有一个范围,任何检测系统所依托的数据库都不可能穷尽所有文献,如果抄袭了来自数据库以外的文献,反剽窃软件就无能为力。所以,检测系统的辨别范围是有局限的。

2.检测出的文字复制比并不等同于抄袭度。一般情况下,文字复制比与抄袭度呈正比,重复文字越多学术不端越严重。但数量是相对的,文字复制比对判定是否存在学术不端只能起到一个辅助作用,因为有些重合的文字并非抄袭,属于合理使用。而有些文章复制比并不高,但重复的是文章的核心部分,这种情况仍然可以判定为学术不端。反剽窃软件不能分辨是正常引用还是抄袭。此外,对比较隐蔽的学术不端行为,检测系统也无法识别,比如改头换面、变换句式、调整语序,等等。对剽窃他人的研究方法与研究观点的行为也无法用仪器检测,观点与方法是抽象的、逻辑性的东西,检测系统主要采用“外形”比对,所以意义抄袭、观点抄袭这种隐蔽抄袭很难比对出来。还有,检测系统对文字敏感,对图表则手段缺乏,科技论文中的化学方程式、数学公式、插图等均不能有效识别。

3.检测系统的滞后性。一篇论文从投稿到发表有一个时滞,如果有人利用这个时间差将文章同时投向几个刊物,由此产生的重复发表系统是无法检测的。此外,一篇论文在印刷版刊出后,仍然需要一两个月甚至更长时间才能上传到知网数据库,才能在《中国学术文献网络出版总库》中以电子版的形式发表,这也是文献利用中出现的一个时间“盲区”,如果复制这一时段里已经发表但未上网的学术论文并快速发表,也能逃避系统检测。

四、结语

总之,检测系统投入使用后,迅速成为各方关注的焦点,引发了各界尤其是学术期刊编辑的普遍关注与热烈讨论。笔者认为,检测软件确实存在着不完善之处,正如《学术不端检测系统 - 基本简介》所说的:“鉴于中国学术不端文献的实际情况,还需继续开发能够检测英文学术不端文献以及从英文翻译为中文的不端文献,同时比对数据库应同时扩展到英文数据库与互联网文献,事实数据库也应同步扩展,并建立中英文对照的规范数据库。因此,进一步的研发工作还很多”。[13]但是,它的积极意义在于,反剽窃软件作为全文快速比对查重的检测软件,确实提高了人们辨别不端文献的能力,为防范学术不端提供了技术支持。因此,我们应该以积极的态度对待它,同时不断地完善它,使之更好地为我们服务。我们可以将机器检测与人工检测相结合,在机器检测的基础上辅以人工再判定,认真甄别机器检测出的文字复制比,这样就能得出相对客观、合理的结论。这也是符合研发者的初衷的,“研发者解释,检测报告的作用是为判断论文性质提供相关依据”而不是结论。相信通过不断改进的技术手段以及日益完善的制度保障,我们终将营造出良好的学术生态环境。

[1]宋如华.从初审环节防范学术不端论文[N].科学时报, 2009-12-11

[2]周少英.担忧“伪学术”的侵害[J].编辑之友,2011(2)

[3]学术不端检测系统 - 基本简介[EB/OL].http://book.zjelib.cn/views/specific/2929/EncyDetail.jsp?dxid=900013372132&d=482F1E5 BB07786159BDA8C5C2F515A70

[4]学术不端检测系统 - 基本简介[EB/OL].http://book.zjelib.cn/views/specific/2929/EncyDetail.jsp?dxid=900013372132&d=482F1E5 BB07786159BDA8C5C2F515A70

[5]《中国肿瘤生物治疗杂志》关于抵制学术不端行为的声明[J].中国肿瘤生物治疗杂志,2011(1)

[6]高校反抄袭用上“测谎仪” 新疆一些高校引进学术不端检测系统检测博士硕士毕业论文遭质疑[N].羊城晚报, 2009-04-22

[7]王宇.学术不端文献检测系统研究综述[A].第十届(2012)全国核心期刊与期刊国际化、网络化研讨会论文集[EB/OL].http://d.g.wanfangdata.com.cn/Conference_7733797.aspx

[8]李祥,杨梦媛.“学术不端文献检测系统”是治理学术不端的有效手段[J].云南大学学报(自然科学版),2011(S2)

[9]王音,田喆.从编辑部公告看使用学术不端检测系统中存在的问题[J].编辑学报,2011(5)

[10]“学术不端文献检测系统”成功推广[J].中国教育报,2010-08-31

[11]胡政平.学术不端文献检测与期刊质量的提升[J].出版发行研究,2012(11)

[12]谭华,崔洁.学术不端文献检测系统的使用建议[J].编辑学报,2010(2)

[13]学术不端检测系统 - 基本简介[EB/OL].http://book.zjelib.cn/views/specific/2929/EncyDetail.jsp?dxid=900013372132&d=482F1E 5BB07786159BDA8C5C2F515A70

[14]学术论文不端行为检测系统向本市40余所高校推广[N].北京青年报,2009-04-24

猜你喜欢

不端学术期刊学术
规范科学技术活动 抵制学术不端行为
学术期刊引证指标
学术期刊引证指标
如何理解“Curator”:一个由翻译引发的学术思考
论文作者学术不端行为类型
对学术造假重拳出击
河海大学学术期刊创办百年
《肝胆胰外科杂志》来稿中常见的学术不端问题
关于本刊启用“科技期刊学术不端检则系统”(AMLC)的通知
学术