中文学术论文重复率检测标准问题讨论
2020-01-18唐碧群王凌峰
唐碧群,王凌峰
(桂林电子科技大学,广西 桂林 541004)
对于抄袭剽窃行为,进行著作权意识的教育与普及是必要的,[1]但更需要具体、可操作的一些标准,由此论文查重应运而生。2008年中国知网推出学术不端文献检测系统,2009年《教育部关于严肃处理高等学校学术不端行为的通知》(教社科[2009]3号)、国务院学位委员会《关于在学位授予工作中加强学术道德和学术规范建设的意见》(学位[2010]9号)文件出台后,高校纷纷采用论文查重检测系统。近年来一些重大剽窃行为都是在论文查重中曝光的,如2010年《中国青年报》报道的《“史上最牛连环抄袭门”调查》曝光一篇20世纪90年代发表的论文被全国16个不同单位、25人连环抄袭,此事是中山大学一名学生为其毕业论文进行查重时发现的。
目前国内论文重复率检测业已成为常态,典型应用场合包括:期刊编辑对投稿的查重、博硕士学位论文查重、本科毕业论文查重、职称评定与科技成果认定时的查重。实践证明,重复率检测工作在一定程度上减少了论文发表不端行为,但实践中存在的一个突出问题是重复率标准不统一,如:(1)国内学术期刊要么不要求重复率,要么要求的重复率不一,如都属于财会核心期刊,《会计之友》要求重复率低于10%、《财会月刊》要求低于15%、《财会通讯》要求低于20%。(2)高校方面,桂林A高校2012年本科毕业论文要求重复率低于20%,但同期同城另外一所同类、同层次的B高校要求低于40%即可,到2019年A高校要求硕士毕业论文重复率低于10%,而B高校要求低于30%即可,导致A高校相当部分学生想方设法百度各种技巧降低重复率,对论文内容投入精力反而受影响。
论文重复率检测问题是一个跨学科研究主题,高等教育、出版与编辑、图书情报、计算机等不同学科背景的研究者都有介入。现有文献研究内容主要集中在:国内代表性论文重复率检测系统的比较分析、[2]国内代表性重复率检测系统与欧美同类系统的对比分析、[3]职称工作中的论文查重问题、[4]论文重复率检测系统局限性的多视角分析,包括宏观角度对检测系统催生的“查重产业”批判,微观角度讨论查重系统具体缺陷以及从学术生态健康角度对论文查重系统负面后果之分析、[5]从检测受众——学生的视角研究了论文重复率检测的合理性和有效性。[6]
现有文献对实践最关注的一个问题——论文重复率标准取值问题,对其系统讨论却不多。本文拟较系统地讨论国内学术论文重复率取值标准问题。需要说明的是,本文讨论中文论文与中文数据库范围内的重复率检测。
一、论文重复率标准确定的主要考虑因素
根据近年来国内高校、期刊的论文查重实践,确定比较合理的论文重复率,确定论文重复率标准时,需要考虑以下因素。
1.论文所属学科。一般地,重复率方面,人文学科>社会科学>自然科学。当然,各学科领域内部、甚至同一个领域内部不同的研究主题重复率都可能不同。目前看,人文学科(典型如文学研究领域)容易出现重复率较高问题。文献指出,文科类学术论文绝大多数都会引经据典,撰写学术论文时,普遍会遇到引经据典和重复率的平衡问题。特别是不少学校明确规定参考文献的语种、数量,更容易导致论文重复率偏高。[7]
2.论文类型。在确定论文重复率标准时,需要区分原创论文与综述论文、[8]理论类型论文与实验(临床)类型论文。文献指出,医学临床类型论文在研究方法、研究仪器、所用材料、统计分析等论文要素的语句格式化程度很高,而且经常会出现诸如“此药物治疗效果较好,值得临床推广”之类的高度格式化语句,目前的查重算法检测为重复。[9]
另外,某些学科的某些类型论文也需要区别性确定论文重复率,如中国古代汉语研究中的训诂学论文、历史研究中的考证考据论文,都会大量引用他人文字,故文字重复率普遍较高,需要单独确定重复率标准。
3.论文不同内容部分。今天,为了提高学术交流效率,多数学术论文都采用八股文结构,典型的论文内容分引言、文献综述、研究设计与研究方法、结果与讨论、结论等若干部分。不同部分的重复率存在显著差异。一般地,研究设计与研究方法部分重复率略高是可以理解的,因为研究方法毕竟数量有限,但其余部分文字重复率不应该偏高,因为属于作者的独立研究与写作。[10]
当然,在重复率检测中,只要总的重复率没有超过标准,则论文不同内容部分自然也不会超出标准,故往往不单独对论文不同内容部分定义重复率上限。
二、论文重复率定义与取值标准
1.论文重复率定义
从逻辑上看,一篇论文的文字可以分为以下5种类型:复制别人、复制自己以往发表过的文字、格式化语句(如实验论文中几乎必然都会出现的“由上述实验结果”之类的语句、一些常用语句如“综上所述”等)、非版权保护文字(典型如国家法律法规,属于产生时即无版权而不是版权超期的情况。对于有版权的文字,即使版权超期,重复率检测也会被视为抄袭,因为不属于作者本人的工作与创造)、作者本次新撰写。
基于上述来源划分,定义论文复制率指标如下:(1)文字总重复率:所有重复文字与全部文字之比。(2)单篇重复率:全文重复某一篇论文文字的比例。(3)不计重复文字占比:格式化语句、非版权保护文字占全部文字之比。
2.论文重复率参考取值标准
确定上述重复率指标取值标准的基本原则是不能过度追求低重复率。较高的重复率只能表明学术不端行为可能性较大,而不能肯定存在学术不端行为。上有政策下有对策,要求过低的重复率,必然会使得被查重者首先把注意力集中到降低论文重复率上,对论文内容本身的打磨反而成为退而求其次。
文献建议对于2009年及以后发表的论文,文字总重复率应该控制在20%以下。对于文献综述类等需要大量引证的文章类型,可以要求在40%左右。[11]
文献调查,大部分(61.68%)学校对本科生毕业论文重复率要求20%以下。[6]
文献使用中国知网的AMLC系统与万方数据的PSDS系统同时检测两本医学期刊的投稿重复率,AMLC检测论文重复率小于20%的稿件占79.7%,PSDS检测论文重复率小于20%的稿件占84.3%,换言之,80%的论文重复率低于20%。[12]文献使用中国知网AMLC系统检测某高校附属医院研究生2011、2012年的学位论文408份,重复率10%以下占57.4%、10%~25%占37%、25%~40%占4.5%、40%以上占1.2%,换言之,25%以下占92.4%。[13]
欧美期刊普遍使用查重软件,文献受COPE(Committee on Publication Ethics,国际出版道德委员会)委托,调查了两百多本国际期刊,10%以下文字总重复率被认为属于“轻微”程度、20%左右属于“可以接受,但可能会要求作者修改”、40%重复率被认为属于“严重”、50%重复率直接拒稿。换言之,20%左右是普遍可接受的文字总重复率水平。由于查重时非英语与汉语都存在类似的字词切分操作,因此具有较高可比性。[14]
基于上述信息,本文建议:(1)多数学科的期刊论文文字总重复率标准目前可以确定为20%。人文学科、社会科学或者综述、考据类的论文可以略高到25%~30%。(2)职称评定论文要求和期刊一样。(3)博硕士学位论文应该不低于一般期刊发表水平,故和期刊论文一样要求。(4)本科毕业论文方面,由于我国高等教育早进入大众化阶段,相当部分本科毕业论文属于论文习作,重复率可以确定为30%。(5)单篇重复率确定为低于5%。理由是:通常有一定质量的一篇论文参考文献数量不应该少于5篇,按照一文总重复率过20%到30%考虑,则单篇文字重复率取均值为5%。(6)不计重复文字占比视同单篇重复率处理。
需要强调的是,上述建议只是就一般情况而言,比如对于法学研究中的一些论文,法律条文可能引用比较多,则不计重复文字占比可以降低要求到10%。
三、完善论文重复率检测的若干建议
1.数据库选择
国内常用的论文重复率检测系统有CNKI学术不端文献检测系统(PMLC)、万方论文相似性检测系统、维普通达论文引用检测系统、ROST反剽窃系统、Gocheck论文引用检测系统等。不同的数据库文献存量、查重算法不同,同一篇论文在不同数据库的重复率检测结果可能出入较大。
建议如下:(1)医学类论文目前应优先考虑万方数据库,因为2007年之后中华医学会主办的系列期刊绝大部分没有与中国知网合作,而是与万方数据库签订独家收录协议,使得万方数据库更适合医学论文重复率检测。[15]文献报道,一篇医学类论文中国知网论文重复率为48.1%,万方数据库论文重复率为82.8%。[16](2)多个代表性数据库同时查重,至少应该“中国知网+万方”双重检测后取最大值。
2.数据库厂商应不断改进算法
为应对查重,互联网上已经出现很多“反查重”技巧,常见做法——将重复率较高的句子中间加入一些本不必要的助词虚词、在字与字中间加入空格,然后将空格最小化、将文字改为图片、复制查重数据库没有包含的中英文资料文字、同一个词换个词表达、同一段落进行分拆等。
对此,文献数据库应该不断改进查重算法,具体建议:(1)单独标识高度格式化语句。如果一个领域中相当比例(如十分之一以上)的论文都出现过某一语句,则数据库应该将该语句标记为高度格式化语句(如:“具有显著临床治疗效果”)、专业术语、学位论文中的版权声明文字、常用的名言警句(如:“失败是成功之母”等)、广为人知的一些经典诗词等。[6](2)针对在句子中加入一些助词、虚词如“的、地、得”、加入空格以及其他符号键规避软件检测的做法,建议检测时,对每个句子去掉助词虚词、空格等符号键后,连续若干字相同即视为重复,比如中国知网一度确定的标准是连续15个字相同即视为重复。当然,该标准必然会随着文献数量日积月累,越来越多而动态调整。[17](3)认定抄袭时,要剔除作者误引抄袭文章导致的情况。[10]该情况指论文2重复了论文1的一些文字,但是未加引用,也就是说论文2抄袭了论文1,现在论文3重复了论文2,引用了论文2、没有引用论文1,结果系统判定论文3抄袭论文1。此种情况,应该通过算法判定是论文2抄袭,而不是论文3抄袭。
3.相关部门与协会应积极作为
由于论文重复率检测涉及到研究者个人切身利益、更事关学术风气与知识版权问题,呼吁教育部、人事部、科技部等出台或者委托全国性学术学会、研究机构,制订、发布重复率检测相关标准,消除各地、各单位自行其是的做法,挤压投机作弊空间,净化国内学术风气。
由于各学科、甚至同一学科的不同类型论文的合理重复率都存在差异,另外,随着期刊论文、学位论文数量每年以几十万甚至上百万数量不断增加,文字重复的可能性自然在增长,因此,重复率标准需要动态调整。建议科技部、人事部、教育部、人社部等部门牵头或者委托相关学会协会,以一级学科或者二级学科为单位,五年一次,根据代表性的学科数据库的不同类型论文平均水平调整。
四、结语
论文重复率检测牵涉广泛利益,备受各方关注,而现行相关行政法规如《高等学校预防与处理学术不端行为办法》等都没有明确、无歧义的操作性定义,[18]由此出现一些争议甚至学术腐败事件。实践证明,论文查重在相当程度上起到了曝光、抑制剽窃行为的作用,提升了我国学术界的版权意识与引用标注意识。
当前论文查重实践存在的突出问题是重复率的操作性定义、统计口径、根据论文类型差异性确定重复率参考取值标准,目前尚未有相对权威、统一的重复率定义与实务操作标准,本文给出了若干具体建议,抛砖引玉,希望有更多更好的讨论。