山东省部分高校论文学术不端检测分析及学术不端检测系统使用体会
2017-12-06窦学俊高巧林栾世杰刘珊珊
窦学俊++高巧林++栾世杰++刘珊珊
摘要:目的 探讨山东省内部分高校职称评审论文学术不端现状及学术不端检测系统的应用价值。方法 使用中国知识资源总库科技期刊学术不端文献检测系统和万方数据论文相似性检测系统,对2012-2015年山东省部分高校职称论文进行检测,并使用Excel 2007对检测结果进行统计分析。 结果 共计检测9565篇论文,其中中文论文7437篇,外文论文2128篇。每年均有90%以上的论文总复制比低于30%,2013-2015年均有94%以上的论文单篇最大文字复制比低于20%。结论 山东省高校论文文字复制比仍有下调的必要,小部分文献单篇复制比过高;学术不端文献检测系统存在检测盲区。
关键词:论文;学术不端;检测系统;高校
中图分类号:G644 文献标识码:A 文章编号:2095-5707(2017)06-0018-05
Analysis on the Academic Misconduct in the Papers Submitted by Some Colleges and Universities in Shandong Province and Understanding of Academic Misconduct Detection System
DOU Xue-jun, GAO Qiao-lin*, LUAN Shi-jie, LIU Shan-shan
(Library of Shandong University of Traditional Chinese Medicine, Ji'nan Shandong 250355, China)
Abstract: Objective To explore the current status of academic misconduct in the title evaluation papers submitted by some colleges and universities in Shandong Province and the application value of academic misconduct detection system. Methods Academic misconduct detection system of science and technology journals in Chinese Knowledge Resources and similarity detection system of Wanfang database were used to test the title evaluation papers submitted by some colleges and universities in Shandong Province from 2012 to 2015, and Excel 2007 was used to analyze the results. Results 9565 papers were tested, including 7437 Chinese papers and 2128 papers of foreign languages. More than 90% papers had a total copy ratio of less than 30% per year, and more than 94% papers had a single copy ratio of less than 20% in 2013-2015. Conclusion There is still a need to reduce the copy ratio of papers in colleges and universities in Shandong Province, and the single copy ratio of a small part of papers is too high. There are still blind spots in academic misconduct literature detection system.
Key words: papers; academic misconduct; detection system; college and university
近年來,学术界屡屡爆出学术造假、论文抄袭等学术不端事件,本科毕业论文和研究生论文造假新闻也时常见诸媒体报道。2015年,英国大型医疗
第一作者:窦学俊,馆员,研究方向为中医药信息学。 E-mail: xjdou@sina.com
*通讯作者:高巧林,研究馆员,研究方向为中医药信息学。E-mail: gaoql0916@163.com
科学学术文献出版商BioMed Central因同行评审涉嫌造假撤销43篇论文,其中41篇的作者来自中国大陆[1]。2017年4月,世界最大学术出版商之一的施普林格(Springer)宣布撤回发表在2012-2016年《肿瘤生物学》(Tumor Biology)上的107篇论文。这107篇论文全部与中国研究机构有关,涉及524位作者,撤回原因是“同行评议造假”[2]。为了反学术不端,国内各大数据库都推出了学术不端检测系统。山东中医药大学引进中国知识资源总库(CNKI)科技期刊学术不端文献检测系统(AMLC)和万方论文相似性检测系统,依照山东省教育厅有关职称论文学术检测相关要求,对省内部分高校提交的职称评审论文进行检测。现就检测结果进行统计分析,从一个侧面了解本省当前学术论文学术不端情况,为制定相关措施提供参考。
1 资料与方法
1.1 数据来源endprint
从2011年开始,山东中医药大学图书馆承担了山东省教育厅高校职称论文的学术检索工作,检测论文来自省内医学院校和非医学院校的生物医学类论文。因2011年山东省教育厅对学术检索设置的指标(密切相关文献数量、相关文献数量和内容重合率)与2012年之后有显著不同,故2011年的职称论文未纳入此次统计范围。
根据山东省教育厅有关职称论文学术检测要求,对提交论文进行如下检测:⑴中文论文原文依次通过CNKI、万方数据知识服务平台和维普期刊资源整合服务平台检索下载。⑵中文论文检测首选AMLC,CNKI收录不全的期刊使用万方论文相似性检测系统(CNKI未收录2007年之后中华医学会系列杂志)。⑶外文论文使用AMLC检测(外文论文由作者单位审核后提交电子版原文,在AMLC中检测;检测机构不能下载外文原文)。⑷进行学术不端检测的截止日期统一为论文的收稿时间,没有注明收稿时间的论文则使用发刊时间。
1.2 纳入标准
省内医学院校和非医学院校共15所高校提交的生物医学类论文。
1.3 排除标准
⑴刊载论文的刊物未收录于数据库中,无法核实原文,刊物存疑。⑵所提交的论文不是期刊论文或会议论文,是以图书形式发行的论文集论文,山东省教育厅组织专家讨论认为此类论文水平不能等同于公开发表的期刊论文,不予以检测。⑶数据库已收录了刊载论文的刊物,但因數据库时差未收录刊载的当期;或因数据库回溯不全未收录刊载当期或收载当期的目录不全;或查到的期目录未包含作者提交的论文,论文存疑。
1.4 统计方法
2012年,采用“去除本人学位论文会议论文文献复制比”指标,对作者学位论文、会议论文的重合部分予以排除后,计算总复制比,未设“单篇最大文字复制比”指标。2013年开始,增加“单篇最大文字复制比”指标。复制比以20%、30%、50%、90%为分界点划分不同区间,统计每个区间内文献篇数及所占百分比。将各年份数据输入Excel 2007进行统计分析。
2 结果
2012-2015年共计有9565篇论文纳入统计范围,其中中文论文7437篇,外文论文2128篇(均为英文)。
2.1 复制比
2.1.1 去除本人学位论文会议论文文献复制比 统计表明,历年“去除本人学位论文会议论文文献复制比”(简称“总复制比”)合格率(<30%)在90%以上(见表1)。每年均有>5.00%的论文总复制比高于30%,有≥1.52%的论文总复制比高于50%,共有16篇论文总复制比≥90%。
2.1.2 单篇最大文字复制比 2013-2015年“单篇最大文字复制比”(简称“单篇复制比”)合格率(<20%)均在94%以上(见表2)。
2.2 复制比超标情况
2013-2015年总复制比≥30%的论文分别有128篇(占5.41%)、134篇(占5.40%)、136篇(占9.16%)。2013-2015年单篇复制比≥20%的论文分别有101篇(占4.27%)、136篇(占5.48%)、88篇(占5.93%)(见表3)。2013-2015年均有一定量论文总复制比<30%但单篇复制比≥20%,提示抄袭可能性大。而总复制比≥30%、单篇复制比<20%,说明与多篇文献相似,只是累积复制比超过30%,还应具体问题具体分析。
2.3 外文论文情况
提交论文语种分析显示,各年份提交的外文论文比例在20%左右,2013-2015年呈增高趋势(见表4)。
3 讨论
3.1 山东省部分高校科研文献学术不端现状
《科技工作者科学道德规范(试行)》对“学术不端行为”的定义是:在科学研究和学术活动中的各种造假、抄袭、剽窃和其他违背科学共同体惯例的行为[3]。2016年9月1日开始施行的《高等学校预防与处理学术不端行为办法》,将剽窃、抄袭、侵占他人学术成果,及篡改他人研究成果列在学术不端行为的首要位置[4]。新修订的《普通高等学校学生管理规定》自2017年9月1日起施行,其中规定,对于学位论文、公开发表的研究成果存在抄袭、篡改、伪造等学术不端行为,情节严重的,或者代写论文、买卖论文的,学校可以给予开除学籍处分[5]。国内外普遍成立了第三方独立审查机构,研制了学术不端检测系统。学术不端检测也称为论文相似度检测、论文查重,是通过学术不端文献检测系统对论文的主体进行识别检测的方法,通过系统的运作与计算,以“复制比”或“相似比”的直观形式呈现检测结果。
本次统计结果表明,2012-2015年山东省部分高校职称论文总复制比合格率均在90%以上,该数值与CNKI对92万多篇文献的检测结果相当[6]。其中2012-2014年均在94%以上,而2015年略低,可能与试点院校放宽提交标准有关。
单篇最大文字复制比用于反映是否有单独抄袭某篇论文的可能性,统计显示,2013-2015年每年均有20篇以上的论文与其他某篇论文有50%以上的相似性,有的甚至达90%以上。论文总复制比低于30%但单篇复制比高于20%,提示抄袭可能性大,说明设立单篇复制比指标对防止学术不端有积极的作用。上述结果说明,山东省高校职称论文小部分文献单篇复制比过高,应加强原创性引导。
外文论文统计显示,2012年外文论文比例高于2013、2014年,原因可能为2012年只准许提交3篇代表性成果,而2013年之后可提交多篇论文,检测后选择其中3篇进行评审。外文论文比例2013-2015年有呈增高趋势,一方面说明各院校发表的外文论文数量在增加,学术成果对外交流增多;另一方面可能是因为目前外文论文检测结果复制比较低,促使作者多发或多提交外文论文。
3.2 学术不端文献检测系统存在的问题
目前学术不端文献检测系统不能完全取代人工对比,仍存在较多检测盲区,现就笔者使用过程中发现的问题列举如下。endprint
3.2.1 合理引用与抄袭的区分 引用政府文件、领导人讲话、权威著作、历史材料、法律法规、诊断疗效标准、操作规程等,被误判为段落抄袭或句子抄袭,导致文字复制比偏高。生物医学领域的论文,很多研究方法和临床诊疗方案是相似的,而且论文的格式基本都是固定的,语句较为简单和通用,如:采用SPSS统计软件分析数据,计量资料以X±S表示,组间比较采用t检验;计数资料组间比较采用X2检验;P<0.05为差异有统计学意义。同一方向的研究往往查询的文献相同、采用的技术和方法一致,就连在术语的应用和语言的表达上也容易造成重复。同一作者在前期研究的基础上继续深入,后期文章中前言文字、研究方法、研究仪器、所用材料、统计学分析等很多文字说明与前期文章一致,甚至会引用前期文章中的数据。中医药类论文经常引用经典语句,检测系统尚不能识别这些语句出自经典著作。因此,医学类文章容易出现文字重复,导致文字复制比偏高[7]。也有的论文整体文字复制比偏高,但核心内容基本不重复,利用这些系统检测医学论文的时候可能会出现检测结果“假阳性”。检测系统遏制了明目张胆的抄袭、剽窃,但对文化发展产生了负面影响。依据《著作权法》作者有引用的权利,系统却不能保障[8]。此类情况应由同行评议的方式进行补充评议。
3.2.2 检测系统收录文献完整性问题 CNKI、万方、维普数据库与国内众多期刊均有合作,但三家数据库所收录的期刊并不完全重合。造成各家收录论文存在差异性,导致学术不端检测的结果出现差异。如果抄袭了回溯建库之前的文献,则数据库无法查实。并且CNKI、万方数据都分别与部分科技期刊编辑部签订了独家合作协议,意味着该刊的所有文献只能在各自的数据库中检索到,造成其他数据库的统计源文献的缺失。此外,目前检测系统对图书的收录还有很大空缺,如果论文抄袭的是图书内容,现有系统无法检测出来。
3.2.3 检测技术问题 各检测系统在工作方式、后台数据库、算法特点(对论文关键语义片断识别检测、字段识别、近义同义识别)等方面都存在差异,这些在技术上的不同,会造成不同的检测系统对同一篇论文检测时,得出不同的结论结果,而且有时差异较大[9]。有抄袭者针对检测系统的检测原理研究出“反反抄袭”方法,把论文写作变成了文字游戏,通过对语句顺序的调整、同义词替换、语句表达方式的变动而躲避系统的检测。更有甚者将外文文献翻译成中文后发表,或将自己的中文稿件翻译成英文再投稿。学术不端检测系统在技术上只能检测“文字”而不能检测“思想”,从而只能避免“文字”抄袭而不能防止“思想”抄袭的缺陷[10]。此时需要通过同行评议的方式进行补充评议。
3.2.4 文字识别误差 对于同一篇论文,使用Word版与PDF版本进行检测会得到明显的论文重复率的不同,这主要由两者文字识别率不同引起。同时在检测报告中有时也会出现乱码,也是由于提交的PDF版本论文或数据库中论文的文字转换差错所导致。
3.2.5 转页文字处理错误 两篇论文共用一页或同一篇论文排版标识为下转某一页时,检测结果可能出现被检测论文与其自身重复或同一文字误作两篇的错误,直接导致复制比增高,必须人工予以鉴别。
3.2.6 外文论文检测水平需提高和突破 在检测中发现目前外文论文检测结果复制比较低,这与检测系统收录外文文献底层数据不足、范围受限有关,较低的复制比并不能反映出论文的真实质量水平。
3.2.7 检测报告阅读、解释 因检测系统尚未完善,检测报告中可能存在其他问题,⑴部分外文会议论文未标引作者,同作者提交的期刊论文重合部分无法排除;⑵参考文献与其他论文的参考文献重合,也计入了总重合率(虽然系统中有“去除参考文献后复制比”指标,但是有的参考文献未被识别);⑶外文姓名不能自动识别,如Xiao Yong SUN VS Xiao-Yong Sun;⑷文字识别错误,笔者曾检测过一篇论文,检测报告显示“去除本人学位论文会议论文文献复制比”为43.4%,“单篇最大文字复制比”为18.4%。后与原文对比发现检测字数为376字,与原文转换为文本后的4001字差别较大,故考虑为检测系统文字转换有误。咨询相关技术人员解释为:收录数据加工问题所致系统无法读取原文。后经该论文以PDF格式原文上传检测,其结果“去除本人学位论文会议论文文献复制比”为0.9%,“单篇最大文字复制比”为0.9%。
4 小结
论文抄袭是学术不端的常见形式,学术不端文献检测系统确实对检测中文论文的内容重复情况具有重要的实用价值,也对部分学术不端者起到了震慑作用。本研究对山东省部分高校4年间9000多篇职称评审论文检测结果的统计分析,部分地反映了当前山东省高校学术论文的学术不端真实状况。学术不端文献检测系统本身还存在一些问题,这就需要检测人员以高度的责任心对检测报告仔细解读,审慎出具检测结论。同时也提醒检测报告的使用机构必须合理使用报告结果,必要时应进行人工的学术鉴定,而不能只關注检测报告的数据。
参考文献
[1] BARBASH F. Major publisher retracts 43 scientific papers amid wider fake peer-review scandal[EB/OL].(2015-03-27)[2017-02-24].https://www.washingtonpost.com/news/morning-mix/wp/2015/03/27/fabricated-peer-reviews-prompt-scientific-journal-to-retract-43-papers-systematic-scheme-may-affect-other-journals/?deferJs=true&outputType=default-article&utm_ term=.697eb8d86959.
[2] STIGBRAND T. Retraction Note to multiple articles in Tumor Biology[J]. Tumor Biology, 2017(4):5487-5492.[2017-02-14].https://link.springer.com/article/10.1007/s13277-017-5487-6.
[3] 中国科学技术协会.中国科协发布《科技工作者科学道德规范》[EB/OL].(2007-03-23)[2017-03-01].http://www.cast.org.cn/ n35081/n35608/10395341.html.
[4] 中华人民共和国教育部.高等学校预防与处理学术不端行为办法[EB/OL].(2016-06-16)[2017-03-01].http://www.moe.edu.cn/ srcsite/A02/s5911/moe_621/201607/t20160718_272156.html.
[5] 中华人民共和国教育部.普通高等学校学生管理规定[EB/OL].(2017-02-04)[2017-03-01].http://www.moe.edu.cn/srcsite/ A02/s5911/moe_621/201702/t20170216_296385.html.
[6] 宋如华.从初审环节防范学术不端论文[N].科学时报,2009-12-11(A3).
[7] 杨晨晨.运用学术不端文献检测系统检测医学论文存在的问题及对策[J].编辑学报,2014,26(1):42-44.
[8] 王文福.期刊防范学术不端的深度反思——兼谈对AMLC系统的理性认知[J].编辑之友,2017(3):32-36,41.
[9] 李永莲.学术不端文献检测系统的检测盲区研究[J].青岛职业技术学院学报,2014,27(5):78-80,86.
[10] 朱燕.试论反抄袭软件的学术规范功能及其局限性[J].兰州教育学院学报,2016,32(10):91-93.
(收稿日期:2017-03-24)
(修回日期:2017-06-30;编辑:魏民)endprint