知网、万方、维普和大雅论文相似性检测系统比较研究
2015-03-18孔媛媛
□ 孔媛媛 邓 艳
学位论文相似性检测系统主要为检测研究生学位论文中出现的不端行为提供辅助工具,是在技术上反抄袭、反剽窃的有效手段之一[1]。全国各大高校都开始对研究生学位论文进行相似性检测,南京邮电大学从2009年开始对申请学位的博士和硕士研究生学位论文进行检测,以及时发现和处理学位论文抄袭等不良行为。通过两年的实施,每年都有10%的学生未达到要求需要重新修改论文,对研究生学位论文质量起到了很好的把控作用[2]。目前,国内学位论文相似性检测系统主要有四个系统:中国知网CNKI的学术不端行为检测系统、万方数据的论文相似性检测系统、维普通达论文检测系统和超星数据库大雅相似性分析系统。中国知网CNKI的学术不端行为检测系统是目前最普遍使用的系统,系统目前的检测范围涵盖中国学术期刊网络出版总库、中国博士论文网络出版总库、中国优秀硕士论文网络出版总库、中国报纸全文数据库、中国专利全文数据库(知网版)、中国科技成果数据库(知网版)、中国年鉴网络出版总库、中国工具书数据库、中国标准数据库(知网版)。正陆续引进英文数据库、网络数据库等资源[3]。万方数据的论文相似性检测系统也是高校目前普遍使用的系统,仅次于CNKI,系统的检测范围涵盖中国学术期刊数据库(CSPD)、中国学位论文全文数据库(CDDB)//中国学术会议论文数据库(CCPD)和中国学术网页数据库(CSWD)。其学位论文数据库的涵盖量全是最大的优势[4]。维普通达论文检测系统是继中国知网和万方后,又一个拥有海量期刊文献系统支持的论文防抄袭检测系统,其优点是用户自己掌控检测流程,自己检测,自己看结果,不想留痕迹自己可以删除论文,安全性比较好。检测结果报告较其他网站更为人性化,方便修改。维普通达收录的文本数据库包含:拥有文献全文3,200余万篇,是国内最大最完善的中文科技期刊全文数据库;互联网数据库(监控Google收录的数十亿个页面);论文库(收录各院校及科研院所的200多万硕士、博士论文,每周更新,满足跨学科比对需求)。超星数据库大雅相似性分析系统是超星公司推出的相似性检测系统,其数据库优势是中文图书和报纸全文数据库。
一、系统功能比较
对于常见的文件格式.doc/.pdf/.txt,四个系统都支持上传,知网和维普支持.zip和.rar压缩包格式文件上传。在操作方式上,四个系统都支持单篇检测和批量检测功能,对于批量检测功能,知网:上传论文一步;万方:创建任务、添加论文和开始检测三步;维普:提交论文、确认检测文档和开始检测三步;大雅:任务名、选择文件和上传三步。知网系统的操作方式最简单直接,而维普系统的操作是最慢的。
二、指标体系比较
知网:复制比(总复制比、去除引用文献检测结果复制比、去除本人文献检测结果复制比)、总检测指标(重合字数、总字数、总段落数、疑似段落数、前部重合字数、后部重合字数)、子检测指标(重合字数、小段落数、大段落数、最大段长、平均段长、前部重合度、后部重合度)、相似片段分布;维普:相似比(总相似比、自写率、复写率、引用率),相似片断(包括:期刊库片断、硕博库片断、互联网片断、高校特色片断、自建库片断),字数(包括:总字数、重复字数、总章节数、疑似章节数);万方:相似比(总相似比、参考文献相似比、排除参考文献相似比),相似片段分布;大雅:相似度(总相似度、过滤参考文献后相似度)、重复字数和过滤参考文献后的重复字数,相似片段分布。在实际操作中,高校论文管理机构最关注的指标是“去除本人文献检测结果复制比”和“相似片段分布”,其中“去除本人文献检测结果复制比”只有知网系统有,而维普系统缺乏相似片段分布图。因此,从指标体系看,知网的指标体系最详细,指标维度最多,也最符合实际需求。
三、多篇论文检测结果比较
我们从2015年毕业的研究生学位论文中挑选出20篇学位论文,分别在四个系统中进行了检测,20篇学位论文的检测平均复制比,知网系统18.94%,维普系统18.8%,万方系统4.64%,大雅系统2.91%。从比较结果可以看出,知网和维普的检测复制比较高、性能较优,而万方和大雅的检测复制比都比较低、性能较差。其中检测性能较好的知网系统和维普系统,两者结果相似的论文数是6个占2.31%,知网比维普复制比多的论文数量和维普比知网复制比多的论文数量相同。可见,这两个系统的检测结果各有侧重,性能相当。
四、单篇论文检测结果比较
我们选取了一篇项目管理专业的研究生学位论文《雇佣关系模式与组织认同、工作绩效关系研究》(以下简称”学位论文A”)在四个系统上分别检测,同时下载检测报告进行分析比较。从论文检测速度上看,大雅速度最快只用5s时间,维普速度最慢使用200s时间,如果大批量论文检测以维普系统的检测速度肯定无法完成。从论文检测结果上看,同一篇论文四个系统的复制比,知网和维普的结果接近检测复制比高,性能优;万方和大雅的检测复制比低,性能差。我们对检测报告进行了详细分析,发现学位论文A跟一篇公开收录的学位论文B有较大的相似性,但就这两篇学位论文的对比结果,对四个系统的检测报告进行分析,得出“跟最相似文献的重复率对比”的指标,从跟最相似文献的重复率对比上看,结果从高到低分别是:知网、万方、大雅、维普,知网和万方的结果较接近,性能较优。从章节分析能力看,同样排版的学位论文,只有维普系统正确区分出论文章节,知网和万方按照自己标准分段,而大雅系统没有进行任何分段,章节分析能力上维普系统最优。从报告长度和内容上看,知网和维普系统的检测报告都多达六十多页,比较详细;但万方和大雅只有十页左右,太简单。
五、结语
本文对国内主流的四个学位论文相似性检测系统——知网系统、万方系统、维普系统、大雅系统进行了分析与比较,从各方面比较结果看,知网系统的优势是期刊和论文数据库非常全面、检测结果比较准确,缺点是章节分析能力不佳;万方系统的优势是研究生论文数据库全,缺点是期刊数据库太少、检测结果不准;维普系统的优势是章节分析能力好,缺点是检测技术速度太慢,相似性统计数据不准;大雅系统的优势是电子图书数据库全,缺点是论文和期刊数据库太少、检测结果不准。综合比较而言,每个系统都有待改进的地方,但知网系统的性能最优、综合性能最佳。
[1]张旻浩,高国龙,钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究,2011,4:514~521
[2]孔媛媛,王昆,徐小龙.高校研究生学术道德和学术规范工作的制度建设和措施[J].教育教学论坛,2014,50:271~272
[3]李志明.知网、万方、维普论文相似性检测系统比较研究[J].大学图书情报学刊,2015,1:61 ~64
[4]林豪慧,陈如好.知网、维普、万方的同质化和差异化评析[J].图书馆学研究,2009,9:25 ~27