知网、万方、维普论文相似性检测系统比较研究
2015-12-06李志明
李志明
(九江学院,332005)
随着计算机技术与互联网技术的迅猛发展,越来越多的文献信息被数字化、电子化,为人们的科研、工作、学习、生活带来巨大方便的同时,也为学术成果抄袭、剽窃等行为提供了方便。为了刹住这种歪风,政府在政策方面出台了相关规章制度规范学术研究行为,数据库商等软件行业则从技术上寻求解决,其中论文相似性检测系统就是反抄袭、反剽窃的有效技术之一。目前论文检测系统很多,良莠不齐,其中有三个影响较大,即中国知网学术不端文献检测系统、万方数据论文相似性检测系统、维普-通达论文引用检测系统,为了使用户能对论文相似性系统进行有效地使用及选择,也为了更好地完善论文相似性检测系统,本文对上述三种系统做了比较研究。
1 论文检测系统简介
1.1 中国知网学术不端文献检测系统(下文简称“知网”)
中国学术期刊(光盘版)电子杂志社与同方知网(北京)技术有限公司在中国知识资源总库(CNKI)系统整合出版各种学术文献的基础上,于2008年12月底研制成功学术不端文献检测系统(简称AMLC),并正式开放使用。该系统可为全国各行各业在学术出版、研究生论文答辩、科研项目审批和鉴定验收、学术职称评定等项工作中防止学术不端行为提供专门的信息咨询服务[1]。
1.2 万方数据论文相似性检测系统(下文简称“万方”)
基于万方数据海量学术文献资源,对学术成果进行相似性检测,提供客观翔实的检测报告,为学术出版、科研管理、学位论文管理等提供支持[2]。
1.3 维普-通达论文检测系统(下文简称“维普”)
维普 -通达论文引用检测系统(简称VTTMS),是由维普公司与通达恒远(北京)信息技术有限公司及北京多所重点高校共同研制而成,结合了维普资讯的数据资源优势与通达的数据挖掘技术,并成功地应用在大规模文本比对领域上的创新产品,是论文写作辅导及管理的一站式平台[3]。
2 版本比较
知网有学位论文版、科技期刊版、社科期刊版、人事版、大学生论文版、中学生作业版、vip版、工作总结版;万方有单篇新论文版、批量新论文版、已发表论文版、大学生论文版;维普有大学生版、研究生版、职称版、个人版。知网和维普的划分方式相近,都是根据用户群的特点进行划分,知网划分得更细致,对应的用户群体更多,维普相对粗略些,而万方的划分方式完全不一样,是以是否发表、是否批量为依据划分的。
3 资源库比较
作为一个论文相似性检测系统,其比对资源库收录资源类型是否齐全、学科是否齐全、年限是否足够长、资源数量是否足够大等对检测结果的影响至关重要。在资源库收录资源年限方面,知网回溯到1915年,时间最长;万方回溯到1985年,次之;维普回溯到1989年,时间最短。在资源库收录资源学科方面,三者都收录了全学科的文献资源。在资源库收录资源类型方面,三者都有期刊、学位论文、报纸、互联网资源,知网、万方均有会议论文,知网、维普都有报纸。另外,知网还有国家标准、专利、字典、词典、百科全书、图录、表谱、手册、名录、第三方数据库资源,维普还有自建论文资源库,知网资源类型最丰富。在资源库收录资源数量方面(从各自对外公布的数字获得),知网与维普资源数量更大些,万方偏少(见表1)。
表1
4 指标体系比较
检测指标设置体系是影响检测结果的一个重要因素,三者都有总复制比指标,知网还有复制比(去除引用文献检测结果复制比、去除本人文献检测结果复制比)、总检测指标(重合字数、总字数、总段落数、疑似段落数、前部重合字数、后部重合字数)、子检测指标(重合字数、小段落数、大段落数、最大段长、平均段长、前部重合度、后部重合度),万方有参考文献相似比、剩余相似比指标,维普有“引用率”、“复写率”和“自写率”三个指标。知网的指标体系最详细,维度最多(见表2)。
表2
5 检测技术比较
检测技术关乎检测结果是否准确可靠。知网采用多阶自适应指纹分析技术、语义理解技术,对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引,另外构建了强大的语义分析框架,实现了词语、语句、句群、篇章分层级的语义分析。万方采用了自主研发的“基于滑动窗口的低频特征部分匹配算法”,能准确识别细微改动,兼顾查全、查准。维普采用自主研发的业界领先的“F&V”算法,集合了VSM+、语义指纹、自动分类三种方式的计算模型,语义指纹用于对整段文本进行检测、VSM用于对语义片段进行分析、自动分类用于将被检测文档自动定位到专业的比对源中进行检测,检测颗粒度最小支持词组级语义。三者的核心检测技术各有特点(见表3)。
表3
6 系统功能比较
三者都有单篇检测和批量检测、多级账号管理功能,都支持的上传文件格式有.doc/.docx/.txt/.pdf/,都有PDF、网页格式的检测报告,检测报告重复片段都有高亮对比显示,知网和万方都有多维度统计功能,知网和维普都支持.zip/.rar格式文件上传及检测结果汇总excel输出。知网还有支持语义检测、多语种检测、表格检测、繁体检测及多版本修改对照、原文检索下载功能,还支持.caj/.kdh/.nh格式文件,万方支持断点续传及可与既有业务系统集成、检测任务管理功能,还支持.rtf格式文件,维普还有自建库功能、自定义比对资源范围。三者在系统功能上各有优点,但知网功能更丰富和强大些(见表4)。
表4
7 检测测试结果比较
笔者将本人2013年撰写的文章《读秀学术搜索系统与文津搜索系统的比较分析及启示》分别在三个系统进行检测:知网总文字复制比5.5%,万方总相似比0,维普总相似比15.31%。通过分析三个报告,作者认为知网的结果相对准确,万方没有检测出来相似之处,维普的语义分析功能欠缺,另外把表格里的内容与别的文章里相似的词语认为相似计算到总相似比中,包括参考文献跟其它文献的引用或参考文献相似也计算在总相似比中,导致相似比过高,不符合实际情况。
8 改进与启示
8.1 比对资源库应收录更多类型及语种的资源
图书在文献资源中占据着重要位置,但知网、万方、维普论文相似性检测系统比对资源库都是以期刊论文、博硕论文、报纸论文、会议论文、网络资源等为主,而没有收录图书,虽然知网收录了一些字典、词典、百科全书、图录、表谱、手册、名录等,但还远远不够。另外,图片文献收录也很欠缺,三者如收全图书、图片等资源类型,将会对检索结果起到很好的修正作用。在收录语种方面,三者主要以中文为主,也收录了外文文献资源,但与外文资源总量还有距离,为了保证科研创新性及查出相似文献,应收录足够数量的外文文献。
8.2 能够支持更多的常用文献格式
上传文件的格式关系到用户使用系统是否方便。知网、万方、维普论文相似性检测系统三者都支持.doc/.docx/.txt/.pdf/,还缺少很多常用文献格式,如.jpg/.wps/.ppt/.xls/.html/.gif等,三者如果加以改进,能够支持更多的常用文件格式,那将给用户使用带来更大的方便。
8.3 能够支持图片文献检测
图片型的文献由于它直观、容易说明问题等特点而日益受到重视,并且数量愈来愈庞大。但知网、万方、维普论文相似性检测系统支持得都不够好,希望开发者在技术方面更好地解决此问题。
8.4 图书馆要对读者进行学术伦理与学术道德教育
图书馆作为文献信息中心,是读者利用文献信息资源的主要场所。因此,在读者利用文献信息资源时,馆员要及时提醒读者须合理、合法利用信息资源,对其进行必要的学术伦理与学术道德教育,使其养成正确使用文献信息资源的良好习惯。
[1]同方知网(北京)技术有限公司.CNKI科研诚信管理系统管理研究中心[EB/OL].http://check.cnki.net/,2014-5-6.
[2]北京万方数据股份有限公司.万方数据论文相似性检测[EB/OL].http://check.wanfangdata.com.cn/,2014-5-6.
[3]重庆维普资讯有限公司.维普论文检测系统[EB/OL].http://vpcs.cqvip.com/login.aspx?r=%2f.Default.aspx,2014-5-6.