英文文献在论文相似性检测中的检索技巧
2015-12-27王佳
王 佳
(齐鲁工业大学 图书馆参考咨询部,济南 250353)
学术不端是指在申请课题、实施研究报告结果的过程中,出现的捏造、篡改或抄袭行为。不端行为主要被限定在“伪造、篡改、抄袭”(Fabrication,Falsification,Plagiarism,简称 FFP )三者中。随着学术竞争日渐激烈,学术界存在某些弄虚作假、行为不良或失范的风气。在职称晋升、申请立项、毕业答辩等科研环节中,存在剽窃他人研究成果、稍加改动甚至全盘照搬占为己有的行为,或者一稿多投以数量取胜为自身谋取利益等现象。目前在国内学术界,这些违背科学精神和道德的现象广泛存在于科研机构、大专院校等各个层面,极大地败坏了学术风气,阻碍了学术进步,给科学和教育事业带来严重的负面影响。鉴于学术不端严重削弱了学术界的公平竞争,很多单位在职称评聘、应届毕业生答辩资格取得、新文章发表等工作中,适时引入了相似性检测这一硬性规定,针对著作、中外文期刊论文等科研成果进行严格的相似性检测,规定了一定的相似比,相似性处于该相似比之内的成果方可过关,否则一票否决。
针对相似性检测,当前国内多家数据商均研发了学术不端检测系统,后台比对数据库资源丰富、涵盖面广,包括期刊全文数据库、学位论文数据库、会议论文数据库、报纸全文数据库、互联网数据库、港澳台数据库、优先出版数据库等;针对英文文献,也增加了相关的期刊、博硕、会议的英文比对数据库。比对范围广泛全面,比对系统日趋完善。而且根据被检测人自身文献的发文状况,还引入了个人比对库,使得检测的严格性和人性化相结合,在一定程度上净化了学术竞争环境,促进了学术竞争公平、公正地发展。
随着科研的飞速发展和更高要求,国内科研人员越来越注重外文研发,英文专著、学位论文、期刊论文的数量日渐增多。为了适应这一现状,学术不端检测系统也相应地整合了多个英文资源比对数据库,如中国知网国际文献总库、德国Springer全文期刊数据库、英国Taylor&Francis期刊数据库、荷兰Elsevier数据库等。比对的英文文献类型包括期刊论文、会议论文、学位论文、图书等。在相似性检测过程中,英文文献查重存在一些技巧,比如外刊检索中优先出版、出版周期、刊种确定、时间确定等。而且由于文献内容涉及各个学科,文献原始格式、出版格式、呈现形式多种多样,每一个环节的界定都直接影响着检测结果,这就要求检测人员在检测过程中要充分用心,于不规律中探寻规律,严格采用统一标准对待各篇送检文献,对申报者负责。
1 相似性检测中的影响因素
1.1 英文文献格式
英文文献撰写者通常使LATEX等软件编辑,自动生成PDF格式,故申报者在申报系统中提交的的英文文献多为PDF格式。①PDF格式的英文原文在正常未加密的情况下,检测过程一般比较顺利,可以正常生成检测报告。但是有时PDF格式会出现加密的情况,一旦出现这种情况,原文文字信息无法复制,文章在相似性检测系统中无法导入,或者导入之后生成乱码报告等,这些情况一旦出现,需要立即将原文章转换格式。常用的格式转换软件有汉王PDFOCR、ABBYYFineReader等,格式转换之后,通常情况下检测过程会归于正常;②有时相似性检测系统后台比对的外文数据库会涉及版权问题,文章允许比对但不提供无缝下载链接,所以当原文无法在数据库下载时,有时会需要作者本人提供原文,这时可能会出现Word等非PDF格式的文章被提交上来,检测方法和过程与PDF格式的文章相同,但前提是作者本人提交的版本内容必须与发表、收录的内容完全一致,这需要人事处、科研处等相关部门严格审核。另外,从数据库下载的原文中,如果因排版等原因掺杂有其他文章内容,须转换为Word格式,剔除不相关内容之后重新上传检测;③某些学科领域如生化、数学、艺术等文章中,有时会出现大量统计图表、设计图、公式、分子结构示意图等,通常因格式转换软件技术限制而导致格式转换效果欠佳,从而相似性检测系统无法检测,而图表、公式本身传达一定的信息量又不宜删除,故需要采取其他方式进行相似性鉴定。
1.2 检测时间点界定
相似性检测的重要一环是检测时间点的界定,即比对截止时间点。规定按收稿日期、期刊发行日期、会议日期等酌情选择。原文如果是出版社正规单行本格式,一般会标注收稿日期。英文文献的收稿日期一般标注格式为ReceivedTime、AcceptedTime等;会议文献按照会议召开日期,可检索会议名称确定会议时间;期刊文献按照期刊发行日期,网络优先出版的文献按照网上出版日期,标注格式为AvailableonlineTime等。本着对申报者负责的精神,时间点尽量取前不取后,收稿日期和期刊发行日期如果同时检索到,选择收稿日期作为检测时间点。检测时间点的界定需要严格慎重,时间间隔会造成检测结果存在很大差异。例如,某篇文章系统认定的出版时间为2012年7月15日,总文字复制比为34%,超过了文字复制比须在30%以下的要求,但收稿日期为2011年11月4日,如果按该时间点检测,总文字复制比则为10.3%,符合要求。有的期刊发行日期不明确,则需要按照该刊出版周期、出版频率来确定每期的出版时间,从而确定检测时间点。例如,双月刊为每两个月出版发行一次,如无具体的出版日期,则规定6期的出版日期为前一年12月31日以及该年2月28日、4月30日、6月30日、8月31日、10月31日;季刊为每季度出版发行一次,如无具体的出版日期,则规定四期的出版日期为前一年12月31日以及该年3月31日、6月30日、9月30日;此外还有半月刊、旬刊、周刊、不定期出版等多种情况,如无具体出版日期,则选择各小周期的前一天或者按照出版频率均摊时间来确定。
2 外文期刊检索的方法及技巧
对于无收稿日期、非会议文献的期刊文献,需要借助数据库、网站等资源,确定该刊的出版周期、出版频率等,从而确定具体某期的出版日期。常用的数据库如EICompendex、Springer等,在数据库收录文献的题录信息里可检索到英文期刊的完整刊名、国际标准刊号(ISSN)、数字对象唯一标识符(DOI)、出版时间或年卷期号。利用刊名或刊号可检索期刊的出版周期或频率,常用的网站有中国报刊网、中科院国家科学图书馆、中国知网国际文献总库、中国图书进出口总公司期刊查询等。如利用http://periodical.cnpeak.com /periodical.aspx 检 索 英 文 期 刊 《Insurance:MathematicsandEconomics》,期数共6期,双月刊。对于非常规周期出版的期刊,如《Philosophy&SocialCriticism》,期数共10期,通常按照一年的总天数均摊时间计算每期的出版时间。有些外刊每年出版的周期不同,如 《InternationalJournalofDatabase TheoryandApplication》,该刊2008-2013年每年出版的期数分别为1期、4期、4期、4期、4期、6期,遇到此类情况,须按照每年期数分别计算出版日期。此外,还可以利用数字对象唯一标识符检索, 如利用网站 http://dx.doi.org/检索 DOI为 10.1007 /s00339-013-8018-3的文献,可以确定出版时间为2014年3月。有些期刊的ISSN号分为印刷版和电子版两种,印刷版为pISSN,电子版为eISSN, 两 者 内 容 一 样 。 例 如 《JournalofConvergence InformationTechnology》,ISSN 为 1975-9321 (Print),2233-9299(Online)。
3 国际会议文献的检索技巧
在英文文献相似性检测中,EICompendex等收录国际会议文献的数据库均可用来检索会议文献信息。根据国际会议名称,可检索该会议的详细题录信息,确定会议日期。另外,还可以利用google等学术搜索引擎,输入会议名称或缩写,检索会议日期。EI收录文献可直接在题录信息中查看会议日期,如EITRT 2013,会议日期为2013年 10月 25日~10月27日;CCDC2014,会议日期为2014年5月31日~6月2日。通常选取会议召开的前一天作为检测时间点。会议论文集的出版时间有时在会议召开的时间之前,有时在会议之后,按照“选前不选后”的原则,选择靠前的日期作为检测时间点。
4 外文著作相似性检测
外文著作相似性检测是针对书名、作者位次、ISBN、CIP查真,利用中国人民共和国新闻出版总署、国家图书馆等网站查询CIP数据及ISBN的真实性,同时核对作者位次。有时作者位次不是第一位,或者与其他人合著,则网站无法显示具体信息,须作者提供著作原件或扫描件予以鉴定。
5 文字复制比分析
相似性检测结果中,如果被检测文献与申报者本人的学位论文或者会议论文有相似片段,则剔除申报者本人学位论文和会议论文相似部分,不计算重合率。以某篇检测文献为例,如图1所示,该文献总文字复制比为50.3%,但是去除本人学位论文会议论文之后,文字复制比为3.9%,符合要求。
但是,因数据库收录时著录内容、著录人员等因素影响,某些文献著录信息缺失,导致系统无法自动对应到某位作者名下予以剔除,因此会导致文字复制比较高。解决方法,一是手动计算相似片段字数与原文字数的比例,从总文字复制比中减去;二是向数据商或更高权限账户提交申请,从数据库中直接剔除本人该篇学位论文或会议论文,重新检测。
图1 检测结果
6 结语
外文文献因其原文格式、发表收录以及外刊出版等多种原因,表现出复杂性、多样性的特点,要求检测人员具备较高的专业素质和外语水平。在相似性检测过程中除了常规流程操作,更应具体情况具体分析,在公平、公正的前提下,采取灵活化、人性化的检测方法和技巧,保证检索信息无误、查全查准,检测结果真实、准确。