辩证地看待学术不端检测系统的正负效应

2019-02-22彭分文舒阳晔

邵阳学院学报（社会科学版） 2019年6期

彭分文，舒阳晔

(湖南人文科技学院学报编辑部，湖南娄底 417000)

学术不端行为败坏学术界的声誉，阻碍科学进步，对此社会反响强烈。学术不端检测系统的研发和运行，对有效发现学术不端行为起到了极其巨大的作用。然而与此同时，它的一些负面效应也不时被人提起，甚至被人“吐槽”不断。究竟如何看待学术不端行为检测系统的功效？它是“天使”，抑或是“魔鬼”？本文试作以下辩证分析，以求教于同行。

一、学术不端检测系统在有效防止学术不端现象中起着不可或缺的作用

所谓学术不端行为，是指在科学研究及相关活动中发生的违反公认学术准则、违背学术诚信的行为。[1]其表现形式多种多样，诸如抄袭、剽窃，侵占他人研究成果；篡改他人学术成果；伪造科研数据、资料、文献，或捏造事实、编造虚假学术成果；等等。其中，抄袭和剽窃是当前学术不端行为中较为流行的形式。学术不端是学术界比较严重的道德问题，也一直受到世界各国科研工作者的批判与谴责。为有效杜绝和防止学术不端行为，世界各国各地区采取了许多方法，其中手段之一是学术不端检测系统的研制和运行，我国也不例外。学术不端检测系统自2008年研制成功以来，不断得到完善，目前广泛使用在学术界。当前我国国内常用的有中国知网学术不端文献检测系统、维普论文检测系统、万方文献相似性检测服务系统、PaperPass、大雅相似性分析系统等，这几个系统各有特点，但也有一些共同的特点，归纳起来，主要有以下几方面：

(一)有着强大的文字查重优势，且使用简单和便捷

学术不端检测系统对存在学术不端行为的学术成果具有快速鉴别能力，能提供句子抄袭、段落抄袭的比对结果及抄袭百分比。学术不端检测系统对一稿多投、重复发表和一般的抄袭行为的检测十分有效。如中国知网检测系统，在将待检文档上传至检测系统后，能即刻同其数据库进行全文比对，得到实时检测结果，成批的论文还可打包上传，省时省力，且其结果直观、清晰。

学术不端检测系统使用方便、易于操作，也是当前最流行的一种基于计算机技术的学术不端防治手段。经过多年的研制和发展，其算法、操作、服务等方面在实践中不断完善。

(二)能有效节约成本，提高效率

在学术不端检测系统出现之前，要判断一篇文章是否为抄袭、剽窃等学术不端行为，多靠人工发现。实践证明，这种做法费时、费力，效果也不一定理想。面对网络时代铺天盖地的学术成果，若没有学术不端检测系统的支持，仅仅凭审阅者所掌握的知识来甄别真假，客观上是一件困难的事，有些专业性较强的科研成果甚至无从判断。而借助学术不端检测系统，我们能以强大的技术优势和资源优势，从浩如烟海的资料堆中解脱出来，大大节省检测时间和精力，有效提高工作效率。并且，强大的对比库也增加了准确性，至少从形式上能发现论文中大比例的雷同之处。

学术不端检测系统的研发和应用，使我们幸运地成了数字时代的受益者。无论是从成本上还是效率上，系统检测都要优于人工审查。应该说，学术不端检测系统的问世让我们实实在在享受着数字时代工作的成果。

(三)检测的结果大致上是客观的，可信的

在实际操作中，我们通过学术不端检测系统的检测，一般都会生成一个检测报告，在检测报告单中，会详细列出上传的论文引用或重复已发文献的详情，包括题名、出处、作者姓名、发表时间、文字复制比、是否引用以及是否本人等，一目了然，其功能非常强大。

我们当然不能说没有重复率的文章就是好文章，但是我们肯定可以说，重复率高的文章不是好文章，高得有点离谱的文章就是抄袭、剽窃的文章。近几年来，凭借学术不端行为检测系统的检测和比对，最终确定了不少所谓专家学者的学术不端行为，为此丢官弃职、被取消学位、身败名裂的“名人”大有人在。在强大的学术检测系统面前，我们不得不佩服人类的智慧和伟大。

(四)打击学术不端行为，营造良好的学术氛围

正因为学术不端检测系统的强大功能，客观上它为学术不端行为提供了“照妖镜”，为打击学术不端行为提供了强有力的工具和手段，也从侧面督促了部分学者放弃侥幸心理，端正学术态度，注重学术研究的原创性和创新性，为防止学术造假保驾护航。从深层次上讲，学术不端检测系统有助于营造一种良好的学术氛围，规范学术风气，引导学术研究健康发展。

不可否认，就目前来说，学术不端检测系统也许不是防治学术不端的最有效手段，但一定是不可或缺的辅助工具，在实际中目前还不能找到更好的办法来替代。

二、学术不端检测系统的缺陷和不足

因为学术不端检测系统有如此强大的检测功能，所以当前它被广泛应用于学术论文检测、学位论文检测、科技论文查新以及职称评审检测中。然而，学术不端检测系统是否就是万能的了呢，或者凭此就可以鉴定或杜绝所有学术不端行为了呢？非也。仔细分析，学术不端检测系统虽有它的优点，但也有它不可避免的缺陷和不足。不仅如此，在使用过程中，一些新的问题也不断出现，这是我们不必避讳的。

(一)检测范围有限，具有不全面性

说到底，学术不端检测系统是对系统数据库内数据资源的一种检测和比对，是一种机器的检索。因此，学术不端检测系统的建立和健全有赖于数据库内的数据资源齐备。由于对数据库的严重依赖，学术不端检测系统能够检测到数据库既有的文献资料，但对数据库以外的学术资源却无能为力。然而现实中的学术不端检测系统的数据库虽然收录了大量的学术资源，但毕竟不能穷尽所有的资源。如比较有影响的中国知网也只收入一部分学术刊物，图书资料、部分古旧期刊、大部分外文资料就没有收入，这样这些没收入的资料就没有包含在比对源里。同样，那些未进入数据库的文献也不能检测。由于时间的滞后性，一些本应收入却未来得及上传的、未能公开发表的或仅在一定范围内公开发表的抄袭源文献也无法检测到。学术不端检测的系统的这个特点，造成检测的不全面性，其难免留有死角。

也正因为如此，目前国内开发的学术不端检测系统因每个产品依托的后台数据库都是自建数据库，同一篇文章使用不同的系统检测结果不尽相同，这样就使学术不端检测系统的权威性受到影响。

(二)检测有盲区，存在着明显漏洞

如前所述，学术不端检测系统功能仅仅限于对数据库比对后依据文字复制比例与位置做出分析与判断，从本质上讲它只是一种数据的机器比对，然其检测算法不够智能。诸如语序的调整、近同义词的替换、表述方式的变化等深层学术不端行为就不能检测出来。它可识别文字，却不能识别图表、公式；可查中文，不可查外文文献等，在查准率和查全率方面都有局限性。[2]

由于存在以上局限性，被检测者有若干手段可绕过相似度检测，为别有用心者留下了利用系统的漏洞。如有些人为了规避查重系统检测的风险，在抄袭别人成果时会想办法玩一些文字功夫，象变换词句表达方式，调整叙述顺序，将一些文字和图表的表述方式做转换，等等，这实际上是变相的严重学术不端，而且这种学术不端难以被学术不端检测系统发现，能冠冕堂皇地公开发表，后果不可谓不严重。

(三)可定量但不能定性

一般情况下，文字复制比与抄袭度是呈正比的，文字重复得越多其学术不端现象就越严重。然而也不尽然，二者并非绝对的等同。归根到底，文字的重复率对判定是否存在学术不端行为只能起参考作用，因为有些文字方面的重合并非抄袭，而是属于合理引用、引证。学者们在进行学术研究时，借鉴前人的成果是合理的，有时甚至是必须的，它既是研究的需要，也是对前人劳动成果的尊重，还可让我们少走弯路、避免重复建设。著名科学家牛顿也曾说过，如果说我比别人看得远些，那是因为我站在巨人的肩膀上。然而，学术不端检测系统不能分辨是“正常引用”还是“抄袭”，存在着对作者必要的、合理的引用判定为“重复”，或将引用的经典著作、法律法规等情况判定为抄袭的情况。

这里还有必要指出的是，我们不能简单地用重复率的高低判断一篇文章是否抄袭，需视情况具体分析。如一些综述性、评论性文章，要对前人的研究成果进行总结、归纳，就要不可避免地引用大量前人的文献内容；还有一些法律类文章，要大量引用法律法规条文；有些论文，还会引用某些重要文件的原文，比如领导人的重要讲话、国务院发布的文件；等等，这些都是正常引用，而且不能换个说法。这就有可能出现检测重复率高的现象，但如果就此判断这类文章是抄袭就不妥了。说到底，学术不端检测系统提供的重复率只是描述检测文献中文字重合所占比例的多少，并非对检测文献抄袭严重程度和性质的实质判定。是否认定为抄袭等，需要我们根据文献的内容及考核的侧重点、考核的标准进行判定。

(四)不能判断学术水平的高低

众所周知，学术研究的生命在于创新。创新是学术研究的灵魂，也是衡量学术研究价值程度的主要依据。[3]然如前所述，由于受一定历史条件的限制，学术不端检测系统对文字所表达的内容、思想这个学术研究成果的核心无法识别。这样，学术成果的水平究竟怎样，学术不端检测系统无能为力。

当然，归结到底，学术不端检测系统本身只是个检测系统，是一种机器识别，不是学术水平高低的判定系统，它不是人脑分析，更不能取代人脑思维。对此，我们不能做过高的要求，甚或苛刻于系统。然其如此，其使用价值必然也大打折扣。

(五)由此衍生出一些副产品

随着学术不端文献检测系统的普及使用，为规避检测风险，社会上衍生出了相关副产品。一些个人甚至公司，打着学术研究的幌子，公然替人造假、作弊，谋取利润。他们造假的方式可谓五花八门，例如对业已发表的文章进行修修补补；对若干篇主题相似的文章进行整合拼凑；或用在线翻译软件将文章双向翻译，本意没变，但描述方式是全新的；等等，来组成新的学术成果。这不仅扰乱了学术秩序，也损害了学术界的声誉，客观上加重了学术功利化的趋势。

当然，据此我们将之归罪于学术检测系统的错误显然有失偏颇。正如刀子可以杀人，但刀子本身不会杀人一样，笔者认为，学术不端检测体系本身没错，错在我们人类自己，是我们运用中的错误。学术不端检测系统作为一种辅助工具，目的如何、怎样运用，是完全由使用者来把控。我们不要简单地把运用中的错误当成其本身的错误。当然由此衍生出的一些负面效应必须引起我们的高度警觉和防范。

三、辩证分析，理性对待

根据以上分析，我们认为，对学术不端检测系统，简单的肯定或否定都是不对的，应辩证分析，理性对待。

(一)实事求是，既不要随意拨高，也不能任意贬低

学术不端检测系统的作用是不容置疑的，其不足也是客观存在的。因此，对它的正负效应，我们既不能无限夸大，也不能随意缩小。在实践中，一方面我们要充分利用学术不端检测系统的价值，运用好这一辅助工具为我所用；另一方面，我们又要避免由学术检测系统来“规范”学术、过分依赖检测结果评判学术不端的做法，反对将其过分夸大、将其作用绝对化的倾向。只有这样，我们才不会沉湎于学术不端检测系统的正面效应而沾沾自喜、津津乐道，也不因学术不端检测系统的负面效应而悲观失望、无所作为。

(二)学术不端检测系统只是一个工具和手段，不能代替人脑

学术不端问题的认定是个非常敏感的问题，所以我们在使用学术不端文献检测系统过程中不要据此轻易下结论，应牢牢记住学术不端检测系统其实只是一个我们研制和使用的工具，说到底，这个工具是人创造出来的，是一个机器比对，它能够部分代替人类脑力劳动，有时甚至超过人类思维能达到的极限。然无论如何，机器毕竟只是机器，其所产生的报告只能用作参考，判断是否学术不端还是靠人类。那种人类思维所独有的综合分析能力、判断能力及主观能动性是机器不能比拟的。

我们有理由相信，随着科学的发展，学术不端检测系统会不断优化，其手段越来越先进，智能化的程度会越来越高。事实上，“打铁还需自身硬”，我们也只有不断升级学术不端检测系统，才能更好地遏制学术不端行为。针对当前学术不端检测系统存在的问题和不足，近些年来，学术不端检测系统有关研发部门利用人工智能技术来进一步改进系统，如扩大检测系统的功能及使用范围，以减少误判的几率；积极利用大数据技术，建立语料库，充分进行数据训练，提高相似度判定的准确率；尝试利用跨语言检测技术和语义识别技术等帮助检测软件有效解决“思想抄袭”的问题。[4]然而不管学术不端检测系统发展得如何，程度怎样，其终究只是一套机器系统，是一种智能模拟。

马克思主义者是彻底的可知论者，我们相信我们人类有不断认识世界改造世界的能力。然而就历史发展的某一阶段、某一时期来说，人的认识能力又是有限的。面对层出不穷的学术不端现象，旧的问题解决了，也许又会有新的问题出现。对是否学术不端的判定，我们只有采取将机器检测与人类思维相结合，在机器检测的基础上再辅之以人工复查，才能得出科学的，相对客观、合理的结论，其最终决定权应该在各级各类学术专家(组)。

(三)从根本上治理学术不端行为，要靠加强学术道德建设和制度设计

学术不端产生的原因很复杂，手段很多，然要有效防止学术不端，除恰当地运用学术不端检测系统外，最根本的是要加强学术道德建设，加强和完善制度设计，使心存侥幸者不敢“学术不端”，不能“学术不端”。

无疑地，学术不端文献检测系统的出现，为遏制学术不端行为提供了一个快捷、有效的检测方法。然而从源头上来说，学术不端检测系统还只是一种“治标”的末端处理方式。而若要从源头上消灭学术不端行为，则须加强过程治理。一方面，我们要大力加强诚信教育，提高广大科研工作者的学术道德水平，严格自律管理，自觉地遵守学术规范。要在广大科研工作者中树立“以学术不端行为为耻”的学术道德观，让学术不端行为者成为人人喊打的过街“老鼠”。另一方面，要加强制度建设，规范学术管理。要保持学术研究的公正、公平性，改变现行的那种导致急功近利行为的学术考评机制，依靠学界同仁，建立和完善相应规则来维护学术活动的正常开展。要对学术不端行为“零容忍”，严惩学术不端行为，建立学术不端行为诚信黑名单数据库。各学术研究机构要选拔那些治学严谨、办事正派、同行公认的专家学者组成学术监督机构，对学术行为作出判断，并完善其申诉机制。此外，要加强社会监督，改革和完善现行的科研管理体制，在全社会形成一种尊重知识、尊重原创、保护知识产权的浓厚氛围，提高广大科研工作者的积极性和创造力。

总之，对学术不端检测系统，我们必须辩证理性地对待，它不是“魔鬼”，也非“天使”。治理学术不端行为是一个系统工程，我们只有将“治本”和“治标”结合起来，才能取得真正实效。可以预见，学术不端检测系统在今天或以后相当长的一段时间内仍将发挥着不可或缺的作用，但同时我们相信，随着形势的发展，人们学术道德水平的提高和制度的不断完善，学术不端检测系统终究有退出历史舞台的那一天。对此，我们寄予厚望，任重而道远！