APP下载

大学生毕业论文相似性检测自动化系统的设计与实现

2022-07-11邢明钢屈军邢泉李娟

电子技术与软件工程 2022年10期
关键词:查重毕业论文附件

邢明钢 屈军 邢泉 李娟*

(1.新疆师范大学图书馆 新疆维吾尔自治区乌鲁木齐市 830054)

(2.新疆师范大学计算机科学技术学院 新疆维吾尔自治区乌鲁木齐市 830054)

近年来,伴随我国高等教育的普及,毕业大学生人数逐年呈增长趋势,2019-2021 年分别为834 万人、874 万人、909 万人。教育部统计数据显示,2022 届高校毕业生规模预计将达1076 万人,同比增加167 万,规模和增量均创历史新高。为确保高等教育质量,越来越多的高校和大学生对毕业前撰写毕业论文(设计)予以高度重视,教育部也于2020 年12 月印发《本科毕业论文(设计)抽检办法(试行)》的通知(教督〔2020〕5 号),加强对大学生毕业论文的质量监督。高等教育质量建设的需要,客观上推高了对大学生毕业论文相似性检测(查重)需求。当前,大学生毕业论文相似性检测中存在以下突出问题:

(1)论文检测需求大;

(2)具备检测资质的机构有限;

(3)检测时间相对集中在每年3 月、4 月两个月;

(4)检测业务的程序性、环节性要求比较严格;

(5)缺少检测自动化手段。

大学生毕业论文相似性检测属于论文发表前查重检测,一般由具有检测资质的高等院校图书馆或科研院所开展相关检测。国内主流的论文相似性检测系统有中国知网、万方数据库、维普数据库三大系统,三者都有总复制比指标,知网采用多阶自适应指纹分析技术、语义理解技术,万方采用了自主研发的“基于滑动窗口的低频特征部分匹配算法”,维普采用自主研发的业界领先的“F&V”算法,集合了VSM + 、语义指纹、自动分类三种方式的计算模型。三者均可胜任对本科生、研究生的毕业论文进行相似性检测。

分析对比三大检测系统指标体系、检测技术、系统功能、检测结果以及对于用户的经济性等因素,本研究探讨在维普期刊相似性检测系统环境下,构建大学生毕业论文相似性检测自动化系统,解决实践中存在的突出问题。

1 大学生毕业论文相似性检测自动化系统研发的缘起

对于以自动化方式对大学生毕业论文进行相似性检测的研究情况,在中国知网(CNKI)以“论文查重”为关键词进行主题检索,共检出文献78 篇,以“论文相似性检测”为关键词检出文献26 篇,共计104 篇。如图1 所示,目前的研究中对“相似性检测”、 “查重”采用的技术进行探讨的41 篇,占比39.42%;对“相似性检测”、 “查重”的方法和结果进行评价的58 篇,占比55.77%;对查重业务工作的开展进行探讨的5 篇,占比4.81%。

图1: 论文查重研究文献分布

从数据可以分析得出,对论文相似性检测的研究起步较晚,全库仅收录不到220 篇,研究对象大部分集中在论文相似性检测的技术或结果,对论文相似性检测业务进行探讨的不到5%。对于怎样通过对信息化技术的整合和运用,开发出业务工作的自动化程序,从根本上提高检测机构论文相似性检测效率进行专门研究的,还没有发现。本研究将为解决大学生毕业论文相似性检测供需矛盾提供解决方案,并具有填补论文相似性检测业务领域相关研究空白的作用。

本研究还具重要现实意义:

(1)极大地提高大学生毕业论文相似性检测工作效率,节约检测机构人力资源;

(2)缩短广大毕业生论文相似性检测的等待时间,为社会降低时间成本;

(3)助力大学生和检测机构全面有效落实国家有关论文相似性检测的规定要求,引导大学生提高科研水平,防范学术不端。

2 论文相似性检测自动化系统的功能与流程

2.1 系统功能分析

大学生毕业论文的相似性检测主要可分为待检测论文的收集、论文上传至指定的检测系统、检测报告的返回三个步骤。这三个步骤在操作平台、数据管理上相互依赖、相互依存,但又具有不一致性、操作关联性低的特点。本系统在功能上,要做到将论文收集、相似性检测、检测报告回送在操作上的自动、连续,在数据上的统一。

因此,在自动化系统的设计上主要表现为邮件收发(任务接收、结果返回)、论文相似性检测两个子系统。系统需要建立数据库,为检测任务的分发、提交、结果发送奠定基础,实现两个子系统的数据耦合、解耦。整个系统建立前端,便于在一个集成统一的界面中运行自动化流程。

根据维普期刊系统的特点,大学生(本科生)版、研究生(硕士生、博士生)版只需要分别登陆子帐户(改变接口),各版的界面、模块、功能全部相同,本研究主要以大学生版为例,不再赘述其它版本。

2.2 系统流程分析

自动化系统服务于检测机构和大学生两方,可重构现行大学生毕业论文相似性检测的各环节,建立形成图2 所示的大学生毕业论文相似性检测流程,导入到自动化处理进程中。

图2: 大学生毕业论文相似性检测自动化流程

3 自动化系统的设计

3.1 系统架构设计

本系统整体采用前后端分离的B/S 架构。

3.1.1 收集和检测模块设计

收集和检测模块是前后端呈现,前端采用Vue 框架,以element-ui 作为主要的组件库进行组件式的Web;模块的后端以spring boot 框架为基础的,以MVC 范式为设计模式范式开发,整体架构如图3 所示。

图3: 系统整体架构

3.1.2 系统研发相关程序的选择

(1)JavaScript 编程语言。JavaScript(JS)是运行在浏览器上的即时编译型编程语言,为本系统设计的面向用户的网页界面添加各种动态功能。

(2)Spring boot 技术框架。Spring boot 整合多种持久化技术管理数据访问,提供优秀的Web 框架方便开发;通过使用SpringAOP 技术实现事务管理、远程访问等功能;Spring 的数据访问框架解决了本系统研发中应用程序使用数据库时可能遇到的困难,为数据访问提供了灵活的抽象。

(3)Vue 框架。在构建本系统操作界面的渐进式框架中,Vue 能够为复杂的单页应用提供驱动,具备易用性、灵活性(简单小巧的核心、渐进式技术栈,可以应对人数众多的大学毕业生群体乃至更大规模的应用)、性能强大(20kb min+gzip 运行大小、快速虚拟 DOM、高效率优化)的特点。

(4)JeecgBoot 开源平台。JeecgBoot 的代码生成器能让前后端代码一键生成,快速提高效率,节省本系统研发的时间成本,同时又不失灵活性。

3.2 主要相关依赖:javax.mail(邮件系统),mybatisplus(ORM框架)

在面向大学毕业生等群体性服务对象时,论文检测机构收发论文材料多采用设置新浪、QQ、网易等邮箱系统作为工作邮箱,也有部分机构会使用自研的邮箱系统。本研究中使用javax.mail 将机构用户现有的邮件账户作为发送邮件的工具,实现自动发送邮件机制。

本研究依赖mybatis-plus(ORM 框架)以对象的方法操作数据库,来实现结果集与对象的自动映射。

3.3 数据库设计

3.3.1 数据库模型的建立

从需求出发,可从论文相似性检测业务中分离出所需要的数据,如邮件主题、附件名、附件、论文名称等数据,建立数据库。进一步明确这些数据的宏观行为,如邮件主题数据可用于判断该邮件是不是论文查重请求的邮件;通过类似宏观行为来确定其行为所属的对象范围。当所有对象确定后,联系各个对象之间的关系,例如将邮箱用户与本自动化系统用户进行绑定。而后根据必要性选择细化行为,如判断邮件主题的行为可以细化为判断首次上传和判断更新上传两种细化行为。继而确定业务规则,例如一个合法的请求查重邮件的文档附件只能有一个待回送的检测报告。通过数据库设计即可得出数据库模型。

3.3.2 mysql 和redis 数据库

mysql 是关系型数据库,虽读取速度较慢,系统主要运用其存放持久化数据的功能,将数据存储在硬盘中。redis是非关系型数据库,属于缓存数据库,虽保存时间有限,系统运用其将数据存储在缓存中带来的读取速度快的优点,能够大大提高运行效率。

4 自动化查重功能的实现

4.1 邮件处理系统功能自动化的实现

4.1.1 接收符合条件的待查重论文

邮件模块基于JavaMail 处理电子邮件,自动判别论文查重请求邮件的相关格式,建立数据库。将符合格式的邮件信息导入到数据库中,将邮件附件中的论文收纳到系统,进入查重队例。接收待查重论文操作可细化分为首次收集和更新收集两种类型。

邮件过滤时,通过邮件主题格式判断收集类型。若主题格式不合法,则直接回执主题异常信息。

(1)首次收集。对邮件主题自动进行合法性检查,邮件其他部分如附件的合法性检查和分类亦同。在首次收集中,先判断发件人是否已经存在于数据库,若存在则为联系人所新增的附件,否则为新的联系人邮件,插入新的邮件信息。而后存储附件。

首次收集成功后,回执邮件中包含各个附件的UUID 编号,学生可以通过该编号更新对应附件。

(2)更新收集。判断出邮件主题带有附件UUID 唯一标示且邮件用户已存在于邮件数据库中,此时邮件所带的附件将会自动更新对应UUID 的附件,但是更新邮件中附件包含一个文件,若包含多个则默认使用系统读取文件列表的第一个。

4.1.2 自动回复异常信息

大学生发送到指定邮箱的论文邮件若发生主题格式错误、文档文件格式命名错误,附件更新错误等异常,则向发件人返回包含异常提示的回执邮件,便于用户修改错误后再次发起邮件传送,亦实现屏蔽错误提交查重论文的功能。

论文收集自动化实现过程如图4 所示。

图4: 论文收集自动化

邮件处理系统实现了四项功能:一是实现了邮件收发操作的自动化;二是在使用上避免了信息收集和信息处理之间的不统一,为管理人员简化了在邮件中收集信息—移送信息到数据库—传导信息到查重环节的流程;三是对数据进行了甄别和集中,将论文这一最初的文件信息模型扩展为 “发送者——附件——报告”这一层次模型,以对应对论文的管理。四是将论文管理扩展为联系人管理,再回溯到联系人下的论文管理,使得管理人员清晰可见联系人信息及论文归属信息。

4.2 相似性检测功能自动化的实现

4.2.1 以模拟点击方式将论文上传至维普检测系统

通过提前预定所需要进行的项目的像素点来安排系列点击,来完成既定的任务。在浏览器操作上,使用Selenium进行模拟点击。在对文件以及Window 系统的窗口操作上,通过调用操作系统给定的应用编程接口(API)来实现对Windows 的自动化操作。核心代码如图5 所示。

图5: 论文上传检测核心代码

如以分析数据表来进行自动化上传,则分析数据包分析周期长,特别是其仅对当前版本的浏览器有用,在后续对应网站进行技术迭代的时候将完全失去作用;本系统采用的模拟点击方式兼容性好,针对无法用selenium 驱动浏览器来进行点击的元素节点以Windows 系统API 来实现的方式予以解决,后续维护成本低,且通俗易懂方便掌握。

4.2.2 自动回送包含查重结果的检测报告

(1)从维普检测系统得到的检测报告是压缩格式的文件。将压缩件从暂存文件夹读出,解压到临时文件夹,遍历其中的普通文件,并存储。

(2)当存放论文检测报告的临时文件夹出现新文件时,表明增加了新的检测报告。系统将对检测报告的文件名和附件的UUID 做匹配,确定报告对应的论文附件。自动将报告发送给该附件所属的邮件发送者。

(3)一个完整的相似性检测流程完成后,系统还将读取数据库中的信息,在符合可覆盖的要求下,自动覆盖同一请求邮箱下的原同名附件,方便管理的同时,确保了论文与其相似性检测报告的一致性。

5 结论

本研究以当前大学生毕业论文相似性检测现状中,存在的论文查重需求大、时间集中、缺乏自动化手段带来的突出供需矛盾为问题驱动,以极大提高大学生毕业论文相似性检测效率、降低社会成本、引导大学生提高科研水平、防范学术不端为导向,探讨了大学生毕业论文相似性检测自动化系统的研发。经将大学生毕业论文相似性检测分解为论文的收集、上传和检测、报告自动返回三个步骤,在技术研发上规划为邮件收发、查重检测两个子系统,通过建立的数据库实现数据的耦合、解耦,实现了在一个集成统一的界面中论文相似性检测的自动化。为便利运维,系统预留了辅助脚本,提高了系统的开放性和可扩展性。

猜你喜欢

查重毕业论文附件
附件三:拟制定的标准汇总表
学位论文查重乱象引关注
关于TSG 07——2019附件M与TSG Z0004——2007内容的对照
论文查重别大意
学术论文该“查”什么?
附件 注释体例
本科毕业论文:取消还是改革