基于角色行为的伪孪生网络学术不端检测模型研究

2022-08-13陈大文

无线互联科技 2022年10期

陈大文

（江苏金盾检测技术股份有限公司，江苏南京 210000）

0 引言

随着互联网迅速发展与学术竞争的加剧,学术期刊投稿过程中产生的学术不端行为日益严峻。这种现象侵害他人知识产权,扰乱学界秩序,阻碍了科学的生产和进步。中国科协早在2007 年就发布《科技工作者科学道德规范》进行规约,美国科学技术政策办公室则在2000 年就对学术不端行为进行了定义。学术不端是一个较为宏观的概念,根据2019 年5 月所发表的《学术出版规范——期刊学术不端行为的定义》中的新界定,可初步将学术不端行为分为剽窃、伪造、篡改、一稿多投等类型。当前所面临的不端行为现象日益复杂,需要通过更有针对性的技术方法进行有效检测和识别。

面对严峻的学术不端境况,国内外都积极展开了一系列的预防与监管措施。国内的CNKI 科技期刊学术不端文献检测系统(AMLC)［1］从2006 开始正式立项到目前已经规模化使用,具备相当的成熟度。 AMLC 可以进行快速的文献对比,以CNKI 的文献数据库为依托,在几秒内完成文献复制比率的检测,其核心为内容重复比,系统中连续13 个字重复就算抄袭并被标红。但是此抄袭检测方法具有很大弊端,如一旦查重规律被摸透,抄袭者就可以轻易绕开系统监测。国外的CrossCheck［2］是由CrossRef 组织推出的一项服务,主要用于检测论文是否存在抄袭和剽窃行为,自然出版集团(NPG)、爱思唯尔、施普林格等都是CrossCheck 的使用成员。同AMLC 类似,其也是将上传论文与数据库中的海量文献进行分析比对,从而检测文字抄袭或剽窃。其缺点也较为明显,一旦作者有意将文字进行掩饰或通过相关机构帮助润色而间接地消除了“痕迹”,系统将很难检测并识别。

本文提出一种角色行为的伪孪生网络学术不端检测模型,克服了用户通过文字修改而造成的检测难题,利用多种角色的行为数据,综合分析用户异常状态,从而识别不端行为。

1 相关技术

近年来,媒体曝光的学术不端事件涵盖种类多样化趋势明显,既有抄袭手段,又有身份伪造、恶意投稿等不同类型,试图通过一种检测技术或方法识别所有学术不端行为是不可能的。从田瑞强等［3］对Retraction Watch 数据库的分析发现,因重复、造假等原因而撤销的文献达到70%。当今主流的检测技术也是针对诸如此类学术不端行为,而其他学术不端类型的检测技术和方法尚不完善。目前,剽窃检测技术可大致分为3 类［4］。

1.1 基于字符的剽窃检测

基于字符的检测方法只考虑对文本中的字符、单词或字符串进行相似度计算。该方法最合适识别复制和粘贴的抄袭情况。常用的方法有数字指纹、词袋模型［5］、最长公共子序列等算法。在词袋模型中,文本被重新表示为多个单词构成的集合,不考虑其语法和单词顺序［6］。基于字符的剽窃检测的技术最大的问题是不能识别经过同义替换或是文字修饰后的剽窃行为。Grozea 等人使用16-gram 来匹配16 个连续实体序列的相似性从而检测文档的相似内容。

1.2 基于语义的剽窃检测

基于语义的剽窃检测在语义层面计算文本相似度,从而判断文本内容是否存在剽窃行为。即该方法假设两个段落的语义相似性取决于这些段落中相似语义单元的出现。在分析中包括语义特征,如同义词、上位词和下位词,这可以提高释义识别的性能［7］。对每个单词使用规范的同义词有助于检测同义词替换混淆并减少向量空间维度。 Tschuggnall 和Specht 仅分析文本文档的语法,通过句子的语法上找到不合理的地方,区别了一般基于字符的检测技术。 Salvador 等人通过使用skip-grams 改进了加权过程,并应用图相似性度量产生文档的语义相似性得分［8］。

1.3 基于非文本的剽窃检测

基于非文本的剽窃检测主要利用了文章中的非文本元素进行比对识别。 Meuschke 等提出了基于数学表达式的检测方法,并进行实验证明数学公式是独立于文本的有效特征［9］。 Daniel 等人对文献中的图形元素进行了比对分析,并使用图像相似性检测算法发现了大量的图像重用和剽窃行为。另外,还有通过基于参考文献引用的检测手段。

2 模型

2.1 伪孪生网络模型

针对现有技术方法的不足和缺陷,本研究拓展了基于非文本元素的学术不端检测方法。本研究提出了一种分析多角色行为的伪孪生网络模型,用来检测用户在期刊投稿过程中的异常行为,以此检测出存在的学术不端行为。该模型主要有3 个任务:数据集预处理、对数据进行采样和筛选等操作；角色行为分析,通过对文章作者和文章审稿人行为计算分析得出异常概率；结果输出,对伪孪生网络计算的结果综合权衡得到结果。模型的整体框架,如图1 所示。

图1 伪孪生网络检测模型框架

基于伪孪生网络对于相似性检测具有很好反馈的特性,使用两对伪孪生网络,并对称组建了如上图的角色分析模型。模型输入可以被分为两块:文章作者行为数据和审稿人行为数据,分别输入到上方伪孪生网络和下方网络进行分析计算。每一对伪孪生网络不共享彼此的权重参数w,而是使用各自训练的参数w1,w2,w3,w4。伪孪生网络训练采用对比损失函数,以此评估网络区分一对给定数据的能力或效果,对比损失函数公式如下:

为了度量当前角色的行为异常性,每对伪孪生网络都被设计成左、右两个分支网络,左分支网络的输入是需要判断的当前角色操作行为样本,右分支网络输入则是符合该角色行为合理区间的任一常规行为样本。Owi(inputi) 为分支网络对当前输入样本input i的计算结果,即异常概率。特别的,因为右分支网络使用的是角色合理区间的行为样本,所以输出结果始终在正常概率区间内。伪孪生网络的两个输出结果的差值决定了角色行为的偏差距离。本研究使用了欧氏距离计算了结果的偏差程度。最后,模型决策器会考虑两位角色的行为偏差程度,输出最终结果。

2.2 分支网络模型

为了提高模型的效率,本文简化了单个分支网络的组成元素。分支网络层次架构如图2 所示。本文实验数据可总体分为文本数据和行为统计数据,将统计的数值型数据直接送入已构建的多层前馈神经网络中计算,而对于部分文本数据则需要通过语义分析将句子化为分词,然后进行词向量表达,构成词嵌入矩阵w,每个句子都可构成单独的词嵌入矩阵wi。在自然语言处理模型中,将词嵌入向量求取平均值以获取整个文本在向量空间中的表示。这是通用的做法,本研究延续了这种经典的做法。最后使用余弦公式计算向量之间的夹角余弦值,这样就得到了文本间相似度。

图2 分支网络层次模型

经过实验和调整,本文中的多层神经网络最终由3层构成。第一层作为输入层由8 个神经单元构成,接收来自角色的不同行为统计数据和经过语义分析计算后文本相似度数值。如上图所示,经过语义层得到的相似概率作为输入层的输入之一。在隐藏层,本研究设置了5 个神经单元计算特征向量,再多的神经单元则会产生过拟合的风险,这一层使用了PRelu 激活函数,xj表示第j 个feature map,αi为需要学习的参数,公式参照如下:

最后,在输出层设置一个神经单元,并采用softmax激活函数计算分类概率得出预测结果。每一对伪孪生网络都会得出两个输出结果,则一共计算得到2 对概率数值,可分别表示当前行为所隐藏的异常性与普通操作所隐藏的异常性。显然,计算两者的欧氏距离Dis(Lout,Rout) 可获得异常偏差值,其中,Lout为左分支网络输出结果,Rout为右分支网络输出结果。这代表了此时行为与正常行为的偏离程度,值越大代表隐含的异常可能越大,越小则越接近普通行为。

3 数据处理

3.1 数据集

本文的实验数据从合作出版商拿到了相关用户的行为数据集,包括作者的登录、数据修改、文章投稿、文章接受时间、文章出版时间等,同行评议相关的审稿数据包括审稿次数、审稿时长、文章建议等多种数据,共计3 万多平台用户的相关信息被采用。其中,对原始数据进行了大量的前期处理,将部分脏数据和错误数据清除,同时计算了相关行为数据的影响因子,筛出与本次实验关联度较低的变量,得到了更精炼的数据集。角色行为数据集如表1 所示。

表1 角色行为数据集

3.2 评估标准

为了评估模型的性能和有效性,本文采用了混淆矩阵中的查准率(precision)、准确率(accuracy)和召回率(recall)3 个指标作为评价标准。查准率指模型判定为正例的样本中真正的正例样本的比重,准确率指模型判定正确样本在所用样本中的比重,召回率指模型判定正例占总的正例的比重。公式如(3)(4)和(5)所示。

其中,FP表示将真实负例预测为正例的数量,TP表示将真实正例预测为正例的数量,TN表示将真实负例预测为负例的数量,FN表示将真实正例预测为负例的数量。

4 实验

4.1 对比方法

本文采用了多角色行为变量作为模型参数,预测当前用户在期刊投稿平台中是否存在不端行为。根据角色的不同,本研究设计了3 次对比实验,分别对仅有作者、仅有审稿人和多角色进行实验验证。

4.2 实验结果

经过对比实验可以发现,仅通过单一角色行为进行检测分析,模型性能并不能达到令人满意的结果。当把多角色的行为一起考虑并加入模型中训练,整体预测水平得到了一定的提高。实验结果如表2 所示。

表2 对比实验结果

第一次实验仅考虑通过作者的行为进行预测,从表中看出模型有了相当的预测水准,准确率和查准率分别为66.8%和71.2%,介于两者之间,而召回率已达到较高水平。第二次实验仅考虑审稿人行为作为模型输入,训练后的模型性能最差,其3 个评价指标都为最低,说明审稿人行为对其预测任务的影响因素要远低于作者。第三次实验综合了两者,模型性能有所提高,准确率的提升最为明显达到76.5%,召回率提升有限,仅提高了0.4%。从3 次实验可以看出,仅靠单一角色不能有效提升模型预测性能,而加入多位角色的行为进行分析评估可以有效检测出潜在的学术不端行为。

5 结语

如今,涵盖多种学术不端的现象越发突出,面向学术不端场景的检测模型需要更加敏感和全面,仅通过检测抄袭或剽窃类型的方法无法满足当前日益突出的学术问题。文本提出了一种基于多角色行为的伪孪生网络检测模型,分析多个角色在期刊平台上的操作行为,并通过构建伪孪生网络计算角色行为偏差值,获取行为异常性从而发现潜在的学术不端行为。实验证明,该模型可以有效地检测出其中具有的恶意投稿、重复投稿、审稿合谋等非文本层面的学术不端现象,提高了关于平台学术不端的检测效率。