数字图书馆视域下学术论文图像篡改造假检测研究

2018-07-26徐彤阳任浩然山西财经大学信息管理学院山西太原030006中科院文献情报中心北京0090

现代情报 2018年7期

徐彤阳任浩然(.山西财经大学信息管理学院，山西太原 030006；2.中科院文献情报中心，北京 0090)

2016年1月15日，教育部、财政部和国家发展改革委三部委联合印发了《统筹推进世界一流大学和一流学科建设实施办法(暂行)》，表明我国高校变革发展正式进入实施阶段。在建设一流大学和一流学科的过程中，科研综合实力是判断各大高校是否属于一流学校的重要标准之一。然而，在加快双一流建设的过程中，由于科研管理制度的不完善导致社会出现急功近利思想，驱使学术不端人员为了“成就”和“声誉”抄袭、剽窃他人的学术成果，造成学术风气的败坏，破坏了学术研究的公平和公正，直接影响我国双一流建设的成果。同时，随着互联网技术的发展以及信息传播平台的多样化,信息传播更加便捷，在促进各个学科的快速发展，方便人们便捷的获取学术信息的同时，也为某些学术不端者的抄袭提供了捷径。

在大数据时代，纸质型的学术资源慢慢淡出人们的视野，学术作品的电子化、网络化程度越来越高，数字图书馆积累了大量的电子化数据。作为学术健康发展的“守门人”，各高校图书馆对科研成果进行甄别和鉴定时承担着重要的责任。因此，研究数字图书馆的信息鉴别技术，提升其信息服务质量具有重要的意义[1]。

目前，虽然已经有了许多成熟的技术去鉴别造假的科研文章，但研究仍然集中在对文字抄袭方面，而电子期刊的论文中除了文字以外，还有大量的图像数据，这些数据往往能够表达丰富的内涵，在论文中起到至关重要的作用，也极易引起抄袭和篡改[2]。而且，随着图像处理软件的普及和操作简便化，人工鉴别的方式很难判断图像是否经过修改。这就使学术不端人员有机可乘，擅自利用软件篡改他人论文中的图像数据，形成图像篡改的学术造假。因此，数字图书馆对科研成果中图像篡改的学术造假行为的甄别和检测已经迫在眉睫。

本文提出了一种能够检测高校图书馆数据库中论文存在图像篡改痕迹的方案，为弥补数字图书馆检测系统缺陷提供一种新的参考思路，进一步加快大数据时代数字图书馆服务技术变革，促进信息服务水平的提升。

1 论文查重检测技术概述

1.1 论文查重技术研究现状

大数据时代下，人们获取信息的途径十分便捷，这就为一些研究人员抄袭和篡改他人的研究成果提供了便利。数字图书馆作为收录方和检测方，应该不断革新技术，杜绝抄袭数据流入互联网络，为用户提供优质的信息服务。因此，为了防止学术造假的现象进一步扩大化，学术造假检测研究成为信息服务领域的一个新的研究方向。目前，论文的查重技术主要检测的对象以文字为主[3]。

1976年，Ottenstein等人最先指出数字图书馆中文档数据容易被复制造成版权侵犯，后来又提出了一种源代码属性计数法[4]，通过实验能够有效检测被抄袭的代码，之后，随着互联网技术的发展和数字资源的不断膨胀，研究人员逐渐加大对文本抄袭现象的研究力度。1991年，相关学者研发出首个可以检测文本中有抄袭内容的检测工具——WordCheck[5]，采用关键词匹配的方法来计算相似度。Z Su等人[6]采用了一种混合的检测算法，该算法结合了生物序列局部相似性识别和量化原理，并考虑了心理因素，可以有效检测包括插入、删除或替换单词等剽窃行为。Anguita A等人[7]基于自然语言处理技术和机器学习方法，提出了一种检测电子文档中跨语言剽窃的新方法。国内关于复制检测方面的研究落后于西方，2002年，宋擒豹等人[8]针对数字上非法复制和扩散，提出一种数字正文重叠性度量算法可以准确地检测复制和移位等数字非法复制行为，具有较强的扩展性。赵俊杰等人[9]提出了一种基于段落词频统计的论文抄袭判定算法，不但可以检测出抄袭者成段抄袭的情况，而且可以检测出段落中语句顺序改变、段落内容压缩和扩充的情况，若疑似抄袭还可以将抄袭论文和被抄袭论文的相似内容输出，方便用户进一步审查。杨超[10]提出了一种综合文本分析、结构度量和属性计数的混合式程序抄袭检测方法，可以多种抄袭行为，具有较高的准确率和查全率。

随着对检测技术的深入研究，我国对学术论文的复制检测技术已经达到商业应用的程度，各大高校、图书馆和机构常用的中文电子期刊全文数据库主要有CNKI、万方和维普这3种数据库，每种数据库都有各自的检测系统，各检测系统的特点如表1所示：

表1 国内学术不端检测系统的特点

其中，中国知网开发的科技期刊文献检测系统AMLC在3个常用检测系统中对论文数据查重监测最为全面，数据库中包含的类型有中国学术期刊网络出版总库、中国博士/硕士论文全文数据库、中国会议全文数据库、互联网资源、英文数据库、图书资源等。在检测时，CNKI检测系统在检测一篇文章时能够在约2～5秒的时间内就能比对完各个数据库，并显示比对的结果，检索效率高，检测结果精确[11]。万方论文相似性检测系统是基于万方数据公司所收录的期刊论文、学位论文、万方数值数字化期刊全文数值库、万方数值学位论文、常识服务平台的全文数值库等海量数据,运用先进的检测算法研制而成,它具有检测速度快、检测准确等特点[12]。通达论文检测系统是由维普公司与通达恒远信息技术有限公司及北京多所重点高校共同合作开发的文本检测系统，该系统自主研发的大规模文本处理技术，通过对文档关键语义片断的识别、检测，可检测出文档中存在的不当引用、过度引用，甚至是抄袭等现象。通过计算出文档的引用率、复写率和自写率等重要指标，为各级论文评定、检测、发表机构提供论文评定和论文收录的检测依据，为个人写作者提供写作辅导及论文自查服务[13]。

1.2 论文查重技术目前存在的问题

随着对学术不端文献检测系统的大量运用，但系统的局限性也导致一些问题出现：

1.2.1 检测盲区影响检测结果

检测系统无法全面检测论文，主要体现在以下3个方面：第一，时间上的滞后性。论文发表一般要经历投递、审核、排版和收录等环节，周期在几个月甚至一年以上，这些未公开的文章还没有被数据库收录，因此在检测时就会缺少一部分比对数据。第二，语言上的限制。近年来，国内越来越多研究人员为了完成科研任务，从外文文献中剽窃他人的观点甚至直接翻译抄袭他人的学术成果，国内的检测系统中跨语言检测功能还未完善，导致“跨国抄袭”的现象日益严重。第三，数据库的有限性。目前国内的检测系统还无法做到全面的收录所有的文献数据，例如互联网资源，由于互联网传播速度快，发表内容便捷，其中不乏一些质量高、具有一定价值的文章，检测系统无法及时有效的收录这些信息就会导致在检测时存在漏检的问题。此外，由于知网、万方等知名数据库之间竞争激烈，为了在行业中获取优势，争相与不同的学术期刊签订独家合作协议，获取优先出版的版权，这也导致各检测系统中的学术资源并不全面，不可避免地影响到最后的检测结果[14]。

1.2.2 无法甄别合理引用

学术不端检测系统的智能化程度较低，无法正确区分论文中的引用部分和抄袭部分。有些引用部分被检测系统检测为抄袭的合理性也有待商榷，例如综述类的文章往往被检测出的重复率更高，但这类文章仅仅是对前人的观点做复述和引证；又如在引用专业性的理论和概念时，为了体现论文的严谨，会整句引用，也会被检测系统标为抄袭内容。此外，学术不端检测系统在识别文章中不加标注的合理引用与不当引用也缺乏有效性，二者均显示为高重合率[15]。因此，如何提高学术不端检测系统检测的合理性，不断完善和改进系统功能从而解决鉴别文章是合理引用还是抄袭的问题，也将是相关研究人员接下来值得关注的主要方向。

1.2.3 文本以外的其他形式的抄袭无法检测

在检测系统中，还存在一个比较明显的局限性：文章中除文字以外的数据检测功能缺失，从表1中我们不难看出，目前国内的三大常用的检测平台都没有针对图件的识别。图像往往内容丰富，相比文字能够更加生动表达作者的观点、创新等，在文中具有十分重要的意义，然而随着图像编辑软件的普及和应用的便捷，越来越多的人对图像内容进行人为的篡改。目前对文章中是否有图件数据抄袭，要靠编辑和专家依靠经验进行查询，认真分析、审核判断，然而人的精力有限，无法做到对相关的所有文献进行比对。因此尽快在论文相似性检测系统中增设完善的图表识别功能显得尤为重要和迫切，这也是本文研究意义之所在。

2 数字图书馆图像篡改检测模型的设计

通过梳理国内外学者对论文查重的研究和国内学术不端检测系统的不足发现，检测系统大都是针对文本内容的甄别检测，而图情领域对论文中存在图像篡改现象的检测尚处于探索阶段，对图像篡改检测的研究会是一个新的发展趋势。

论文中图像数据的篡改体现在原图像的真实性或者内容完整性的改变。真实性就是原图像所表达的概念被扭曲，被篡改后的图像与原图像呈现不同的意义，图像编辑里常用的技术有图像增强、变形等。完整性是指图像中部分内容被增加或者删除。不论论文中原图像的真实性被改动还是内容的完整性被破坏，都会留下改动的痕迹，通过判断这些痕迹就能找到图像中被篡改区域并且定位，是图像篡改检测的理论基础[16]。

2.1 数字图书馆图像篡改检测系统模型构建

为了解决目前数字图书馆或学术资源平台中存在的检测系统无法识别图像篡改这一问题，本文提出一种基于图像篡改的学术不端检测模型，该模型主要由论文图像提取、图像预处理、特征计算、置换区检测4个模块组成。图像采集提取模块主要负责图像数据的收集工作。图像预处理模块实现图像数据归一化、图像插值放大等功能。特征计算是该模型能否实现的核心，本文采用的是有限差分特征提取算法，可以有效提取被放大后图像的特征值。置换区检测最终实现图像篡改检测功能。具体模型如图1所示。

图1 数字图书馆图像篡改检测系统模型

2.1.1 图像采集提取模块

数字图书馆和学术资源平台中存储的数据大多是PDF格式的论文，虽然也有部分少量的图像数据，但图像信息主要集中在PDF论文中。因此，在采集图像数据作为比对数据库时，除了直接收集以图像格式存储的数据，还要提取论文中的图像信息。提取PDF文件中图像信息是实现图像篡改盲检测的基础，直接影响检测效果。本文提取PDF文件中图像数据采用的方法是：首先读取PDF中的交叉参考表，交叉参考表中存有所有对象的入口地址，利用相关程序就可以定位图像对象；然后，根据PDF文档结构和页面树结构，对PDF中包含图像信息的页面按顺寻进行精准的搜寻，定位图像具体的位置后依次提取压缩数据，将得到的图像数据保存为JPEG格式。最后要将提取的图像信息正确的组织起来，不同类型的图像在保存到文件时可以按照中图分类号放置于图像数据库当中。

2.1.2 图像预处理模块

采集完成后，就要进行图像预处理工作。图像预处理是为了改进特征提取、提高匹配和识别的可靠性而进行的消除图像中无关的信息或增强有关信息的可检测性等采取的一系列操作。经过预处理操作，可以方便后续工作的开展，提高工作效率。数字图像篡改的种类非常多，学术不端人员可以对原图像进行拼合、润色、增强、变形等操作，不同的篡改行为会导致不同的效果。为了验证本文提出的图像盲检测模型的可行性，笔者主要针对论文中一类被放大篡改行为的图像检测。因此，实验过程中，该环节首先对被检测图像数据进行放大处理以更好地完成图像篡改检测。

图像缩放算法中常用有最邻近插值算法与线性插值方法。最邻近插值算法就是将目标图像各点的像素值设为源图像中与其最近的点，该算法计算量小，运算速度块，但可能造成插值生成的图像灰度上的不连续，在灰度变化的地方可能出现明显的锯齿状，如果用这个方法进行图像放大，那么在放大比例较大的情况下就会出现非常明显的“马赛克”现象。线性插值就是连接两个已知量的函数表达式，确定这两个已知量之间的某一函数值的方法。该方法在放大图像时能使像素的过度较为平滑，有效解决了最近邻插值算法的缺点，在图像处理领域经常使用。因此，图像预处理时本文主要采用线性插值方法对图像放大。

图像经过不同比例插值放大的效果如图2所示。

图2 不同插值变换后的图像

2.1.3 特征计算模块

图像特征提取是图像篡改盲检测的关键环节，直接影响图像篡改检测的检测效果。目前图像篡改特征计算方式主要有两种方式，一种是针对图像的复制粘贴进行特征提取；另一种是图像的拼接篡改进行特征提取[17]。复制粘贴篡改就是将原图像中的部分内容经过篡改行为从新复制粘贴到图中的其他地方，经过粘贴的区域为篡改区域。针对图像复制粘贴篡改盲检测技术有基于DCT的块特征检测方法，如Y Cao等人[18]提出一种有效检测区域复制图像的方法，首先将原始图像分成固定大小的块，然后对每个块应用离散余弦变换DCT系数来表示。其次，每个余弦变换块由一个圆块表示，并提取四个特征以减少每个块的维数。最后，将特征向量按字典序排序，组成一个4维的向量。T song等人[19]提出一种新的特征描述符，对图像局部结构进行量化，然后提取和重排二维DCT特征，所得到的DCT系统的一个子集作为新的特征描述符。常用的检测方法还有基于纹理的检测算法和基于傅里叶变换的块检测算法等等[20-21]。图像拼接篡改就是将原图像中的部分内容截取放入另一幅图像当中去。拼接篡改的盲取证方法有基于整体特征分类检测方法，如Z He等人[22]提出一种基于马尔科夫的方法，首先利用马尔可夫等人提出的离散余弦变换概率矩阵生成的原始特征，然后在小波变换域构造更多的特征来表征小波系数在位置、尺度和方向上的3种依赖关系，最后利用支持向量机对真实图像和拼接图像进行分类。仝威等人[23]提出一种基于熵和多步马尔可夫特征的图像拼接检测算法，该方法先从原图、3阶Haar离散小波变换(DWT)和多尺度分块离散余弦变换(DCT)中提取图片的信息熵,再从图像的分块DCT系数中提取多步马尔可夫转移概率矩阵,由信息熵和多步马尔可夫转移概率矩阵组成统计特征,利用支持向量机分类器进行分类得到判决结果。除此之外还有基于局部特征的拼接算法和基于篡改图像处理痕迹的拼接检测算法等。

图像篡改方式种类繁多，为验证本文提出的数字图书馆图像篡改检测模型可行性。在实验时主要针对一类图像放大的拼接篡改检测。在篡改他人图像时，经常会发现学术不端人员常常将原图像中的某一重要内容截取，拼接到另一幅图像中去，并且在拼接的过程中对篡改内容的大小进行修改，最终被篡改者引用到自己的文章当中。经过放大后篡改的图例如图3所示。

图3 图像插值置换

针对插值放大图像检测方法的研究已经受到广泛的关注，如B Mahdian等人[24]通过插值分析，提出一种能够找到重采样和插值痕迹的周期检测方法；M Kirchner等人[25]提出一种基于空间域局部线性预测残差信号的周期性检测方法。这些算法虽然能够检测出插值放大的痕迹，但存在运算复杂、有损JPEG图像和检测正确率较低等问题。因此，在实验过程中，本文主要采用一种新的有限差分算法对上述篡改现象进行特征提取。该方法不需要迭代运算，计算简便，能够对图像篡改痕迹进行精准的定位。有限差分公式中yi[n]经过R阶有限差分后可以表示为：

ΔRyi[n]=ΔR-1yi[n+1]-ΔR-1yi[n]

(1)

其中，n=0，1，2，…，n，ΔR代表R阶有限差分。

2.1.4 图像检测模块

提取出图像篡改的特征值后，我们就要进行最终的篡改盲检测阶段。通过有限差分置换方法能够对经过放大的插值图像引入周期性，利用这种周期性的特点就能计算出被篡改图像的插值数，此外，不同插值数可以根据差分序列的时域周期性进行判断和鉴别。在检测时，就可以根据图像是否具有周期特性来检验图像插值篡改的行为，如果存在插值操作，就可以通过周期性的异同实现对局部置换区域的准确定位，从而实现论文中被篡改的图像盲检测功能。

2.2 实验验证与分析

为保证本文所设计模型的有效性，笔者针对本模型进行实验验证。实验环境如下：操作系统为Windows7，双核2.1GHz，内存为4GDDR3，采用Matlab2015B软件编程。本次在预处理时首先采用上述3种插值放大方法对图1(a)所示的像素大小为256×256的图像，分别进行1.5、2.25及4倍于原图像的3次插值放大。然后采用有限差分方法提取具有周期性的篡改特征，最终完成定位和检测图像中被篡改的痕迹。再利用有限差分算法对其周期特征进行检测。其中，最近邻插值方法在经过一阶有限差分序列后会出现周期性，而另外两种方法则需进行二阶或多次差分。经过3种插值方法放大并选取不同的插值因子后，具有周期性的频谱就能够清晰地呈现出来，如图3所示。因此，可通过归一化的幅频就能准确的计算和定位被篡改的图像痕迹。仿真实验的结果验证了本文采用方法的实用性和有效性。

最后，为了展示篡改图像的实际检测效果，笔者选取了3组篡改的图例进行检测。对经过最近邻插值、线性插值及3次插值3种不同类型的插值放大方法分别对图像部分内容进行1.25倍、1.5倍和2倍放大。如图5所示，其中a和b为原图像，将a图像中的部分区域经过插值放大后拼接到b图像形成篡改图像c，而图像d中的白色区域即为经过有限差分置换检测后显示的区域。从仿真实验的结果可以清晰地看到，不同插值算法放大的图像能够被有效地检测定位出来，其中针对最近邻插值检测的效果最好。因此，本文设计的图像篡改盲检测模型在针对论文中图像篡改的检测具有较高的可行性。

3 结语

近年来，学术不端在期刊中频频发生，伴随着大数据的发展，数字图书馆和相关学术资源平台的抄袭数据呈现逐渐蔓延的趋势。而随着图像处理软件技术的快速发展，为图像篡改这类学术不端行为提供了新的土壤。目前人们更多的是对文字抄袭等进行鉴别和检测，而现有图像取证技术发展的速度相比图像篡改技术的要远远落后，尤其在图情领域中，大部分检测系统缺乏对论文中图像的检测功能，缺乏对篡改图像痕迹的取证技术，侵害了他人的知识产权，造成学术不端行为进一步加深。因此，面对这类问题的日益严重，需要引起人们的高度重视，同时迫切需要一种对接触到的图像的信息真实性进行有效确认的方案和技术，形成一道坚实的抵御学术不端行为的“防火墙”。

图4 3种插值方式和插值因子对应的幅频图

图5 检测结果图

在这种背景下，相关学者逐渐加大了对图像篡改盲取证研究的力度，该领域应用广泛，具有良好的研究前景。本文针对数字图书馆学术不端检测系统中无法有效检测图像篡改的缺陷，提出了一种数字图书馆图像篡改检测模型，详细介绍了每种模型的功能，并通过实验证实了该模型的有效性，为数字图书馆的图像篡改盲检测提供了理论支持。在提取图像篡改特征值时，主要采用了有限差分方法，通过仿真实验证明，本文提出的图像篡改模型对最近邻插值、线性插值和3次插值这3种不同插值放大后的拼接放大篡改图像，通过周期性的异同性能够精确捕捉被修改的痕迹，其平均检测率可高达99.67%。同时笔者提出的有限差分置换检测方法在面对高斯白噪声和有损JPEG压缩等因素的干扰时具有一定的鲁棒性。论文中图像篡改除了插值放大置换还有很多其它方式，如何能够高效的检测不同类型的篡改图像，提高检测的效率是今后笔者继续研究和努力的方向。