APP下载

基于领域的数字出版物检测系统的实现

2015-12-15殷克涛

现代情报 2015年9期

殷克涛

〔摘 要〕数字出版物的侵权检测能够提高数字出版物质量,净化数字出版物市场,为数字出版物的发展提供良性循环。本文从出版机构所处的领域出发,以其自身所有的资源为基础,利用现有的文献检测技术,在句子层次上实现了数字出版物的相似性检测,从而为出版机构提供一个符合其自身需求的检测系统。

〔关键词〕数字出版物;侵权检测;相似性检测

DOI:10.3969/j.issn.1008-0821.2015.09.014

〔中图分类号〕G2376 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0075-04

〔Abstract〕The digital publishing anti-plagiarism system can promote the quality of the publishing,clear the digital publishing market and establish the virtuous circle mechanism of the digital publishing development.This article built a digital publishing anti-plagiarism system by the sentences comparison.This system could help publishing institutions solve their plagiarism problem based on their own resources.

〔Key words〕digital publishing;anti-plagiarism system;similarity detection

近年来,随着国家加强文化工程的建设,以及数字阅读需求的爆发式增长,数字出版物得到了前所未有的发展。在发展的同时,很多出版机构为了追求赢利而忽略数字出版物的质量,特别是在书籍、资料等文献领域,内容重复、剽窃侵权现象严重,极大地损害了原创者的利益。已有的数字出版物检测系统贪大求全,忽略了出版机构对于检测系统的专、精、深的特定需求,造成资源浪费严重。同时,专业领域内的文献资源往往比较混杂,即有书籍、报刊、也有一些共开的文件以及内部资料等等,需要检测系统能够进行跨文档、跨格式检测。而当前已有的检测系统大都只专注于论文及网页的检测,所检测的对象比较单一,并不涉及书籍、资料、内部文献等多重格式的文献检测。因此,如何解决专业领域内数字出版物剽窃的检测是当前我们急需解决的重要问题。

提高数字出版物的质量,净化数字出版物市场,降低编辑审阅的成本,减少读者的阅读干扰因素,打造良好的市场培育能力是当前一些出版机构的当务之急。这首先需要解决领域内的出版物剽窃现象,加强数子出版物相似性检测,杜绝劣质数字出版物的产生。本文从数字出版物所涉及的领域入手,以数字出版物的句子为基本单元,利用已有的编辑距离检测方法实现了领域内数字出版物的相似性检测。本检测系统简单,容易操作,配置要求相对较低,适合各个小的出版单位自行解决领域内数字出版物的文献抄袭行为。

1 相关的研究

文献相似性检测主要涉及两个方面:一是检测对象,即对应的数字资源。二是采取可靠的检测技术,主要是相似度的计算。首先从检测技术来看,在文档检测领域的研究中,主要从3个方面来实现文档相似性的比较。一个是利用词频统计的方法来实现文献相似性的比较。该方法通常是将文本中的低频词忽略掉,以高频词作为相似性检测的对象,通过相似词的词频并结合一些特征判断的方法来实现相似的检测。典型的是1995年Garia-Molina等提出的SCAM系统[1]。这类检测系统的优点是简单、速度快,缺点是结果并不理想。第二种方法是从文档的结构出发以某一结构中包含相似字句作为比较的对象来实现文档相似性的检测。利用文档结构来实现检测的系统通常以文档的章节、段落、句子作为结构处理对象,以句子或文本的词性、词序与之相结合作为相似度的比较依据,并通过香港理工大学的Si和Leong在1997年研发的CHECK系统[2]利用关键词统计再加上文本结构信息实现文本相似性检测。宋擒豹等于2003年提出的CDSDG系统[3]以及鲍军鹏在2006年提出的DCDGrid系统[4]也是在检测系统中利用了文档、句子的结构。杨思春提出了一种改进的句子相似度计算模型,以关键词抽取,结合同义词比较,并以词形加词序来实现句子相似度的计算[5]。程克明以文本的结构和内容作为检测对象,从文本中抽取其目录作为目录树,利用关键词统计和加权树性结构来实现文献相似性检测[6]。从结构入手能够大幅提高检测结果的质量,但是检测效率有待提高。最后一种是利用数字指纹方法是实现文献相似性检测。数字指纹是通过对文档的字符串进行哈希运算,得到字符串的不同的哈希值,形成“数字指纹”,并利用哈希表中相同的指纹数目或者比率作为字符串相似性比较的依据,进而得到文档的相似性。典型的是亚利桑那大学的Manber在1994年提出了一个Sif工具[7],以字符串的Hash运算值作为检测值来实现大型文件系统中查找相似文档。1995年斯坦福大学的Brin等人提出COPS系统[8],1996年Heintze的KOALA系统[9]以及后来的Broder的Shingling算法[10]和Charikar的Simhash算法[11],都是基于近似指纹的字符串匹配的算法进行复制检测的。数字指纹运算快,适合大量数据之间的相似性计算,因此得到广泛的应用。近年来,随着语义技术的发展,将语义技术融入相似性检测中成为相似度检测的趋势。中国人民大学的夏天提出的xsimilarity项目实现了基于词语的语义相似性检测[12]。同时,在相似性检测上,还有很多其它方面相似度的测量,例如斯坦福大学的Alex Aiken 1994年开发的MOSS系统能够实现代码、文本等多种表达语言的相似性检测[13]。endprint

其次从检测对象领域来看,大多数检测系统并不涉及书籍、报刊、资料等内容的检测,只注重期刊、论文、网页的检测,而且多数检测系统采取数据全盘扫描模式,并没有领域之分。以中国知网CNKI为例,其在侵权检测的方面存在3个子系统:《科技期刊学术不端文献检测系统(AMLC)》、《学位论文学术不端行为检测系统(TMLC2)》、《社科期刊学术不端文献检测系统(SMLC)》。它们都以《中国学术文献网络出版总库》为全文比对数据库,可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献,可供期刊编辑部检测来稿和已发表的文献[14]。这种做法极大地提高了检全率,但是也消耗了大量的资源来处理不同领域的内容,甚至因为在医学、物理、文学之间进行相似性检测而产生了一些毫无意义的结果。

由于出版机构特别是一些专业出版社其经营领域相对固定,经常需要处理的都是一些即定领域的文档,并不需要其它领域的文献作为其资源库的一部分。同时,由于日常的工作积累,使其不仅拥有一些规范性的文档,也拥有一些不规范的内部资料,而这些文档对于很多检测系统来说并不支持。因此,当前的一些检测系统并不适合于当前的出版机构特别是一些专业出版社。

2 基于领域的侵权检测系统

基于领域的数字出版物文档侵权检测系统能够针对某一出版机构所拥有的特定的数字资源,实现被检测文档与资源库中的文档资源相比较,发现存在相似性的语句,达到了侵权检测的要求。它需要解决以下几个方面的问题:首先,能够解决特定领域内的知识剽窃问题。要适合某些特定领域,就要求其能够识别该特定领域内所有类型的知识,并进行相似性检测。这些知识可以是书籍、论文、期刊、资料等。它也需要其能够构建自身拥有的特色资源库,即一个包含多种类型文献的综合性知识库。其次,该检测系统需要能发现问题,即找出重复内容并将结果显示出来。当然,这也是侵权检测系统的核心,它要求侵权检测系统能够有很好的相似度计算方法,同时也要求能够处理各类文档并进行相似度计算。再次,要求简单。简单一方面表示容易操作;另一方面表示其对于系统的配置要求相对较低,适合各个小的出版单位自行解决数字出版物文献侵权抄袭行为。本文以数字出版物作为检测的对象,利用当前的文献处理技术,结合前面介绍的相似度解决方案,将检测资源对象局限于领域之内,实现了数字出版物相似性检测。

21 数字出版检测系统的框架

本系统的框架结构,如图1所示,其包括4个子模块,“文档识别模块”、“文档处理模块”、“句子比较模块”和“报告输出模块”。侵权检测系统利用这4个模块实现了数字出版物与资源库(检测文库)中文档进行相似度的计算,获取它们的相似性度量值,判断是否存在着重复内容,从而达到检测文档是否存在抄袭行为。通过这4个模块实现了整个数字出版检测的装载、识别、处理、比较与结果的输出。

“文档识别模块”负责识别数字出版物的类型,读取数字出版物的内容。“文档识别模块”实现数字出版物的装载和文档进行简单的处理。主要是辨别文档的类型、将文档中的图片处理掉,并将文档转化为能够识别的文本内容。“文档识别模块”能够识别出版机构所拥有的多种文献类型,包括常见的PDF、DOC、DOCX、TXT等。识别的文档会存储在一个临时构建的文件夹中。“文档识别模块”还需要从资源库(检测文库)中依次读出其所包含的文档,并将其和识别出的数字出版物文档一起交给“文档处理模块”进行下一步的处理。

“文档处理模块”负责将识别出的文档进行加工处理。其目的是将读入的文档进一步进行细分,以求达到文档检

测所需要的粒度。在本侵权检测系统中,“文档处理模块”按照文献表达的基本单位——句子来进行分解。在分解过程中采取获取“。”、“!”、“?”等分隔符将数字出版物分解成独立的句子。分解后的文档就变成了一个句子集合D={s1,s2,s3,…,sn},在此基础之上进行去噪——将长度小于一定值的句子去掉,不进行相似性检测,其目的是过滤掉较短的句子如eg之类。最后将它提交给“句子比较模块”。“文档处理模块”还有另外一个功能是从“句子比较模块”那里获取到数字出版物与文库文档的每一个句子之间的相似度的计算值,并在此基础上进行汇总,进一步计算出文档级相似度,从而确定两篇文档的相似程度,并将结果传递给“报告输出模块”。

“句子比较模块”主要负责实现句子相似度的计算,并返回计算结果。它将“文档处理模块”传递过来的句子按照Levenshtein 距离算法(编辑距离算法)进行计算,从而获取句子之间替换的步数,以此作为相似性的计算度量。“句子比较模块”将计算的结果返回给“文档处理模块”,同时,记录存在相似度高的句子,传递给“报告输出模块”。

“报告输出模块”是数字出版物相似性检测结果的展示模块。它包含两个部分,一个是显示在程序界面上的粗略检测结果。另一个生成一个基于浏览器的网页版报告。“报告输出模块”主要是将被检测文档名、检测文档名、相似度以及相似性文档片段以表、图的形式显示给用户。

22 检测文库的构建

检测文库是出版机构所拥有的资源库,它是检测系统的检测依据。资源库的构建可以采取数据库建库方式和文件夹方式。数据库稳定性强,效率高,但是需要购买独立的服务器与数据库,并且还需要专业的维护,因此,成本费用较高。而采取文件夹相对比较简单,维护也相对容易。本系统的资源库采取简单的文件夹构建方法,通过将其所包含的资源集中在一个文件夹中形成自身资源库。

相比其它的检测系统,资源库中有多种类型的文档,因此,需要采取多种处理器来处理这些文档,将其转换为能够识别的文本文档。针对检测文库资源的多样性,在“文档识别模块”采用了多种解析器,能够支持PDF、DOC、DOCX或TXT等多种格式的来源文档检测。

23 句子相似度

本侵权检测系统以句子为基本单位,在句子的基础采用经典的Levenshtein距离算法(也称编辑距离算法)对句子进行相似度计算。以句子为基本单位符合著者表达完整的思想,同时,也非常适合文献量大的图书、文档、资料等的处理与分析。而编辑距离算法则是一个非常实用的字符串相似性检测算法,其基本思想是通过找出两个字符串之间由其中一个转换成另外一个所需的最少编辑操作次数,并以此作为相似性度量的依据。编辑操作次数指的是插入、删除、修改字符的次数。由于编辑距离算法并不进行语义计算,同时,简单、检确率高,因此,其有着很广泛的应用,这也是本文采取该算法的原因。endprint

利用前面的框架以及句子相似度计算形成了本文的检测系统,如图2所示。

3 结 语

与市面上大多数侵权检测系统不同,本侵权检测系统基于领域角度,以句子为基本单位,采用经典的Levenshtein 距离算法,实现了数字出版物相似性检测。经过我们测试,其能够很好地反应出数字出版物之间的相似程度,满足检测的要求。同时,本侵权检测系统的资源库可以根据自身的需要针对某一特定的领域自行构建,灵活性强,对于资源、配置以及管理的要求比较低,适合大多数出版机构以及其它小型信息资源管理机构。

参考文献

[1]Shivakumar N,Garcia-Molina H.Building a scalable and accurate copy detection mechanism[C].In Proceedings of 1th ACM international conference on digital libraries,Bethesda Maryland,USA,1996:160-168.

[2]Si A,Leong H V.,Lau RH..CHECK:A Document Plagiarism Detection System[J].Journal of the ACM Symposium for Applied Computing,1997,8(6):70-77.

[3]宋擒豹,沈钧毅.数字商品非法复制和扩散的监测机制[J].计算机研究与发展,2001,38(1):121-125.

[4]鲍军鹏,沈钧毅,刘晓东.一个基于网格的文本复制检测系统[J].微电子学与计算机,2004,21(9):7-10.

[5]杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,(6):956-959.

[6]程克敏.基于文本结构和内容的中文论文复制检测系统研究[D].合肥工业大学,2007.

[7]Manber U.Finding similar files in a large file system[C].In Proceedings of the Winter USENIX Conference,California,USA,1994:1-10.

[8]Brin S,Davis J,Molina H G.Copy Detection Mechanisms for Digital Documents[C].In Proceedings of ACM international conference on management of data(SIGMOD),San Francisco,CA,1995:398-409.

[9]Heintze N.Scalable document fingerprinting(extended abstract)[EB/OL].http:∥www.cs.cmu.edu/afs/cs/user/nch/www/koala/main.html,2014-07-12.

[10]Broder A Z,Glassman S C,Manasse M S.Syntactic clustering of the web[C].In Proceedings of the 6end International Web Conference,Santa Clara,1997:1157-1166.

[11]Charikar M.Similarity estimation techniques from rounding algorithms[C].In Proceedings on 34th Annual ACM Symposium on Theory of Computing,May,Montréal,Québec,Canada,2002:19-21.

[12]GitHub.xiatian相似度计算软件包[EB/OL].https:∥github.com/iamxiatian/Xsimilarity,2014-07-20.

[13]Aiken A.Moss:A System for Detecting Software Plagiarism[EB/OL].http:∥theory.stanford.edu/~aiken/moss,2014-05-14.

[14]CNKI科研诚信管理系统研究中心.学术不端检测系统介绍[EB/OL].http:∥check.cnki.net,2014-11-24.

(本文责任编辑:郭沫含)endprint