图像识别系统在鉴定盗版图书中的应用

2009-07-16林小玲

新媒体研究 2009年8期

林小玲

中图分类号：TP2文献标识码：A文章编号：1671－7597（2009）0420026－01

一、盗版图书概述

盗版是我国图书市场乃至世界图书市场的一个顽疾。图书市场盗版、盗印活动的猖獗，已到了无孔不入的地步。几乎所有的畅销图书或教材教辅，甚至权威工具书《新华字典》，都无法摆脱被盗版的命运。盗版行为严重损害了出版社和著作权人的利益，侵害了广大读者阅读正规、高品质图书的权利，贻害无穷。

盗版图书主要有以下几种形式：

1．通过扫描的电子文件输出胶片印刷，其清晰度、色彩等都会与原版书不同。此类盗版书很容易判断，错别字多，纸张粗劣，印刷模糊，偏远地区的出版社，版权页前后不符等等。但现在的盗版书商越来越专业，上述问题他们也在逐渐改善，判断也越来越难。但狐狸终究会露出尾巴，一般封面的原文件他们是搞不到的，只能扫描正版书的封面。受目前印刷技术的限制，扫描后再制片、印刷的封面在色泽上一定会有偏差，如偏暗、偏艳、明暗变化突然等等，而且里面的图纹细节也会很模糊。不同印刷厂提供的纸张常常有差异，主要是质地手感上有区别。另外，盗版书的内容文字，要么是扫描后重新识别成文本文件再出片，那么它的错字率较高；要么是扫描成图片文件直接出片，那么文字的边角就会有些模糊。

2．直接使用电子文件，甚至正版胶片印刷，质量能够以假乱真，这是对排版和印刷环节管理不严所造成的。例如在出版社方面，内部参与编校排人员私下将书稿盗出，盗印发行。

3．不法书商与印刷厂勾结，私自加印图书。印刷厂方面在制版印刷时，主要会采取如下盗版手段：（1）文件另存；（2）另拷照排版；（3）加晒PS版；（4）私自增加印数等等。

这些盗版书，有些假冒出版者名义出版，有的盗用出版社已出版图书的书号，有些甚至自己乱编书号。越来越多的出版社和著作权人意识到，打击盗版不仅是政府的事，更是出版社自身的事。有些出版单位设置了专门的“打盗”机构和专人，从当初单纯投诉和一般化调研的被动状态，到积极调查、主动介入，有组织、有计划地开展工作，并就某些案件提起民事诉讼。因此，做好出版物盗版鉴定工作成为必不可少的一道程序。出版社希望通过有效的、系统的手段，清晰地鉴别出盗版书，分析其盗版根源，通过整理、分析，形成盗版信息分析报告，便于执法部门有重点地打击盗版行为。现今，鉴别工作的所有工序都是通过人工处理的，都是靠出版界专业人士或印刷行业协会专家的个人经验做技术鉴定，缺乏软硬件系统作为科学有效的工具使用。图书盗版是一种专业性很强的犯罪，涉及出版业的一些专门知识，一般非业内人士所知，传统的司法物证鉴定部门要完成此种鉴定有困难。在以往司法实践中，曾以被盗版的正版出版社或其下设的出版部有关人员为鉴定人，出具鉴定结论，作为法庭证据。这种情况下的鉴定注重正版书的特征，用正版与盗版比较得出结论。

每个出版社的图书都有其独特之处，一般只有该出版社的出版部人员最了解。其常规鉴别方法如下：正版图书的用料，包括正文用纸、内封或环衬用纸、封面用纸或其他用料是国产的还是进口的；图书的装订方式是胶订联动装订还是人工素线装订；图书是否含防伪水印；水印是否真实等等。随着出版社内部管理系统如ERP（Enterprise Resource Planning，企业资源管理计划）的完善，鉴别方法也有了进一步的发展，可以先针对图书身份验证的重要信息数据书名、书号进行数据排查，初步确定是否为假冒出版者名义，或已出版图书的书号，或是自己乱编书号出版等的盗版方式。

虽然由出版社内部人员鉴别正版与盗版最直截了当，但是被盗版的出版社是此类案件的利害关系人，由他们做鉴定往往不符合鉴定结论的法定条件，在司法实践中常被诟病。因此，仍然需要有第三方参与的科学的鉴定结论，这就需要有一套相对完善的系统支持。本文结合图像识别技术，以图书封面、内文数字图像为对象，综合运用图书出版制作管理技术、数据库技术、图像处理、模式识别原理，设计一套专供出版社或鉴定单位进行基于图像识别的盗版图书鉴定系统。

二、核心技术及设计思路

一直以来，国内外出版社和发行单位防止和鉴别盗版图书工作大多集中在印前工艺和印刷工艺上，如反盗版专用标识、新式防伪纸、在图书上粘贴激光防伪、数码防伪标贴等方式。最近，一项物品身份信息管理新技术“S－DNA元素标记信息技术”的问世，为打击盗版增添了新武器。中国版权协会反盗版委员会近期还推出了“反盗版短信防伪信息系统”，该系统是通过推出全国统一的反盗版短信防伪标识，利用现有短信息防伪技术结合反盗版工作的特点和需要，集数据库技术、远程访问技术、安全技术于一体的新型电子防伪反盗版系统。目前尚没有专供出版社进行盗版图书鉴别用的基于图像识别的系统，但该系统综合采用的核心技术模式识别、图像特征识别技术等早被广泛应用于其他领域。

模式识别（Pattern Recognition）就是机器识别、计算机识别或机器自动识别，目的在于让机器自动识别事物。模式识别研究的内容是利用计算机对客观物体进行分类，在错误概率最小的条件下，使识别的结果尽量与客观物体相符合。模式识别中的一个基本概念是相似度（similarity），这和已知的其他一些学科方法都不相关。一般认为两个对象相似是因为他们具有相似的特征，相似度经常被描述成更加抽象的概念，它并不是在几个对象之间衡量，而是在一个对象和一个目标概念之间进行衡量。让机器辨别事物的最基本的方法是计算待识别事物与标准模板之间的相似度。

图像识别也属于模式识别，是数字图像处理的一个新兴的研究方向。首先，经过深入分析，不同的印前制作过程、不同的印刷工序印出来的印刷网点是有区别的。因而，同一个文字及图像中打出来的黑点均不相同。文字图像的描述依靠黑色像素点，这样，可以选灰度值为第一个特征向量。计算机将封面及内文处理成黑白图像时，认为灰度值为0就是全黑，灰度值为255就是全白，在本系统中，选取灰度值为少于122的像素点为黑点。其次，整个版面内容的面积和周长也会有所区别，这样可以选取包含整个字体的最小的矩形作为一个特征。本系统设定以面积灰度值为第二个特征向量，周长灰度值为第三个特征向量，所设的灰度值是该矩形面积中少于122的像素点的总数等。简单来说，首先将出版社的正版图书作为样本，建立正版图书图像数据库；其次对待查图书数字化，经过一系列的识别过程，分析鉴别图书的真伪。系统操作流程设计如图1。

其中，核心部分的操作分为几个步骤：封面数字化图像处理、版面分析、数字图像识别、统计分析。封面数字化图像处理是将纸质文稿、图像输入计算机的过程。为了提高识别率，要对获得的图像信息进行预处理，包括滤去干扰、噪声等，这样可提高信噪比。版面分析是把印刷品上同一版面中的图像分割成一些图像块，每一图像块大小不等，但都含有相对独立、完整的内容。如标题、图、作者、其他文字内容等等。这些内容在版面上的安排有一定的、但不是固定不变的顺序和规则。对于丰富多彩的印刷版面，人们在阅读时大都能一目了然，理解其中的含义及相互连接的关系。然而，如果我们不赋予电脑必要的功能，它将无法处理这样复杂的排列组合，这种特殊功能就是对版面的分析与理解。数字图像的识别有四个步骤，包括图像预处理（如二值化）、图像分割、特征提取和图像分类。最后，统计分析是在版面标识的错误及差异经过特征提取后，通过分类器与特征库进行匹配，然后分别以不同的算法比较，找出与特征值最相似的结果，分析其情况并输出报告。

总之，在图像识别中，特征量的选择及优化组合是设计识别系统的关键，它强烈地影响到分类器的设计及其性能。特征提取阶段主要是对物体进行度量从而通过度量值识别物体。计算特征是为了对物体的一些重要特征进行定量估计。特征抽取过程产生了一组特征，把它们组合在一起，就形成了特征向量。常用于特征提取的方法有尺寸测量、形状分析和纹理分析。其中纹理是一种反映一个区域中像素灰度级的空间分布的属性，纹理特征是从物体的图像中计算出来的一个值，它是对物体内部灰度级变化的特征进行量化。特征提取后要在这些特征中选出最适合分类器设计的特征。本研究用的是基于最小距离的模板匹配法，首先确定图像的具体特征，哪些特征可作为鉴别使用特征，哪些特征可以忽略。其次是以这些特征为参数，在样本与检材间进行距离的对应计算，统计取样后以某值为界，大于该值则可以确定为盗版。

该系统的设计思路主要基于图像、文字等特征的相似度识别图像处理，涉及图像的二值化处理，图像、文字特征的提取，模式匹配算法的实现，OCR技术的应用等，从而设计出最优的图书封面等数字图像的特征及提取方法，并把这些功能模块集成在系统中，最终实现基于图像、文字特征的图书盗版识别系统。

参考文献：

[1]王兰萍，图书盗版案件中鉴定结论的使用辨析[M].《中国版权》，2002年第2期.

[2]王秀珍，图像识别技术浅论[M].内蒙古电大学刊，2008年第8期.

[3]章毓晋，图像处理和分析基础[M].北京：高等教育出版社，2002.

[4]章毓晋，图像分割[M].北京：科学出版社，2001.

[5]庄军、李弼程，一种基于灰度共生矩阵的文本图像识别方法[M].《计算机工程》，2006年2月第3期.