文书排版特征专家辅助识别系统之行列信息识别

2014-04-25玲1杨进友1旻1

中国司法鉴定 2014年5期

孙婷，吴玲1，，杨进友1，，易旻1，

（1.重庆高校物证技术工程研究中心，重庆 401120；2.西南政法大学，重庆 4011020）

文书检验的根本目的不外乎两个主要方面：文书内容是否行为人真实意思表示；文书的制作与形成是否客观真实。无论是手写文书还是印刷文书，这两个方面的鉴定与检验都与涂改、添加等变造文书检验相关，只是在某些问题的处理思路及检验方法上不尽相同，比如文书格式的检验。

1 印刷文书排版格式特征及检验

即或是最简单的文书，都会或多或少反映出一定的格式要素。对于现代办公机具所形成的印刷文书，其格式要素体现在两个方面，一是符合文字录入、编辑软件及打印机具要求的排版布局特征和打印特征，二是体现意思表达所具有的格式特征。

排版布局特征由页面布局、行间距、字间距、字符大小、字体字形、左右边距、段落、缩进、对齐方式等要素组成；打印特征则是与打印机具直接关联的包括显色物质成份、微观痕迹等共同组成的特征组合。意思表达所要求的格式则是区分不同文种的基本特征，如通知、请示、决定、公告等公文；起诉状、判决书等法律文书；借条、协议、合同等契约型文书等。虽然这两方面的特征均是印刷文书检验应当关注的对象，但排版布局特征应当是每个印刷文书检验的基础性环节，尤如手写文书检验必须首先判断是否直接书写形成之与其它进一步深入检验的基础性作用一样。

通过印刷文书排版布局特征的检验，可以得到以下几方面的基本信息：（1）印刷（通常为打印）文书全文总体排版布局特征概览；（2）同页间不同行字迹是否存在不能解释的格式差异；（3）不同页间是否存在格式差异。

这些信息的获取，虽然将其归为基础性检验环节，但在涉及印刷文书鉴定的多数情况下足已奠定进一步检验的基础，有时甚至是构成达到某些鉴定委托要求必然的手段之一，如抽换打印页、添加打印等。司法部《印刷文件鉴定规范》（SF/Z JD0201004-2010）和《篡改污损文件鉴定规范》（SF/Z JD0201005-2010）对涉嫌作伪变造的现代印刷文件，也有需要对其各部分的排版格式进行检验的表述。

目前在现代印刷文件检验中对文件各部分排版格式是否同源的检验，通常采用人工测量经验识别的方式，如利用直尺人工手动测量字间距、行间距、边距，肉眼观察字体、字号，进行逐字、逐行、逐段、逐页对比，非常耗时费力。即或是利用计算机图像处理技术将检材扫描录入后进行测量，也同样存在效率低且较为繁琐的弊端。同时，由于个人认知程度和经验的差异，也可能导致检验结果出现偏差。在避烦就简的主观思维支配下，放弃该步检验的情形并不少见。

对于这种共性强、社会运用广泛的印刷文书的基础性检验，应当考虑针对性地研制方便、准确、易用的检验手段，既能在一定程度上促进行业技术进步，也可通过推广使用避免一些不应当出现的失误的产生。

目前，实际环节多涉及文件图像识别技术，如为大家熟知的OCR（Optical Character Recognition光学字符识别）技术。该技术运用电子设备（例如扫描仪或数码相机）对文本资料进行扫描，呈数字图像模式录入计算机，然后利用不同软件对图像文件进行分析处理，用字符识别方法将字符图像形状“翻译”成电子文档。OCR技术的目的在于将记录于纸质载体上、不可编辑的文书转换为可编辑的电子文档，但这种转换过程重点获取的目标是文字内容，不是原文件的排版格式，即使部分厂家的软件可以获得一定的版面信息，那也是局限的、变形的，无法反映文件原貌，不能作为印刷文件排版格式识别的检验工具，难能满足检验鉴定的需求。

研制开发印刷文件排版格式检验专家辅助识别系统，目的在于针对日益增多的检验鉴定需求，运用扫描及计算机自动辅助识别技术优势，对印刷文件排版布局格式进行快速识别，并预判出排版格式是否存在差异，作为进一步检验的基础信息，以节省人力，提升检验效率并降低误判率。

本文仅侧重介绍该专家辅助识别系统中对于行间距、字间距进行识别的设计思路及实现方式，提出基于直方图判据结合计算机图像处理技术进行印刷文书的行间距、字间距自动识别的技术路线。此方法应用于计算机软件设计中，整个软件系统开发基于.net平台，以c#为主开发语言，具体应用将另文描述。

2 印刷文书专家辅助识别系统的设计

2.1 印刷（打印）文字的特征

计算机打印字体按技术要点主要分为矢量字体（Vector font或 Outline font）和点阵字体（Bitmap font）两大类。矢量字体主要包括Type1、TrueType、Open-Type等字体；点阵字体又叫光栅字体和位图字体。

2.1.1 点阵字体

点阵字体是把每一个字符都分成16×16或24×24个点，每个字形都以一组二维像素信息表示。由于其基于位图概念，特定的点阵字体只能清晰地显示在相应的字号下。点阵字体虽然具有显示速度快的优点，但放大显示效果较差，一旦放大后就会在文字边缘出现明显的锯齿边缘。点阵字体的扩展名为FON。

2.1.2 矢量字体

其每一个字形是通过数学曲线来描述的，它包含了字形边界上的关键点、连线的导数信息等，字体的渲染引擎通过读取这些数学矢量，然后进行一定的数学运算来渲染。这类字体的优点是字体实际尺寸可以任意缩放而不变形、变色。矢量字体文件扩展名为TTF。

印刷文件中的打印文书一般是由电脑的办公软件编辑电子文档后打印出来，使用的字体文件一般为点阵字体和矢量字体。不论是点阵字体还是矢量字体，同一字体同一字号下，文字的宽度和高度局限于某个范围之内，纵横方向上具有全尺寸笔画的字符其边界长宽尺寸是一致的。

2.1.3 成文字体

无论在显示或打印时调用的是点阵字体还是矢量字体，一旦打印成文后，均会表现出其与打印机具及载体相关联的记录显色状态。这种状态既包含有字体字形、字号等单字符信息，也包含有字间距、行间距、缩进、对齐等排版布局信息。这些信息均为隐含信息，并不在文档中直接体现，我们需要做的正是通过简便的方法准确提取这些信息。

2.2 文本文件预处理及直方图投影

要实现这种信息的提取，首先必须将文本文件按等比例的原则尽量少受干扰地录入计算机。2.2.1文本文件的图像采集

扫描仪是最适合的录入工具，普遍常见的A4幅面扫描仪就可以将绝大多数文本文档按1︰1等大扫描为计算机图片文档。需要注意的是在正式检验之前，对所使用的扫描仪应当进行校正。用尺寸已知的标准物品进行扫描，测定扫描后的图像大小是否与标准物品存在误差，如果存在，则需引入校正因子对每一次录入的图像进行校正。

（1）灰度化和二值化。图片经扫描后会带有灰阶，这种灰阶在后期识别中并无价值，而在扫描时直接以二值方式进行，又可能遗失一些细节或引入噪声。所以，在正常识别前需要对图片进行二值化处理，将其处理为仅有黑白两色而格式细节完整的图片。

（2）直方图投影。将样本图的每一列（以垂直投影为例），投影到直方图的某个坐标x上，样本中的每一行（以水平投影为例），投影到直方图的某个坐标y上称为投影直方图，如图1所示。

图1 直方图投影

印刷文书扫描为图片后，通过对每一个字的垂直投影，可获得每个字与相邻文字的距离；通过对每个字进行水平投影，可获得字高，取字高的最大值作为行高，再以此为基础可很容易获得行与行的距离。

实际上，上述正投状态的直方图投影并不能通过人工调整的方式直接获取，必须在投影过程中引入最小值概念以确定是否达到正投影状态。我们知道，对于打印文书，其行与行之间正常状态下（即不考虑走纸机构故障或纸张本身形变）应呈平行关系，在进行投影时，只有在正投状态下，投影值为最小。

2.2.2 软件设计

整个软件基于.net平台，以c#为主开发语言。

（1）采集数据。按照上述设计思路，如图2所示拓朴图。

（2）信息表达及解读。通过直方图投影可生成对应于文档的数据表格，其中行信息为基准信息。

①行信息表达及解读。行信息数据以纵列形式对应于各行生成于数据表之右侧，设定误差范围内的同类数据以相同颜色标注于数据之上。

之所以将行信息视为基准信息，在于：其一，文字录入软件及打印机的工作机理决定了行信息是最具规律性的排版信息。非特殊处理或意外发生，行与行呈平行关系是两者共同具有的基本规律；其二，正常制作文书，多数情况下无论是否跨页，其正文行间距及行高具有内在布局与排版意义上的可比性，一旦出现偏差（无论跨页还是同页内），其本身就是足以引起检验者关注的信息；其三，纸张局部折皱所引致的偏差，也可通过纸张整体尺寸变化加以校正，而列信息则可能受对齐方式及数字与字符混杂出现不能定位的困惑。

②列信息表达及解读。列信息以单字位置以表格方式生成，行宽、左右边距及缩进信息以纵列形式生成于数据表格左侧。列信息关注的重点有：不属于字体字号判断对象的意外偏差；缩进信息偏差；左右边距偏差。

3 实现路径与思考

基于纵横投影采取文档布局基本信息，还原文档排版特征，貌似简单易行，容易实现，但事实上并不如此简单。

首先，我们所针对的是纸质文书材料，可能是直接打印形成，也可能是打印后复印形成，还可能受打印、传真、复印多种手段交错影响，其页面内容出现形变、噪声（非文字内容的可见痕迹，如墨点、墨斑、墨带等）。这些形变和噪声如果不进行预处理，进行投影变换时，对结果会有或多或少的影响。由于形变程度的不确定性、噪声出现位置及大小形状的随机性，去噪效果取决于方法的合理性和有效性。

关于形变，现代办公机具的走纸结构，决定了形变引入最可能的方向，在于因传动误差所导致的走纸平行方向形变，这种形变对应的是水平投影。而在垂直投影方向产生明显误差的可能较小，故可基于垂直投影进行水平投影是否存在误差的识别，并将识别结果生成一校正值，与原始数据一并给出用于判断。

相对于形变，噪声处理在技术上更为复杂。所谓噪声是指非文字内容构成部分的墨迹，在二值化时，并不能直接与构成文字内容的有意义符号区分开来。而且部分条件差的材料，有意义的字符与无意义的噪声墨迹存在相互交错和重叠，去噪环节的设计就显得更为困难。所以，在软件设计初期，我们在该环节设计为人工干预方式为主，以保证去噪的准确性。随后逐步采取建立多处局部基准的分段式噪声去除方式，结合人工节点监控实现去噪。今后将以更多实验进行非人工介入式自动去噪并二值化。

图2 拓朴图

其次，排版布局信息可用于鉴定使用的节点较多，包括行宽、行间距、字体、字型、字号、修饰、符号、段前段后、字间距、缩进、对齐方式等，这些节点在电子版可调取其细节。但经扫描后进行识别，就会因这种变换而发生数值上的变化，影响最终的数值间的对接。以行间距为例，虽然常使用文字处理软件（如WORD）的缺省默认值（单倍行距），但这一设置值是可随意调整的，调整的范围既可全篇、全页，也可局部选择后进行，调整的值也极为宽泛，如多倍行距（0.5倍及0.5倍之整数倍）、固定值（1磅及整数倍）、最小值（0磅及以上）。当我们通过预处理、二值化、投影后所获取的客观数值，在与文字处理软件的设置值相对应，与其排版信息相匹配时形成了障碍。况且，受同样影响的还有一系列的节点。

第三，只有在解决了上述问题并获得检验对象全面排版特征信息后，对非正常打印，如添加、换页等异常特征的判断，才可能“水落石出”。

因此，基于以上考量，本项目虽然最终成果形式为软件，但实际上是按照打印文书专家辅助系统进行设计和开发。其间，考虑了不同文字处理软件、不同字体字型和字号的基础性影响，采取了基础数据库作匹配基准库的设计模式，既保证前期处理和识别的完整性，也支持可扩充性，最终形成完善的专家辅助系统。