基于傅里叶展开图像处理算法的激光打印机具识别
2018-08-28王世全
包 清 ,王世全,吕 晨
(1.上海市公安局刑事侦查总队,上海200083;2.上海理工大学,上海 200093;3.中国刑事警察学院,沈阳110035)
随着现代化办公设备的普及,激光打印文件的出现率显著上升。对于激光打印文件来说目前的检验所依靠的特征主要是感光鼓损伤或划痕,这类特征价值虽然高但出现率低,目前对于机具类的检验尚无使用率高、可靠的方法[1]。本文旨在利用傅里叶级数展开的算法找出不同型号激光打印机具甚至是同型号不同台激光打印机打印过程中形成的差异。
1 原理与方法
1.1 实验原理
不同品牌、型号的激光打印机内部结构及传动部件之间存在差异,同一型号的激光打印机在生产和使用中存在公差和装配、磨损上的差异,这些差异会导致扫描线在走纸方向上速度周期性振荡,在纸面上形成周期性疏密分布的扫描线,导致纸面上的电荷密度也产生上述分布,引起吸附墨粉数量的变化,产生灰度的周期性变化[2-3]。对于不同型号的打印机具,内部可能存在着结构性差异,所使用齿轮、多棱镜等部件参数上也有着较大差异。而同一型号的激光打印机则不存在上述差异,个体间的差异来源于装配误差、使用时的磨损和生产时的公差[4]。所以理论上不同型号机具之间的差异显著大于相同型号机具之间的差异。为了考察算法的普适性,将实验分为不同型号机具之间的比对与相同型号机具之间的比对。目前对于这种扫描线疏密分布周期性变化而产生的特征采用的处理办法为快速傅里叶变换算法。快速傅里叶变换实质是傅里叶变换的近似替代,可将计算量下降到原有的1%[5-6],本次实验所采用的方法是带有图像预处理的傅里叶展开算法。
本实验基于Matlab平台,处理步骤大致如下所述:1)把使用数码相机拍摄获得的笔画转化为灰度图像;2)通过图像处理滤去笔画周边的小墨粉颗粒;3)沿着走纸方向提取灰度信息,以水平线上的所有像素点的灰度值均值作为该水平线的灰度反映值,构成一维数组;4)以走纸方向偏移的像素点即数组中元素的序号为x值,以该序号所对应的数组的值为y值构建函数,对该函数进行级数为80级的傅里叶展开,分别提取正弦和余弦的逐项展开式的系数并分别保存于两个数组之中;5)分别找出正弦和余弦系数中比较大的系数,即为灰度信息中包含的扫描线周期性疏密变化的特征,计算出峰的位置、宽度和高度;6)将从检材与样本中提取到的这些峰的特征进行适当地匹配与计算,得出检材与样本的综合差异值,该值越大检材与样本之间的差异越大,反之则说明检材与样本越相似。
1.2 实验步骤
使用不同型号的激光打印机具在默认条件下打印相同内容一份,字体大小为72。本次实验所涉及的激光打印机的型号有:Cannon LBP 5050N,HP 2035n,HP LjM401n,HP Lj500 M551,HP CP2025甲,HP CP2025乙。其中HP CP2025甲与HP CP2025乙为同型号但不同台。对于该批次的样本在型号后加标“-1”。经过一个月后,不更换零部件与硒鼓,仍然使用上述相同的机具再次在默认条件下打印相同内容一份,对于该批次的样本在型号后加标“-2”。为了排除扫描仪扫描所引入的干扰,使用专业级的佳能数码单反相机和100 mm微距镜头,将打印文件翻拍获得原始图像,控制每次翻拍时的光照条件和翻拍条件:M1画质;光圈F-18;感光度iso200;快门速度1.6 s,防止光照条件的变化对结果产生影响。本次实验所选取的笔画均为较长的竖直走向的笔画,依次为“像”“于”“叶”三字的长竖画,其它类型笔画实验效果差,原因详见讨论部分。
1.3 程序介绍
使用Matlab编程核心内容如下。
第一部分:图像的预处理。把图像转化为灰度图像,去除笔画边缘的“毛刺”,截取一定长度的笔画,以水平线上所有像素点的平均灰度值代表该水平位置的灰度值,沿着竖直方向得到一个灰度曲线。
第二部分:选取与计算。从图像中截取出一段固定起点的1000像素点长度的灰度曲线,以1000像素点长度为基频长度进行80级傅里叶展开,获得80个正弦展开系数和余弦展开系数各一组,从这80个系数中分别取出绝对值最大的15个能够反映出扫描线周期性疏密变化的“特征峰”。
第三部分:综合评判。即使同台机具两次的结果也不会完全一致,如何区别该差异是不同台间的本质性差异还是同台的正常变动对于该方法是否可行具有决定性的意义。为此该程序通过对于“峰”的位置、高度、宽度的全面提取,建立了一个三维欧式空间,利用智能匹配的算法对检材与样本的“峰”进行匹配,匹配结果以一个数值形式输出,该数值表示检材与样本在峰的位置、高度、宽度的三维空间中的“距离”,数值越小说明检材与样本越相似。
2 结果
2.1 不同型号激光打印机实验结果
本次实验以Cannon LBP 5050N-1为检材,其余打印内容为比对样本。所得实验结果如表1~表3所示。
表2 “于”字竖画比对结果Table 2 The comparison of printed Chinese letter “于” (yu)
表3 “叶”字竖画比对结果Table 3 The comparison of printed Chinese letter “叶” (ye)
程序处理后获得的墨粉颗粒堆积形成的灰度变化曲线如图1、2所示,其中左侧为检材灰度曲线,右侧为样本灰度曲线。
图1 同台机具实验结果(a:检材;b:样本)Fig.1 The spectral graph of grayness made by same one printer (ɑ:tested specimen; b: sample)
图2 不同型号机具实验结果(a:检材;b:样本)Fig.2 The spectral graph of grayness made by the different printer from the one of Fig. 1's (a: tested specimen; b: sample)
2.2 相同型号激光打印机实验结果
本次实验以HP CP2025甲-1为检材,HP CP2025甲-2、HP CP2025乙-1、HP CP2025乙-2为比对样本。所得实验结果如表4~表6所示。
表4 “像”字比对结果Table 4 The comparison of Chinese letter “像” (xiang) printed by same one or model-same-yet-machine-different printer
表5 “于”字比对结果Table 5 The comparison of Chinese letter “于” (yu) printed by the printer as indicated of Table 4
表6 “叶”字比对结果Table 6 The comparison of Chinese letter “叶” (ye) printed by the printer as indicated of Table 4
程序处理后获得的墨粉颗粒堆积形成的灰度变化曲线如图3、4所示,其中左侧为检材灰度曲线,右侧为样本灰度曲线。
图3 同台机具实验结果(a:检材;b:样本)Fig.3 The spectral graph of grayness made by same one printer (a:tested specimen; b: sample)
图4 相同型号不同台机具实验结果(a:检材;b:样本)Fig.4 The spectral graph of grayness made by different printer of the same model as of Fig. 3's (a: tested specimen; b: sample)
3 讨论
3.1 实验结果的数据分析
从实验结果的图片看,由扫描线疏密变化引起墨粉颗粒附着量差异导致的图像灰度差异变化很小,灰度曲线在一个很小的范围内进行波动,通常波动范围仅在10个灰度值左右,无法从灰度图像上直接作出判断。对该曲线进行傅里叶展开将函数变换到频域空间所得到的一系列“峰”之间的差异也较小,未见到相关文献中极个别显著悬殊稳定的“超高峰”[7-8],从相关实验与理论分析可能与选取的机具与实验样本有着很大的关系。本次实验所选取的实验样本均未出现严重的瑕疵,墨迹均匀饱满,若墨迹在走纸方向上已反映出较为明显的周期性露白,经过放大后明显可见,可作为特征来利用,无需傅里叶变换处理。若对上述图像进行傅里叶展开,这些固有露白所反映出的频率信息就会遮蔽那些细微的扫描线疏密变化引起的差异。实验一的比对结果中,不同台之间的距离值仅有一次小于同台间,符合率为95.8%,不同台间结果为同台间比对两倍以上的样本共有19个,占79.2%,对于大部分样本来说不同台间结果与同台间比对存在着数量级上的差异。可以得出结论,在上述实验条件下,同台机具所打印出的文件存在着自身的稳定性和个体的差异性并且能够被上述算法识别出来。该实验结果与理论有着较高的符合度,说明该方法和算法可以用于区别不同型号的机具。
从实验二中的数据可以发现相同型号机具之间的比对也大致存在上述规律,但从差异幅度上来说远不及不同型号之间的差异,该实验结果也与理论有着较好的符合度。从目前的实验结果来看,利用该算法识别相同型号的不同台机具虽有一定的依据,但区分能力还有待提高。
3.2 实验要点与难点分析
1)翻拍条件必须被严格固定。一系列与翻拍有关的条件必须保持一致,因为所提取出的灰度曲线仅仅是在一个很窄的范围内波动,是一个细微的特征,一旦上述条件发生变化会导致灰度曲线产生巨大的变动导致比对结果明显增大丧失同台之间的相对稳定性。
2)选取长度较长且与走纸方向相同的笔画检验结果效果好。如果不选取上述笔画会使比对结果数值明显偏小,丧失不同台之间的差异性。将处理过程中各阶段的图片放大,并对灰度曲线进行测量,找到了合理的解释。对于与走纸方向垂直的横画,边缘会出现大幅度与笔画宽度近似的灰度值波动,在走纸方向上会出现由于字的结构而形成宽度稳定的大幅波动,相当于形成了固有条纹的特征。这严重影响傅里叶展开时的各项系数,由于傅里叶变换提取主要频率部分时,这种“振幅”远远大于本次实验所需利用的波动,“遮蔽”由于传动周期性变化而导致的灰度变化。该情况与选取样本墨迹已有明显的周期性露白会导致的结果相类似,在提取傅里叶展开的级数时由于这种现象的发生会使得不同台之间的结果十分相近消除了差异。由于周期性露白和横条纹的干扰的结果类似,所以以横条纹干扰后不同台机具之间的差异被消除的灰度曲线为示例,如图5所示。
图5 遮蔽现象示例图片(左右为不同机具打印的文件灰度曲线)Fig.5 The graph of grayness out of “defilading” phenomenon resulted from one horizontal stroke in a printed Chinese letter (Left: printed by one printer; Right: printed by one different printer from L's)
3)综合评判的难度大。与其它图谱相比,对于没有明显瑕疵的机具来说,特征波动与随机波动之间“信噪比”较小,同台机具前后两次的比对结果简单地从峰出现的位置来看也存在一定的差异性,如果简单比对峰位置会使比对结果丧失同台的稳定性,所以必须尽可能地挖掘并使用数据。在编程中没有简单比对峰的位置而是通过一定的算法将检材与样本的各个峰进行匹配,在三维欧式空间中定量地比对峰位置、峰高、峰宽,通过正相反相两次运算综合提升区分能力,对于不同频率的峰乘以相应的加权系数以区别不同频率区间价值大小的不同,以达到在较高的置信度下给出评判。
3.3 应用前景
通过上述实验可以发现在一定的实验条件下同台激光打印机具所形成的文件其自身具有稳定性,不同台之间存在着差异,该种差异在不同型号之间的反映尤为显著,可以作为有力的否定依据或是同一认定过程中的一个有价值的参考指标。就目前的结果来看2×105可以作为排除同一的临界值,对于综合差异结果大于临界值的2份样本,在明确未更换零部件、未更改打印设置的前提下可以认为来源于不同的机具。为了使该方法更有实用价值,今后将在如下方面进行改进和更深入的研究:1) 实验采用的字的大小较大为72,多见于标题,为了增加该方法的实用性,可在之后的实验中逐步减小字的大小。2) 实验所用的纸张均为欧迪牌A4复印纸,为了考查纸张的质量差异是否会对墨粉的吸附产生显著性的影响,在后续的实验中可以更换不同品牌的纸张加以验证。3)实验是在未更换零部件与墨盒的条件下获得的,所以通过进一步实验探寻上述条件变化对于比对结果产生的影响幅度和变化规律对于该方法的应用有较强的实际价值。4) 实验的原理是扫描线周期性的疏密变化经过图像通过傅里叶级数展开,从理论上分析,应用小波变换可能会取得更好的效果。