人民币特定特征建模数据集的设计与应用

2020-02-05杨丹

电子技术与软件工程 2020年7期

关键词：聚类人民币建模

杨丹

（上海交通大学上海市 200240）

1 绪论

1.1 研究背景与意义

1.1.1 研究背景

随着中国占世界经济总量比重的不断上升，以及十九大提出的国家主要矛盾的变化，可见中国乃至世界对人民币的需求将继续增加。但电子支付的蓬勃发展和原材料成本的上升为印钞行业带来了前所未有的冲击，企业的转型发展迫在眉睫。如何转型发展？保证质量的情况下降本增效排在首位。虽然目前印钞行业人民币质量检测已不再采用传统的人工检验的方法，但现行的人民币质量检测系统仍停留在第一代质量检测技术引进的阶段，使得误检率和漏检率这对矛盾体已经极大地影响了生产效率和成本控制。而要实现企业的转型发展，优化人民币质量检测系统不失为一种有效且长远可行的方法。

机器视觉系统实现对人民币质量检测是基于一个优秀的检测模板与被检测产品之间进行的比较。通过确定待检人民币在亮度、墨色等方面与模板之间是否存在差异进一步判断这些差异是否能接受。检测过程中，它能够对印刷质量进行自动化检测和分析，并对质量检测结果进行自动化管理，对提高生产效率，保证人民币发行质量、降低生产成本都具有重要意义。

在工业领域中，几乎所有的印刷品都会存在各种类型的印刷缺陷，人民币也不例外。人民币作为国家名片，为兼具图案精美、墨色丰富和防伪的功能性，其设计和印刷流程都相当复杂。印刷过程中，质量会受到机械高速运转本身造成的差异、印刷过程中各种繁杂易忽略的细节漏洞以及工序流转间造成套印不准等问题的影响，常会造成一些缺陷的高误检率和另一些缺陷的高漏检率。

1.1.2 研究意义

由于人民币图案、墨色、防伪设计复杂，在日常检测过程中，常会有因墨色阈值范围不精确以及开窗金属线位置不稳定出现缺陷误判，缺陷报出数与实废比例高达10:1。分析原因后发现，根据生产调度安排，检测模型的建立时间周期短，无法通过传统的模板匹配法采集大量样本集进行阈值计算和样本扩充，只能在建模初期采集多车次少样本先行建立初级模板，再人工收集初级模板阈值范围外的样本。这个过程需要大量的人力，也因为初级模板的粗略而产品巨大的废品，增加了建模和后期生产成本。因此，本文旨在通过K-means 聚类算法，对大量公差范围内的图像进行分类标记，并通过训练和测试建立建模数据集，使建模过程中的样本训练更精确更有效。

1.2 本文的研究内容

根据研究背景和研究意义的介绍，本文将对人民币质量检测模型建立过程中的一部分进行优化。人民币质量检测的实现是基于一个优秀的检测模板和待检图像之间的对比和差异的判断，因此该优秀模板的生成是确保检测结果准确的重要环节。

本文以现行流通的2015 版100 元人民币正面即毛主席人像正面图像为研究对象，以2019年实际生产情况为数据统计基础，以大量生产公差范围内的实际产品图像作为图像数据集，建立以人工设定即当前出现过的所有缺陷类型为对象的特征库，采用K-means聚类算法，对特征库中所有特征分别进行聚类，根据聚类结果对前文提到的图像数据集进行分类标记，通过训练和测试建立分类建模数据集。建立好的建模数据集，可以用于建模初期的样本扩充和训练，使模型更精确有效，特别是针对当前误判率最高的两项图像特征即墨色阈值和开窗金属线位置，从而实现日常检测过程中最大程度地减少这两项特定特征造成的质量误判，提高检测的效率，节约生产成本。

2 人民币质量检测

2.1 人民币质量检测的发展

2.1.1 传统人民币检测

传统的钞券检验方式是一些有经验的检验员目测人民币图像是否有缺陷。随着经济的高度发展，人民币的需求量越来越大，人工检查对于高速印刷来说变成了高成本、高风险、低效率的选择。

2.1.2 现代人民币检测

机器视觉检测系统采用照相机将被检测的目标转换成图像信号，传送给专用的图像处理系统，根据像素分布和亮度、颜色等信息，转变成数字化信号，图像处理系统对这些信号进行各种运算来抽取目标的特征，如面积、数量、位置、长度，再根据预设的允许度和其他条件输出结果，包括尺寸、角度、个数、合格/不合格、有/无等，实现自动识别功能。综合了光学、机械、电子、计算机软硬件等方面的技术，涉及到计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。

印钞工艺和机器视觉系统的快速发展让直接控制全幅面大张（横5 纵7 连续排列的单张人民币）的印刷质量成为可能，在提高效率的同时减少小开单张检测的压力。全幅面大张在线检测系统采用分布式计算机处理系统，这种基于机器视觉系统的在线检测，通过相机在线扫描人民币图像，图像采集卡将相机采集得到的图像数据传送至服务器通过图像处理软件处理，将结果与标准数据比较，找出两者之间的差异并分析产生误差原因，然后反馈给操作人员。两者之间的通信通过局域网和交换机实现。

2.2 人民币检测系统简介

人民币图像检测系统主要由成像单元、电气检测、软件检测组成。其中：成像单元包含相机镜头、光源、吹风管、压纸轮、吸风板等；电气检测包含编码器、PLC、同步盒、工控机/服务器等；软件检测包括检测软件、建模软件、数据核查软件等。

2.2.1 成像单元

根据人民币质量检测要求，成像单元包含了正面即毛主席人像面图像、正面防伪、背面即人民大会堂正面图像、背面防伪以及透视防伪五个检测单元。本文研究的是正面即毛主席人像面的图像。正面检测单元采用5 个PC30 彩色线阵相机，两根高亮度白光LED光源，使用压轮和吹风的展平方式。

2.2.2 检测单元

2.2.2.1 检测流程简介

在光源稳定、亮度均匀的环境下，当机器滚筒转动到计算好的编码器角度时，PLC 会给相应的相机一个触发信号，从而控制相机采图。每一路相机会将图像发给各自的处理软件，在接收到进位合压信号确认是人民币图像后，将进行图像处理并判断该图像是否有缺陷，然后将结果反馈给主程序，主程序会写入数据库并显示缺陷信息。

2.2.2.2 检测原理简述

检测系统实现对人民币质量数字化的检测是基于一个优秀的检测模板与被检测产品之间进行可视化的比较。比较的目的是确定待检测的人民币的票面区域在亮度、颜色等方面与模板之间是否存在差异，并且判定这些差异是否可以接受。

首先，通过对所有样本集计算平均值，生成虚拟参考平均值。原则上说，所谓的参考是指处于生产情况的中间位置，而人工挑选几乎是不可能选到这样的图像，如果任意选取可能会导致检测结果不理想。所以，就需要对所有样本集进行计算平均值的操作。

其次，系统通过计算样本集中每一大张每一像素点与虚拟参考平均值的正负差别（即相对于平均值的差别，以正负区分并相应归为两个集合）。正负数值平方后相加，然后取其平均值（即除以总数），最后开平方根。其结果便是TD 和TL 的阈值标准。

最后，对实时采集到的图像进行逐像素的对比，超过TD 和TL 即判为缺陷。

3 人民币特定特征建模数据集的设计与应用

如图1 所示，建模数据集包括训练集和测试集的设计直接影响着后续模型体系的生成。在上文研究意义中也提到，当前高达90%的误废率究其原因是由于建模数据集的粗略。因此，本文将以现行流通的2015 版100 元人民币正面即毛主席人像面图像为研究对象，在不涉密的基础上以2019年实际生产情况为数据统计基础，以大量生产公差范围内的实际产品图像作为图像数据集，建立以人工设定为对象的特征库，采用K-means 聚类算法，通过训练和测试建立分类建模数据集，用于建模初期的样本扩充和训练，使模型更精确有效。

3.1 建模数据集设计方案简述

3.1.1 收集图像数据集

3.1.1.1 建模训练集

根据人民币印刷公差样的标准选取的无印刷差错的图像集合。这些图像在印刷图案的位置和墨色的深浅等等方面存在一些细小的差别，经过系统的分析与计算，就形成了模板可容许的生产范围，待检人民币的质量信息在这个生产范围之内，则属于合格品，反之，就进入缺陷列表。它包括参考样、白纸、纯胶品，纯凹品、全印品训练集。参考样以生产样为标准；白纸质量良好，能够代表纸张出现的变化与安全线的位置，白纸张仅在纸张含有安全线的情况下才需要；纯凹品能够代表全部印刷质量与全部印版，不能包含印刷瑕疵与油污；全印品训练集的套印变化在公差范围内，墨色变化涵盖各印刷机台的实际生产变化情况，无明显瑕疵。应尽可能地覆盖生产过程中允许范围内的质量变化，包括金属线在允许范围内的飘移位置分布。

3.1.1.2 建模测试集

图1：模板建立流程图

同训练集相似，这些图像是用来进行模拟检测的。测试集没有数量上的限制，可以是好张，也可以是坏张，被用来模拟检测模板的有效性。

3.1.2 建立特定特征库

钞券作为一种特殊印刷品，其图案复杂、细节繁多，同时包含胶印、凹印、丝凸印等多种印刷方式，使得其质量检测比一般印刷品复杂。目前正面图像的缺陷分为两类，一类是常见印后缺陷主要有串色、油墨污点、脏道、文字模糊、漏印等，另一类是图像中号码、荧光、水印的漏印、错号、重印、模糊不清、位置走版等。

根据本文研究主题，将梯度直方图（HOG：Histogram of Oriented Gradient）、基于LAB 的颜色直方图等用于表征图像墨色、胶凹纹理、金属线位置等人工设定的特征作为特定特征库，表示为{f1,f2,f3,…fk}。

3.1.3 分类标记

3.1.3.1 K-Means 算法

K-Means 算法由MacQueen 在1967年提出，是最简单与最常见数据分类方法之一。它作为一种常见数据分析技术在机器学习、数据挖掘、模式识别、图像分析等领域广泛应用。从学习方法上来说，K-Means 算法属于非监督学习方法即整个学习过程中不需要人为干预的学习方法，自动完成整个数据集合分类。对于给定的数据集合DS (Data Set)与输入的分类数目K，K-Means 算法的整个工作原理可以描述如下：

（1）根据输入的分类数目K 定义K 个分类，每个分类选择一个中心点；

（2）对DS 中每个数据点做如下操作：计算它与K 个中心点之间的距离；把数据点指定属于K 个中心点中距离最近的中心点所属的分类；

（3）对K 个分类中每个数据点计算平均值得到新的K 个中心点；

（4）比较新K 个中心点之间与第一步中已经存在的K 个中心差值，当两者之间的差值没有变化或者小于指定阈值，结束分类；当两者之间的差值或者条件不满足时候，用新计算的中心点值做为K 个分类的新中心点，继续重新执行，直到条件满足退出。

从数学的角度来说K-Means 算法就是要找到K 个分类而且他们的中心点到各个分类中各个数据的之间差值平方和最小化，而实现这个过程就是要通过上述（2）-（4）步不断的迭代执行，直到收敛为止。

3.1.3.2 数据集训练原理简述

（1）数据特征聚类。在上述特定特征库中随机选取数据特征fi 作为数据分类标记的聚类依据，利用K-Means 算法对提取的数据特征进行聚类。

（2）分类标记。根据聚类结果，对上述建模训练集和建模测试集中的数据x 进行分类标记，若数据x 对应的特征f 被划分在第n 类（缺陷类别），则数据x 被标记为第n 类（缺陷类别）。

（3）分类模型训练与测试简述。分类标记后的建模训练集和建模测试集分别分为训练子集和测试子集。利用建模训练集和建模测试集中的训练子集对初始化图像模型进行训练，得到训练好的图像分类模型即训练后的训练集和测试集。

（4）分类模型测试。利用上述得到的训练后的图像分类模型对两个测试子集中的图像数据进行分类，并将测试分类结果与自动标记分类结果进行比对，若图像数据x 的测试分类结果与自动分类结果相同，则认为图像数据x 分类正确，否则，进一步计算得到图像分类模型对测试子集的分类准确率b。

将上述得到的分类准确率b 与预先设定的阈值a 进行比较，若b 大于a，则根据自动标记分类结果生成模型数据集；否则，将从删除图像数据特征fi 的特征库{f1,f2,f3,…fi-1,fi+1,…fk}中重新选取图像特征为数据分类标记的聚类依据。

3.2 数据集的应用

上述得到的建模训练集和建模测试集已用于公司某部机器的新建图像模板中，经过了2 个月的测试品实验，使用该数据集建模比原有建模方式的误检率降低约26%，特别是针对当前误判率最高的两项图像特征即墨色阈值和开窗金属线位置，误检率分别降低了33%、29%，明显提高了人民币生产过程中质量检测的效率，节约了后续大量误废产品处理成本。

4 结论

人民币质量检测的实现是基于一个优秀的检测模板和待检图像之间的对比和差异的判断，因此该优秀模板的生成是确保检测结果准确的重要环节。本文以现行流通的2015 版100 元人民币正面即毛主席人像面图像为研究对象，在不涉密的情况下以2019年实际生产情况为数据统计基础，以大量生产公差范围内的实际产品图像作为图像数据集，建立以人工设定即当前出现过的所有缺陷类型为对象的特征库，采用K-means 聚类算法，对特征库中所有特征分别进行聚类，根据聚类结果对前文提到的图像数据集进行分类标记，通过训练和测试建立分类建模数据集。建立好的建模数据集，已实验于公司的某部机器，经过了2 个月的测试实验，使用该数据集建模比原有建模方式的误检率降低了约26%，基本完成了本文的研究目标。

另外，本文由于篇幅的原因，对第三章的内容进行了精简，完整版待毕业论文审核完成后可查阅。