APP下载

基于视觉词袋模型提取胶痕特征的卷烟真伪鉴别

2023-08-12李郸马慧宇李海燕王春琼张轲张榆锋廖泽容

包装工程 2023年15期
关键词:烟盒卷烟直方图

李郸,马慧宇,李海燕,王春琼,张轲,张榆锋,廖泽容

基于视觉词袋模型提取胶痕特征的卷烟真伪鉴别

李郸1,马慧宇1,李海燕1,王春琼1,张轲1,张榆锋2,廖泽容3

(1.云南省烟草质量监督检测站,昆明 650104;2.云南大学 信息学院,昆明 650500; 3.昆明医科大学 康复学院,昆明 650500)

为快速准确地鉴别多品牌卷烟真伪,提出一种基于视觉词袋模型提取烟盒胶痕图像特征的鉴别方法。首先,利用自主设计的多光源胶痕采集装置获取烟盒内部的胶痕图像,通过图像处理技术去除原始图像的部分背景后得到胶痕图像样本;然后,从胶痕图像样本中提取尺度不变特征转换(SIFT)特征,并用K-Means算法对特征聚类生成视觉词典;再依据视觉词典的视觉单词直方图特征集对胶痕图像进行训练分类,从而达到鉴别卷烟真伪的目的。以10种真品包装机型生产的烟盒胶痕图像以及假冒烟盒胶痕图像为对象,烟盒样品涉及64个卷烟品牌,对360张胶痕图像分类测试,得到真伪识别率为97.22%,每个样本平均鉴别时间为0.05 s。提出的方法采集胶痕图像简便、真伪鉴别效率和准确率高,并适用于多种卷烟品牌。为提高真伪卷烟鉴别效率、准确率和通用性提供了技术支持。

卷烟真伪鉴别;视觉词袋模型;胶痕图像;视觉单词直方图

烟草是国家和地方财税的重要来源,而卷烟是最主要的烟草制品。制造和销售假冒伪劣的卷烟产品将严重影响国家财政收入和市场秩序,并对个人健康造成危害。因此,鉴别检验卷烟真伪对加强烟草专卖管理,防止假冒卷烟流入市场具有重要意义[1]。

目前,鉴别卷烟真伪的方法主要分为感官检验法、物化仪器检验法和机器视觉检验法。感官检验法依赖于检测人员根据自身的经验知识,从包装、烟支、烟丝和吸味等多个方面对待测样品进行人工鉴定,是实际检验中最常用的方法[2-4],但该方法存在主观性强、缺乏科学性、耗费人力、检测效率低等缺点。物化仪器检验法是利用现有的专用检验设备对卷烟的理化性质进行测定,然后通过数据处理及分析技术判别卷烟真伪[5-8]。物化仪器的引入提高了卷烟真伪鉴别工作的客观性和科学性,然而该方法检测时间较长,部分仪器操作复杂,检测效率有待提升。近年来,随着人工智能的快速发展,以图像采集系统模拟人眼的视觉感知功能,通过计算机对图像进行处理、分析和识别的机器视觉技术成为卷烟真伪鉴别领域新的研究方向。钟宇等[9]使用扫描仪采集3个品牌真伪卷烟的包装图像,并提取图像的特征向量,然后通过相似性度量模型和机器学习模型分别对待测样品进行真伪判别,其中机器学习模型的总鉴别准确率约为98%。同样针对卷烟的外包装,肖楠等[10]结合高分辨率神经网络和注意力机制对约20个品牌的卷烟包装图像进行识别,通过深度学习技术自动提取图像关键特征,以此实现卷烟包装真伪检测,鉴别准确率最高可达97%。李海燕等[11]将Inception和ResNet 2种卷积神经网络结构相结合得到新的卷烟鉴别模型IRCNN,该模型可以提取得到更深层次的卷烟包装图像特征,最终实现3个卷烟品牌的真伪鉴别率为99.88%。上述研究表明,机器视觉检验法准确率高且操作便捷,可显著提高卷烟真伪鉴别效率,具有很大的应用价值。然而,该方法局限于卷烟包装外观检测,构建的模型仅针对一部分品牌或规格的卷烟包装,面对繁杂的包装样式和不断革新的包装设计,方法的通用性受到极大限制。

相较于卷烟外观的多样化,卷烟包装工艺较为稳定。据统计,全国中烟工业在使用的包装机型目前主要有14种,对应着包装内侧的粘胶痕迹也是14类。这些形状、大小各异的胶痕特征的图像识别研究目前未见报道,但其他领域有大量相似研究。如刘晓琳等[12-13]先后提出RGB颜色空间的胶痕图像自动识别算法和基于改进简化脉冲耦合神经网络模型的机场跑道胶痕图像分割算法,实现了更高的胶痕检测精度。以上研究启发了对烟盒胶痕图像的研究思路,可以依托计算机视觉和机器学习方法,建立烟盒胶痕图像的分类模型。由此,上千种卷烟品牌的真伪鉴定简化为数十种机型的烟盒胶痕图像的识别和判断,使得卷烟真伪鉴定模型具有更广泛的通用性和更长时间的延续性。

基于此,本文以烟盒胶痕图像采集设备采集的真假胶痕图像为实验样本,将卷烟真伪鉴别问题转化为胶痕图像的分类问题。该方法首先对胶痕图像进行预处理得到胶痕图像样本;然后从胶痕图像样本中提取尺度不变特征转换(Scale Invariant Feature Transform,SIFT)特征,并用K-Means算法对特征聚类生成视觉词典;再依据视觉词典的视觉单词直方图特征集对胶痕图像进行分类训练,从而达到鉴别多品牌卷烟真伪的目的。

1 研究方法

图1显示了基于视觉词袋模型提取胶痕特征的卷烟真伪鉴别流程,包括胶痕图像采集、胶痕图像样本产生、视觉词袋模型提取胶痕特征和卷烟真伪鉴别4个步骤。

图1 基于视觉词袋模型提取胶痕特征的卷烟真伪鉴别流程

1.1 胶痕图像采集

胶痕图像采集包括胶痕图像装置设计、装置参数设置和图像采集步骤。在卷烟工业生产中,卷烟包装材料的黏接使用白乳胶、热熔胶作为黏接胶。黏接胶为透明、无色状态,撕开卷烟包装后,透过这层胶痕可以显示出卷烟包装材料所使用的卡纸底色,难以通过普通的照片拍摄方式获得清晰、高对比度、易于识别的胶痕图像[14]。前期在自然光、扫描仪和有角度暗光源下分别采集了胶痕图像,对比结果发现,有角度暗光源下采集的胶痕图像分辨率较高,肉眼大致可以识别,如图2所示。基于前期实验结果以及市场上没有烟盒胶痕图像采集设备的情况下,本文通过选取合适的光学系统,自主研发设计一种烟盒胶痕图像采集装置,实现卷烟包装胶痕高效、准确的图像采集。图3展示了烟盒胶痕图像采集装置,主要包括手机、箱子、灯带、USB灯带开关、USB插座、黑色铁板、黑色铁片、软磁条等部件,各部件参数设置如表1所示。该装置设计为一个密闭箱子,在其顶部安装灯带,并开孔放置拍摄手机,底部为抽拉式的烟盒置放铁板。

图2 3种光源下采集的胶痕图像

1.2 胶痕图像样本产生

胶痕图像样本产生步骤包括图像二值化、开操作、外轮廓点和4个关键点。图4显示了硬烟盒和软烟盒胶痕图像样本生成过程,图4a为硬烟盒胶痕图像采集装置采集到的原始胶痕图像,然后对其进行二值化操作,得到白色区域为硬烟盒整体轮廓,如图4b所示。为了消除图像噪声和较小的连通域,再对其进行开操作,得到平滑的轮廓图,如图4c所示。根据位置关系,在轮廓点中筛选出4个红色关键点,最终得到硬壳胶痕图像样本,如图4f所示。软烟盒图像样本生成过程与硬烟盒相同,如图4g—l所示。

1.3 视觉词袋模型提取胶痕特征

视觉词袋模型(Bag of Visual Word,BOVW)提取胶痕特征包括3个步骤:首先,基于SIFT算法检测图像关键点特征;然后,基于K-means算法得到聚类中心点(即为视觉单词),再基于最近相邻法将图像关键点特征映射分配到视觉词典;最后,统计出视觉词典中每个视觉单词在胶痕图像中出现的频率,得到视觉单词直方图。

表1 烟盒胶痕图像采集装置各部件参数设置

Tab.1 Parameter settings of each component of cigarette packet glue mark image acquisition device

图4 烟盒胶痕图像样本的生成过程

1.3.1 SIFT特征提取

通过提取胶痕图像特征,获得目标图像中的关键信息,借助于这些信息能够有效地区分其他类别图像。SIFT是一种用于图像处理和计算机视觉中的算法,可以在不同大小、旋转和光照条件下检测和匹配图像中的特征点,具有较强的鲁棒性和准确性[15]。如图5a硬烟盒和图5b软烟盒的SIFT关键点特征分布图,95%以上的关键点特征都集中在胶痕区域。

图5 烟盒SIFT关键点特征分布

1.3.2 生成视觉单词和视觉词典

接下来基于K-means算法对胶痕图像关键点特征聚类分析,得到的聚类中心称为视觉单词。K-means算法主要思想是在关键点特征数据集={1,2,..,x, ..,x}中找到个簇的聚类中心{1,2, ..,c, ..,c}使得各个簇中样本向量到对应簇聚类中心的欧式距离最小,公式如下:

式中:|为所有关键点特征与它所属的聚类中心的欧式距离平方和;N为簇c中包含的关键点特征样本数目;c为第个簇的聚类中心。

然后采用最近相邻法,将胶痕图像中SIFT关键点特征分别与个聚类中心(即为视觉单词)进行距离计算,哪一个视觉单词距离最小,就将SIFT关键点特征分配给该视觉单词。最终得到的集合就是视觉词典,表示如下:

式中:为视觉词典;d为词典中第个视觉单词;为视觉单词总数。

1.3.3 生成直方图

将胶痕图像视觉单词在视觉词典中出现的次数直方图转换为向量,并用其描述图像,表示为:

式中:h为视觉单词d在胶痕图像中出现的次数。选取前300个视觉单词作为胶痕图像的特征,得到硬烟盒1和软烟盒1的胶痕图像视觉单词直方图,如图6所示。

1.3.4 空间金字塔视觉单词直方图

利用胶痕图像生成的视觉词典,结合空间金字塔匹配模型生成新的视觉词典模型,将图像表示为空间金字塔直方图向量。该模型能够获得胶痕图像特征点相对的空间位置关系,可以更好地描述图像特征,从而提高图像分类精度[16]。

图6 硬烟盒1和软烟盒1胶痕图像视觉单词直方图

图7 空间金字塔示意图

图8 硬烟盒1和软烟盒1的胶痕图像空间金字塔视觉单词直方图

2 实验结果及分析

为了验证本文方法的有效性,通过自主设计的胶痕图像设备采集了12种胶痕(涉及64种卷烟品牌)共计1 800张胶痕图像,对2种视觉词袋模型的分类性能进行了对比分析。

2.1 数据及环境

实验数据源来自烟盒胶痕采集装置采集的数据集。该数据集共有12类,总共1 800幅图像,每个类别包含150张样本图像,每幅图像分辨率从1 508× 2 010~1 514×2 019不等。经过1.2节中胶痕图像样本产生方法得到胶痕图像样本集,如表2所示。为了对烟盒胶痕图像的机型保密,真硬包机型设定为硬1、硬2、硬3、硬4、硬5,真软包机型设定为软1、软2、软3、软4、软5,胶痕图像样本如图9所示。

为了验证数据的可靠性,实验通过十折交叉验证将12类1 800张图像随机等比例抽样,实现数据的完全训练和分类测试,最终得到较为稳定的分类准确率。以上所有算法处理和性能评估的硬件配置为英特尔Xeon CPU W-2125@4.00 GHz和31.7 GB内存,软件配置为Windows 10系统的Matlab 2020b软件平台。

2.2 卷烟真伪鉴别

为了评估视觉词袋模型提取胶痕特征方法的分类性能,对基于径向基核函数SVM和直方图交叉核函数SVM的2种分类方法的结果进行对比分析,如表3所示。基于经典词袋模型提取胶痕图像特征时,径向基核函数SVM和直方图交叉核函数SVM的分类准确率分别为84.61%和88.46%,运行时间分别为和0.02 s和0.03 s;基于空间金字塔词袋模型提取胶痕图像特征时,径向基核函数SVM和直方图交叉核函数SVM的分类准确率分别为90.26%和97.22%,运行时间分别为0.12 s和18.06 s。总体来说,使用空间金字塔模型可从多个尺度描述纤维图像,可以更好地描述胶痕图像特征,得到径向基核函数和直方图交叉核函数SVM分类准确率分别高于传统词袋模型3.85%和6.96%,但是空间金字塔模型运行时间长,单个样本的平均测试时间为0.05 s。图10展示了基于空间金字塔词典模型和直方图交叉核函数SVM分类器组合下的最优胶痕图像分类混淆矩阵,其中硬1、硬3、软2、软3、软4、假软、硬假的测试样本完全正确,硬2有2个被误判为硬假、硬4有2个被误判为硬假、硬5有2个被误判为硬4,软1有2个误判为假软、软5有2个被误判为假软。通过分析胶痕图像表明,硬2和硬4与硬假图像相似、硬5与硬4图像相似、软1和软5与软假图像相似,而硬1、硬3、软2、软3、软4图像特征鲜明,很难通过造假技术实现,因此判别率为100 %。

表2 胶痕图像样本集

Tab.2 Sample set of glue mark images

图9 真烟盒胶痕图像样本

表3 不同模型和分类器下的卷烟真伪鉴别结果

Tab.3 Cigarette authenticity identification results under different models and classifiers

图10 胶痕图像分类混淆矩阵

3 结语

基于机器视觉技术提出了一种视觉词袋模型提取胶痕特征的卷烟真伪鉴别方法,将卷烟包装外观检测转换为卷烟包装胶痕图像检测,可以识别更多的卷烟品牌,从而提高了机器视觉鉴别方法的通用性和可靠性。对12种胶痕(64种卷烟品牌)共360个样本进行鉴别测试,结果表明该方法构建的模型能够对待测样本进行真伪判别,总分类准确率高达97.22%,单个样本平均检测时间为0.05 s。该方法简单、准确、高效,适用于多种常见的卷烟品牌。未来的工作重点是收集其他机型足量的烟盒样品,构建更加完备的胶痕图像数据集。在新的数据集上采用深度学习方法获取胶痕图像更多有效的深层特征,以期在行业内推行高效、可靠的卷烟真伪智能鉴别方法。

[1] 王静娟. 烟酒消费税的消费效应研究[D]. 济南: 山东财经大学, 2021.

WANG Jing-juan. Study on Consumption Effect of Excise Tax on Alcohol and Tobacco[D]. Jinan: Shandong University of Finance and Economics, 2021.

[2] 冯梅. 卷烟真伪鉴别检验数据在烟草行业高质量发展中的应用研究[J]. 质量与市场, 2021(12): 34-36.

FENG Mei. Research on the Application of Cigarette Authenticity Identification Test Data in the High-Quality Development of Tobacco Industry[J]. Quality & Market, 2021(12): 34-36.

[3] 苏红雪, 赵航, 王琼, 等. 卷烟真伪的鉴别[J]. 烟草科技, 2001, 34(12): 36-38.

SU Hong-xue, ZHAO Hang, WANG Qiong, et al. Identification of Counterfeit Cigarettes[J]. Tobacco Science & Technology, 2001, 34(12): 36-38.

[4] 聂磊, 张福民, 朱友, 等. 顶空-气相色谱-质谱技术应用于卷烟真伪鉴别[J]. 中国烟草学报, 2012, 18(3): 16-20.

NIE Lei, ZHANG Fu-min, ZHU You, et al. The Application of Headspace-Gas Chromatography-Mass Spectroscopy in Counterfeit Cigarette Identification[J]. Acta Tabacaria Sinica, 2012, 18(3): 16-20.

[5] 陈毅力, 纪立顺, 田进国, 等. 卷烟鉴别仪器分析技术研究进展[J]. 中国烟草科学, 2011, 32(5): 96-98.

CHEN Yi-li, JI Li-shun, TIAN Jin-guo, et al. Instrumental Analytic Technologies for Cigarette Discrimination: A Review[J]. Chinese Tobacco Science, 2011, 32(5): 96-98.

[6] 魏中华. 基于t假设检验及SVM神经网络的卷烟真伪判定[J]. 烟草科技, 2015, 48(2): 75-78.

Wei Zhong-hua. Method for Cigarette Authenticity Discrimination Based on t Test and SVM Neural Network[J]. Tobacco Science & Technology, 2015, 48(2): 75-78.

[7] 李海燕, 杨兵, 马慧宇, 等. 基于包装纸荧光亮度的真假卷烟鉴别[J]. 安徽农业科学, 2021, 49(18): 180-183.

LI Hai-yan, YANG Bing, MA Hui-yu, et al. Identification of Genuine and Fake Cigarettes Based on the Fluorescence Brightness of Packaging Paper[J]. Journal of Anhui Agricultural Sciences, 2021, 49(18): 180-183.

[8] 唐雪梅. 测定常规化学指标鉴别卷烟真伪的研究[J]. 现代科学仪器, 2007(5): 128-129.

TANG Xue-mei. Study of Judge the Real or Fake Cigarettes by Determination of the Ordinary Chemical Indexes[J]. Modern Scientific Instruments, 2007(5): 128-129.

[9] 钟宇, 徐燕, 刘德祥, 等. 基于计算机视觉和机器学习的真伪卷烟包装鉴别[J]. 烟草科技, 2020, 53(5): 83-92.

ZHONG Yu, XU Yan, LIU De-xiang, et al. Authentication of Packeted Cigarettes Based on Computer Vision and Machine Learning[J]. Tobacco Science & Technology, 2020, 53(5): 83-92.

[10] 肖楠, 周明珠, 邢军, 等. 基于高分辨率网络和注意力机制的真伪卷烟包装鉴别[J]. 数据与计算发展前沿, 2021, 3(5): 118-129.

XIAO Nan, ZHOU Ming-zhu, XING Jun, et al. Authenticity Identification of Cigarettes Based on Attention Mechanism and High-Resolution Network[J]. Frontiers of Data & Computing, 2021, 3(5): 118-129.

[11] 李海燕, 李郸, 马慧宇, 等. 基于改进深度学习模型IRCNN的卷烟真伪鉴别[J]. 计算技术与自动化, 2023, 42(1): 188-192.

LI Hai-yan, LI Dan, MA Hui-yu, et al. Cigarette Authenticity Identification Based on Improved Deep Learning Model IRCNN[J]. Computing Technology and Automation, 2023, 42(1): 188-192.

[12] 刘晓琳, 李卓. 基于RGB颜色空间的机场跑道胶痕自动识别系统[J]. 现代电子技术, 2020, 43(14): 4-7.

LIU Xiao-lin, LI Zhuo. Airport Runway Rubber-Mark Automatic Identification System Based on RGB Color Space[J]. Modern Electronics Technique, 2020, 43(14): 4-7.

[13] 刘晓琳, 吴佳敏. 基于改进SPCNN模型的机场跑道胶痕检测方法[J]. 计算机应用研究, 2022, 39(2): 609-612.

LIU Xiao-lin, WU Jia-min. Airport Runway Rubber Mark Detection Method Based on Improved Simplified Pulse-Coupled Neural Network[J]. Application Research of Computers, 2022, 39(2): 609-612.

[14] 张明月, 赵铭钦, 祝超智, 等. 绿色、安全、智能化卷烟包装的研究进展[J]. 包装工程, 2022, 43(17): 308-316.

ZHANG Ming-yue, ZHAO Ming-qin, ZHU Chao-zhi, et al. Research Progress on Green, Safe and Intelligent Cigarette Packaging[J]. Packaging Engineering, 2022, 43(17): 308-316.

[15] LOWE D G. Distinctive Image Features from Scale- Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[16] 路凯, 钟跃崎, 朱俊平, 等. 基于视觉词袋模型的羊绒与羊毛快速鉴别方法[J]. 纺织学报, 2017, 38(7): 130-134.

LU Kai, ZHONG Yue-qi, ZHU Jun-ping, et al. Rapid Identification Method of Cashmere and Wool Based on Bag-of-Visual-Word[J]. Journal of Textile Research, 2017, 38(7): 130-134.

Cigarette Authenticity Identification Based on Visual Word Bag Model to Extract Features of Glue Marks

LI Dan1, MA Hui-yu1, LI Hai-yan1, WANG Chun-qiong1, ZHANG Ke1, ZHANG Yu-feng2, LIAO Ze-rong3

(1. Yunnan Tobacco Quality Supervision and Testing Station, Kunming 650104, China; 2. School of Information, Yunnan University, Kunming 650500, China; 3. School of Rehabilitation, Kunming Medical University, Kunming 650500, China)

The work aims to propose a method based on visual word bag model to extract the features of plastic marks in cigarette packets to quickly and accurately identify the authenticity of multi-brand cigarettes. Firstly, a self-designed multi-light source glue mark acquisition device was used to obtain the glue mark image inside the cigarette packet, and the glue mark image sample was obtained after removing part of the background of the original image by image processing technology. Then, scale invariant Feature conversion (SIFT) features were extracted from the glue mark image samples, and K-Means algorithm was used to cluster the features to generate a visual dictionary. Then, according to the visual word histogram feature set of the visual dictionary, the glue mark images were trained and classified, so as to identify the authenticity of cigarette. In this paper, 10 samples of authentic cigarette packets and counterfeit cigarette packets of 64 cigarette brands were taken as the objects. The classification test of 360 cigarette packet images showed that the authenticity recognition rate was 97.22%, and the average identification time of each sample was less than 0.05 s. The above method is simple to collect glue marks, has high authenticity identification efficiency and accuracy, and is suitable for a variety of cigarette brands. It provides technical support for improving the efficiency, accuracy and universality of authenticity identification.

cigarette authenticity identification; visual word bag model; glue mark image; visual word histogram

TP391

A

1001-3563(2023)15-0252-08

10.19554/j.cnki.1001-3563.2023.15.033

2023−04−19

中国烟草总公司云南省公司科技计划重大项目(2022530000241036);国家自然科学基金(6226010174);云南省科技厅基础研究计划(202201AY070001-035)

李郸(1992—),男,硕士,工程师,主要研究方向为卷烟真伪鉴别。

廖泽容(1984—),女,博士,副教授,主要研究方向为机器视觉、医学信号处理等。

责任编辑:曾钰婵

猜你喜欢

烟盒卷烟直方图
符合差分隐私的流数据统计直方图发布
用烟盒做一架小飞机
用直方图控制画面影调
烟盒博物馆之旅
烟盒博物馆之旅
创意
基于空间变换和直方图均衡的彩色图像增强方法
基于直方图平移和互补嵌入的可逆水印方案
卷烟包装痕迹分析
我国卷烟需求预测研究述评