APP下载

多特征融合的卷烟真伪鉴别模型与系统

2023-03-27刘培军王健郭峰李海燕刘真胡琼

中国信息化 2023年2期
关键词:稽查人员真假卷烟

文|刘培军 王健 郭峰 李海燕 刘真 胡琼

在智能信息化时代,利用机器学习算法提升卷烟真伪鉴别能力和效率具有重要的价值,能够加快发展现代产业体系,推动经济体系优化升级。本文首先简述了卷烟真伪鉴别的意义和现有的各种方法,进而提出了人工特征与深度特征融合的卷烟真伪鉴别方法与系统。最后,以某烟草专卖店采集的真假卷烟数据库为例,建立了真伪鉴别模型。实验中,本文提出的方法不仅可以学习到更具判别力的特征表示,而且准确率已达到95%以上,并且虚警率低至0%。结果表明此卷烟真伪智能鉴别系统已完全满足实际场景的需求,特别为新进专卖稽查人员以及业务不熟练人员,提供高效、可靠的鉴别辅助手段。

一、引言

中国烟草行业实行垄断经营、统一管理体制,依法对烟草专卖品的生产、销售与进出口实行专卖管理,担负着保证国家财政收入、维护消费者利益的职责。消费市场中假烟的流通,不仅破坏了原有的、稳定的烟草销售环境,同时也会对购买者带来消费体验和经济上的损失。因此,如何能够在不破坏香烟包装、不影响再销售的情况下,快速鉴别卷烟真伪是一个十分紧迫的需求。在实际场景中,各级烟草专卖稽查人员主要借助长期经验总结出的鉴别点来对卷烟真假进行排查和识别,但是并没有对鉴别点进行规划,缺乏一个统一的鉴别标准。这导致鉴别结果不仅会因人而异,而且鉴别过程耗时耗力。本文将介绍一种新型的卷烟真伪智能鉴别模型与系统,其基于互联网架构,利用移动通信网络,集成数据传输、集成图像感知终端、信息标识载体、图像识别算法等人工智能模块,形成在线实时处理系统,帮助现场工作人员在执法现场对卷烟真伪进行快速且准确的判断。

卷烟真伪的智能鉴别功能依托于专卖稽查人员办案终端,在线实时上传待测卷烟包装图像至云服务器,通过云服务器部署的人工智能识别模型对卷烟进行真伪鉴别,并推送结果到专卖人员终端。图1展示了卷烟真伪智能识别系统的流程示意图。最为重要的模块是云服务器上的真伪鉴别模型,其整体假烟识别准确率已达到95%以上,并且虚警率低至0%。此卷烟真伪智能鉴别系统已率先配备在国内一线稽查人员终端上。在实际工作场景中,可以满足不同的稽查人员在不同的场景鉴别需要,特别为新进专卖稽查人员以及业务不熟练人员,提供高效、可靠的鉴别辅助手段。

图1 卷烟真伪智能鉴别系统流程示意图

二、卷烟真伪鉴别算法的原理

目前,卷烟真伪鉴别主要采用仪器鉴别检验法、评吸鉴别检验法以及感观鉴别检验法三种。在这三种鉴别方法之中,感观鉴别检验法是最常用的一种卷烟真伪鉴别方法,事实上,这种方法极易受到主观因素的影响,缺乏客观、量化的评价标准。此外,不仅需要专家知识,还需借助专业的光学仪器,耗时耗力。

针对上述问题,本文设计了一套端到端的卷烟真伪鉴别系统,主要涉及如下步骤:图像数据采集、图像预处理、鉴别点识别、关键特征提取、真伪推断。其中每个模块的细节如下。

(一)图像数据采集

假设有C种卷烟品规,本卷烟真伪鉴别系统需要累计收集M张包含所有品规的卷烟条、盒包装的高清图像,并将所有图像数据进行数字化处理,建立真假烟图像数据库。值得注意的是,卷烟图像数据必须具有能够反应真伪差异的全面信息。但由于真假卷烟的图像十分相近,为避免真假卷烟拍照环境因素不同引起的系统差异,真假卷烟的拍照环境被强制控制在一定的范围之内,并在不同场景、不同角度、不同光线下为N种卷烟品规的每个品规拍摄真假图像约M/N余张。

(二)图像预处理

不同于一般的图像分类与目标识别任务,卷烟真伪鉴别任务中,针对某一卷烟品规,其真假图像数据在视觉上极为相似,并且整体上呈现出假烟图像数量偏少(通常只占有20%左右的比例)的现象。为了解决该问题,缓解数据量偏差对后端模型泛化性的影响,本文在图像预处理阶段利用Albumentations开源模块对图像数据进行增强、增广预处理,以增加训练数据集中假烟类别的规模与多样性,从而使得训练的模型具有更强的泛化能力。

(三)鉴别点识别

鉴别点识别模块是指结合专卖稽查人员的专业知识,通过图像识别算法自动获取信息量最大的鉴别点区域,以供算法对该区域进行鉴别。反之,如果直接利用卷积神经网络对卷烟包装图像进行真假分类,因为鉴别点的视觉差异过小,算法通常无法学习鉴别点的有用信息。因此,本文提出先训练一个学习如何提取鉴别点的卷积神经网络。此步骤:将烟盒图像中无用或者易干扰的信息剔除掉,以提高卷烟的真伪鉴别准确率;将专业知识数字化,使得工作人员即使欠缺鉴别经验,对鉴别点的知识储备不足,也能够使用该算法顺利执行任务。

通过大量文献调研,传统识别方法是通过边缘提取、色彩阈值、特征点匹配等手段获取鉴别点位置。但在鉴别时由于拍摄图像的情况多样,诸如背景光线变化复杂、烟盒角度偏转不定、烟盒极易产生形变、塑料包装薄膜反光严重、部分烟盒花纹图形复杂、拍照图像大小尺度不同等,以及用来鉴别卷烟真伪的有效区域很小,只占原始烟盒图像的极小面积,因此无法直接通过传统视觉识别方法提取鉴别点。为解决这些问题,本文采用多阶段策略,先使用One-Step目标检测算法YOLO自动学习并粗略识别每一种卷烟品规的鉴别区域,再利用多种算法集成的方式来进一步获取鉴别区域中更精细的鉴别点图案。此策略不仅解决了鉴别算法在多场景普适性的问题,排除了多种干扰因素的影响,而且极大地提升了鉴别点位置获取的准确度。

(四)关键特征提取

在鉴别点提取阶段,算法已经获取到鉴别点的准确位置信息。进而,算法即可对鉴别点的真伪进行学习和分类,其技术路线主要集成了人工特征和深度特征互补融合的策略。

1.人工特征提取

如何获取众多卷烟品规真假图像在颜色、纹理和形状三个维度最显著的判别性特征,是卷烟真伪鉴别任务中亟待解决的问题。

首先,在一幅图像的RGB前三阶颜色矩组成的9维向量即可用于描述图像的颜色特征。对于纹理特征的提取,本文借助模拟人类视觉细胞感受野的Gabor滤波方法,来准确地捕获对应于空间频率、空间位置及方向选择性的局部结构信息。对于图像的形状特征,本文利用边缘特征提取算子Sobel获得图像边缘信息的灰度图,然后利用纹理特征的提取方法对边缘特征图进行特征转换,得到形状特征矩阵。

最终,将颜色、纹理、形状特征向量拼接得到图像完整的特征向量。进而计算图像特征矩阵和真假烟的特征向量的马氏距离和,并将其转化为概率如下:

2.深度特征提取

随着计算机技术的快速发展和计算机硬件性能的提升,深度学习取得了巨大进步,卷积神经网络以其优异的性能在图像分类领域取得了广泛且成功的应用,其一般包括输入层、多个卷积层、池化层、全连接层和输出层。因此结合真、假卷烟大数据样本,利用残差深度神经网络(诸如ResNet-34),隐性地学习真假鉴别点的复杂纹理、图形、模式等不容易用数值描述的属性差异,从而达到真假烟精准鉴别的目的。

(五)真伪推断

三、实验仿真

为有效验证提出模型的有效性和实用性,本文仿真运用的实验平台为 UBUNTU 20.04,32G 内 存, 软 件为 PYTHON。本卷烟真伪鉴别系统在不同场景、不同角度、不同光线下为每个品规拍摄真假照片约4000-5000张,累计收集60种卷烟品规的27万余张高清图片,分辨率在1200dpi以上,建立了一个真假烟图像数据库。

本文将数据集划分为训练集234697张(85%)、测试集 41392张(15%)的结构,并且为了保证模型的泛化能力,采用了随机划分。通过在训练集上学习模型,在测试集上的真假鉴别准确率已达到:真烟鉴别率100%,假烟鉴别率95.71%(均值),并且虚警率低至0%。这完全满足现实场景的需求。

四、总结与展望

本文提出一种全新、高效的卷烟真伪鉴别模型与系统,其采用传统图像识别和深度学习算法相融合的策略,同时嵌入专家知识,使卷烟真伪鉴别的精度与效率得到巨大的提升。然而,目前解决卷烟无损真伪鉴别的问题仍具有极大的挑战性。一方面,假烟会随着造假工艺的改进而产生更接近真烟的包装,从而使现有的鉴别点区域失效;另一方面,随着市场不断迭代的新需求,新品规的卷烟会不断地被创造,届时则需要不断地学习、积累新烟品的鉴别点。

猜你喜欢

稽查人员真假卷烟
真假大作战
真假大作战
真假大作战
深大通暴力对抗稽查人员执法暴力抗法应作为重大违法强制退市
三句话的真假
合川区查获微商销售假烟案件
谁是笨蛋
谁是笨蛋
卷烟包装痕迹分析
我国卷烟需求预测研究述评