APP下载

手机拍摄行为智能识别优化研究*

2021-01-26寇云峰

通信技术 2021年1期
关键词:人工神经网络特征提取摄像头

王 昕,寇云峰,辛 浪,宋 滔

(中国电子科技网络信息安全有限公司,四川 成都 610041)

0 引言

人工神经网络是抽象人类大脑结构和对外界刺激响应机制,模拟人类神经系统对复杂信息处理机制的一套模型,涉及生物仿生学、数学、物理学、统计学、计算机科学、软硬件工程学等科学和技术领域。目前在图像检索[1]、字符识别[2]、笔迹识别[3]等领域中已得到广泛应用。

其基本由三个部分组成:输入层、隐藏层、输出层。输入层接收外部信息,输出层得到该网络处理后的结果,隐藏层则处于两者之间。层与层之间由大量神经元相互联接。神经元的作用是对输入的数据进行加权求和并应用于激活函数,处理后将输出数据传递给下一个神经元。神经网络输入层接收到外部信息后,输出结果可靠性的高低主要取决于神经网络隐藏层结构优劣。对现有神经网络内部结构的优化是突破类似手机摄像头这种小目标物体实时识别瓶颈的关键点。

1 实时智能识别

识别系统如图1 所示。输入采集模块通过摄像头实时抓取一定范围内的图像,由智能识别模块识别该图像中是否存在手机拍摄行为。如果存在则将识别结果传递给输出控制模块,输出控制模块根据识别结果控制屏幕供电电路。若存在违规行为,则关闭显示并报警,实现智能防御功能,保障信息安全。

2 手机拍摄行为识别

搭建人工神经网络框架PyTorch,通过深度学习训练形成模型。使用该模型结合OpenCV 图像识别技术对手机拍摄行为进行识别检测。

图1 智能识别系统示意图

2.1 建立大数据样本库

(1)采集各种品牌手机和从不同角度、不同距离手机拍摄行为的图片建立大数据样本库。将样本库划分为训练集和测试集。

(2)使用图像处理软件对样本库中的图片进行预处理,如图2 所示。保证图片格式符合要求,手机特征明显。加入类似手机的负样本,降低误识别率,提高模型的泛化能力。

(3)使用标注软件Labelimg 将手机部分标注为cellphone,摄像头部分标注为phonecamera.如图3所示。将标注好的图片保存在样本库中。

图2 样本预处理

图3 手机特征标注

2.2 样本深度学习

将标注后的样本加载到人工神经网络中进行深度学习,形成训练结果模型。人工神经网络深度学习原理如图4 所示。智能识别系统将在第一层网络中初步识别是否存在具有手机简单特征的目标。如果初步识别结果为存在,则在第二层网络中进一步精确识别该目标符合手机特征的可能性。如果该可能性超过预设的阈值,则判断目标为手机。

图4 深度学习原理图

2.3 YOLO 算法

系统核心算法的关键点是在复杂场景中实时识别出小物体手机,确保在手机拍摄行为完成前关闭屏幕。在保证识别精度的前提下对神经网络识别速度有很高要求。经过测试,识别时间不能超过500ms。这就需要在速度和精度上进行折中。

保证mAP(Mean Average Precision,总体平均精度)指标,要选择一个图像特征提取能力较强的主干网络,并且不能太大,否则会影响检测识别速度。如果采用R-CNN 算法[4],第一步是提取候选区域,第二步是修正候选区域的边框位置并对候选区域识别。虽然精度很高,但需要先提取候选区域,然后才能在该候选区域内识别,速度上不能满足需求。因此,选择能够直接预测出图像中目标的位置,不需要先进行候选区域的计算的One stage 算法。

YOLO 是One stage 目标检测的一种,全名为You only look once。它将目标识别定义为一个直接回归问题,在预测时使用一整张图像的全局信息作为输入,直接由全图就能预测其中目标的边界框及所属类别的概率。整个检测是一个网络,可以直接对其检测性能进行端到端的优化,在保持高平均精度的同时实时做识别检测[5]。因此,实现相同精度显著地比其他检测方法快,得到的目标特征更容易泛化,更有利于在不同场景下实时智能识别出手机的拍摄行为。选择YOLOv4-Tiny 作为核心算法,它是YOLOv4 的简化版,在精度损失不大的前提下提升了速度,更适合识别系统集成于嵌入式设备的特点。

YOLOv4-Tiny 主干特征提取网络为CSPDarknet 53-Tiny。网络采用CSPnet 结构,其结构如图5 所示。残差块的堆叠被拆分成左右两个部分,右边部分继续进行原来残差块的堆叠,左边部分可以认为是一个残差边经少量处理直接联系到最后。

图5 CSPnet 结构图

YOLOv4-Tiny 的原型主干特征提取网络只有13×13×512、26×26×256 两个有效特征层。在此基础上增加一个52×52×128 有效特征层来优化网络结构,其结构图如图6 所示。增加的有效特征层能更加精确地识别出手机摄像头这种小目标。

输入为416×416×3的图像通过CSPDarknet53-Tiny 的主干特征提取网络得到52×52×128、26×26×256、13×13×512 三个有效特征层,然后传入加强特征提取网络中进行FPN(Feature Pyramid Networks,特征金字塔)构建。FPN 会将13×13×512 有效特征层卷积后进行上采样与26×26×256 有效特征层堆叠;将26×26×256 有效特征卷积后进行上采样与52×52×128 有效特征层堆叠。这样就在输出层形成了三个预测特征的YOLO head。

2.4 样本训练

将数据样本训练集中图像为608×608,416×416 的样本载入PyTorch 人工神经网络框架中进行多尺度深度学习训练,GPU 使用Nvidia RTX6400,训练的迭代次数为15000 次。如表1、表2 所示。最后,通过训练后生成的模型检测测试集中像素为320×320、608×608、416×416 的样本。

图6 416×416 特征网络结构

表1 训练输入:608x608 GPU:Nvidia RTX6400迭代:15000 次

表2 训练输入:416x416 GPU:Nvidia RTX6400迭代:15000 次

根据图7、图8 的数据可以看出优化后的YOLOv4-Tiny 对手机和摄像头的特征识别得到了较高的mAP(总体平均精度)和较低的Loss(损失)值,取得了较好的训练效果。

2.5 识别检测

使用训练后的模型对不同场景下手机拍摄行为进行检测,模型三个特征提取层分别将整幅输入图像分成13×13、26×26、52×52 的网格。每个网格负责一个区域的检测,网格数越多的特征提取层对物体细节特征的检测越精确。13×13、26×26 主要负责检测输入图像中的手机,52×52 主要负责检测输入图像中的摄像头。如图9所示,通过检测比较,对横置摄像头的识别度需加强。

图7 训练608×608 样本

图8 训练416×416 样本

图9 识别检测结果

3 结语

本文介绍了一种基于人工神经网络的实时智能识别系统。分析并部署了该产品神经网络在具体应用中的优化方案。经过验证实现了利用人工智能深度学习和图像识别技术对手机拍摄行为实时的智能识别和防御报警,保障了信息安全。后续还需加强对小目标和远距离目标的识别能力,提高集成在嵌入式设备中人工神经网络的性能。此外,对于人工神经网络结构和算法的优化是继续探索的方向,也将推动人工智能与各行业的高度融合。

猜你喜欢

人工神经网络特征提取摄像头
浙江首试公路非现场执法新型摄像头
摄像头连接器可提供360°视角图像
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
人工神经网络实现简单字母的识别
基于Daubechies(dbN)的飞行器音频特征提取
基于人工神经网络的优化配置研究
基于改进人工神经网络的航天器电信号分类方法
奔驰360°摄像头系统介绍