深度卷积神经网络的发展及其在计算机视觉领域的应用
2021-12-02杜雪王浩然王欣悦
杜雪,王浩然,王欣悦
(南京邮电大学,江苏 南京 210000)
0 引言
卷积神经网络是应用最为广泛的人工神经网络,该模型由简单和复杂细胞构成,简单细胞对应不同区域,对于不同方向采取不同反应,获得更大感受,通过交替出现简单和复杂细胞,神经网络可以获取图像特征和抽象性。卷积神经网络是降采样层和卷积层交替出现的神经网络,经过多年的应用取得了突出进步,在计算机视觉领域中发挥着重要价值。
1 深度卷积神经网络的发展
卷积神经网络是由卷积层提取特征,亚采样层处理特征,交叠构成多层神经网络。网络输入是通过手写方式输入图像,对结果识别,输入过程需要进行多次卷积以及采样加工,在全连接层进行和目标的映射。一般情况下神经元和感受神经进行连接,卷积层用多个卷积核对通道,捕捉特征点,按照组合方式输出,特征图按照采样层S2后,可以缩减尺寸,神经元和对应特征对应映射,得到计算结果。卷积层神经元、采样层神经元分别进行模拟简单和复杂细胞,对卷积核共享,和特征对应,进行采样操作。
卷积神经网络卷积层包含特征图较多,在核对图像后运算,将元素视为权值参数,和输出图像像素值相乘,求和得到输出像素。采样层也被称为池化层,进行池化采样,在减少数据量同时保留信息[1]。神经网络和连接层进行对接,隐层结构和连接层一致,神经元一一对接。卷积神经网络在BP算法支持下,通过模拟训练,能够让神经元享有连接权,减少了训练数目。近年来通过增加神经网络的层数,增加样本,让算法不断优化,从而超越传统识别和机器学习算法,进一步提高了神经网络性能以及精准度,让神经网络的应用效果得到显著提升。借助于卷积神经网络的支持,计算机视觉服务范围不断扩大,已经逐渐融入金融行业、交通行业、服务行业等体系中,实现广泛应用,支持全社会智能化水平的提高,让人脸识别得到稳定应用,大幅提高社会服务和各个行业的便捷性。
2 深度卷积神经网络的应用
2.1 图像分类
在计算机视觉领域内最基础的应用是图像分类,根据设定对给定图片进行分类,让图片内容划分到合适的分类中,并进行类别标记。图像分类的主要进展为ImageNet ILSVRC任务上,常见图像分类数据集还包括Caltech256、SUN等。
2.2 目标检测
在目标检测中,是计算机视觉基础工作,可以标记设定对象,对目标物体进行标记,并进行图像分类。相比于图像分类,目标检测在图像特定区域、分类上更为重视,且检测更加复杂。传统目标检测使用Haar、SIFT等描述,通过滑动窗口能够识别,对每类物体单独训练分类器。目标检测领域作为最具影响力检测算法,能够对目标进行处理,具备较高检测率,能够满足人脸检测的需要,实现广泛应用。使用AdaBoost算法框架,提取Haar-like特征[2]。在窗口界面搜索定位,特征为图像梯度直方图,检测通过支撑向量机实现,考虑到自然界物体可能存在柔性形变,需要利用多尺度形变模型,该模型具备直方图和支撑向量机的优势,用隐变量推理组件形变,固定模板分辨率,辨别宽高比来辨别目标。如今神经网络的发展开始替换为DeepCNN进行检测,提高了目标检测精度,建立R-CNN检测框架,R-CNN算法使用选择性搜索策略进行候选窗选择,选定深度特征,并通过SVM分类器的应用对候选窗划分,使用非极大值筛选候选窗,确定目标定位。
2.3 图像语义分割
在计算机视觉领域中,研究人员精确理解目标投向,通过语义分割满足需求,解析训练图像内容,分割工程中获得像素语义类别,并对图像内容予以标记[3]。图像语义分割需要对分割目标准确识别,精准图像语义分割能够降低后续识别数据量,保留结构化信息。常用数据库包括MicrosoftCOCO、MSRCv2以及Sift Flow等。如今深度卷积沉浸网络成功应用于图像检测分类中,在图像语义分割中使用DeepCNN,如使用多尺度卷积神经网络学习目标特征,让语义分割取得理想效果。在语义分割上FCN效果良好,但是未经过对边缘信息和空间的约束,导致分割结果十分粗糙。CRF模型对FCN输出结果的处理,可以将分割数据集的精度提高至71.6%。为了识别图像分割区域,语义分割必须要利用精准像素对数据加以标注,时间长,且数据数量有局限。按照经验,精确标注目标像素点,可以克服像素的约束,成功设置语义分割的算法。BoxSup通过检测图像进行监督,捕捉监督信号,先利用候选区进行初步结果的筛查。然后对FCN、检测框的信息进行监测。将物体点作为目标,通过设计函数监督数据,并对FCN函数约束训练。期间对关键像素赋予权值最大值,能够对各像素更准确标注。
2.4 图片标题生成
生成图片的标题是神经网络的重要业务,借助于自然语言准确描述图片,体现出图片的特征和内容,随着自然语言和深度学习的技术突破,图片标题生成逐渐在各个网站中使用。目前微软和谷歌的技术仍然处于领先地位。部分图片使用流程化方法进行图片内容的描述,向学习示例图片,对各特征部分提取形容词汇等,对应CNN特征,可以充分表述CNN特征,然后使用MELM产生标题。最后使用MERT对可能性最高的标题排序。还有一部分图片采取端对端方法,在机器翻译的启发以及支持下,通过RNN模型、CNN模型,完成图片标题以及获取图片特点,最终生成图片的对应标题。
2.5 人脸识别
人脸识别包含人脸辨识和验证两部分,辨别人脸图像正确率为50%,辨识人脸可以将人脸图像划分不同种类的身份,猜中概率为1/N。人脸的辨识难度更高,随着类别数增加而增加,最大挑战在于在不同表情、姿态、光线下的辨别。两种变化分布十分复杂,呈现出非线性。目前最为著名的测试集是LFW,通过在互联网上收集超过五千人的人脸照片,用于评估人脸验证性能[4]。经过测试集运算模拟,其准确性基本达到97.53%。而深度学习准确率可以达到99.47%。人脸识别需要在离线数据上运行,经过模型模拟,再应用于验证任务上。通过对人脸监督,捕捉人脸特点,对最小特征类识别,准确率达到99.15%。使用Triplet网络学习人脸特征,要求输入不同类图片一张、同类图片两张的图像样本,使用欧氏距离进行输入图像相似度的度量,在LFW数据集上达到了99.63%精度。
2.6 行人再识别
在监控系统中主要利用行人再识别,在可控环境中,利用虹膜和人脸等特征进行人脸识别。监控视频环境十分复杂,不可控因素较多,获得行人图像的质量差,无法准确捕捉人脸特征。因此很多研究人员通过人携带物品和衣物进行识别。但受到光线和角度的影响,并不能准确识别,误识别率较高[5]。识别行人的算法主要包括特征识别以及距离度量两种,度量距离是将行人特征分布作为学习度量,在不同行人目标中,由于不同个体之间特征距离差距显著,统一个体上特征距离差异小,能够对不同行人目标进行区分,不易受到光线等环境因素的影响。利用TripletLoss监督网络学习过程,在数据集上取得良好效果。使用局部图像块匹配方法进行局部特征的学习,提高了辨别能力。
2.7 人体动作识别
识别人体动作已经是计算机视觉研究中关注度很高的问题,通过摄像机对视频数据进行捕捉和处理,对视频中动作行为深入理解。能够在图像序列中准确找到运动信息,并提取底层特征,快速建模,形成底层视觉对应动作行为的关系。根据时序信息使用频率,识别人体动作可以通过识别时空特征以及时序推理两种。在视频序列中利用人体动作识别法提取动作特征,主要解决简单动作识别,可以分为局部特征、时空轨迹以及时空体模型等。使用卷积神经网络学习具备一定语义信息,逐渐得到广泛应用。使用三维卷积计算,于图像序列准确捕捉目标动作,从多渠道获取图像特征,并将这些特征合并为最终动作。双路卷积神经网络对于图像的识别不仅支持静态帧,也能在多帧图像上加以处理,静态帧是利用单帧信息对动作信息提取,并获取时间信息,通过捕捉特征,并经过SVM分类器识别图像动作。
3 结语
综上所述,在我国各个行业中深度卷积神经网络均得到深度应用,为各个行业的发展提供了技术上的支持。在计算机视觉应用上,通过生成标题、目标监测、人脸识别等功能实现。通过在不同领域上应用满足各个行业的需要,提高社会智能化水平。当前在数据集中应用良好,但应对互联网上大规模数据仍然较为困难,还需要不断更新和迁移,进一步研究神经网络泛化能力,才能更稳定应对互联网海量数据,满足其实际应用需要。