深度学习在图像识别中的应用研究*
2021-12-09唐凤仙罗富贵张绿云
唐凤仙 罗富贵 张绿云
河池学院 广西 河池 546300
引言
最近这些年伴随着科技的进步以及社会的不断发展,深度学习成为人工智能研究的重要形式,并且是当前社会热门研究的重点之一,对深度学习的研究发展,无论是对计算机视觉领域,或是机器学习领域分析,都具有重要的影响。如今,深度学习技术正在不断完善,其在方方面面对大众的生活产生了影响,本文将通过探究深度学习在图像识别方面的应用,探索其发展的内涵。
1 深度学习概述
1.1 深度学习的原理
深度学习是Hinton等[1]人于2006年提出的,这是一种机器学习的方式,起源于人们深入研究人工神经智能网络的探索。传统图像识别方法,例如支持向量机[2]、小波变换[3]等识别方法的泛化能力不强,图像识别精度不高。深度学习以数据驱动方式结合非线性变换,从大量的原始数据中自动提取到高层、抽象、特定语义的特征,并完成分类任务。另外,深度学习本身也是一种对数据表象的学习方法,其具体学习过程可以理解为:学习训练的目的是计算机通过对网络层级间的参数迭代更新进行深度学习,并使其训练的结果无限接近真实值。训练过程中,学习路径通过梯度的不断下降,并运用统计学方法进行有效优化。目前在社会发展历程中,深度学习已经在计算机视觉、自动控制和自动驾驶等方面得到了充分运用,推动了图像识别技术的发展。
1.2 深度学习的发展
机器学习的发展历程中,基于人工神经网络算法的模型可以分为两部分:第一个是浅层学习,第二个是深度学习。因为浅层学习时期,人工神经网络算法虽然也被称为多层感知机,但由于多层网络训练困难,通常都是只有一层隐含层的浅层模型。不能有效解决结构抽象与不能形式化描述等问题,所以推进了人们对于深度学习算法的进一步研究。深度学习的快速发展,为多数领域带来正面影响,采用卷积神经网络[4]可以对于图像识别未来发展起到良好的推动作用。类似于传统神经网络的卷积神经网络可以看成是人脑神经结构的简单仿真,每层主要由大量的神经元组成。整体可以分为三部分,分别是输入层、卷积层和池化层的组合以及多层感知机分类器。在大数据背景下,深度学习发挥了其强大的功能,也还有许多的深度网络模型以及多融合的神经网络发挥作用。深度学习在应用过程中可以有效提升语音识别的精确度,通过交通标志的识别,可以在车辆检测时取得理想效果。
在进修医师刚入科对功能神经外科疾病尚不熟悉的情况下,安排书写病历是快速进入状态的好途径。对常见的十几种疾病都做好文本模板,特别是首次病程记录,做到宁繁勿简。在现病史中对症状的描述尽可能详尽,归纳可能的合并症状,提供必要的阴性症状,完善的既往治疗措施;查体需包括可能的阳性体征和必要的阴性体征;诊断依据条理性强,有分析过程,同时提供3~4条鉴别诊断;诊疗措施规范合理;术前小结模板对手术适应症、可能的合并症及术后注意事项记录清楚。在进修医师病历书写过程中,通过对详尽的模板进行改动,增加患者个体化信息的过程中也获得了对疾病认识的提高。
1.3 深度学习的展望
目前,深度学习快速发展的同时在各大行业或领域也得到了广泛应用。但是,相关研究人员对深度学习的探索与研究还处在发展时期,还有很多问题需要人们深入解决。例如,在模型结构方面,人的大脑结构是立体的,并且兼顾了平面层分布于纵向排列,但现阶段人类使用的网络结构仅仅是平面结构。所以,为了深入探索深度学习,相关研究人员希望可以在提高训练基础上保持速度,但是深度学习结构网络较为复杂,由于其层次多并且有数据的影响,训练时速度也会受其影响而被制约,所以如何在确保训练精准度的情况下依旧可以提升速度,还需要相关研究人员进行深入探讨与研究。
深度学习概念源自于人工智能神经网络的研究,其在图像识别系统运用较广,属于多层次感知结构体系,这也是其最大的优点,有关研究证实,如果针对某项特定任务模型其深度不足,那么则会增加一些计算元素,也就需要多参数以及训练样本来同时深度学习,所以深度学习是基于大数据自主学习过程,并非通过手工设计来获取有关数据,而是通过组合层获得直观表达方式,实现机器替代人类学习。这一系列操作的目的在于机器模拟人脑来完成学习的动态过程,相当于是需要机器来模仿人类的学习行为以及活动,深度学习在大数据自主学习基础上可以获得更好的基础保障,所以能有效提升图像识别的效用。
2 深度学习的深层结构优势
遥控控制原理图见图4,遥控控制模块在采集车钟电流、控制指令(正倒车启动、停车等)、安保输出和主机转速等信号之后,首先根据主机的运行状态进行内部控制逻辑处理,然后向电喷控制系统中的LCU和DCU发送指令,最后由DCU通过各缸的CCU驱动各电磁阀件完成对主机的控制。
3 联合深度学习
遥感图像包含了非常多的数据信息,这些具有价值的数据被运用于各行业。通常而言,遥感图像数据具有两个特点,第一,因为过大的图像数据造成信息的冗余,第二由于较低的分辨率造成不同信息间的相互结合影响。所以对于遥感图像分类是比较难的一项工作。传统分类方法无法把有价值的信息与无价值的信息准确分开,如果融入深度学习技术,将其运用到遥感图像分类过程中,构建合适的学习模型,结合特定优化计算方式,可以取得良好的分类效果。该项技术的使用为遥感图像分类技术提供了方便。
(3)重介质洗选系统及介质回收系统的相关设备应铺设衬板。目前普遍采用磁铁矿粉与水配制的悬浮液作选煤或选矸用重介质,由于这种悬浮液密度大、颗粒硬度高,所以在重介质洗选系统和介质回收系统中的储罐(桶)、漏斗、溜槽、管道应全部或局部铺设衬板。
4 深度学习在图像识别中的应用
老年人在生活中跌倒的事件是屡见不鲜的事,如何在跌到事件发生后得到快速反馈和救助,以有效降低死亡和留下长时间治疗及后遗症的风险,对老年人跌到事件进行自动检测的智能系统具有重要的现实意义。部分研究人员提出了采用深度学习方法对智能家居环境下的计算机视觉跌倒检测系统,主要方法是采用背景减法提取人体前景输入到分类器中,对于是否发生跌到的最终决定,依赖分类器输出与特定的判别规则。这种使用深度学习方法检测人体跌到的方法,主要通过智能获取雷达回波的复杂性,结合距离信息,频率、时间信息等减少不正确的预警。另外还有一些研究人员通过融合的方法,比如结合彩色与深度图像,通过特征学习方法和目标区域的定位,提出使用深度信息为目标定位决策,使用卷积神经网络学习生成特征来检测人员是否发生跌倒。与RGB图像进行比较,优点是场景信息准确、干扰的声音小等特征,算法结合设备与人体的距离信息,计算人体的高度和宽度,并通过像素转化实现目标定们来优化图像。把图像高度和宽度作为输入层图像的大小,采用卷积神经网络学习深层特征检测,自动获取300个的特征作为分类。深度学习在跌到检测识别中的应用推动了人工智能背景下智慧医疗的发展。
4.1 人脸识别
深度学习在图像识别中应用最多的就是人脸识别,而人脸识别最大的问题在于如何把多个元素引发变化进行有效区别。引发图像识别变化因素非常多,例如表情、身份、光线等等这些因素的变化,分布性质属于非线性的,而且这些变化有着非常复杂的内在特点,因此很多时候借用传统模型无法区分。深度学习之所以会被运用到人脸识别过程中,其目的就在于实行了多层非线性变化,所以通过这种变化我们可以汲取新的特征,从而有效区分有不同元素所引发的变化。常用的人脸识别数据库主要有WebFace、CelebFaces、LFW标准数据库等。
4.2 遥感图像分类
早些年,一些计算机视觉研究人员将深度学习模型视为黑盒子,这一观点并不全面,因此相关研究人员就提出了联合深度学习的方法。第一,传统计算机视觉系统与深度学习模型间存在一定的关联,所以在相关的研究运用中两者关联起来可以构建出新的模型,而且这模型具有一定深度。第二,深度学习模型各个层次以及视觉系统若干模块是可以一一对应的,如果现有模型和视觉系统间这种对应关系消失了,那么有关研究人员也可以在此启发之下重新组建了新的模型。
4.3 跌倒检测
深度学习在各大行业或领域中运用越来越广,尤其是在图像识别中的运用较多并推动着图像识别的发展。基于深度学习的图像识别方法在大规模图像分类中降低了错误率,例如,在2014年谷歌提出的GooleNet,错误识别率为6.7%,微软研究团队提出的PReLU-Nets,错误率为 4.94%。深度学习中的卷积神经网络模型对于手写数字以及人脸识别等具有明显的提升效果;在人脸识别、跌到检测等方面也提高了图像识别的准确率和识别速度。
4.4 交通图像识别
随着经济社会的快速发展,交通图像识别技术主要用于车道偏离、车牌识别、交通标识等各个方面,其为人们的日常出行提供了方便,有关研究者尝试把深度学习技术运用到更深入的交通图像识别领域,例如把深度卷积神经网络运用于交通标志检测中,可以实现高精度以及时效性强的检测工作。基于深度学习下的交通图像识别技术,可以为图像识别领域创新提供新思路以及方法。
4.5 字符图像识别
基于深度学习的字符图像识别运用于电子签名,邮政信件等众多领域,同时取得了一定的成绩,但是早些年字符图像识别技术存在一些问题,过于依赖人工对于字符的预先处理。很明显这种识别的识别效率以及可靠性均不高。当深度学习技术流行之后,部分研究者开始运用该项技术研究字符的图像识别工作。在MNIST数据集上取得了一定成绩,明显减少了识别的错误率,这确保了机器和人类观察者间的差距不断减少。
光阴似箭,一晃就是一年。春天,杨家庄村边的小树林里空气清新,野花遍地。这天,杨力生与李秀花依旧在这里约会。二人拥抱亲吻完毕,杨力生说:“秀花,我要和杨秋香离婚,离婚后咱俩结婚,好吗?”
5 结束语
当前,虽然深度学习已经被广泛应用于各行各业,也取得了令人瞩目的成绩和效果,并显著应用在图像识别领域中。但是深度学习依赖于大量的数据训练,才能表现出强大的特征提取能力,现实生活中,采集多样性的大量数据费力又费时,于是限制了学习模型的泛化能力;另外,现实中的场景有时不可控也不可重复,组成因素多样化,影响视觉算法的设计,再加上人为标注的数据也存在误差,因此融合多种感知信息进行深度学习构架是我们今后研究的主要方向。