APP下载

基于深度学习的犬种识别研究

2018-04-24于奥运

现代计算机 2018年8期
关键词:犬类神经元评估

于奥运

(四川大学计算机学院,成都 610065)

0 引言

犬类是与人类最紧密相连的动物,是人类患难与共的朋友。随着人类生活水平的日益提高,越来越多的家庭会选择养狗作为宠物或者“护院者”,人类对犬类越来越关注。犬类的种类有很多,对犬类的识别有重要的意义:既可以增进对狗的了解,又可以促进动物学科的发展。

传统的,犬类可以根据专家方法和基于DNA鉴定的方式进行分类,然而这些方式,在评估中需要花费大量的时间和金钱。此外,还可以借助对人脸图像进行分类的粗糙图像处理技术,它是利用轮廓分类器进行粗分类和基于主成分分析(PCA)的分类器进行精细分类。随后,又提出了基于人脸局部、NCC图像匹配算法和PCA[1-2]进行分类的犬种分类,然而NCC方法用于发现和捕获犬类图像的每个局部区域是相当耗时的。

多年以来,人们通常依靠人工设计的特征,如尺度不变特征变换(SIFT)、方向梯度直方图(HOG)等完成计算机视觉、图像目标识别等相关任务。这种方式对图像中的高级信息如:局部外观、边缘交叉的处理效果欠佳。深度学习是近些年来在人工智能领域取得的重大突破之一。如今深度学习已广泛应用于以下领域:图像识别、文字识别、人脸技术、智能监控以及图像视频编辑等。在图像目标识别任务中,深度卷积神经网络(DCNN)已被证明具有杰出的分类性能。

1 犬种识别

1.1 基本思想

从Clickture挖掘更多的犬类相关数据。Clickture提供包含93k张340余种狗的图片,在Clickture获取图片数据过程,分为两步。第一步通过输入关键字(如:dog,puppy等),点击查询结果即为犬类相关数据,然后这些狗的图像分发到340余犬种中[3-4]。更类似的词(包括许多常见的犬种称呼和常见的拼写错误,例如,Breed,Akita,doggs等)与狗有关,并进一步用于查找70k的与狗相关的图片。因此,340余种狗的训练图像的总数明显增加到163k。

充分利用在ImageNet上预训练深度卷积神经网络(DCNNs)而获取的信息。DCNNs通过一个端到端的训练方案大大改进了图像分类任务,而DCNNs在像Ima⁃geNet这样的大型数据集上进行预训练也能很好地推广到其他视觉任务。考虑到DCNNs的广泛使用,可以将DCNNs作为特征提取器,很好地应用在犬类识别的系统中。在新分类任务中,相比正常使用预训练DCNNs切掉最后一层(包括ImageNet中1000个类别的1000个神经元)或者更换一个新网络层(包括340个犬种的340个神经元),我们试着在预先训练的DCNNs中保持更多有用的信息,通过在1000个类别中使用最相似的神经元的权重来初始化每一个新的神经元。通过这种修改,网络中的所有权重都可以有更好的初始化。

1.2 拓展犬类数据集

优化分类识别效果的第一个方式是获取更多的犬类相关的图片数据。因为在犬类识别的有监督学习尤其是犬类耳部的深度学习过程中,越多的训练集获得的效果越好,即使训练集是存在噪声的数据[5]。采用的数据集由Clicktrue提供,在Clicktrue中,因为每个图像都与一组相关联的文本查询匹配,获得狗相关的图像可以转化为寻找狗相关的查询这样一个简单的任务。

这里的狗相关的数据查询可以包含的相关词汇,记为R.IRC组织者定义犬类相关词汇为R={dog、dogs、puppy、puppies}。按照这种常规查询方式,可以获得93k狗相关的图片。我们借助单词嵌入来自动找到与狗相似的单词:

R={r:sim(R,dog)>α ||sim(R,puppy)>α};

其中,sim(,)是构造的单词嵌入空间中定义的余弦相似度;α表示阈值参数,将其设置为0.4。

通过上述方式拓展,可以获得额外70k狗相关的图片。所以我们总共有163k的图片,值得注意的是,即使是狗的图片数据获取增多,但是仍然小于ImageN⁃et所需的数目,并且一些稀有品种的狗图片仅有几张。对于此类问题通过对原始图像随机裁剪、镜像以及旋转等方式来拓展数据集。

1.3 预训练神经网络

使用ImageNet的深度卷积神经网络(DCNN)被广泛地用于初始化新的DCNN,用于其他识别任务,特别是在训练数据有限的情况下[6]。在这个工作中,我们还使用了一些在ImageNet上预先训练的不同架构的DCNNs来初始化我们的DCNNs。与大多数现有的方法不同,通过对预先训练的DCNN的最后一层进行截断,用随机初始化的权重来替换一个新的层,我们的方法可以在最后一层和相应的权重中保留有用的神经元。这种修改可以帮助挖掘更多的与狗相关的信息。除此之外,这对只有少数图像的品种是很有帮助的,因为对于这些品种,即使得到最后一层参数权重,也难以借此得到全部层次的参数权重。具体地说,在最后一层中,每个犬种都有最相似的神经元ni,重新定义神经元ni来预测犬种cj。神经元ni和犬种cj之间的相似性,是通过对犬种cj图像中神经元的平均预测得分来定义的,即:

Icj是一组cj的图像集,而Sni(I)是在神经元ni上的图像I的预测得分。相似的犬种类别对应的神经元之间看起来也是相似的,有些甚至是相同的。通过相似性,犬种cj|最相似的神经元ni输出高预测分数的狗狗品种,那么,即使没有进一步的训练,也可以以此做出预测。然后,识别340余种犬类的深度卷积神经网络的参数犬种可以完全由预训练的DCNN实现初始化。

2 实验验证与分析

在本节中,我们通过两组评价来验证所提出的方法,一个是在算法设计阶段中广泛的离线比较,另一个则是在线评估。

2.1 训练

我们使用Caffe进行DCNN的训练和测试[7]。在我们的实验中使用了 5个 DCNNs,包括 AlexNet[8],vgg-A[9],vgg-16[9],ResNet-50[10]和 ResNet-101[10]。对于AlexNet、vgg-A 和 vgg-16,批处理大小设置为 256,而ResNet-50和ResNet-101的批处理大小设置为128。学习速率最初设置为0.001,用于微调。

为了验证提出的两步挖掘更多狗相关信息的有效性,我们以增量的方式设计了三组实验:

实验1 93k:这是使用Clickture提供的93k图片作为数据集进行训练,用随机权值初始化的新层取代最后一层预先训练的DCNNs;

实验2 163k:拓展获得的70k狗图像被添加到原始的93k图片集中,同实验1样使用预先训练的DCNNs;

实验3 163K+预训练网络:拓展获得的70k狗狗图像被添加到原始的93k图片集中,并使用预训练方式对DCNNs进行完全初始化。

2.2 评估

IRC只提供了Clicktrue-full和它的子集Click⁃true-dog[11]进行训练,但是在算法开发阶段没有测试集进行评估。为了评估不同的方法,我们构建了一个由3个犬类基准(Stanford-Dog[12],Columbia-Dog[13]和 Ima⁃geNet-Dog[14])的评估集。首先,我们加入了Stanford-Dog测试集、Columbia-Dog测试集和ImageNet-Dog验证集,以形成一个大的集合(相同的狗狗在不同的数据集上的图像被合并)。其次,我们将狗的品种和它们的图像作为我们的测试集。测试集包含128个犬种共12000张图片。

在IRC组织的在线评估中,只会评估100只狗的品种,但没有给出100只狗的品种。因此,参与者需要对所有340余种犬种进行预测,这比通常的评估设定更困难,因为它们的训练和测试类别都是相同的,因为当预测类别不在评估列表中时,会出现额外的错误。评估设置更接近真实场景,很难知道在将模型成功部署后,用户将对哪些类别进行测试,因此基本策略是尽可能多地构建模型。为了使评价一致,我们还通过假设测试类别是未知的,并对340余种犬种进行预测,从而对我们的线下实验进行评估设置。

2.3 离线比较

在表1中,显示构建的测试集在离线评估上具有最高的精度结果。实验1一列显示了所有深度卷积神经网络(DCNNs)的基准数据,而更深层的模型(VGG⁃Nets和ResNet)比AlexNet获得了更高的精度。实验2一列通过在放大的数据集上训练DCNNs来显示数字,这大大提高了识别的准确度。最后一列实验3是我们的方法的全模式,在所有DCNNs上取得了最好的结果。结果表明,该方法对建立更好的犬种识别模型有一定的效果。

表1 三组实验训练模型的性能比较

2.4 在线比较

通过参与“IRC@ICME2016”进行在线评估,并用其提供的10k测试图像上测试我们的方法。为了获得更好的性能,我们将包括vgg16、ResNet-50和ResNet-101在内的三种模型的输出结合在一起,权重分别为0.5、0.3和0.2。该融合模型在离线评价中达到了67.31%的最高精度。值得注意的是,训练所需数据源仅仅使用Clicktrue-Full,而没使用其他外部数据。

在最后的评估中,我们获得了第二名,比较了其他9个团队(包括7个使用外部数据的团队和2个没有使用外部数据的团队)。更公平的比较,仅比较不使用外部数据的团队,本文的方法也更优于其他方法。

3 结语

本文提出了两种提高犬类识别准确率的方法,即通过拓展犬类相关数据和预训练深度神经网络的方式对犬类品种进行识别。通过大量的离线实验,验证了所挖掘的信息可以显著提高性能。与其他团队相比、在线评估都显示了该策略的优势。在未来,我们将继续研究这两个方向,并将它们统一为更优化的方式。

参考文献:

[1]Prasong,P.,Chamnongthai,K.Face-recognition-based Dog-Breed Classification Using Size and Position of Each Local Part,and PCA.P Electrical Engineering/Electronics,Computer,Telecommunications and Information Technology(ECTI-CON),2012 9th International Conference on 2012:1-3.

[2]Chanvichitkul,M.,Kumhom,P.,Chamnongthai,K.Face Recognition Based Dog Breed Classification Using Coarse-to-fine Concept and PCA.2007 Asia-Pacific Conference on Communications,2007:25-29.

[3]Yalong Bai,Wei Yu,Tianjun Xiao,Chang Xu,Kuiyuan Yang,WeiYing Ma,and Tiejun Zhao.Bag-of-words Based Deep Neural Network for Image Retrieval.in ACM Multimedia,2014.

[4]Yalong Bai,Kuiyuan Yang,Wei Yu,Chang Xu,Wei-Ying Ma,Tiejun Zhao.Automatic Image Dataset Construction from Click-Through logs Using Deep Neural Network.in Proceedings of the 23rd Annual ACM Conference on Multimedia Conference.ACM,2015:441-450.

[5]Jonathan Krause,Benjamin Sapp,Andrew Howard,Howard Zhou,Alexander Toshev,Tom Duerig,James Philbin,and Li Fei-Fei.The Unreasonable Effectiveness of Noisy Data for Fine-grained recognition.arXiv preprint arXiv:1511.06789,2015.

[6]Hossein Azizpour,Ali Sharif Razavian,Josephine Sullivan,Atsuto Maki,and Stefan Carlsson.From Generic to Specific Deep Representations for Visual Recognition.arXiv Preprint arXiv:1406.5774,2014.

[7]Yangqing Jia,Evan Shelhamer,Jeff Donahue,Sergey Karayev,Jonathan Long,Ross Girshick,Sergio Guadar-Rama,and Trevor Darrell.Caffe:Convolutional Architecture for Fast Feature Embedding,”arXiv preprint arXiv:1408.5093,2014.

[8]Alex Krizhevsky,Ilya Sutskever,Geoffrey E Hin-ton.Imagenet Classification with Deep Convolutional Neural Networks.in Advances in Neural Information Processing Systems,2012:1097-1105.

[9]Karen Simonyan,Andrew Zisserman.Very Deep Convolutional Networks for Large-Scale Image Recognition.arXiv Preprint arXiv:1409.1556,2014.

[10]HEKai-ming,ZHANG Xiang-yu,REN Shao-qing,SUN Jian.Deep Residual Learning for Image Recognition.arXiv Preprint arXiv:1512.03385,2015.

[11]HUA Xian-sheng,YANGLin-jun,WANG Jing-dong,WANG Jing,YE Ming,WANG Kuan-san,RUI Yong,LI Jin.Clickage:Towards Bridging Semantic and Intent Gaps Via Mining Click Logs of Search Engines.in Proceedings of the 21st ACM International Conference on Multimedia.ACM,2013:243-252.

[12]Aditya Khosla,Nityananda Jayadevaprakash,YAO Bang-peng,LI Fei-fei.Novel Dataset for Fine-Grained Image Categorization.in First Workshop on Fine-Grained Visual Categorization,IEEE Conference on Computer Vision and Pattern Recognition,2011.

[13]LIU Jiong-xin,Angjoo Kanazawa,David Jacobs,Peter Belhumeur.Dog Breed Classification Using Part Lo-calization.in Computer Vision-ECCV 2012.2012:172-185,Springer.

[14]Olga Russakovsky,DENG Jia,SU Hao,Jonathan Krause,Sanjeev Satheesh,Sean Ma,HUANG Zhi-heng,Andrej Karpathy,Aditya Khosla,Michael Bernstein,Alexan-der C.Berg,LI Fei-fei.ImageNet Large Scale Visual Recognition Challenge.International Journal of Computer Vision(IJCV),2015,115(3):211-252.

猜你喜欢

犬类神经元评估
“拟人化”犬类消费市场悄然兴起
不同评估方法在T2DM心血管病风险评估中的应用
“犬类友好型”商业体进入2.0时代
犬类春节新过法
第四代评估理论对我国学科评估的启示
AI讲座:神经网络的空间对应
仿生芯片可再现生物神经元行为
分析犬类动物的常见疾病和有效预防
这个神经元负责改变我们的习惯
研究人员精确定位控制饮酒的神经元