APP下载

Trans-Net:基于迁移学习的手写简笔画识别

2021-02-04姚可欣曹卫群

计算机工程与应用 2021年3期
关键词:草图简笔画分类器

姚可欣,曹卫群

北京林业大学 信息学院,北京100087

随着微电子及其相关技术的飞速发展,触屏电子设备和数位板已逐渐在人们的生活中普及,如图1 所示,触屏输入的方式极大地提高了生产生活的便利性。其中,手写输入这一传统的输入方式也逐渐应用在触屏电子设备上。手写输入识别包含文字的识别和图像的识别,由于文字的结构以及书写顺序相对固定,目前的方法已经能够取得较高的识别率。而手绘草图虽然也有相对固定的结构特征,但是并没有固定的绘制顺序,此外草图中丰富的语义信息往往增加了识别的难度,因此手绘草图的识别越来越受到研究者们的重视。

图1 丰富的触屏电子设备

目前,手绘草图的识别方法可归为两大类,传统的方法是基于草图本身的结构特征,首先使用特定的算法对手绘草图对象的结构特征进行分析和归纳,并将分析的结果与预设好的规则库模版进行匹配来进行识别,比如几何图形组合识别法[1-2]、笔序趋向一致性的特征识别法[3]、在线草图规整化的识别方法[4]、草图分割分段识别方法[5]等等。这类方法的优点是不需要通过训练大量的数据集来生成分类器,因此传统方法的识别速率都比较高,但是也存在一定的局限性:其一是当草图对象形状不规则或是结构较为复杂时,很难通过分析归纳的方法提取结构特征,这往往会导致算法识别准确率大大地降低;此外,用于匹配的规则库一般需要遵循一定的要求进行迭代更新,当分类识别数较大时就很难匹配到对应的规则模版。鉴于上述原因,亟需一种行之有效的方法来解决上述问题。近年来,随着机器学习和深度学习理论及技术的发展,基于模式识别的非传统方法应运而生。文献[6-8]研究了深度学习中的图像识别算法,使用人工神经网络进行特征提取和分类识别,取得了不错的结果;基于机器学习的模式识别算法有基于贝叶斯网络的草图识别方法、支撑矢量机[9]、隐马尔科夫模型[10-11]、基于模糊特征[12]的识别方法等,非传统方法的显著特点就是需要通过训练大量的数据集训练统计模型,这类模型可看作是从手写输入到得到识别结果到映射函数从而能够实现对手绘草图的识别。这类方法虽然能够取得较高的识别率,但需要大量的训练数据集作为支撑。针对触屏等电子设备功耗有限的问题,由于这类设备往往是识别特定的输入,因此可采用构建轻量级的分类器模型以达到较好的效果。

简笔画是一种使用简单的点、线、面的不同组合来表现复杂事物特征的绘画形式,是属于草图范畴的具有特定规则的表现形式,因此针对草图的识别研究工作对于简笔画识别也具有一定的适用性。由于草图在绘制过程中并不遵循特定的规律,与草图相比较而言,简笔画通常具有鲜明的结构特征,且在绘制的过程中有章可循。因此,近年来研究者们开始使用基于结构特征的识别方法[13-14]对简笔画进行识别。但随着简笔画种类和复杂度的增加,以及针对特定对象绘制规则的丰富,此类方法的局限性开始显现。

卷积神经网络(Convolutional Neural Network,CNN)是一种模仿生物视知觉机制构建的技术,近年来在图像识别领域取得了卓越的成效。但是基于深度学习的分类器往往需要训练大量的数据作为支撑。针对上述问题,本文以具有固定参照模板的简笔画为研究对象,设计了用于简笔画分类识别的分类器Trans-Net,并使用迁移学习和数据增强的方法解决了数据集不足的问题。因此,本文的主要贡献如下:

(1)提出一种图像生成算法,结合两种采样算法和Melkman 算法可有效去除采样过程的噪声并使用生成规范化图像。

(2)提出一种数据增强的方法,解决了样本库数据集不足的问题。

(3)设计了Trans-Net图像分类器,通过迁移学习技术对卷积神经网络进行预训练,有效提高了识别精度。

1 Trans-Net简笔画图像识别

1.1 总体架构

本文提出的简笔画对象识别方法的总体架构如图2所示。本研究的总体架构可分为三部分:数据预处理、分类器模型的构建与训练、结果识别。预处理部分首先通过图像生成和增强的方法对手写输入的图像进行预处理以方便输入到后续的网络模型当中;Trans-Net模型的训练部分使用了包含大量简笔画草图数据的谷歌QuickDraw数据集进行预训练,再使用样本库数据集用于模型调整;识别部分即,把预处理的图像数据输入到网络模型当中并得到识别结果。

图2 算法总体架构图

根据图2 的总体架构,本文的整体识别算法流程如下:

算法1 手写简笔画识别算法

输入:N次手写输入的简笔画图像

输出:手写简笔画图像对应的标签信息

1. FORi=1 TON

2. 对于手写输入的简笔画图像Fi

6. 构建分类器模型Trans-Net

7. 通过Trans-Net输出简笔画对应的标签Labeli

1.2 预处理

预处理部分的目的是将手写输入简笔画图像处理成适合分类器模型输入的形式,为了更好地提升识别效果本部分还使用图像生成的方法进行标准化处理。如图3所示。

图3 简笔画图像预处理过程

基本处理流程如下:

(1)简笔画图像数据采样。为了使得数据采样的结果更加的准确和合理,本文分别采用等时采样法和等距离采样法对用户输入的简笔画草图进行采样。其中首先使用等时采样法获取笔画的点序列,再使用等距离采样法进行重采样以消除笔画中因为手抖、绘制速度不均等原因导致的噪声。

(2)简笔画图像生成。采样完成后,为了更加准确地识别简笔画图像区域的内容,本文采用Melkman方法求取输入简笔画草图的最小外接矩形从而得到原始图像,并通过规则化处理将原始图像调整为标准尺寸。

1.2.1 简笔画采样

上文提到了使用两种采样方法对简笔画图像进行采样,接下来详细介绍这两种采样法在本文中的应用。

等时采样法旨在尽可能多地捕捉用户输入的样本数据。在本研究采样过程中,等时采样是以鼠标作为输入设备,以按下鼠标左键为开始,抬起为结束。在这段期间内系统以120 次/s 的时间间隔进行采样,获取的采样点序列为一条笔画的样本点,该图像样本可表示为:

等时采样法在尽可能多地得到图像数据样本点时,往往会把用户输入时因为抖动或绘制速度不均导致的噪声也进行采样。为了去除这部分噪声,本文再使用等距离采样方法对采集到的原始数据进行重采样。

等距采样法的前提是,对原始图像均匀采样后得到的新图像仍能保留原始图像的特征信息。由于图像是由特定区域内的像素构成,因此对于特定大小的图像区域S,采样得到的简笔画样本点点集合为I,对于随机噪声假设服从均匀分布因此该图像噪声占比为:

由于采样前后图像特征没有损失,但是噪声所占占比大大地下降,因此使用等距离采样法能够有效地去除原始图像中的噪声。

1.2.2 简笔画图像生成

由于本文使用的卷积神经网络输入图像的尺寸固定为75×75像素的正方形,因此本文要对采样后的简笔画图像进行标准化处理。首先以简笔画的最小外接矩形作为边界,对输入的简笔画生成原始图像,再对原始图像进行规则化处理进而调整至标准输入的尺寸。

下面介绍使用Melkman 方法[15]求取最小外接矩形的算法流程。

算法2 Melkman最小外接矩形求取算法

输出:简笔画图像上下左右四个端点的坐标

1. FORi=1 TON

2. 计算每两个相邻的采样点距离

3.

5. 保存lmax=l和采样点坐标p1、p2

6. ELSE

7. 继续循环直至循环结束

8. END

9. 此时的lmax即为最小外接矩形长度

10. 计算p1、p2确定的直线方程

11. FORi=1 TON

12. 计算每个样本点到直线方程的距离D

13. 保存D的最大值为Dmax

14. 保存D的最小值为Dmin

15. END

16. 此时,Dmax-Dmin为最小外接矩形宽度

在获得简笔画图像的最小外接矩形之后,接下来需要对其进行规范化处理得到尺寸固定为75×75 的点正方形。

1.3 分类器模型的构建与训练

为了更好地识别简笔画草图图像,本文基于深度学习设计了Trans-Net分类器对图像特征进行提取并加以分类识别。具体流程如下:

(1)网络模型构建。提出Trans-Net模型,以卷积神经网络为基础,通过使用不同的卷积核进行特征提取并使用全连接层将特征映射到标记空间,得出识别结果。

(2)迁移学习。由于网络模型的训练需要训练大量的数据作为支撑,本文通过迁移学习技术,使用谷歌QuickDraw 数据集中的一部分图片用于网络模型的预训练。并对来自该数据集的图片进行了筛选,选择其中与本研究的样本库中数据存在共性的数据用于预训练,解决了因为数据集过小导致的训练模型的过拟合现象。

图4 简笔画图像特征提取网络结构图

(3)模型调整。使用包含了150类简笔画对象的样本库数据集,训练本文的卷积神经网络模型,并通过平移、缩放、旋转等方法进行了数据集的扩充,使用12 000张图片用于训练模型,3 000张图片用于测试。

多层深度卷积神经网络能够有效提取图片的全局特征和局部特征,而迁移学习和数据增强的引入平衡了模型复杂度和有限的数据集之间的问题。下面将详细介绍卷积神经网络的结构设计和模型训练、迁移学习方法以及模型的微调整。

1.3.1 Trans-Net

Trans-Net是以卷积神经网络为基础,卷积神经网络是一种模仿生物视知觉机制构建的技术,近年来在图像识别领域取得了卓越的成效。本文以卷积神经网络为基础提出一种用于简笔画分类识别的网络架构。如图4所示,网络由卷积层和全连接层两部分构成,其中卷积层具有四个通道,第一通道使用3×3 的卷积核,第二通道使用1×1的卷积核连接3×3的卷积核,第三通道使用平均池化层之后连接3×3 的卷积核,第四通道使用1×1的卷积核连接两个3×3 的卷积核。卷积层采用不同大小的卷积核能够让网络感受不同大小的视野,能够通过提取不同层次的特征提高识别准确率。但是神经网络层数越多所提取的特征越抽象,每个提取特征的涉及的感受野也更大;因此,为了有效提取简笔画中的局部图像特征,本节所提网络结构的卷积层最多包含三层。卷积层之后则是通过Concat操作将四个通道的输出数据拼接成多通道数据以输入到全连接层当中多通道数据的拼接意味着不同尺度特征的融合。全连接层使用三层:1 024×1,512×1 和150×1 的FCN(Full Connected Network)结构。另外,图4所示的网络结构能够代替人工确定卷积层中的过滤器类型,即确定各卷积层和池化层在简笔画图像特征提取中是否需要。

1.3.2 基于迁移学习的简笔画识别

迁移学习[16-17]是一种将在某一领域已经学习的知识运用到具有相关性的领域问题上的深度学习技术,通常被用于解决目标研究领域的数据量小的问题。

在本研究中,为了解决训练数据量小的问题,采用基于参数的迁移学习算法将预训练的卷积神经网络模型应用于简笔画的识别中,迁移学习的框图如图5 所示。本节将在大数据集上训练得到的网络权值参数作为用于简笔画识别中所用小数据集的初始化权重,重新训练该网络并修改全连接层的输出。基于参数的迁移学习能够避免因数据量小造成的过拟合现象,从而提高网络性能。另外,卷积神经网络的前几层特征中包含更多对许多任务非常重要的低层特征,如边缘、轮廓和色彩信息等;后几层的特征学习更注重高层语义特征,高层语义特征对于不同的数据集将会完全不同。

图5 迁移学习框图

1.3.3 模型调整

由于本文使用的分类器模型需要大量的数据集作为支撑,当训练数据集数量较少时会造成过拟合的现象进而影响到卷积神经网络性能。出于该原因并为了防止出现过拟合,本研究采用数据增强的方法对原始数据集进行了平移、旋转、缩放等变换操作,扩充现有的简笔画数据集规模。考虑到常规缩放旋转容易造成形变导致原图像信息丢失,因此在在预处理过程中要注意保留边缘信息,下面针对本文使用的变换操作给出具体的说明。

平移:移动图像中简笔画对象像素,使其按照给定平移量进行水平或垂直方向移动。将图像坐标化后对图像像素点坐标进行下列操作:

缩放:按一定比例调整图像的尺寸。根据文献[18],图像缩放方法可归纳为三大类:传统差值缩放算法、基于区域的缩放算法和基于边缘的图像插值缩放算法。传统差值缩放算法如最近临近内插值、双线性插值、三次样条插值等,这类算法对缺少纹理信息的简笔画图像放缩效果不佳。由于简笔画草图的边缘纹理信息属于高频信息,在图像放缩时极易丢失。而后两种缩放算法则是分别针对图像的纹理和边缘信息进行放缩,放缩后能够保留这些图像的特征。因此,本节使用的图像放缩方法则是针对简笔草图的特点,尽量保留图像中的边缘轮廓信息。当图像缩放至( )W,H,那么缩放公式为:

旋转:由于简笔画草图绘制场景的随意性,用户输入的图像存在着各种角度的偏差。考虑到这一情况,为了提高后续网络模型对于同一对象不同角度的识别率,本文使用的数据增强方法中也包括了对原始图像进行旋转操作。本文使用的旋转方法能够保留图像的边缘信息,当简笔画图像要进行θ°旋转时,变换公式为:

1.3.4 卷积神经网络训练

本小节所提卷积神经网络的训练采用随机梯度下降算法,使用交叉熵(Cross-entropy)作为损失函数:

网络训练过程中,通过设置多组不同的数值初始化神经网络,并取其中使得误差最小的作为最优解。网络的初始参数中,学习率(Learning Rate)是关系到梯度下降快慢的一个重要参数,初始设置为一个较低的值(如0.001),并以阶段下降法则,在每隔一段训练次数后学习率衰减10 倍,采用随机小批量梯度下降的方法更新权重,将使梯度下降算法更加稳定,损失下降平缓。另外采用10 折交叉验证将训练数据分为10 份,逐次将其中9 份做为训练数据集,另外1 份用于测试,并把10 次训练结果准确率的平均值作为算法精度的评估标准。

2 实验结果和分析

这部分将详细描述整个实验的流程,其中包括实验平台的搭建、实验数据集的选取、实验设计以及结果分析。

2.1 实验设置

2.2 实验数据集

由于深度卷积神经网络的训练需要大量的数据作为支撑,以保证网络模型能够有效获取图像的特征。为了解决简笔动画训练数据集较小会造成网络模型过拟合的问题,本文首先利用迁移学习将模型在拥有大量训练数据的公开数据集上进行预训练,并利用预训练的模型对简笔动画模型的参数进行初始化,通过网络参数微调将已经学习的图像超参数迁移到另一个数据集,令网络能够快速有效地学习到简笔动画的图像特征。

QuickDraw[19]是由谷歌研究团队收集的一个矢量草图公开数据集。该数据集包含超过5 000万张由来自世界各地用户绘制的草图,所有草图包含345 类常见对象。本研究从该数据集中选取了100个类别,每个类别选取1 000 张图片,用于卷积神经网络模型的预训练。图6给出了QuickDraw的简笔画样例图。

本文使用的简笔画样本库数据集包含了150 种简笔画对象,以研究团队所开发的简笔动画故事创作系统为平台[20]进行了数据收集,如图7 所示。由5 个不同年龄和绘画水平的用户进行绘制,对每个类别的简笔画每人绘制20 张,共计3 000 张,再通过平移、缩放、旋转等方式进行数据增强,将数据集扩充至15 000张。取其中12 000张作为训练集,3 000张用于测试,以此验证本文提出网络模型的有效性。

图6 QuickDraw数据集的部分简笔画示例

图7 本文数据集的部分简笔画示例

2.3 实验结果及分析

为了验证本研究提出算法对识别精度提高的有效性,本文还选取了以结合图元与感知哈希的识别方法[21]和结合BOF 技巧和感知哈希的识别方法[22]作为对照实验。

结合图元与感知哈希的识别方法首先提取简笔画的几何特征以及笔序特征,并与图元信息、笔序信息、结构信息组成的简笔画模版库进行比对识别;若未成功识别则生成简笔画图像进一步使用感知哈希进行识别。结合BOF技巧和感知哈希的识别方法首先提取简笔画的局部特征并进行量化,并将其标记为视觉词汇。通过视觉词袋技术从样本库中找出与该视觉词汇相似的简笔画,再使用感知哈希技术进行识别。

本文实验中的三种方法均使用2.2节介绍的样本库数据集进行分类器模型的训练和测试,其中以12 000张图片作为训练集,3 000 张图片作为测试集。与另外两种方法不同的是,本文还通过迁移学习,使用谷歌QuickDraw数据集中的100 000张图片用于Trans-Net网络模型的预训练。表1 给出了三种方法在样本库数据集上的识别准确率,其中结合BOF 技巧和感知哈希的识别方法的识别率相对最低(80.6%),结合图元与感知哈希的识别方法次之(82.6%),而本文在所用的模型识别准确率达到94.1%,比结合图元与感知哈希的手写输入简笔画识别率提高了11.5个百分点。原因是,前两种方法都是通过对简笔画图像进行分析归纳,提取构成图像的几何特征、笔序特征,并把提取的特征与简笔画模版库中的图元信息进行比对,进而完成简笔画图像的分类识别。但是随着图像类别的增加以及笔画结构复杂性的提升,这两种方法就有一定的局限性,不能兼顾简笔画图像的局部特征与整体特征。本文提出的基于Trans-Net 的分类模型则不需要分析归纳简笔画的图元信息,只需利用卷积进行低层次特征的提取,使用全连接网络进行高层语义的特征融合,大大提高了分类的准确率。

表1 不同算法简笔画识别率

此外,为了验证迁移学习对识别率的提升,本文还对比了使用了迁移学习模型和普通模型。如表2所示,在迭代步数相同的情况下,使用迁移学习后模型的收敛速度比普通模型的收敛速度提高了近4倍,并且识别精度也提高了3.5个百分点。由于图像分类技术需要大量的计算资源和训练样本,因此普通模型在构建的过程中需要对最初的网络模型参数进行迭代优化,这一过程需要较长的时间。而使用迁移学习技术,在训练之初就已经使用大样本数据集对网络模型进行了预训练。本文模型构建时仅需要在特定数据集上进行优化即可,大大缩短了参数的训练时间。此外,迁移学习技术还能提高分类器模型的泛化性能,因此本文模型较普通模型具有较高的识别准确率。

表2 迁移学习对模型精度的影响

3 结论及展望

本文以简笔画为研究对象,设计了一个基于迁移学习的深度卷积神经网络Trans-Net 用于简笔画分类识别。本研究首先通过两种图像采样方法收集用户输入的简笔画图像,并通过Melkman等特定算法对图像进行规则化处理。为了解决样本库数据量较小的问题,本文分别通过图像增强算法和迁移学习技术进行数据集扩充和网络模型预训练。经过实验表明,本文提出的Trans-Net分类器模型可有效提取简笔画图像特征,对样本库中150类简笔画对象能够取得较高的识别准确率,此外,与普通模型相比,利用迁移学习的网络模型可明显提升模型的训练效率和识别精度。

猜你喜欢

草图简笔画分类器
萌宠简笔画
神形兼备的简笔画
BP-GA光照分类器在车道线识别中的应用
超赞的简笔画
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
画好草图,寻找球心
草图
一波三折
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别