APP下载

基于小数据样本下的训练深度学习模型方法初探

2020-10-26廖嘉炜吴永欢孙煜东杜舒明邹时容

科学与信息化 2020年29期
关键词:数据深度学习

廖嘉炜 吴永欢 孙煜东 杜舒明 邹时容

摘 要 數据是深度学习的重要资源,但当我们进入一个新的领域训练数据很少的情况下,该如何快速训练模型如何实现所需功能呢?这就是当前深度学习领域重点关注的一个方向——小样本学习,也是未来AI的重点发展方向之一。

关键词 数据;深度学习;训练模型

1小样本学习初始阶段

早期的小样本学习比较简单,直接通过数据增强的方法增加数据量。

数据增强的方法,主要是对训练数据的对维度处理来增加数据量,如在图像识别任务中,对训练数据的图像进行缩放、旋转、翻转等一系列操作。如下图所示,这就是单一图片经过人工进行各种图像变换处理,再进行数据训练。

这种方法能够使模型学习数据的某些特征不变性,同时起到正则化作用,提高模型的鲁棒性。然而,单纯的数据增强仅仅是学习了已训练数据的特征,对于未训练但存在部分相同特征的数据的识别准确率不佳。

2小样本学习进阶版

随着深度学习的发展,研究者们将深度学习和迁移学习相结合,开发出一套“预训练 + 参数微调”的方案进行深度迁移学习。

常用模式是在与目标任务相似的历史任务中,采用大量历史数据训练一个适用于历史任务的模型,随后将此模型中的一部分,例如图像识别模型中的特征提取模块迁移到目标任务中,使用目标任务中的数据进行训练,从而实现特征提取模块的参数微调,达到快速适应目标任务并保留其原有的特征提取能力的目的[1-4]。

3小样本学习现时流行方法

近些年,小样本学习的主流方案是元学习(Meta-learning),即“学习如何学习”。

元学习的大致想法是利用大量跟目标任务相似的任务(或者历史任务)来学习一个元学习器 (meta-learner),然后作用到目标任务上获得一个不错的模型初值,从而能够仅利用少量目标任务的数据对模型进行快速适配。

这种方案更加贴近人类的学习模式,通过捕捉不同任务之间的相似之处,从而快速适应新的任务。因为元学习的概念比较新颖,思路也是百花齐放[5],目前的主流方案有以下几种:

(1)在神经网络中加入记忆模块,记住并利用以往学习到的经验;

(2)训练梯度预测模块,Meta Learning的目的是实现快速学习,而快速学习的关键一点是神经网络的梯度下降要准,因此可以让神经网络利用以往的任务学习如何预测梯度,通过加快梯度下降速度实现快速学习;

(3)训练Loss预测模型,除了更好的梯度,如果有更好的loss,那么学习的速度也会更快,通过快速降低Loss实现快速学习;

(4)训练注意力模型,人的注意力是可以利用以往的经验来实现提升的,比如我们看一个性感图片,我们会很自然地把注意力集中在关键位置,在面对新任务时快速找到最重要的部分;

(5)借鉴LSTM的结构,训练一个神经网络更新机制,输入当前网络参数,直接输出新的更新参数,达到快速更新参数的目的;

(6)借鉴WaveNet网络,WaveNet在语音识别这类时序生成模型上有很好的效果,同样可以扩展到其他类型的训练,让每次训练都利用以往数据学习经验实现快速学习[6]。

4结束语

从上面的分析可以看出,元学习正引领未来机器学习快速训练的方向,各种训练方法层出不穷,但是真正的极致高效的算法还未出现,非常期待其广阔的未来,也希望更多领域专业人才可以投入到元学习这个研究方向上来。

参考文献

[1] Santoro A,Bartunov S,Botvinick M,et al. One-shot Learning with Memory-Augmented Neural Networks[J]. arXiv,2016(1):1842–1850.

[2] Andrychowicz M , Denil M , Gomez S , et al. Learning to learn by gradient descent by gradient descent[J].In Advances in Neural Information Processing Systems,2016(1):3981–3989.

[3] Vinyals O,Blundell C,Lillicrap T,et al. Matching Networks for One Shot Learning[J].In Advances in Neural Information Processing Systems,2016(1):3630–3638.

[4] Wang J X,Kurth-Nelson Z,Tirumala D,et al. Learning to reinforcement learn[J].arXiv preprint arXiv,2016(1):1611.

[5] Mishra N,Rohaninejad M,Chen X,et al. Meta-Learning with Temporal Convolutions[J].arXiv preprint arXiv,2017(1):1707.

[6] Sung F,Zhang L,Xiang T,et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning[J].arXiv preprint arXiv,2017(1):1706.

猜你喜欢

数据深度学习
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
公路工程试验检测存在的问题及措施
一种借助数据处理构建的智能食堂管理系统
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
浅谈计量自动化系统实现预购电管理应用