小样本学习(few-shot learning)探析

2020-09-02吴国娟

福建质量管理 2020年15期

吴国娟

(天津鎏金铄石科技有限公司天津 300090)

一、问题定义

近年来，随着神经网络和深度学习的突破性发展，人工智能领域迎来了新一轮发展狂潮，谷歌、微软、facebook、阿里巴巴、腾讯、百度等业界巨头都纷纷入场。但以目前而言，“人工智能”和“人类智能”的一个显著的区别在于：传统的深度学习技术需要大量的数据集进行训练，才能生产出一个较好的模型。以图片分类为例，要训练一个0-9的手写数字识别模型，大概需要6000张图片作为训练集，而人类大概只要每个类(每个数字)看一张图片，即可抽象出每个类的特征，从而进行高效的识别。

于是，一个新的分支应运而生：小样本学习(few-shot learning)，即基于少量(单)样本数据集或弱标签标注的学习方法。

以图片分类为例，假设我们的训练集中有N个分类，每个分类中有K个样本，一共有N*K个样本，从N*K样本中训练出能够对N个分类进行区分的模型的任务被称为N-way K-shot问题。

《Optimization as a model for few-shot learning》5-way1-shot[1]

二、小样本学习的意义

1.处理缺乏充足的样本数据，或者样本数据的获取成本较高的深度学习。比如医疗领域基于深度学习的医学诊断，需要高质量的医疗影像作为训练样本[2]，而这些样本资源有限，成本偏高。

2.个性化AI服务。比如在传统制造业、实体企业缺乏完善的数据系统，存储杂乱，采用一个互联网企业训练出来的通用模型又往往水土不服，要向这样的企业提供AI解决方案，就需要引入小样本学习。

3.用尽量少的样本训练出尽量精确的模型，是判断一个深度学习算法质量的重要标准。

4.小样本学习的进步，将促使“人工智能”向“人类智能”靠近。某种意义上，小样本学习是“人工智能”走向“人类智能”的一把钥匙，也是“弱人工智能”走向“强人工智能”的关键。

三、小样本学习的主流方法

1.数据增广

数据增广大概又可以分为两类。一类是对样本数据进行加工，比如对一个图片进行旋转、组合、裁切，所得的数据跟原始数据组合成新的数据集。

对原始数据的处理

另一类是使用生成对抗网络(GAN,Generative Adversarial Networks)来生成样本进行数据集扩充。

Few-shot Classifier GAN结构图[3]

通过以上方法实现了数据集的扩展之后，“小样本学习”回归到一种传统的深度学习。

2.迁移学习。

迁移学习(Transfer Learning)即把一个领域(源领域Source Domain)的模型、特征、关系迁移到另一个领域(目标领域Target Domain)，使得目标领域能够获取更好的学习效果。源领域代表有经验，有标签，数据量充足的数据源，目标领域代表无经验，无标签，数据量不足的数据源。迁移学习按照学习的方法，大概可以分为以下几类：

①基于样本的迁移。在源领域进行权重调整，源领域同目标领域中的相似度高的样本提高权重，低相似的样板降低权重，得到一个新的适用于目标领域的模型。

②基于特征的迁移。把源领域和目标领域的进行特征变换，把源领域和目标领域的交叉特征变换到相同的空间。

③基于模型的迁移。利用模型间存在的相似性，把源领域训练好的模型应用到目标领域上。

3.记忆增强神经网络(Memory-Augmented Neural Networks，MANN)

在《One-shot Learning with Memory-Augmented Neural Networks》[4]这篇论文中，作者提出了一种记忆增强神经网络(Memory-Augmented Neural Networks，MANN)来快速提取样本中的信息，并利用提取到的信息对少数样本进行较为准确的预测。

记忆增强神经网络(Memory-Augmented Neural Networks，MANN)在传统的神经网络模型的基础上，增加了一个短时记忆的的工作。模型在处理样本时，允许模型把样本中的特征提取出来，存在内存里，让神经网络可以“思考”，关联样本上下文。记忆增强神经网络在试图模拟人脑的工作记忆机制，如果把模型的训练参数比作人类的长期记忆或背景知识的话，那么在处理样本时提取到内存中的特征参数就好比是人类工作时的短期记忆，这让模型与样本产生了互动。

四、一点思考

传统的深度学习，需要大量的数据去进行模型训练，而当遇到新的数据时，又必须重新训练。毋庸置疑，小样本学习会是解决这类问题的方向之一，它同时提供了一种接近“人类智能”的哲学可能。

在上述3中解决方法的研究实践中，数据增广表现效果不错，不过私以为，此法其实是一种变相的“多样本学习”，好比把一道题目派生出几道同类题目，让小学生进行反复的机械训练；而后两种方法则更接近“智能”的本质，一曰“通感”，一曰“遗忘”。博尔赫斯说“遗忘是记忆的一种方式”[5]，“遗忘”即是从世间万物中抽象特征的智能算法，这或许也是 “小样本学习”的方向所在。