无监督学习、GAN和强化学习将构建机器学习的未来

2017-04-17AlGharakhanian编译张含阳

机器人产业 2017年2期

关键词：机器深度机器人

□文/Al Gharakhanian □编译/张含阳

□文/Al Gharakhanian □编译/张含阳

随着人工智能的不断发展，许多新的机器学习技术、架构和算法被提出，但这里有三个宏观趋势，将成为机器学习中游戏规则的改变者。

机器学习（ML），特别是深度学习（DL）已经成为许多科技出版物所涵盖的最热门话题之一。当然，这里面有一些炒作的成分，但是我们有足够好的理由相信，机器学习这一领域是值得关注和覆盖的。

机器学习的范围和影响一遍又一遍地在各种学科，数百种应用中被证明其重要性。广告、无人驾驶、聊天机器人、网络安全、无人机、电子商务、金融技术、工业机械、医疗保健、营销策划、机器人，以及搜索引擎等应用，这些只是机器学习的部分应用而已。

机器学习的优势不再受限于只有少数几个能够买得起花哨装备的精英人士。不可否认的是，智能产品推荐以及高性价比的聊天机器人已经在普通百姓中得到了普及。这还不要说很多尚未开发的领域等着我们去发掘。

开发并部署机器学习的成本正快速下降。即使是最热衷于这种技术的怀疑论者，比如马斯克和霍金，也可以很容易地发现它的用途非常多，并从机器学习身上找到商业价值。

根据几位机器学习、深度学习领域的知名专家，深度神经网络“表现得极其好”，即便他们可能也搞不清到底为什么。

深度学习正在迅速演变，而且是在许多维度上的。很多新技术、新架构，以及新算法被提出，当然，每个新的想法都有其独特的价值。然而，在未来几年，三个主要的宏观趋势将改变真正的游戏规则。

无监督学习（unsupervised learning）

机器学习和深度学习中，最重要的宏观趋势是算法正在逐步从监督学习模式转变为无监督学习模式。

绝大多数传统机器学习的实现靠的是受监督的学习方式。换句话说，它们只有在使用大量标记的训练数据训练时才有用。虽然，受监督的学习方式效果不错，但是，收集和标记大型数据集的过程非常耗时、昂贵，而且还容易出错。当数据集的规模增加时，这些挑战变得更加显著。而另一方面，无监督的学习方式具有巨大的优势，因为他们不需要大量的训练数据集。这就解释了为什么最近大量有关机器学习的论文均与无监督学习有关。

生成对抗网络（Generativeadversarial networks，GANs）

学习GAN的基本原理的前提是，你需要理解生成式和辨别式模型之间的差异。辨别式模型是使用标记的历史数据进行训练，并使用其累积的知识来推断，预测或分类的模型。

以识别各种汽车的品牌和型号的图像识别模型为例。这样的模型通常由一组预先识别的汽车图像训练，同时学习将各种特征（例如尺寸、高度、比率等）与特定品牌和模型相关联。一旦被训练，该模型会分析新的未标记的图像，并将其与特定的汽车品牌相关联。

生成式模型的工作原理则不同，它的模式是，在训练期间，获得积累的数据，来合成或产生新的结果。还是以汽车为例，生成模型的任务是创建一个全新的汽车概念之后，通过未标记的数据集（未识别的各种汽车的图像）进行训练。生成模型使用训练图像来了解汽车类别（例如跑车、SUV和轿车）的独特特征，并使用数据给出该通用类别特征的新汽车概念。更准确地说，一个训练有素的生成式模型不会用类似跑车的前端生成一个卡车的概念。

那么，什么是生成式对抗网络（GAN）？未来它们会如何？其实，GANs已经不是一个新的模型类别了，他们只是用来训练一个生成模型的一种非常聪明和有效的方法。这种强度减少了对大型训练数据集的需求。

GAN通常使用相互充当对手的两个神经网络来构造。一个生成非常类似于有效样本的假样本，而另一个网络（鉴别器）则接收与来自发生器的偶然错误样本混合的训练样本流，并将其区分开。这两个网络都是基于他们的对手的性能进行训练的，在相互戏谑的过程中变得越来越好。这个迭代过程的最终结果是，整体而言，模型被更好地训练，而且，更重要的是，通过最少的外部干预实现了对模型的改进。

手机扫码阅读

强化学习（Reinforcement learning，RL）

强化学习原则上是通过实验和探索的方式学习。这与监督学习的范例大相径庭，因为后者依赖于已知的良好的训练数据，而强化学习开始时几乎不知道“世界是如何工作”。强化学习基于三个基本要素——“状态”、“行动”和“奖励”。

举例来说，假设有一家毛衣电商，他们想使用强化学习算法，来说服游客购买他们的产品。我们来看看“状态”、“行动”和“奖励”是如何工作的。一个独特的“状态”，可以是一个潜在的加拿大访客，花了两分钟挑选一件毛衣的各种颜色，并已阅读该产品的两个评论；“行动”则是指，商家说服潜在顾客进行购买会采取的步骤（例如提供即时折扣，或显示穿着类似毛衣的名人的照片）。在某个“状态”中应用“行动”会导致新“状态”的转换。在每次转换之后，基于进行销售的概率的增加（或减少）来“奖励”（或惩罚）强化学习算法。这里的关键是，强化学习算法最初对此毫不知情，但随着时间的推移，他们会学习选择在特定的“状态”（人口、环境和偏好）下完成最佳的策略（动作序列）。

为什么说强化学习非常重要？主要有两个原因。首先，它们在诸如机器人、广告和游戏的各种应用中产生了显著的结果。更重要的是，强化学习可以很好地模仿人类从婴儿到成年的大脑的学习过程。

这种飞跃使机器智能更接近人类智能，使机器能够应用更多技能，比如感觉和直觉的学习。