机器学习之半监督学习释义

2019-12-05MartinHellerCharles

计算机世界 2019年45期

关键词：视图亚马逊标签

Martin Heller Charles

在2017年写给亚马逊股东的信中，Jeff Bezos提到了亚马逊语音智能助理Alexa的一些有趣之处：

在美国、英国和德国，通过改进Alexa的机器学习组件以及使用半监督学习技术，在过去12个月里我们把Alexa的口语理解能力提高了25%以上。（利用这些半监督学习技术，实现相同精度所需的标记数据量减少了40倍！）

鉴于这些结果，在我们自己的分类问题上尝试半监督学习可能会很有趣。那么，什么是半监督学习呢？它有什么优缺点？我们怎样使用它？

什么是半监督学习？

顾名思义，半监督学习介于受监督学习和无监督学习之间。受监督学习采用带有正确答案（目标值）的标记过的训练数据。在学习过程之后，将得到一个经过调优的权重集的模型，这可以用于预测尚未标记的类似数据的答案。

半监督学习同时使用标记和未标记的数据来拟合模型。在某些情况下，比如Alexa的添加未标记的数据的确提高了模型的准确性。在其他情况下，未标记的数据可能会使模型更差。正如我将在下面所讨论的，在不同的数据特性条件下，不同的算法会有不同的缺点。

一般来说，标记数据需要花费金钱和时间。这并不总是问题，因为有些数据集已经有了标记。但是如果您有很多数据，其中只有一些是标记过的，那么半监督学习这种技术很值得一试。

半监督学习算法

半监督学习至少可以追溯到15年前，甚至更长;威斯康星州大学的Jerry Zhu在2005年写了一份文献调查。近年来，半监督学习再次兴起（不仅是在亚马逊），因为它降低了重要基准的错误率。

DeepMind的Sebastian Ruder在2018年4月写了一篇博文，介绍了一些半监督学习算法，即创建代理标签的算法：包括自我训练、多视图学习和自我整合。

自我训练使用模型自己对未标记数据的预测结果，将其添加到已标记的数据集中。实际上，这为预测的置信水平设置了一些阈值，通常为0.5甚至更高，高于该阈值时，相信预测结果并将其添加到已标记的数据集中。不断地重新训练这个模型，直到没有更多可信的预测结果为止。

这就回避了用于训练的实际模型的问题。和大多数机器学习一样，你可能会尝试每一个合理的候选模型，以期找到一个能很好工作的模型。

自我训练在一定程度上是成功的，可谓是好坏参半。最大的缺点是模型无法纠正自己的错误：例如，对异常值高度自信（但错误）的预测可能会破坏整个模型。

多视图训练在不同的数据视图上训练不同的模型，其中可能包括不同的特征集、不同的模型体系结构和不同的数据子集。多视图训练算法有很多，其中最著名的是三视图训练。本质上，可以创建三个不同的模型;每当两个模型同意一个数据点的标签时，该标签就会被添加到第三个模型中。与自我训练一样，当没有更多的标签被添加到任何一个模型时，就停止了。

自我整合通常使用具有多个不同配置的单个模型。在梯形网络方法中，对干净样本的预测结果被用作随机扰动样本的代理标签，目的是开发能够抵制噪声的特性。

Jerry Zhu在2007年的教程中還考虑了一些其他算法。这包括生成模型（例如，对每一类假设高斯分布的模型）、半监督支持向量机和基于图的算法。