制定机器学习训练数据策略的6个技巧

2019-09-10宋茜

计算机与网络 2019年19期

关键词：语音解决方案模型

宋茜

人工智能（AI）和机器学习（ML）如今已经十分常见。AI指的是机器模仿人类进行认知的概念，ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务，那么ML就是机器从数据中摄取、解析和学习的能力，以便更精确地完成任务。

汽车、金融、政府、医疗、零售和科技等行业的大部分管理者都已经对ML和AI有了基本的了解。不过，并非每个人都是一个制定训练数据策略的专家，但这往往是实现ML高投资回报必要的第一步。

AI系统通过实例来学习，它们拥有的高质量实例数据越多，就会学得越好。缺乏或只有低质量的训练数据可能会生成不可靠的系统，得出错误的结论、做出糟糕的决策或无法处理现实世界的变化，并引入或延续一些如偏见等问题。

如果没有一个良好定义的策略来收集和组织进行训练、测试和优化AI系统的数据，将面临项目延迟、无法适当扩展以及被竞争对手超过的风险。下面是构建一个成功训练数据策略的6个技巧。

1制定训练数据预算

当启动一个新的ML项目时，首先需定义要实现的目标。这会让你知道，系统中需要哪种类型的数据，以及需要多少“训练项”（已分类的数据点）。

例如，计算机视觉或图像识别项目的训练项目，使用人工注释标记的图像数据，用于识别图像的内容（树、停车标志、人和车等）。此外，根据正在构建的解决方案的类型，模型可能需要不断地重新培训或刷新，解决方案可能需要每季度、每月甚至每周进行更新。

一旦确定了训练项目和更新频率，就可以评估关于采购数据的一些选项，并计算预算。

重要的是应清楚地了解启动该计划所需的时间和资金成本，随着时间的推移对其进行维护，并随着业务的发展对特性和功能进行改进，从而使解决方案对客户保持相关性和价值性。启动ML计划是一项长期投资。获得高回报需要一个长期的策略。

2收集适当的数据

需要的数据类型取决于正在构建的解决方案类型。一些数据来源包括实际使用数据、调查数据、公共数据集和合成数据。例如，一个能够理解人类语音命令的语音识别解决方案必须针对已翻译成文本的高质量语音数据（实际数据）进行培训。搜索解决方案需要由人工注释的文本数据来告诉它哪些结果是最相关的。

ML中最常用的数据类型是图像、视频、语音、音频和文本。在用于ML之前，必须对训练数据进行注释或标记，以确定它们是什么。注释可以告诉模型如何处理每段数据。例如，如果一个虚拟助理的一条训练数据是某个人的录音“多订购一点AA电池”，注释可能会告诉系统在听到“订购”时，与某个在线零售商处下个订单，在听到“AA电池”时搜索“AA电池”。

3保证数据质量

根据任务的不同，数据注释可能是一项相对简单的活动，但是它也是重复的、耗时的，并且很难始终正确地执行，它需要人的介入。

低数据质量带来的风险很高，因为如果根据不准确的数据训练模型，那么模型将会做错误的事情。例如，如果训练一个自动驾驶汽车的计算机视觉系统，将人行道的图像错误地标记为街道，结果可能是灾难性的。事实上，糟糕的数据质量，是阻止ML广泛且有效使用的头号敌人。

当讨论数据质量时，我们谈论的是标签的准确性和一致性。准确是一个标签距离事实有多近；一致性是不同训练项目上的多个注释彼此一致的程度。

4注意并减少数据偏差

强调数据质量有助于公司减轻AI项目中的偏见，这些偏见可能会隐藏起来，直到基于人工智能的解决方案进入市场。在这一点上，偏见可能很难纠正。

偏见通常来自项目开始时项目团队或培训数据中的盲点或无意识的偏好。AI中的偏见可以表现为不同性别、口音或种族的语音或面部识别表现不均匀。随着AI在我们的文化中变得越来越普遍，现在是时候解决内在的偏见了。

为了避免项目级别的偏见，在建设定义目标、路线图、度量和算法团队时需要积极保证多样性。建设一个多样化的数据人才团队说起来容易做起来难，但风险很高。如果团队的内部构成不代表潜在客户的外部构成，那么最终产品将会有只是为一小部分人工作的风险，或者对他们有吸引力，而错过了一个面向大众市场的机会，或者更糟———偏见可能让AI具备现实世界中的歧视。

5实施数据安全保障

并非每個数据项目都使用个人身份信息（PII）或者敏感数据。对于利用这类信息的解决方案，数据安全性比以往任何时候都更重要，特别是在处理客户的PII、财务、政府记录或者用户生成的内容时。越来越多的法规规定企业必须怎样处理客户信息。

保护这些机密数据可以保护你和你的客户的信息。对实践保持透明和道德准则，并坚持服务条款，这将带来竞争优势。不这样做会面临丑闻和品牌负面影响的风险。

6选择合适的技术

训练数据越复杂或微妙，结果就越好。大多数组织都需要大量高质量、快速且大规模的训练数据。为了实现这一点，必须构建一个数据渠道，以更新模型所需的速度、交付足够的数据量。这就是为什么，采用正确的数据注释技术至关重要。

选择的工具必须能够为项目处理适当的数据类型，允许灵活的标记工作流设计，可管理单个注释器的质量和吞吐量，并提供ML辅助的数据标记来增强人工注释器的性能。

IHS Markit的研究显示，87 %的组织正在采用至少一种形式的变革性技术，比如人工智能，但只有26 %的组织认为已经具备了适当的商业模式，可以从这些技术中获取全部价值。

创建一个可靠的训练数据策略是获取AI价值的第一步。包括设置预算、确定数据源、确保质量和保证安全性。清晰的数据策略还有助于提供大多数ML模型定期更新所需的稳定数据渠道。单独的训练数据策略并不能保证AI的成功，但它可以帮助企业更好地利用AI带来的红利。