机器学习需要更好的数据标注

2021-02-11崔滔

计算机与网络 2021年24期

关键词：用例清洁工卡车

崔滔

人们意识到AI非常强大，但为了实现它，必须获得大量的训练数据。有人在苹果花了数亿美元收集标签数据，但依然没有好的结果。

看到这一需求，许多专业标注公司诞生了。例如Datasaur，这是一个自动化数据标注的软件。当然，数据标注首先需要以人工的方式开始，特别是在人工智能项目的开始阶段，到了项目的中期或末期，机器学习本身可以用于自动标记数据，也可以生成合成数据。

Datasaur软件的主要目标是简化人工数据标注的操作，并引导他们以最低的成本创建更高质量的训练数据。由于它的目标是那些需要整天标记数据的高级用户，因此创建了功能键来加速标注过程，以及适合专用数据标注系统的其他功能。

不过在这个过程中，Datasaur也有了其他几个目标，包括消除偏见。还提供了项目管理能力，以清楚地阐明标签指南，确保随着时间的推移，标签标准继续得到保持。

数据标注的主观性是使这门学科充满陷阱的原因之一。

例如，想出一种方法，自动给文章贴上适合或不适合家庭的标签。通常可以参考电影分级制度，类似PG、PG13、R级。你可能认为这是一个非常简单的任务，而事实证明，科技公司认为合适的做法与电影行业认为合适的做法有很大不同。还有很多灰色地带的实例，对于什么是合适的，什么是不合适的，都会有非常不同的观点。

解决这类问题没有捷径可走。但是，有一些方法可以帮助公司将这些业务流程自动化，包括提供一个用于回答这些数据标注问题的决策谱系，这就是创建Datasaur软件的原因。因为你不会让团队为设计师创建一个Photoshop，只要买现成的Photoshop就好。当你只需要做数据标注，也可以找一家这样专业的公司。

起初，许多客户认为计算机视觉是最热门的AI技术。但最近，NLP的用例非常热门，特别是那些依賴于大型模型的用例，如BERT和GPT-3。因此Datasaur产品开始获得注意力，每周被用于给100万条数据贴标签，包含Netflix、Zoom和Heroku等知名公司都在使用。

Datasaur也被专业数据标注机构使用，例如iMerit。在世界各地拥有5 000名员工，iMerit已成长为数据标签行业的强大力量。该公司拥有100个客户，其中包括许多家喻户晓的品牌，这些客户利用其数据标注网络，让深度学习模型与高质量的标注数据保持一致。

数据标签的主观性使得它成为不是单纯的一项交易。

通常情况下，需要坐下来，弄清楚数据在哪里，需要什么，它不仅仅是工具、人员或过程，这是三者的结合。

上下文对于数据标注过程至关重要。这大概是因为机器对上下文的理解能力很差，也可能是因为AI用例在不断变化。不管是什么原因，这种需求是显而易见的。

分享一个卡车上施工工人的例子，可以证明上下文对于开发高质量的培训数据是多么重要。想象一下，有一个工人坐在卡车上，每到一个维修路段，就要下车干活，然后又回到卡车上。所以数据标签的问题是：工人是行人吗？他是卡车的一部分吗？还是说他是第三种人？

如果在计算车辆，就不会在意工人上下，只会对工程车感兴趣，但如果你试图操纵其他东西（比如自动驾驶或交通流量控制），避免撞到清洁工，清洁工的动作将会引起你极大的兴趣。如果你在寻找可疑的行为，就会想把清洁工排除在一系列类似的行为之外。

但很明显，工人有不同的存在状态，取决于人工智能应用的视角。对于数据标注来说，事实是在不同的时间，一条数据可以有不同的标注，很多时候，没有单一的答案。

数据标注过程的细致性对于提高数据质量至关重要，这直接影响机器学习模型的预测推理质量。数据可以让预测准确率达到60 % ～70 %，也可以让预测准确率达到95 %。

根据用例的不同，准确性是至关重要的。假如正在构建一个模型从视频中来识别偷东西的行为，一个错误的否定（没有发现盗窃行为）和一个错误的肯定（指控无辜的顾客）之间的后果有很大区别。

猜你喜欢

用例规约在课程成绩管理系统需求分析中的应用研究

机器学习需要更好的数据标注

猜你喜欢

杂志排行

计算机与网络的其它文章