人工智能热潮下的新工种:数据标注员
2024-04-14南之瑉
南之瑉
当人工智能取代你的工作时,你可能不会失业,但你的工作可能会变得更加陌生、孤立和枯燥,就像那数以百万计的廉价数据标注员一样。
| 神秘而枯燥的标注工作 |
从内罗毕一所大学毕业几个月后,30岁的乔找到了一份数据标注的工作,主要是处理用于训练人工智能的原始数据。人工智能可以借助大量数据学习模式和规律,但首先,这些数据必须由人类进行分类和标注。这些标注员数量庞大,常常隐藏在机器之后,不为人知。乔的任务是为自动驾驶汽车标注图像数据,逐帧识别所有摄像机角度下的车辆、行人、骑自行车的人以及司机需要注意的其他细节。这是一项繁琐而重复的工作,一段几秒钟的视频片段可能需要标注八个小时,而且,乔仅仅为此获得约10美元的报酬。
好在2019年,出现了一个新机会:乔替一家急需标注员的新公司开展标注训练,收入是之前的四倍。每兩周就有50名新学员在内罗毕的一栋办公楼开始学徒期。他们给对镜自拍照中的衣服分类,通过扫地机器人的眼睛定位其所在的房间,并在摩托车的激光雷达扫描图上画框。一般情况下,会有超半数的学员未完成训练营就选择放弃。“有些人从来不懂什么叫坚持。”他轻描淡写地解释道。同时,他也承认,这份工作确实单调乏味。
但至少,这是一份工作,而当地的工作机会并不多。乔已培养数百名毕业生。训练结束后,他们回到家里独自工作,且不得向外人透露具体内容。实际上,这也并不是什么问题,因为他们自己也对此知之甚少。为自动驾驶汽车进行数据标注还可以理解,但如果是标注一段对话片段,区分它是由机器人还是人类说出的呢?上传自己茫然地盯着某个摄像头的照片、咧嘴一笑的照片或者戴上摩托车头盔的照片,这又是在做什么?每个项目都是某个较大工序的一个小小的组成部分,因此很难准确获悉它们究竟要训练人工智能做什么。这些项目的名称也不会暴露任何蛛丝马迹:螃蟹世代、鲸鱼片段、林地陀螺和药盒烤肠……都是些毫无逻辑的代号。
在内罗毕读大学的标注员维克多曾连续工作36个小时,为照片中的人群标注肘部、膝盖和头部——他完全不知道为什么要这么做。他有些无奈地说:“如果我的工作让某人成为亿万富翁,而我每周只能挣几块钱,我难道不是在浪费生命吗?”此前也有报道称,开放人工智能公司利用廉价的非洲劳动力进行数据标注,参与数据标注的工人因为长期接触“有毒内容”,心灵受到了不可逆的伤害。
至于雇用他们的公司,大多数人只知道它叫“雷默任务”。它运营着一个面向所有英语流利者的求职网站。乔并不知道“雷默任务”其实是硅谷数据供应商“规模人工智能”下属的子公司。规模人工智能估值数十亿美元,其客户包括开放人工智能公司和美国军方。雷默任务和规模人工智能的网站都没有提及对方。
| 非传统工作 |
对于开放人工智能公司的聊天生成式预训练转换器(ChatGPT)等语言模型,公众最为关注的往往是它们似乎准备自动化所有工作。然而,即使是最卓越的人工智能系统,背后也是人,是大量标注数据来训练它并在数据混乱时整理数据的人。只有买得起数据的公司才能参与竞争,而这些公司也极有动力对数据保密。所以,除了少数例外,人们对这些塑造人工智能行为的数据知之甚少,更别提那些默默标注数据的工作者了。
乔的学生们所从事的,与传统意义上的“工作”大相径庭:没有固定的时间表,没有团队协作,他们甚至不清楚自己的任务内容或是为谁工作。事实上,他们也很少称之为“工作”,那只是一个个分散的“任务”,而他们是任务执行者。
当前的人工智能热潮——几乎能以假乱真的聊天机器人、仅凭简单提示就能生成艺术作品的智能工具以及这些技术背后的估值数十亿美元的公司——基于一项前所未有的单调而重复的劳动。
2007年,专注于研究人工智能的普林斯顿大学学者李飞 飞怀疑,要改进基于神经网络的图像识别技术(一种当时已持续多年无进展的机器学习方法),关键在于对更多数据进行训练,即数百万张标注图像而不是数以万计。问题是,她的本科生研究团队如果要标注这么多照片,可能需要几十年时间和数百万美元的成本。
李飞 飞在亚马逊的众包平台“机械特克”上找到了数千名来自世界各地的“工人”,他们愿意以低廉的价格完成小任务。由此产生的带有标注的数据集“图像网”实现了机器学习领域的一次重大突破,并推动了该领域后续十年的发展。
数据标注至今仍然是人工智能不可或缺的组成部分。公司能以尽可能低的成本收集大量的标注数据用于训练模型。如果模型运作有效,至少理论上来讲,就不再需要数据标注员了。然而实际上,数据标注的工作从未真正停止过。正如研究者所言,机器学习系统非常脆弱,极易受到那些所谓“边缘案例”的影响而出现问题,甚至导致灾难性后果。2018年,优步一辆自动驾驶测试车就因未能正确处理“行人骑自行车穿越马路”的情境,导致一名49岁的女性被撞死。随着越来越多的人工智能系统被用来提供法律咨询与医疗救助,可能产生的极端情况也就越多。这就需要更多的人来对数据进行分类和整理。这一现象催生了一个全球性的行业,像乔这样的人正利用他们独特的人类能力来支持机器的发展。
| 标注是一门大生意 |
很多数据标注员都在训练最前沿的聊天机器人,他们实际做的工作却大多琐碎又重复,旨在维持人工智能系统的正常运行。这些工作包括分类抖音视频的情感内容、甄别垃圾邮件的新类型以及评估在线广告的内容是否恰当等等。有的标注员则分析信用卡交易与购物行为的关联,或检查电商平台推荐的效果,以判断购买特定衬衫的顾客是否会对推荐的另一件衬衫感兴趣。数据标注员的日常工作还包括纠正客服聊天机器人的回复、处理亚马逊智能助理的请求,以及对视频通话中的情绪进行分类。此外,他们在标注食品时需要足够细致,以防智能冰箱在遇到新包装时判断失误,还要在安防摄像头发出警报前进行校验,甚至帮助困惑的无人驾驶拖拉机识别玉米。
人工智能合作组织的项目和研究负责人索南·金达尔说:“业界普遍认为,数据标注并非开发工作的关键部分,也不认为它是长期需求。所有激动人心的部分都围绕着构建人工智能系统展开,一旦我们构建成功,数据标注就变得无关紧要了,所以为什么要在意它呢?然而,数据标注是人工智能的基础设施,人类智能是人工智能的基础。我们必须认识到,数据标注是人工智能经济中的一项真实工作,它将在一段时间内长期存在。”
在开放人工智能、谷歌和微软等知名企业背后,有着形形色色的数据供应商。有些是私人承包商,设有类似于呼叫中心的办公室,例如位于肯尼亚和尼泊尔的“云工厂”公司。在转到雷默任务工作之前,乔就是在那里以每小时1.2美元的报酬做标注工作。还有像机械特克和点击工人这样的众包平台,任何人都可以注册来做任务。此外,还有规模人工智能这样的服务提供商,任何人都可以注册,但都必须经过培训、通过资格考试并接受绩效评估。
标注已成为一门大生意。2021年,规模人工智能的市值已达73亿美元。2016年,亚历山大·王创立这家公司时年仅19岁,被《福布斯》称为“最年轻的白手起家型亿万富翁”。
有业内人士透露,那些购买数据的企业要求严格保密,数据标注工作可能泄露太多有关正在研发的系统的信息。由于需要大量工作人员,防止信息泄露变得极其困难。数据标注员被不断告诫不能向外界透露任何关于工作的细节,包括他们的朋友和同事在内。由于都是用的公司别名和项目代号,而且标注者的劳动分工高度细化,即便标注者想要分享工作细节,也没有足够的信息可供谈论。很多标注员为了防止被平台封号,会使用化名。尽管确切的人数难以估测,但可以确定的是,数据标注员的人数非常庞大,并且仍在持续增长。谷歌研究部门最新的一篇论文估计这一数字达到了“数百万”,而且有潜力发展到“数以十亿计”。
| 人工智能如何改变工作?|
自动化常常以我们意想不到的方式展开。医疗数据标注公司“半人马实验室”首席执行官埃里克·杜海姆回忆道,几年前,一些顶尖机器学习工程师预言人工智能将让放射科医生的工作变得多余。这一预测并未成真,人们转而开始相信放射科医生会借助人工智能来提升工作效率。但如今,杜海姆看到的情况并非如此简单。他指出,人工智能非常擅长处理某些具体任务,因此工作被拆分给专门的算法系统和专业人才承担。例如,人工智能系统或许能够发现癌症,但可能仅限于识别来自特定类型扫描设备的特定类型图像;所以,现在你需要有人来确认人工智能输入的数据类型是否正确,另一人来审核人工智能的分析结果,再有一个人利用人工智能来撰写报告,然后再将报告发送给另一个人,如此等等。“人工智能并没有取代工作岗位,”他说,“但确实重塑了工作的组织结构。”
在新技术的未来主义光芒下,隐藏着庞大的生产装置及其操作者。杜海姆表示,这是硅谷典型劳动分工合作的最新形式,是从工匠手艺转变为工厂流水线工艺的数字版本:原本连贯的技艺流程被拆分成了许多小任务,在流水线上一一进行,其中一些任务由机器完成,而其他的仍然需要人力,但两者的工作方式都已不同以往。
人们担忧人工智能带来全方位颠覆。对此,有一种观点认为,人工智能会自动化某些任务,而非完整的工作,虽然工作会因此变得单调乏味,但同时人们可以投身于更有成就感和更人性化的工作。人工智能也可能像电话或打字机一样——这些节省人力的技术在当时可是大大减轻了繁重的信息传递和手写工作,同时创造了大量的通信、商务和文书工作,新办公室需要新型员工来胜任这些工作,比如文员和打字员。所以说,当人工智能取代你的工作时,你可能不会失业,但你的工作可能会变得更加陌生、孤立和枯燥。
| 不断转移地点的标注工作 |
2022年底,乔开始注意到他的学生们常常抱怨無事可做。不久后,一封电子邮件告知他肯尼亚的培训营即将被关闭。他还可以继续在线上训练数据标注员,但他开始担忧自己的职业未来。他听说标注业务正迁离肯尼亚,转移至尼泊尔、印度和菲律宾。“这些公司将业务从一个地区转移到另一个地区,”乔说,“它们无需在当地建基础设施,可以灵活地将工作转移到运营成本更低的地方。”
与手机和汽车制造业不同,人工智能行业有着极大的流动性。这项工作可以轻易而迅速地得以重新配置,转移到劳动力技能、带宽条件和工资水平都更理想的任何地点。
2023年5月,规模人工智能公司在自己的网站上列出数据标注职位,招募人工智能有志于征服的几乎每个领域的优秀人才。这些人工智能培训师具备的专业知识涵盖健康指导、人力资源、金融、经济、数据科学、编程、计算机科学、化学、生物学、会计、税务、营养、物理、旅行、基础教育、体育新闻等多个领域。你可以每小时赚45美元教机器人法律,或者每小时赚25美元教机器人诗歌。还有人专门协助训练军事人工智能。规模人工智能公司正在测试一款名为多诺万的大语言模型,该模型被称为“人工智能战争中的弹药”,并已获得美国机器人战车项目的合同。
标注员安娜在得克萨斯州训练聊天机器人。她希望这份工作可以成为一份长期的职业。她并不担心因为自动化而失业。“我的意思是,它的功能令人惊叹,”安娜在谈到聊天机器人时说,“但有时,它还是会做出一些非常奇怪的事情。”
编辑:周丹丹