探秘人工智能背后的“人工”
2022-05-30刘娜
刘娜
8月9日,《科學导报》记者来到位于山西综改示范区科技创新孵化基地4号楼的百度(山西)人工智能基础数据产业基地,一个个神情严肃,端坐在电脑前的数据标注师,面对复杂数据正在一丝不苟地进行标注工作。图像、语音、视频、文本……这是他们各自领到的任务,随着阵阵鼠标点击声和键盘敲击声,一组组复杂的数据在他们的手中变得清晰明了。
“每当有人问起我的职业,我说是数据标注师时,对方的脸上总是写满了问号。”李宇龙说。
李宇龙在百度(山西)人工智能基础数据产业基地(简称“百度基地”)从事数据标注工作已经5年了。他说,自己和许多同事目前最大的心愿就是,希望有一天大家提起数据标注师就像提起教师、医生一样熟悉,期待有越来越多的人了解这个行业。
什么是数据标注?简单来说,就是通过对数据贴标签、做记号、标颜色或划重点的方式,标注出其中目标数据的不同点、相似点或类别,以此达到让机器学习的功能。“数据标注是传统制造升级为智能制造、信息计算升级为人工智能的必要环节,其质量直接决定着机器智能化的程度,是它们让机器成为‘天才。”省工信厅大数据办相关人士的解释更专业明了。
鲜为人知的是,人工智能是需要被人为教导训练而成。人工智能所需要的教导,背后是经过大量的学习训练而成。
机器并不能理解原始数据,这些原始数据需要人为的“标签化”,通过标注赋予这些数据能够被机器所识别的特性,才可以被用于训练。正是依据这些大量而有效的数据总结规律,机器和人工智能才能最终形成自己的工作模式,变得越来越“聪明”。
人工智能行业有句话:有多少智能,背后就有多少人工。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。他们的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。
李宇龙虽然从未见过自动驾驶汽车,但他最近正在做的工作却与自动驾驶技术的AI算法息息相关。“你看,把汽车框起来,都打成白色的点,就代表这是一个障碍物。”随着李宇龙鼠标的快速滑动,屏幕上的点云图不断翻转,一个个针尖大的数据点被标注在图中不同物体上——蓝色是路面、绿色是绿植、红色是路沿、白色是障碍物。事实上,自动驾驶汽车眼中的世界就是一幅幅不断变幻的点云图。数据标注师要做的就是对照摄像头拍摄的照片,赋予这些点云图以准确的含义。
记者采访中了解到,现在数据标注的内容已经从图片拓展到语音,数据集中除了自动驾驶,还有医疗CT、人脸等,语音数据除了有普通话、各地方言外还有外语,这些数据集涵盖的范围越来越广,使得行业对数据标注师的要求也越来越高。