APP下载

探秘人工智能背后的“人工”

2022-05-30刘娜

科学导报 2022年51期
关键词:原始数据云图百度

刘娜

8月9日,《科學导报》记者来到位于山西综改示范区科技创新孵化基地4号楼的百度(山西)人工智能基础数据产业基地,一个个神情严肃,端坐在电脑前的数据标注师,面对复杂数据正在一丝不苟地进行标注工作。图像、语音、视频、文本……这是他们各自领到的任务,随着阵阵鼠标点击声和键盘敲击声,一组组复杂的数据在他们的手中变得清晰明了。

“每当有人问起我的职业,我说是数据标注师时,对方的脸上总是写满了问号。”李宇龙说。

李宇龙在百度(山西)人工智能基础数据产业基地(简称“百度基地”)从事数据标注工作已经5年了。他说,自己和许多同事目前最大的心愿就是,希望有一天大家提起数据标注师就像提起教师、医生一样熟悉,期待有越来越多的人了解这个行业。

什么是数据标注?简单来说,就是通过对数据贴标签、做记号、标颜色或划重点的方式,标注出其中目标数据的不同点、相似点或类别,以此达到让机器学习的功能。“数据标注是传统制造升级为智能制造、信息计算升级为人工智能的必要环节,其质量直接决定着机器智能化的程度,是它们让机器成为‘天才。”省工信厅大数据办相关人士的解释更专业明了。

鲜为人知的是,人工智能是需要被人为教导训练而成。人工智能所需要的教导,背后是经过大量的学习训练而成。

机器并不能理解原始数据,这些原始数据需要人为的“标签化”,通过标注赋予这些数据能够被机器所识别的特性,才可以被用于训练。正是依据这些大量而有效的数据总结规律,机器和人工智能才能最终形成自己的工作模式,变得越来越“聪明”。

人工智能行业有句话:有多少智能,背后就有多少人工。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。他们的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。

李宇龙虽然从未见过自动驾驶汽车,但他最近正在做的工作却与自动驾驶技术的AI算法息息相关。“你看,把汽车框起来,都打成白色的点,就代表这是一个障碍物。”随着李宇龙鼠标的快速滑动,屏幕上的点云图不断翻转,一个个针尖大的数据点被标注在图中不同物体上——蓝色是路面、绿色是绿植、红色是路沿、白色是障碍物。事实上,自动驾驶汽车眼中的世界就是一幅幅不断变幻的点云图。数据标注师要做的就是对照摄像头拍摄的照片,赋予这些点云图以准确的含义。

记者采访中了解到,现在数据标注的内容已经从图片拓展到语音,数据集中除了自动驾驶,还有医疗CT、人脸等,语音数据除了有普通话、各地方言外还有外语,这些数据集涵盖的范围越来越广,使得行业对数据标注师的要求也越来越高。

猜你喜欢

原始数据云图百度
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定变化趋势限制的传感器数据处理方法研究
Robust adaptive UKF based on SVR for inertial based integrated navigation
成都云图控股股份有限公司
百度年度热搜榜
黄强先生作品《雨后松云图》
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
基于TV-L1分解的红外云图超分辨率算法
百度医生
云图青石板