给人工智能当老师:拉框、拍摄、识万物
2020-12-22周小琪梁文雪
周小琪 梁文雪
河南郏县东边一个建材广场的三层,这些天,来了500个长了眼袋的人。他们被轮流带进了临时搭的摄影棚里——一个光线昏暗、不到30平方米的小房间。
有人指引他们坐在椅子上,面朝一部被固定在三脚架上的手机,手机和眼袋者之间的距离是25厘米,不能多,也不能少。每次开拍前,一名长着老实憨厚方脸的员工都会掏出卷尺,仔细再量一遍。
方脸员工叫张凯。量完距离后,他需要用5部像素不同的手机拍摄这些有眼袋的人。
这项工作名为“数据采集”。采集而来的照片、语音等,进行“数据标注”后,将会提供给人工智能企业,作为机器的学习资料。这些资料能教计算机分辨车辆、厨具等不同的物体,让它们像人一样,去认识大千世界。
去年夏天,张凯要重新找工作养家,一家名为“千机数据”的公司正好在招人,人力主管向他介绍说,公司主要做“数据标注”,简单来说就是给图片上的物体拉框框,只要会用电脑就能干。工资保底2000元,多劳多得。
他被安排在一个有电脑的工位上。领导传来几百张厨房、餐厅的图片。张凯需要做的是:把图片上的碗、碟、杯子、筷子等餐具都框出来,然后选好属性、分好类。拉对一个框能赚4分钱。
张凯觉得很新奇——把这些锅碗瓢盆框出来能干吗?但初来乍到,他没好意思多打听。
第一天上班,张凯费劲拉了几百个框。他不熟悉规则,比如,三个堆在一起的碗,是应该一起拉一个框,还是分开拉三个框?
一周后,他已经熟练到每天能拉几千个框,挣100多块钱了。时间久了,张凯看什么都带框,看到家里厨房的锅碗瓢盆,他第一反应是,框框应该从哪个角度拉?拉多大比较合适?
才来三个月,张凯就开始挑战难度更高的3D全景图。工作了大半年,张凯已经是公司最优秀的员工之一,但他依旧没问过,拉这些框是为了什么?
“数据标注”的工作干了一年,张凯开始接手新任务“数据采集”。
他的第一项采集任务就是拍摄有眼袋的人。
一开始,张凯完全分不清眼袋、卧蚕和黑眼圈。在他看来,它们都是堆在下眼睑的皮肤组织,只有喜欢熬夜或者上了年纪的人才会有。
为了这次拍摄任务,张凯仔细研究了很多张照片,终于搞明白这三者的区别:眼袋呈倒三角形,浮肿而松弛;卧蚕是椭圆形的,比眼袋小很多,笑的时候才明显;黑眼圈则是乌黑色的、平坦的,不会像眼袋和卧蚕一样凸出来。
拍摄前,张凯少不了回答被拍摄者的质疑。有人问:“照片上有我们的正脸,你们会不会拿来做违法的事?要是把它们用来刷脸支付怎么办?”
张凯给出解释:“大街上那么多摄像头,如果拍几张照片就能用来刷脸支付的话,走在路上是不是也不安全?”“我们公司是正规的,几百号人,合作的都是大企业,你就放心吧。”
创办“千机数据”之前,公司CEO刘洋锋也很少听说“人工智能”这个词,上中专时他学计算机,毕业后从事的工作却都跟计算机不沾边。后来,刘洋锋和两个发小凑在一起,准备创业。去年,一个偶然的机会,他们在网上看到一个转让的“数据标注”的单子。他不明白“数据标注”是干什么的,直到在一个网页看到这段话:
“要理解数据标注,得先理解AI其实是部分替代人的认知功能。我们学习认识苹果,需要有人拿着一个苹果告诉你,这是一个苹果。类比机器学习,我们要教它认识一个苹果,给它一张苹果的图片,它是完全不知道的。我们得先有苹果的图片,上面标注着‘苹果两个字,然后机器通过学习了大量图片的特征来认识苹果。”
刘洋锋懂了。他把“苹果”的例子讲给发小听,他们都觉得“这事儿能成”。
三个人凑了10万元,在县城租下一间30平方米的单间,拉回20台价值1000多块的二手电脑,然后通过微信群和朋友圈招了十几个员工。
乘着“人工智能”的东风,刘洋锋接的单子越来越多,短短几个月,公司就扩张到一整层3000平方米,可以容纳数百名员工,还在郑州、许昌、平顶山等地开设了分公司。
对张凯和千机数据的其他普通员工来说,他们现在采集、标注的数据,和穿过的珠子、压过的电池片没有什么不同,都是流水线上的一个部件。
昔日流水线上的工人,成了教“人工智能”认识世界的第一位老师,把认知事物的经验浓缩进一张张图片中以后,他们对人工智能也开始有了更敏锐的感知。
2019年6月,张凯第一次坐上了高铁。进高铁站时,张凯拿着身份证和高铁票,经过一道需要人脸识别的闸机,摄像头对着他的脸扫描了几秒钟后,显示“请通过”。他突然想到,以前做标注时做过人脸标点,会不会应用在了这上面?
“科技如果发展得太快,会淘汰掉很多东西”,张凯担心,机器会取代掉那些流水线上的工人,他们都会失业。但他又觉得,像自己这样做数据采集和标注的工人,很难被替代。“毕竟机器还要通过我们来学习。”
刘洋锋也思考过这个问题。他把人工智能产业比作了一个人,“算法工程师他们负责的是大脑,而我们负责的是四肢”,二者都不可或缺。他们公司采集、标注好的数据,要经过一套特定的算法加工,才能喂给机器,算法是人工智能中最核心的部分。
劉洋锋也担忧,毕竟“承接的都是重复性的工作”。为了防止被淘汰,刘洋锋开始把业务向高端化、专业化转移。
在刘洋锋过去的人生中,人工智能神秘、新奇且遥不可及。而短短两年,他就发现,“万物皆可AI”。比如,视频软件录制时的美颜功能要靠人工智能,加特效要靠人工智能,给用户推送的内容也要靠人工智能。
公司接了很多无人驾驶的项目,刘洋锋常幻想,有朝一日能买一辆无人驾驶汽车,坐进车里,动动嘴,把目的地告诉系统,然后倒头大睡,车子便把自己送到目的地。
“那一天一定不会太远。”
(白坤摘自2019年8月21日《新京报》,梁效诚图)