我为AI服务
2018-05-14刘敏
刘敏
马萌利这样的AI数据标注工人,就是给计算机输入图像,为人工智能提供学习材料的人。他们用的是最原始的办法,一张图接一张图地手动标记。
“梯子(可以移动的)”
马萌利面前出现一张欧洲户外咖啡馆的照片。她移动鼠标,绿色的画框浮现在照片上,显示备注“椅子”,她迅速在一瓶花束上补了一个绿框,标上“花(放在容器中)”。
下一张,一个日本花卉市场,几排密密麻麻的绿植中,马萌利检查了每一个标出的“花盆”。
下一张,一个美国孩子的卧室,“椅子”、“桌子”……她飞速删掉了“梯子”的画框——客户要求是能移动的梯子,这种高低床上已经焊死的梯子就不能算。
下一张、下一张、下一张,不管眼前是什么场景,马萌利手速不变,依次圈出“梯子”、“茶几”、“地毯”、“沙发”。
“梯子”、“茶几”、“地毯”、“沙发”。“梯子”、“茶几”、“地毯”、“沙发”……如此周而复始,不停重复循环。马萌利每天的工作从早晨8点钟开始,坐到工位,打开电脑,输入用户名和密码,移动鼠标开始标记,日复一日,每天持续9个小时。
屏幕上的图片很模糊,这些都是从全球社交网络上抓取的,角度混乱,像素也不高。那张韩国泡菜摊的照片,很明显来自一个角落里的摄像头。马萌利放大图片,在路人的脚边,圈出一个糊成一团的轮廓:“垃圾桶”。
旁边工位有人打开了音箱,活泼的流行歌响了起来:“燃烧我的卡路里!”
房间里有几百个屏幕,闪动着颜色不一的图片,每个人都在框选同样的内容:垃圾桶、梯子、茶几、地毯……这是河南省平顶山市郏县,一家叫千机数据的公司,房间看起来像一个网吧,在网络神曲伴奏下,年轻的员工们窝在柔软的沙发里,不停地拉框。马萌利是最后的审核员,她和同事要检查所有人拉的框,以保证每个画框都严丝合缝地贴着目标的边缘,图片里所有目标都要被框出来,不能有任何遗漏。
马萌利每天要检查至少1000张图。手头这个单子已经干了两个月,同事们标注了上万个垃圾桶、梯子、茶几、地毯……29岁的马萌利知道,这些标好框的图片汇总后,将发回北京一家AI独角兽公司,变成人工智能的学习材料。
她不知道的是,这几万个“梯子(可以移动的y标注,展示了梯子的无数个样子,再经过深度学习算法加丁,最终让计算机认识,这就是梯子,可以移动的那种。
她日复一日标注的数据来自百度、京东、阿里、旷视、Xlomenta等大公司,全部应用于人工智能训练。一种行业说法是,任何人类能在5岁之后做的事,对机器人来说都很简单,但是5岁之前,人类用本能就能理解的实际言息,计算机要用最笨的办法学习。这时候,就需要数以万计的马萌利们为人工智能提供标注服务了。
计算机认识沙发、梯子又有什么用?
马萌利回答不了这个问题,转头去问老板刘洋锋。刘洋锋今年31岁,是他去北京竞标抢到的这批活儿。他搔了搔头发,想起甲方提过一次,9月8号他们要去国外参加一场世界级人工智能比赛。“这些是给那场比赛用的?”他不太确定。再往下说,他也不懂了。
为AI服务
我来郏县的第一顿饭,刘洋锋和合伙人刘磊带我去吃了本地一家网红饸饹面,面馆有位漂亮的女主播,靠拍餐厅各种日常,在一家短视频平台上有88万粉丝。中午,餐厅两层楼坐得满满当当,一半是食客,一半是慕名而来的粉丝。
我们正好遇到女孩做直播,我发现,主播本人跟视频不一样:屏幕上她皮肤变好了,眼睛大大的,下巴更尖,苹果肌更圆。
是短视频软件的滤镜把她变美了。跟自拍软件一样,直播平台的滤镜靠的是人工智能,可以实时瘦脸、大眼并磨皮。APP之所以能识别哪儿是眼睛、哪儿是下巴,正是此前有AI数据标注工人标记了那些人脸的五官。
一直到我们离开,女孩仍一刻不停地招呼新进直播间的观众,对着镜头羞涩地笑:“我是单身,没有男朋友。”
“她是那家老板的儿媳妇呀。”说起女主播,马萌利一边对着一张俄罗斯餐厅图片拉框,一边哈哈大笑。郏县很小,藏不住什么秘密。她比画了一下公司的员工们:“生拉硬扯,我们都能扯上关系。”
同在一个县城,几年前,马萌利和女主播的处境差別不大。但技术后来将她们塑造成了两类人:马萌利战了每天为AI打工的人,而女主播运用AI提供的便利赚钱致富。
马萌利今年29岁,一见面就热性地笑,问什么说什么。初中毕业她就出门打工,在制衣厂做过缝纫,也进过富士康,做了4年线外流动员:流水线制造惠普电脑屏幕,她要随时给人做替补,前面做组装,把显示器的面板、外壳、支架都装好。后面做测试,用数据线测屏幕上有没有亮点,往屏幕上贴标签。
回乡后,她开过网吧,做过超市收银员。去年,她应聘了这份“电脑操作员”,每个月收入3-4千,比收银员高,比富土康低。她觉得工作环境不错:坐着用电脑,有空调,下班早,晚上回家还能陪孩子玩一会儿。而且,3个老板都是熟人,“我们村子都挨着,打小就认识”。
过去一年里,马萌利见过各种稀奇古怪的图片,她给人体标注过关节点,从头顶、脖子、膝盖到脚踝,一共打17个关节点;给道路图里的汽车、摩托车、自行车拉过边框,黑夜里的照片要比白天难一倍;她还录过一下午音,对着手机,念了300句话,有的短,就两个字、五个字,有的是十几二十几个字,具体内容,公司不让往外说。
2012年,谷歌大脑做了一个著名的实验:1000台计算机组成了超过10亿个“突触”连接的神经网络,研究者输入了1000万个静态图像,通过3天的密集寻找重复出现的模式后,谷歌大脑终于可以识别出一些特定的重复类别:人类面孔和人类身体,或者是一只猫。
马萌利这样的AI数据标注工人,就是给计算机输入图像,为人工智能提供学习材料的人。他们用的是最原始的办法,一张图接一张图地手动标记。他们在人脸上标注几百个记号点,让计算机知道道哪里是内眼角、外眼角,瞬间扩出大眼睛;他们录入的语音信息,被拆分标注后,能让智能音箱懂得“关机”和“十分钟后给我老公打电话”是什么意思。未来,自动驾驶的车辆之所以能在路口停下,就是因为工人们标注过红灯、斑马线和一帧一帧移动的行人。
关于这项技术,最为人所熟知的一个例子是,在张学友南昌、赣州、嘉兴、金华4场巡回演唱会上,警方用安检时的人脸识别系统,一共抓获了5名在逃犯人。
我一提到这个新闻,刘洋锋立刻讲出了背后公司的名字。虽然没合作過,但知道他们是如何运转的:当逃犯们兴冲冲地拿着票走过摄像头时,他们的面部信息已经被抽取,实时传到云端,与后端数据库飞快地做比对。
这是一种无差别的信息比对,如果用传统人工,在几万人的演唱会安检现场找到一名在逃犯,需要成百上千名安防人员。现在,只要几秒钟,比对完成,系统发出警告,警察按图索骥,拿下案犯。
太简单了,就跟QQ截图差不多
千机数据公司只有一年历史,从设想到成立,一共才花了3天时间。
第一天,刘洋锋和另外两名创始人聚在一起,琢磨以后要干点儿什么。他翻出一个文件,一家江苏的数据标注公司在转卖一个单子,提到一个新鲜的概念:数据标注。
刘洋锋试验了一下软件,在一张马路的照片上,他给一个行人圈了一个框一太简单了,就跟QQ截图差不多。
第二天,三个人就去买了网线,去平顶山买了20个格子问卡位,旧货市场买的,90块钱一个。
第三天,面试。刘洋锋有个开手机店的老表,在乡镇里混了七八年了,“他有微信群,认识的人多,一发朋友圈就有人来。”招工唯一的要求是,年龄不要太大。招20个,去掉几个四十多岁的应聘者,正好招满。
2007年,普林斯顿大学助理教授、计算机视觉专家李飞飞第一次试验做数据标注时,她以10美元/小时的价格,雇佣了一批普林斯顿的本科生。10年后,这项试验已经演变成产业,在郏县这种中国的三、四线城市,以工厂、车间、质检员的形式落地生根。
刘洋锋的公司是在县城郊区一个农民楼里成立的。第一批员工是初中刚毕业的学生、三十多岁在家带孩子的妇女、前手机店店员和前服装店的销售员们。已经经过了江苏来的业务一道盘剥,算下来每拉一个框3分2厘钱,公司再抽成,到员工手里,变成了2分5。
一个星期之后,所有人都已经能熟练地在电脑上操作,这份工作的门槛几乎为零。电脑从20台扩充到40台、100台,一年后,已经到了500多台。员工都是本地人,马萌利的村子今年来了7个人,她骑电瓶车载我回了一趟家,10公里的村路,她小时候骑自行车,碾着泥坑,一上午都骑不到,现在变成水泥路,20分钟就到家了。马萌利家刚贷款买了一台哈弗SUV,下雨天就拉着村里人一起去上班。
夏末天气变凉,晚风吹过小河和玉米地,叶子窸窸窣窣作响。家里7岁的儿子马上要开学,趴在空调房里看恐沛片,一见马萌利回来,跳起来扑到了妈妈身上。
刘洋锋最近天天忙到后半夜,直接在办公室里睡了,一觉醒来,想起又忘了给儿子买书皮,顿时懊悔起来。他1987年出生,中专读了一半就不念了,他学的电脑专业,讲了3年,才从电脑的起源讲到怎么配置服务器。2005年,刘洋锋跑到重庆的工地上开挖掘机,一个月就能赚五千多块钱。他买了个二手IBMThinkPad,拿着一个蛇皮袋子装计算机教材、软件杂志,走到哪儿带到哪儿,晚上在宿舍里自学。此后,他在全国跑过饮料瓶推销,在云南红河卖过进口高档葡萄化肥,还去智利待了一个月。当时有老板想把深圳华强北的山寨机推销到南美去,让他先学了一个月西班牙语,手机生意黄了,他唯一的收获是记住了hola(你好)和gracias(谢谢)。
刘洋锋回郏县之前,还在珠海做过一段单片机,用上了自己的计算机知识。小公司攒出来一台自动化设备,能精确地拿起来、放下,专门给手机做WiFi、主板测试,这正是马萌利过去在流水线做的活儿。
单片机速度快,24小时不眠不休,花几万块买一台,4-10人的流水线小组就全被替代掉了。而大公司做AI标注的结果,也会是大规模替代人力。李开复曾撰文表达过对AI技术快速发展的担忧,认为这将导致社会结构的洗牌,贫富分化加剧,很多人将面临阶层坠落的风险,进而丧失尊严:
“这种转变将为开发人工智能以及运用人工智能的企业带来大量利润……我们由此将面临两种无法和谐共存的新情况:大量财富集中到极少数人手中,大批人员失业。”
但处于产业链末端的人,不思考这些问题。这离他们太遥远了。北京一位AI数据标注公司老板告诉我,“工人只是打开人家的网页,用人家的软件,在上面把人家的数据,按人家的格式给人家处理好,交给人家,公司接触不了人工智能任何东西,这个数据自己也保留不了。”“我们没有研发能力,纯粹也就是一个(代工的)富士康。”
在郏县,这还是个新兴产物,今年8月,刘洋锋在“郏县之窗”公众号上发了一篇招聘广告,文章把AI标注员的工作捧得很高:“在这个岗位上,其实你的一些想法就代表了人工智能的想法,人工智能会根据你加工的数据进行深度学习,从而实现智能化。”宣传的月薪是3000-8000元(上不封顶,多劳多得)。
“这都是噱头。”刘洋锋很诚实,“没有人能拿到8000,干得最好的能拿到4000多。”跟郏县遍地“2500-3000元”的招工广告相比,这已经比上不足比下有余了。这个广告是刘洋锋请朋友来写的,微信号头条的刊例价是3000块,关系好,没要钱。
前几天,县里有领导来公司参观,饶有兴致地读起墙上的海报:“千机数据服务于百度公司、阿里巴巴、京东、腾讯、滴滴等世界500强及行业独角兽企业。”领导赞不绝口:你们这是高科技产业啊!人工智能!
刘洋锋当面也没解释,他觉得不解释更好。
中国包揽冠军
6亿美元,这是国内一家AI独角兽公司最近的C轮融资数额。国内AI市场这几年一直在风口上,所有你能想到的互联网巨头都在AI行业布局。李开复形容,这是经济上“有史以来最大的、难以打破的垄断”。
数据标注工厂,是人工智能产业体系里最末端的毛细血管,类似千机数据这样的小公司都是在巨头的夹缝里生活。刘洋锋这一年跟巨头们直接合作,现在拉一个框,员工收入6分起,最高能到1毛钱。具体价格取决于刘洋锋竞标的报价。过去几年里,行业默认百度的活儿最好:结款快,1号发过去,15号可能钱就到账了,很多小公司都把人押在百度上。
今年夏天,百度的任务突然大规模缩减,北京昌平一家公司的老板告诉我,他好不容易培养了60多名成熟工人,手最快的男孩23天就赚了一万块钱。结果涌进来的同行太多,价格缩水,到今年任务突然少了,“一个月就10天有活儿,要給人开30天的工资,最后只能倒贴钱。”昌平老板彻底不做了。
刘洋锋留了个心眼,最早合作的Momenta、旷视等公司,他都没中断过,一直把员工分散在不同项目上,度过了这个危机。这包括忍耐一家账期极长的知名公司,三四个月都回不来款,“你每次去问,对接的人都换了,人家管财务的人心情不好,还要训你两句。”只能忍着,几十万的工资现在是创始人们自己垫付,刘洋锋不让我提这家公司的名字:“这篇稿子宁可你把我写死,也别得罪人家。”
在北京的两家公司,我看到员工们一直严肃地对着屏幕,手上噼里啪啦一刻不停,上厕所要严格地在时间表上做暂停,以便当月计算工作效率。北京公司招人,月薪至少四五千元,其中一家公司专门去山东的职业学校招聘,要求学生每分钟能打100字,一个班40多人考试,第一场就筛到20人。招聘老师在学校待了一周时间,发现一位成绩排到前五的男生人很顽皮,每次打闹都能看见他。临走之前,老师在名单里把他划掉了:这份工作不能要性格太活泼的人。
在郏县,刘洋锋的公司看起来就像个大网吧,没有考试,只有3天试用期,办公室至少有三台音箱此起彼伏地放歌。实际上所有的电脑、沙发,就是从网吧二手收购过来的,这种沙发坐久了腰不酸,中午还能放平了睡一觉,沙发原价400多,刘洋锋去买的二手,还不到100块。
刘洋锋办公室的沙发上总有员工跑过去睡觉。公司不用富士康那套标准,刘洋锋觉得反正租金和工资都比北京便宜,每人少干点儿,多招几个人,也行。“北京用20个人完成的,我用25个也行,人少精神压力大,出错率高,返工成本更高。”
北京公司招人,月薪至少四五千元,老板们喜欢中专、大专生,“素质高”,能保证效率。而郏县公司员工大多是初中、高中学历,3个创始人也都没读过大学。“中专生有傲骨,最多待三个月自己就觉得屈才了。”刘洋锋说,就拉框本身来讲,“众生皆平等。”
这一年里,刘洋锋频繁接待从北京来的项目总监、研究员们,其中很多都是清华、北大等名校毕业生。他们住在公司附近的宾馆,前几次,说好了9点见面,另一位创始人刘磊8点半就热情地等到大堂,打电话要带他们去吃饸饹面,结果听出人家一肚子火,才意识到,这些总监们还没起床。“你们北京来的时间观念强,约好几点是几点”,现在他都改成了8点55再出现。
年轻的总监们也不爱吃肉喝酒。公司招待去本地最著名的羊肉锅,刘磊介绍,这是本地市领导最喜欢的餐厅。结果对着一桌子肉菜,有瘦削的理工男面露难色:我说的清淡,是吃点儿素菜就行了。
这些名校研究员们,都是AI行业市场争夺的人才,职位最低的工程师年薪也在30万-50万。刘洋锋每次去甲方公司,满眼都是年轻的理工男。他觉得学历没那么重要,“他们最厉害的是实习生,有大学生,有些还是高中生。”提起几位研发员,“你说他们一年能挣100万吗?”这个问题超出了大家的想象力。
9月9日,2018常见物体图像识别竞赛(COCO)在德国慕尼黑宣布结果,中国几家团队包揽了所有冠军。
其中一项比赛是,“COCO的注释包括80个类别对象的实例分割,91个类别的物品分割,人物实例的关键点检测,以及每个图像都有5个图像标题(image captions)”。翻译过来,就是考验计算机能否识别那些“垃圾桶”、“地毯”、“梯子(可以移动)”,千机数据的甲方公司拿到了第一名。
刘洋锋转发了这条消息,配文是:“祝贺……”
从去年开始,刘洋锋每个月都要跑趟北京,去中关村、五道口谈业务。今年他有一天突然想去清华大学转转,背着双肩包,一个人走到清华南门口,结果被拦下来了,保安看他不像学生,要求他出示身份证。
刘洋锋没掏,转头就走了。
人像换豆油
“通知:年龄在18-50周岁的,请前往薛店镇三苏路口南50米路西,免费领取价值58元5升食用油一瓶,或10斤精品大米一袋!”
雄浑的男中音从音箱里传出,在劲爆的背景音里反复召唤,15秒就重复一次。
今年夏天,刘洋锋的公司开始做人像数据采集。我去公司时,外面大厅摆了几组摄像头,任何时间都能看见有人对着摄像头,从左到右地摆脑袋。
人像采集,也是给人工智能的训练搜集素材。今年,国内AI产业突然增大了人像采集的需求,大公司开始收集中国人在不同光线下的人像视频——这些视频相当于眼下被标注的图片,只不过是动态的,它们也是未来被标注的素材。
这变成了新商机,刘洋锋说,河南、云南,还有其他省的几家公司,都在抢这个活儿。这样的人像采集在一、二线城市几乎无法操作——录一个人至少要45分钟,公司采购价为100元,刨去运营成本,根本吸引不到志愿者。
在郏县,这是另一套玩法:刘洋锋的公司在县城下面的薛店镇也有个分公司,今天门口堆满了成箱成箱的大米、豆油和卫生纸,以免费赠送的名义,吸引镇上居民来做人像采集。
看到门口的豆油,有位快五十的寸头大叔走了进来。
“这是弄啥咧?”
“过来拍一下人像,就送大米,油也行。”
“干啥用的?”
“做智能门禁,你看有的写字楼、学校、高档社区,人一过去门就刷开了。有的光线不足就刷不开,人家想解决这个问题。”
一说到门禁,大叔点点头,表示明白了,一听要四十多分钟,又有点儿犹豫。
“转一圈,个把小时,领桶油多美咧?”“噫……”大叔觉得是这个理,领走了一张二维码。
刘洋锋、刘磊和另一位创始人李亚沛,对这一套农村地推模式已经极熟悉了。2015年,一家金融APP急速融资,急需注册用户,那半年时间,他们各自都在做地推团队,疯狂地薅了互联网金融一大笔羊毛。
刘洋锋当时跑农村,找镇上的移动公司,以每条0.5分钱的价格群发短信,通知农民们第二天去领免费洗衣粉——注册一个用户送一包5斤装洗衣粉,如果去镇上,居民要求高,就變成一桶洗衣液。洗衣粉大多是“太渍”,真的汰渍5斤装要三四十块钱,这种山寨货一车一车地进货,平均一包成本只要6块钱,山寨的蓝月亮洗衣液比“太渍”再贵1块。
用这个办法,几个人跑过河南、安微、山东,他们不去省会城市,也不去地级市,都是在县城和村镇做推广。“其实(洗衣粉)农民也都知道是假的,他们不在乎。这事儿确实放在城里,给出去10袋,也不一定办得成。”
那也是几个人第一次接触到人脸识别。地推员工自带智能手机能刷机,连上WiFi,把手机关机一下,再开机,此前的信息全部清空,系统里显示的手机型号就全变了。农民输入自己的身份证号,对着手机摄像头拍了照,算确认成功。注册成功一个用户,地推团队就能赚60块钱奖金。“那时候利润很高啊,一天随便做做就是几百人,多的时候一天能上万啊。”
相比之下,现在的人像录入不需要姓名和身份证,只要拍头像视频,要求简单很多,但是刘洋锋们能挣的钱也少了:100块收购价,去掉给农民的奖励、自己的员工支出,平均每人身上只能赚20。每,强多只能拍50个人,跟APP地推相比,这简直是桩苦差事。
此时此刻,在薛店镇这家分公司,一楼、二楼的每个房间都在拍着视频。农民们对着摄像头,听着员工的指令,“左——”“右——”“转头——”,摆动自己的脑袋。接着还要“摘下眼镜”、“戴墨镜”、“涂上口红”……中年发福的妇女配合地戴上一个哈利波特式的圆框眼镜,显得格外滑稽。
每个人要在强光、弱光等不同场景下拍摄,排队等待时,有大妈直接在房间门口织起毛衣。他们的孩子们在楼下奔跑,下午开始人多了,加上15秒重复一次的“通知!”公司里嘈杂得像一个市场。
40多分钟后,寸头大叔拍完了。他先领了一袋大米,又问,你这洗衣液咋领呢?
得知是拉一个人,送一瓶洗衣液后,不到20分钟,大叔又回来了,带了俩四十多岁的大姐。他兴致勃勃地带大姐们学动作,对着员工一起转起脖子来。“哎哟,我不行。”一个大姐有颈椎病,转到一半转不动了。
大姐悻悻地站到一边,白跑一趟,她不太高兴。
前几天在郏县县城里拍摄,每个录入者能拿50块钱现金。在薛店镇,50块变成了价格更低的油和米,刘洋锋的解释是,直接给钱,农民会认为他们是骗子。两天后,他又告诉我一个原因:在镇上他们有个合作伙伴要分成,对方负责拉人:“他在当地熟人多,跟很多村长、村支书都认识,人家能用大喇叭广播,帮我们找人。”
千机数据成立时,3个创始人预估,这个公司也许只能开三五年,5年,就是想象中最长的限度了,但起码现在能活下去。媒体上,每个人都在讨论AI代替人工的可能性,在郏县,短期内,拉框的工作还不会被机器替代。刘洋锋说,他们除了人脸、车辆、3D云图、语音,还在录入各种不同的样本,在这些样本里,“雨天、雪天、黑天、多云都不一样,做无人驾驶的,在不同地方的市政建设也不一样。”
现在这些被采集的动态人像,未来怎么标注、由谁标注,刘洋锋也不知道。他们永远是任务的被动承接方,那些发过来的图片包,信息都是被抽乱、打散的,千机数据的每台电脑都没有硬盘,整个办公室连着一块服务器,标注好直接上传,没法用U盘等拷贝出来。
最后一天采访时,摄影师想让刘洋锋的脸出现在屏幕上,也让员工上去点几个点。但被告知办不到:所有的图片都是打包从北京发过来的,他没有权限在里面插入新图片。
这一天,薛店镇分公司只采集了37个人像,女的20个,男的17个,并不算多。最后几个录入者临走时,被一名员工叫住:微信帮我们发点儿广告吧,来人了就给洗衣液。
被叫住的大叔愣住了,他不知道怎么发。员工拿过他的手机,加微信好友,直接把广告词发过去。打开他的朋友圈,粘贴在了里面:
“重要通知,××公司近期在薛店镇进行人脸采集活动。参与即可获得5升品牌食用油或10斤精品大米一袋。用途:采集数据均为科研使用,智能门锁、小区门禁等。注:本活动不涉及个人隐私,不用真实姓名,不用身份证,请各位朋友放心大胆前来。名额、时间有限,先到先得!……”
大叔的手机字号调成了最大,满满一屏幕的字,成了他的第一条朋友圈。
他拿回手机,看了一眼,并没在乎内容是什么,抱起一桶豆油,回家了。