富有中国特色的数据车间遍布在河南、山东、河北等地的四五线小城里,日以继夜地为世界领先的AI产品服务。越来越多的人正在加入其中,成为为人工智能打工的人。
“梯子(可以移动的)”
马萌利的面前出现一张欧洲户外咖啡馆的照片。她移动鼠标,绿色的画框浮现在照片上,显示备注“椅子”。她迅速在一瓶花束上补了一个绿框,标上“花(放在容器中)”。
下一张照片,一个美国孩子的卧室,“椅子”“桌子”……她飞速删掉了“梯子”的画框——客户要求是能移动的梯子,这种高低床上已经焊死的梯子就不能算。
下一张、下一张、下一张,不管眼前是什么场景,马萌利手速不变。
马萌利每天的工作从早晨8点钟开始,坐到工位,打开电脑,输入用户名和密码,移动鼠标开始标记,日复一日,每天持续9个小时。
房间里有几百个屏幕,闪动着颜色不一的图片,每个人都在框选同样的内容:垃圾桶、梯子、茶几、地毯……这是河南省平顶山市郏县一家名叫“千机数据”的公司,房间看起来像一个网吧,在网络神曲伴奏下,年轻的员工们窝在柔软的沙发里,不停地拉框。
马萌利手头这个单子已经干了两个月,同事们标注了上万个垃圾桶、梯子、茶几、地毯……29岁的马萌利知道,这些标好框的图片汇总后,将发回北京一家AI独角兽公司,变成人工智能的学习材料。
她不知道的是,这几万个“梯子(可以移动的)”标注,展示了梯子的无数个样子,再经过深度学习算法加工,最终让计算机认识,这就是梯子,可以移动的那种。
她日复一日标注的数据来自百度、京东、阿里、旷视、Momenta等大公司,全部应用于人工智能训练。一种行业说法是,任何人类能在5岁之后做的事,对机器人来说都很简单;但是5岁之前,人类用本能就能理解的实际信息,计算机要用最笨的办法学习。这时候,就需要数以万计的“马萌利”们为人工智能提供标注服务了。
计算机认识沙发、梯子又有什么用?
马萌利回答不了这个问题,转头去问老板刘洋锋。刘洋锋今年31岁,这批活儿是他去北京竞标抢到的。他搔了搔头发,想起甲方提过一次,9月8日他们要去国外参加一场世界级人工智能比赛。“这些是给那场比赛用的?”他不太确定。再往下说,他也不懂了。
为AI服务
郏县本地有一家网红饸饹面,面馆有位漂亮的女主播,靠拍餐厅的日常工作,在一家短视频平台上有88万粉丝。我们正好遇到女孩做直播,我发现,主播本人与视频不一样:屏幕中的她皮肤变好了,眼睛大大的,下巴更尖,苹果肌更圆。
是短视频软件的滤镜把她变美了。APP之所以能识别哪儿是眼睛、哪儿是下巴,正是此前有AI数据标注工人标记了那些人脸的五官。
直到我们离开,女孩仍不停地招呼新进直播间的观众,对着镜头羞涩地笑:“我是单身。”
“她是面馆老板的儿媳妇呀。”马萌利一边对着一张俄罗斯餐厅图片拉框,一边哈哈大笑。
同在一个县城,几年前,马萌利和女主播的处境差别不大。但技术后来将她们塑造成了两类人:马萌利成了每天为AI打工的人,而女主播运用AI提供的便利赚钱致富。
马萌利今年29岁,一见面就热情地笑,问什么说什么。初中毕业她就出门打工,在制衣厂做过缝纫,也进过富士康,做了4年线外流动员。回乡后,她开过网吧,做过超市收银员。去年,她应聘了这份“电脑操作员”,每个月收入3000~4000元。她觉得工作环境不错:坐着用电脑,有空调,下班早,晚上回家还能陪孩子玩一会儿。
2012年,谷歌大脑做了一个著名的实验:1000台计算机组成了超过10亿个“突触”连接的神经网络,研究者输入了1000万个静态图像。通过3天密集寻找重复出现的模式后,谷歌大脑终于可以识别出一些特定的重复类别:人类面孔和人类身体,或者是一只猫。
像马萌利这样的AI数据标注工人,就是给计算机输入图像,为人工智能提供学习材料的人。他们在人脸上标注几百个记号点,让计算机知道哪里是内眼角、外眼角,瞬间扩出大眼睛;他们录入的语音信息,被拆分标注后,能让智能音箱懂得“关机”和“十分钟后给我老公打电话”是什么意思。未来,自动驾驶的车辆之所以能在路口停下,就是因为工人们标注过红灯、斑马线和一帧一帧移动的行人。
关于这项技术,最为人所熟知的一个例子是,在张学友4场巡回演唱会上,警方用安检时的人脸识别系统,一共抓获了5名在逃犯人。
就跟QQ截图差不多
这家公司只有一年历史,从设想到成立,一共才花了3天时间。
第一天,刘洋锋和另外两名创始人聚在一起,琢磨以后要干点儿什么。他翻出一个文件:一家江苏的数据标注公司在转卖一个单子,提到一个新鲜的概念——数据标注。刘洋锋试验了一下软件,在一张马路的照片上,他给一个行人圈了一个框——太简单了,就跟QQ截图差不多。
第二天,三个人就去买了网线,去平顶山买了20个格子间卡位,旧货市场买的,90块钱一个。
第三天,面试。招工唯一的要求是,年龄不要太大。
2007年,普林斯顿大学助理教授、计算机视觉专家李飞飞第一次试验做数据标注时,她以10美元/小时的价格,雇佣了一批普林斯顿的本科生。10年后,这项试验已经演变成产业,在郏县这种中国的三四线城市,以工厂、车间、质检员的形式落地生根。
刘洋锋公司招聘的第一批员工是初中刚毕业的学生、三十多岁在家带孩子的妇女、前手机店店员和前服装店的销售员们。已经经过了江苏来的业务一道盘剥,算下来每拉一个框3分2厘钱,公司再抽成,到员工手里,变成了2分5厘。
一个星期之后,所有人都已经能熟练地在电脑上操作,这份工作的门槛几乎为零。
李开复曾表达过对AI技术快速发展的担忧,认为这将导致社会结构的洗牌、贫富分化加剧,很多人将面临阶层坠落的风险,进而丧失尊严:“这种转变将为开发人工智能以及运用人工智能的企业带来大量利润……我们由此将面临两种无法和谐共存的新情况:大量财富集中到极少数人手中,大批人员失业。”
但处于产业链末端的人不思考这些问题。这离他们太遥远了。
今年8月,刘洋锋在“郏县之窗”公众号上发布了一篇招聘广告,文章把AI标注员的工作捧得很高:“在这个岗位上,其实你的一些想法就代表了人工智能的想法,人工智能会根据你加工的数据进行深度学习,从而实现智能化。”宣传的月薪是3000~8000元(上不封顶,多劳多得)。
“这都是噱头。”刘洋锋很诚实,“没有人能拿到8000元,干得最好的能拿到4000多元。”
前几天,县里有领导来公司参观,他们饶有兴致地读起墙上的海报。领导赞不绝口:“你们这是高科技产业啊!人工智能!”
刘洋锋当面也没解释,他觉得不解释更好。
中国包揽冠军
6亿美元,这是国内一家AI独角兽公司最近的C轮融资数额。国内AI市场这几年一直在风口上。李开复形容,这是经济上“有史以来最大的、难以打破的垄断”。
数据标注工厂是人工智能产业体系里最末端的毛细血管,这样的小公司都是在巨头的夹缝里生活。
今年夏天,百度的任务突然大规模缩减。北京昌平一家公司的老板告诉我,他好不容易培养了60多名成熟工人,结果涌进来的同行太多,价格缩水,到今年任务突然少了,“一个月就10天有活儿,要给人开30天的工资,最后只能倒贴钱。”昌平老板彻底不做了。
刘洋锋留了个心眼,最早合作的Momenta、旷视等公司,他都没中断过,一直把员工分散在不同项目上,度过了这个危机。
这一年里,刘洋锋频繁接待从北京来的项目总监、研究员们,其中有很多是清华、北大等名校毕业生。这些名校研究员们,都是AI行业市场争夺的人才,职位最低的工程师年薪也在30万~50万元。
9月9日,2018常见物体图像识别竞赛(COCO)在德国慕尼黑宣布结果,中国团队包揽了所有冠军。
其中一项比赛是,“COCO的注释包括80个类别对象的实例分割、91个类别的物品分割、人物实例的关键点检测,以及每个图像都有5个图像标题(image captions)”。翻译过来,就是考验计算机能否识别那些“垃圾桶”“地毯”“梯子(可以移动)”,千机数据的甲方公司拿到了第一名。
刘洋锋转发了这条消息,配文是:“祝贺……!”
从去年开始,刘洋锋每个月都要跑趟北京,去中关村、五道口谈业务。今年,他有一天突然想去清华大学转转,背着双肩包,一个人走到清华南门口,结果被拦下来了,保安看他不像学生,要求他出示身份证。
刘洋锋没掏,转头就走了。
人像换豆油
“通知:年龄在18~50周岁的,请前往薛店镇三苏路口南50米路西,免费领取价值58元5升食用油一瓶,或10斤精品大米一袋!”
雄浑的男中音从音箱里传出,每15秒就重复一次。
今年夏天,刘洋锋的公司开始做人像数据采集。我去公司时,外面大厅摆放了几组摄像头,任何时间都能看见有人对着摄像头,从左到右地摆脑袋。
人像采集,也是给人工智能的训练搜集素材。今年,国内大公司开始收集中国人在不同光线下的人像视频。这样的人像采集在一二线城市几乎无法操作——录一个人至少要45分钟,公司采购价为100元,刨去运营成本,根本吸引不到志愿者。
在郏县,这是另一套玩法:刘洋锋的公司在县城下面的薛店镇也有家分公司,公司门口堆满了成箱的大米、豆油和卫生纸,以免费赠送的名义,吸引镇上居民来做人像采集。
现在这些被采集的动态人像,未来怎么标注、由谁标注,刘洋锋也不知道。他们永远是任务的被动承接方,那些发过来的图片包、信息都是被抽乱、打散的,他们的每台电脑都没有硬盘,整个办公室连着一块服务器,标注好直接上传,没法用U盘等拷贝出来。
最后几位录入者临走时,被一名员工叫住:“用微信帮我们发点儿广告吧,来人了就给洗衣液。”
被叫住的大叔愣住了,他不知道怎么发。员工拿过他的手机,加微信好友,直接把广告词发过去。打开他的微信朋友圈,粘贴在了里面:
“重要通知,××公司近期在薛店镇进行人脸采集活动。参与即可获得5升品牌食用油或10斤精品大米一袋。用途:采集数据均为科研使用,如智能门锁、小区门禁等。注:本活动不涉及个人隐私,不用真实姓名,不用身份证,请各位朋友放心大胆前来。名额、时间有限,先到先得!……”
大叔的手机字号调成了最大,满满一屏幕的字,成了他的第一条朋友圈。(本文转载自GQ报道 有删改 作者:刘敏 摄影:张博然)