开玩笑的时候,小雪说她的男友是 AI 产业中工资最低的那个,其次就是她自己。
刚从济南德州信息工程学校计算机专业毕业,小雪和男友正在接受手写体录入培训,当她能认识这些手写字母后,就轮到她把这些知识教给计算机——把一张张快递单或家谱上的手写体上的字母标注出来,告诉机器 i 可以有多种写法。
这样的工作并不简单。手写的 i 可能是顶上一点加上一竖,也可能是朝后弯的小勾,更潦草一点就和数字 9 一样……小雪的笔记本上密密麻麻地挤满了这些像字更像图的墨迹。
小雪做的,是一种介于手写录入和图像标记之间的工作。同服务于智能驾驶的街景标记、服务于智能医疗的人体标记、服务于语音交互的声音标记一样,他们共同的行业学名叫做「人工智能数据标注」——这是整个 AI 产业的基础,是机器感知现实世界原点。
和小孩一样,机器要认识「苹果」,就需要不断有人教给它哪些东西是苹果:浑圆的、带把的、有的像桃心有的像屁股,有的通红有的油绿。和小孩不同的是,机器需要在不同场景、不同角度下反复学习,这个漫长的教授过程就是小雪在 AI 产业中的位置,标注大量用于训练机器学习模型的数据,让机器越来越像「人」。
无差别的人力,和天壤之别准确度
如果小雪标注犯错,最直接的后果是机器也会跟着犯错。她必须保证「喂」给机器的标注数据达到 90% 以上精度(即是指标注的正确率),否则这些数据对于机器学习将毫无意义。北京一家数据标注工厂 Basic Finder 的 CEO 杜霖说:95% 以上的准确率是理想情况;但从 95% 提到 97% 所需花的成本就不再是一两倍了,可能是 10 倍或 100 倍。
98% 精度是小雪遇到过的最高需求,这意味着如果 100 个点里头有两个点不准的话,就会被打回重做。她「提心吊胆」地对每个标注点反复确认才敢提交。但 15 骨骼点标注又极耗耐心,要在人全身包括头顶、脖子、胸口、膝盖等骨骼处打上 15 个点,将这 15 个点连起来就出现了一个形象的火柴人。在 Kinect 体感游戏中,机器就是靠关键骨骼点的位移来识别人体是否运动。










