2018年初,「甲子光年」曾发布《“数据折叠”:今天,那些人工智能背后“标数据的人”正在回家》。劳动密集型是人们对数据标注行业的固有印象,基层数据标注员被视为数据时代的“隐形人”,他们的工作日常就是坐在拥挤的小房间里,不停地按动鼠标,框取对象,依靠微薄的月薪在繁华的大城市里找到自己立足的一席之地。
而不久前的一个周三,「甲子光年」在位于房山的云测数据标注基地看到了另一种行业作业形式。
云测数据的其中一个标注基地是坐落于房山区北京金融安全创意产业园的一幢四层半高的小楼,一半是开放式办公区域,另一半是按项目组设置的封闭房间,除了房间四角安装的监视器之外,跟普通的创业孵化园区并没有太大区别。
第三层主要处理对安全性较高的数据标注业务,设了门禁,需要通过指纹识别才能进入。
标注员李楠(化名)告诉「甲子光年」,两个月前,她刚从数据标注员升级为质检员。
她在大董村跟同学合租了一个20平的开间,起初是四人合租,涨薪之后变成两人。她每天上午步行十分钟到基地上班,偶尔也需要加班。闲暇时间,她会练练手卷钢琴缓解工作压力。
云测数据房山数据标注基地的砖红色大楼,每日吞吐着数百名数据标注人员。这里不仅是他们的工作地点,也是他们周末的烧烤聚会地。
从业者生活和工作方式改变的背后是数据标注行业拐点的到来:蛮荒时代正在过去。
智研发布的数据标注行业报告指出,2018年我国数据标注与审核行业规模达到52.55亿元,其中34%左右的业务量流向专业做数据采标的第三方公司。
「甲子光年」观察到,供给侧的马太效应开始显现,体量较大的公司呈现出两种业态:一是众包平台、二是定制化服务。
在众包赛道上,已诞生了Scale AI、Appen为代表的明星独角兽。而定制化服务模式对企业管理和标注员的要求较高,代表玩家包括云测数据、百度。
本篇,「甲子光年」以提供定制化标注服务的云测数据为例,看数据标注自营模式的发展与挑战,以及数据标注的未来图景。
成立于2011年的Testin云测公司,以应用测试服务起家;2017年正式启动了数据标注业务。截至目前,云测数据已拥有近千名全职数据服务人员,服务领域包括自动驾驶、智能家居、智慧城市、智能金融和新零售等领域,客户数量已达数百级,标注业务客单价已达百万级。
「甲子光年」采访了云测数据总经理贾宇航、云测数据交付负责人朱文辉、Testin云测CMO张鹏飞、IDG资本牛奎光、品览创始人兼CEO李一帆、某Robo-taxi公司深度学习技术负责人Ted(化名)及多位数据标注从业者,并实地走访了云测数据标注基地,发现数据标注行业的以下趋势正逐渐显现:
第三方数据服务的外包公司正在数据标注行业中获得更多市场;效率、安全等因素综合而成的性价比成为当下竞争核心;在定制化服务的模式中,工具提效和管理优化成为构筑效率壁垒的关键。
1.拐点将至
Garbage in, garbage out.
数据、算力、算法是推动人工智能技术进步的“三驾马车”,其中数据是人工智能行业的发展基石,数据对人工智能很重要,“没有好的数据,人工智能没有未来”早已是行业共识。
新变化在于,随着人工智能技术落地场景,不同场景提出了更高质量、更多元的数据需求。
对视觉数据标注需求非常大的自动驾驶领域,很好地展现了数据标注服务的业态变化。
在2016年,人工智能随AlaphGo强势崛起并引发一系列创业、创新活动后,数据标注迎来第一次真正意义上的爆发,但由于当时各公司的人工智能业务多处于“跑Demo"、“做研发”的落地前环节——在质上,用标准数据集就可满足;在量上,规模也不可与现在相比。
所以当时的数据标注行业门槛较低,小作坊遍地开花,被视为“人工智能背后的富士康工厂”,标注人员也鱼龙混杂。「甲子光年」FA副总裁李世民介绍,在粗放期,数据标注的工作页面和网页版PS十分相似,重复性的简单拉框就能实现项目需求,一张图的价格不过几分钱,外包商全靠数量获取微薄利润。
而以Waymo、小马智行、文远知行等为代表的做L4级自动驾驶系统的公司或其他对数据有较高要求的公司,则多在内部建立标注团队,解决前期的标注问题。
然而,从近两年的市场数据来看,第三方数据标注与审核公司开始变多;原本十分分散的数据标注行业走向专业化的拐点正在发生。
智研统计数据显示,2018年我国数据标注与审核行业规模达到52.55亿元,约34%的业务量流向专业做数据采标的第三方公司。