您现在的位置:首页 > 科技科学 >

云测数据:离落地越近,AI 对数据就越挑剔

2020-07-30 09:23 来源:杨园三居 浏览:

「你们的客户有哪些?」「这个不能细说,很多签了保密协议。不过……」Testin 云测 CMO 张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他继续补充道:「还有越来越多的智能化转型的传统行业客户,选择采用我们的数据标注服务」。

创建于 2011 年的 Testin 云测在移动互联网时代从应用测试业务出发,顺势而起并成为企业服务明星企业。经过行业前瞻判断,积极布局定制化数据标注业务领域,成立了云测数据品牌。在数据标注领域,云测数据已然是国内的第一梯队。

人工智能正迅速向应用人工智能发展,拥抱产业的人工智能对数据标注的门槛在不断提高。「比如在自动驾驶领域,现在主流的是多传感器融合方案,从摄像头增加到激光雷达,从二维图像数据发展到三维图像数据,多模态的数据帮助算法模型更好的训练,只是由于激光雷达的价格比较高,所以很少会有人去使用和标注。」但未来硬件成本的下降是必然的,而在 Waymo、Uber 等较早做自动驾驶的企业中,也已经可以看到三维图像增加的趋势。

AI 训练的「蛋白粉」

数据采集和标注都不是新鲜的事情,伴随着 AI 兴起,约在 2011 年相应的商业生态也随之而生,2015 年行业进入快速增长期,但许多问题也同时爆发——「鱼龙混杂」,可以这样形容早期采集和标注的数据。

比如人脸识别,在 2015 年左右,许多的数据采集和数据标注的小作坊开始大规模出现,主要以通用数据集和小规模采集为主,到了 2016 年,开源或是付费的数据集开始兴起,与此同时数据标注的众包业务也在野蛮生长,据估计我国有数千个相关的企业或团体,而从事数据标注众包的专职、兼职人员超过百万。

将识别准确率从无提升到 95% 的过程中,这样的数据是足够用的,但实际落地中,将准确率从 95% 提升到 99%,就显得捉襟见肘了。「我们行业里有一句话,『Garbage in , garbage out』,这是机器学习和神经网络的本质决定的。」云测数据总经理贾宇航说。

在 iPhone 推出人脸认证之后,许多安卓手机也跟进这一功能,但人们却发现,有的手机无法识别照片和真实的人脸,打印出来的也能蒙混过关。而更进一步的识别,需要机器对人脸的三维结构有一定的理解,如果还要跟仿真的面具做区别,那么还需要加上活体检测的能力,甚至精细到对面部血管和极轻微抖动的识别,来判断识别对象是否有心跳等,这显然是简单的数据获取和标注所难以满足的。

「2015 年时,数据的标注需求很简单,可能客户就说,我这有批图片,人脸拉框,尽量贴合,这个需求文档就已经描述完了,而今年,我们发现同样是做人脸标记的企业需求,一张 A4 纸都没办法把所有的要求写完。」对于这样复杂的标记任务,云测数据在做之前首先要小范围实验,然后需要开会由专人讲解,并在标注过程中随时做抽查,看标注员的理解是否正确:「精度会有多高呢?一张人脸需要你准确地在内眼角上标注人脸关键点,在图片上,内眼角也就不到 100 像素,而任务还会精确到标注到具体哪个像素上。」

云测数据:离落地越近,AI 对数据就越挑剔

工作人员正在讲解人像标注 | 图片来源:云测数据

而数据标注仅仅是复杂度上升的后半部分,AI 企业高精度数据的需求同样体现在数据定制化的采集上。过去几年机器学习领域以「海量数据暴力计算」的方式迅速发展,而现在这一模式也逐渐遇到了瓶颈,安防是国内 AI 落地最多的行业之一,以安防摄像头获取的数据为例,5 万小时的录像中,有足够拿来训练 AI 识别行人和车辆的内容,但最需要安防摄像头识别的是什么呢?是打架斗殴、行人跌倒等异常事件,可能在 5 万小时的录像中,这些是以分钟为数量级的。显然,这不足以训练出可以实际应用的 AI,对于这样的小数据,需要定制化的采集策略。

具体到 AI 数据服务中,以 AI 企业数据增强需求为例。在云测数据的数据场景实验室中,绿色的幕布前,一位群众演员站在中央摆出不同的表情,正对着摄像机拍摄,演员的周围布满了光源,让其面部没有任何死角。对 AI 企业来说,拍摄这样的一张「纯净数据「,可以拓展更多的数据价值。当然,搭建这样的采集环境,对 AI 数据服务商有着光线,被采样本等条件的严格要求。

云测数据:离落地越近,AI 对数据就越挑剔

表情采集讲解中 | 图片来源:云测数据

「我们在前两年做人脸的采集时,对背景、光线还没有什么要求。」贾宇航说,在过去两年,AI 企业对数据的采集和标注都变得更具有策略性:「比如说自动驾驶,以前恨不得天天都在采集,把数据都标上,现在就要是在雨天、雪天去采集,要去人流密集、或者是很多卡车、三轮车的特定场景,非常细化。」