您现在的位置:首页 > 科技科学 >

教AI认知世界:云测数据正在做的那些事

2020-07-14 09:29 来源:杨园三居 浏览:

屏前幕后,孜孜不倦的人们,用「数据标注」教会 AI 认识现实世界。而他们所处的数据采标行业本身,也正在从早期粗糙的「数据作坊」发展成为「数据工厂」的专业化运作。

如今,这些流程已经发展出一条完整的产业链——采集、整理、清洗、标注,流水线似的过程恰恰是 AI 算法模型精确运行的根基所在。随着 AI 技术在应用场景下沉,AI 企业对算法落地性要求越来越高。此时,垂直精细和定制化数据显得尤为重要。

2018 年,中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%。Testin云测旗下的 AI 数据服务品牌「云测数据」的出现,就是一个典型案例。

通过定制化场景搭建,帮助 AI 企业或部门构建数据核心壁垒,提供人工智能场景化落地最需要的数据,这既是客户获取差异化优势的保证,同时也是云测数据的核心竞争力之一。

教AI认知世界:云测数据正在做的那些事

周一,忙碌的工作照常被拧上发条,北京 2019 年的第一场大雪如期而至,这一天让张俪兴奋不已的不仅仅是大雪,还有她手中刚接下的项目订单。

客户是一家圈内名气不小的自动驾驶公司,他们提供给张俪(化名)一套数万张的道路数据集,张俪将任务分配给服务智能驾驶方向的小组员工。

十天左右,该套数据里的自动驾驶行车道检测图像即可标注完成,准确率超过客户要求。

两年前,就职于一家电商公司的张俪不会想到,两年后的自己会和「高精尖」的人工智能技术打交道。

2017 年末,张俪所在的电商公司因为 O2O 市场降温而倒闭。失业后不久,张俪在一位算法工程师朋友的推荐下,来到 Testin云测,开启了一段不同寻常的工作,人工智能的训练员——数据标注。

一开始,她只需要标注出图像中的人物性别,工作内容简单而机械。

接着,她开始给人物标注年龄段,开始框定 2D 对象,然后标注 3D 边界框,再从白昼图像到深夜和多雾场景……场景越来越多元、标注需求越来越详尽,最后这些经过人类点拨过的数据被一股脑地投入神经网络的研发之中。

到现在,张俪已经成长为一名项目经理助理,她的日常工作从标注转向项目承接,那些 AI 圈里耳熟能详的明星公司都是她的重要客户。

与数据标注师相类似,蚂蚁森林护林员、垃圾分类师、毒鸡汤文案师……这些看似匪夷所思的新职业,已经与我们生活丝丝相扣。

一份今年的新兴职业报告数据显示,「小镇青年」是 40 余种新职业的主力军,从业者约一半生活在三四五线市县,其中三分之二以上是兼职。

教AI认知世界:云测数据正在做的那些事

「非专业、兼职、劳动力密集型」——是报告为数据标注师圈定的标签,虽然不免有些以偏概全,但谈起「标注员」,确实很难将其与「专业化」、「技艺型」、「创造力」等字眼挂钩。

但如今,数据服务的产业链条正在被重塑。AI 企业对于数据的应用需求逐渐分化,精细度要求也越来越高,以往一味的粗放式加工模式已经丧失市场竞争力,大浪淘沙,从奔腾到平静,泥沙聚沉,清流上涌。

Testin云测旗下的 AI 数据服务品牌「云测数据」的出现,就是重塑整个产业和标注员印象的一个典型案例。

一、小数据的大天地

根据佐治亚理工学院的一项研究——通过对 8 个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低 5%。

结论一经报道,诸如「AI 行业也存在种族歧视」的言论便充斥在各大媒体上。

然而,从技术角度来看,计算机视觉是通过 RGB 或 RGBD 识别人(物体)的信息,但是黑色是最难被识别的(黑色或深色的 RGB 整体数值偏小),尤其在实际情况中,系统也欠缺黑色及深色的数据,由此导致算法模型不够精确,最终技术在实际落地应用时出现差错。

在数据服务行业,这种细分且稀缺的数据统一被称为「小数据」。

比如道路安防摄像头,摄像头中囊括行人、机动车、自行车数据,却唯独缺少行人跌倒数据;在自动驾驶领域,监测系统需要采集驾驶员各种状态数据,但缺少疲劳状态的数据。

教AI认知世界:云测数据正在做的那些事