没有好的数据,AI就没有未来,已经成为行业共识。人工智能行业与数据标注行业实际上是一个水涨船高的关系,人工智能行业越发达,数据标注行业的商业机会越大,这个道理是如此明显,未来AI数据行业不可估量。
12月8日,由国家发改委国际合作中心、中关村管委会和大兴区政府指导的2019T-EDGE全球创新大会在北京召开。在当天最重磅的“2019EDGE Awards全球创新评选”上,共有九家企业获得“2019年度科技企业”奖,其中大部分是像华为、顺丰、戴森等这样在C端具有知名度的行业巨头公司,然而其中却有一家深耕企业服务的公司—Testin云测,值得我们好好聊一聊。
在科技行业内,Testin云测早已是大家的“老熟人”。2011年创立之时,Testin云测正赶上手机行业从功能机向智能手机转型的关键时期,App开发是行业最大风口,Testin云测应时而生,开创了测试行业向云测试行业的转变,由此积累起大量客户、建立了行业品牌地位,成为垂直领域的独角兽。
然而这次Testin云测获奖,却应该不是因为它的测试业务,而是近两年异军突起的AI数据标注业务。
事实上,EDGE Awards此项年度科技企业奖颁奖标准是“2019年不断创新并突破自己,在科技领域拥有核心竞争能力,为社会做出杰出贡献的企业”,像华为获奖,是因为它对外发布了自研操作系统鸿蒙OS,猎豹移动是因为其在智能服务机器人方向布局。而Testin云测也是如此,当年App兴起时,Tesitn云测以云测试抢占风口,获得了成功,现在人工智能时代大潮袭来,Testin云测又以人工智能三要素之一的数据为抓手,成立AI数据标注业务品牌——云测数据,再次成为行业Top1。
众所周知,人工智能三要素是数据、算力和算法,其中数据居于首位,历经多个发展阶段后,数据正在人工智能进化中发挥着越来越重要的作用,目前人工智能算法的训练主要依靠大量数据来完成,而未来定制化、场景化的数据也将成为为人工智能商业化落地的关键,然而随着AI企业对获得特定场景数据的需求越来越大,单靠自身收集既不效率也不积极,这就使得专业的AI数据服务提供商云测数据应运而生。
从这个角度而言,如果说数据对于算法就像汽油之于发动机,那么Testin云测这样的企业就扮演了一个AI领域“两桶油”的角色,为中国人工智能产业提供高质数据燃料。
就像中石化和中石油一样,它们不但负责原油的开采,更负责油品的冶炼,云测数据通过自建数据场景实验室和数据标注基地为智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域提供定制化的数据标注、数据采集服务,全方位支持文本、语音、图像、视频等各类型数据的处理,成功帮助AI企业或AI部门构建数据核心壁垒,为中国的AI产业持续提供动力,这才应该是Testin云测获得“2019年度科技企业”的最重要原因。
没有好的数据,AI就没有未来
在云测数据做大之前,数据标注一直被行业里视为一个隐藏在人工智能领域里的劳动密集型产业。
何谓数据标注?简单说就是对各种类型的数据包括文本、图片、语音、视频等完成分类、标框、注释、标记并打上说明其某种属性的标签。人工智能需要海量数据,但海量数据并不等同于可以供机器学习的训练数据,符合质量的训练数据需要经过数据标注。
数据标注成为一种产业始于2005年,当时以亚马逊的Mturk为代表的一种新的数据采集服务——众包模式开始出现,其被大量的硅谷公司采用于训练AI算法,这种众包模式后来也流传到国内。
数据标注的众包模式从一开始就是一个劳动密集型产业,因为它基本上是靠人工来实现,也就是由数据标注员完成,其技术门槛实际上很低,这使得中国河北、河南、山东、山西等地区出现了很多数据标注小作坊,数据标注产业甚至为这些地区的小城镇和农村提供了大量就业机会。
大量劳动密集型的数据标注工厂在AI产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。然而,就像儿童成长不同阶段需要不同的营养摄入一样,随着人工智能产业的发展与进化,AI企业在落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足AI企业的数据需求。这个时候,定制化的数据服务模式就出现了。