在AI技术逐渐渗透产业发展、落地的过程中,开发者可谓是最重要的一环。3月20日,首场百度大脑开放日在北京中关村创业大街百度大脑创新体验中心举行,此次活动旨在为AI开发者提供及时、全面、近距离的了解百度大脑最新AI产品和案例,帮助更多开发者探索AI前沿应用,并且能与百度AI技术大拿们进行深度、持续的交流。
活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。
PaddlePaddle:用深度学习赋能智能+的方方面面
1.业界首个视频分类模型库:新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。
2.基于PaddlePaddle的BERT多机多卡和混合精度训练。新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。
3.分布式训练性能大幅提升:大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。
并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍,PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性,支持可定制的并行扩展,覆盖DQN、DDPG、PPO、A3C等主流强化学习算法。通过8块GPU拉动近20000个CPU节点运算,将近5个小时迭代一轮的PPO算法加速到不到1分钟。
如今,百度PaddlePaddle已经广泛应用于农业、林业、工业、零售、人力、制造、石油、通讯、地产、汽车等多个行业领域,与合作伙伴一起帮助越来越多的行业完成向“智能+”的升级转变。
语音方向:首次开放搭载国际领先的SMLTA模型的语音能力:语音识别极速版
根据喻友平介绍,目前百度大脑语音开放能力包括语音唤醒、语音识别、语音合成等通用能力,还包括即将推出的语音识别自训练平台、软硬一体的语音开发套件以及各种场景方案。
1月的百度输入法探索版发布会上,首次发布了领先国际的语音技术:在线语音领域全球首创的流式多级截断注意力模型SMLT「Streaming trancated multi-layer attention」。在百度输入法产品发布后,惊艳的语音输入体验得到了业界的一致好评。2个月后,百度大脑语音方向首次对外开放采用这一语音技术的语音能力:语音识别极速版。拥有更快的响应速度,相对识别准确度提升15%,为开发者带来更极致的识别体验。
此项语音能力在API调用方式下,实时率小于0.1,意味着5s的音频不到500ms即可完成识别过程,极大减少了识别音频所需的耗时,提升了语音交互的响应体验。在近距离安静环境下,识别准确率可达到98%,同时支持略带口音、童声、耳语的识别,使语音识别应用更加广泛。多平台的SDK也即将推出,使APP、服务器端更可实时识别,应用这一领先技术。目前,每个开发者账户将赠送5W次免费调用量,针对新能力的使用者,也即将推出一系列赠送及优惠活动。
同时,近场语音识别升级了预置语义解析。预置场景由35个升级为51个,包括天气、航班、电话、电影播放、页面屏幕控制、电视剧、美食、手机设置、通用录、提醒、短信、故事等,语义解析效果全面优化,80%优于原有解析结果。
不仅如此,还有一些新品即将上线。如:语音识别自训练平台,支持自动评估选出最好的基线模型,仅上传业务场景文本语料即可训练语言模型,零代码自助训练专属的语音识别模型,极大地方便语音开发者提升所在业务场景的识别准确率,满足业务上的语音识别需求。另外,远场语音开发套件也即将上架售卖,可快速进行远场识别开发评估,此套件应用于机器人、儿童故事机、家电、车载设备等硬件。同时还将开放离线合成,以及推出更多音库。
视觉方向:从车到人再到“证” 用AI都能看得清
在百度大脑开放日,喻友平还介绍了视觉方向更新升级的四方面内容,包括OCR、车辆分析、人脸人体以及图像识别。