您现在的位置:首页 > 科技科学 >

多模态学习,带来AI全新应用场景?

2020-07-13 09:29 来源:杨园三居 浏览:

新的AI技术发展趋势有哪些?多模态学习技术一定是其中之一。

最近,刚刚宣布“自立门户”的微软AI明星产品小冰改名为“红棉小冰”。殊不知2014年诞生的这一个AI对话机器人已经在5年时间里更新到了第七代了,据称能力上正在“无限接近人类”。现在的小冰,不仅是那个会作诗的机器人了,她还会唱歌作曲、阅读朗诵、撰写新闻,甚至去年还办了一个虚拟7位画家的个人画展。多模态识别技术正是小冰越来越像人一样沟通表达的关键之一。

多模态学习,带来AI全新应用场景?

多模态技术同样也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺推出的“只看TA”功能,优酷视频正在使用的视频帧、人脸帧的图向量检索,都离不开多模态识别技术的支持。而像京东淘宝等电商平台的“拍照购”、“拍立淘”的搜索技术背后也都是在计算机视觉技术下,使用了图像、文本和高层语义属性等多模态下的信息融合,才实现高精度的“以图搜图”功能。百度提出的“多模态深度语义理解”,则让AI实现从“看清听清”到“看懂听懂”的进化。

可以说,人工智能在通向人的智能的道路上,多模态学习就是一个绕不开的发展方向。因为人类本身就是一个多模态学习的典范。

现在,多模态学习技术正在带来众多全新的应用场景。关注AI技术和应用发展趋势的你,想必也想了解下多模态学习的来龙去脉,以及在这些新应用场景中的技术现状与问题。而这些问题也是本文重点探讨的内容。

“多模态学习”,正式认识下

模态(Modality),虽然不是我们的日常用语,但却十分容易理解。

我们每一天都会接触到各种不同来源和形式的信息。正如我们有视觉、听觉、嗅觉和触觉等,那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等,这每一种信息的形式就可以称作一种模态。

模态的范围要比我们的感知能力更宽泛。除了视觉、听觉获得的模态信息,我们也可以利用传感器获得诸如雷达、红外线等不同感应数据的模态信息。

此外,模态的类型定义也可以非常宽泛,比如我们可以把两种不同的语言当做是两种模态,把不同结构下采集的数据,也可以当做两种模态。比如,仅仅一个视频内容数据,就是一个高维度、多模态的数据信息,其中包含了标题、简介、评论、字幕等文本信息,也有视频帧的图像、声音,以及连贯动作视频片段的视觉、声音信息。

多模态学习,从上世纪70年代就已经起步,几经发展,现在正进入到机器学习特别是深度学习的阶段。通常称为多模态机器学习(Multi-Modal Machine Learning ,MMML),试图通过机器学习的方法实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。

当前,多模态学习主要研究方向有多模态表示学习、模态间映射,多模态对齐、融合、协同学习等。

多模态表示学习,研究如何将多个模态数据所蕴含的语义信息数值化为实值向量,通俗理解就是对多个模态的数据进行相关性编码,让不同模态建立起映射关系。按多模态表示共享的方式,主要分为公共表示学习和特异性表示学习,后者由于是分别学习不同模态的特征,可以应用于诸如零次学习、模态间映射、跨模态检索等任务中。

模态间映射,研究如何将某一特定模态数据中的信息映射至另一模态。例如,给定一幅图像,通过机器学习得到这副图像的描述,或者给定一段文字,生成一幅匹配的图像。类似于我们学习中遇到的“看图说话”和“以题作画”的问题。模态间映射早已可以应用于语音合成、图像视频描述以及跨模态检索等应用中。

此外,多模态对齐,主要研究如何识别不同模态之间的部件、元素的对应关系,以促进学习到的多模态表示更加精确,例如将电影画面、口型、语音、字幕的自动对齐;多模态融合,主要致力于不同模态间的模型与特征的整合,以获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作;而多模态协同学习,主要考虑如何从信息丰富模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。典型的方法包括多模态的零样本学习、领域自适应等。

近两年,随着机器学习的模型的飞速进展,多模态学习中出现的映射质量问题、对齐的匹配度量以及融合噪声干扰等问题,都在实现很好的优化解决,为多模态的落地应用做好了准备。

多模态学习,正在丰富哪些应用场景?