ChatGPT的多模态对话：语言、图像、音频的结合

2023-10-21 02:27:21了解ChatGPT883

本文是《机器翻译：解码多模态》的最新文章，作者来自 Singapore。随着深度学习在计算机视觉、语音识别、自然语言处理等领域的不断应用，对话式学习已经成为人工智能研究中非常重要的一个领域。多模态对话系统（Multi-touch conversion system）是在传统文本理解和对话中引入多模态交互的一种研究方法，能够从不同的模态中进行识别交流和理解交流。Multi-touch conversion system可以看作是在现有语言技术基础上对自然语言处理进行了改进。文章中主要介绍了基于语音的系统，包括对人类语音信息分析、文本提取、语义分析和模型构建等步骤，并从语义解释、跨模态沟通以及对话式学习对这些任务都有较好的应用效果。本文将对Multi-touch conversion system进行简单介绍，并介绍多模态交互以及对话式学习所需的关键技术。

1.概述

2.人类语音信息分析

基于语音的系统主要包括对人类语音信息的识别、文本提取和语义分析，这三个步骤分别包括了语言特征提取、文本分析和语义解释，本文主要从人类语音信息分析过程展开阐述。

3.文本提取

文本识别和文本提取是将人说话时的文本信息提取出来，并输出对应的语义信息。

4.语义分析

在多模态系统中，需要对文本进行语义分析，以便于理解对话双方的意思和意图。

5.模型构建

文本理解与对话的目标是将用户所说信息转化为正确答复，这是一种通过文本到对话的方式来实现。对于文本解释来说，需要使用不同的模型来实现，如上下文相关模型和对话式学习模型。根据输入输出的不同，在不同的任务上都可以采用这些方法，比如将任务分为基于用户信息的对话式理解任务、基于上下文信息的问答任务以及基于上下文信息和文本联合建模模型。其中上下文相关模型主要有MGA-Net和SEM-Net两种类型。其中MGA-Net能够处理诸如对话式学习这样的问题，但它还不能解决一般用户行为问题；SEM-Net是在上下文相关模型基础上提出，能够处理一般用户行为问题；MGA-N是在传统文本理解基础上提出，能够处理语音、图像等不同模态之间的对话。

6.多模态协作的跨模态沟通

包括文本信息获取和语义解释，其中文本信息获得主要包含三个方面，一是语义解释，二是模型构建和模型训练（含图像特征理解），三是用户生成（个性化问答）。

7.跨模态跨域交流模型的构建及其验证

在多模态跨域交流模型的构建中，主要从训练数据集上收集，并从其他系统数据中采集语料。这其中，语料的选择非常重要。例如，在文本分析上使用语音信息可以得到较好的语义解释效果，但是在对话理解上还需要更好的对话表达能力，因此需要用到语音训练数据集。而文本和图像的质量都很高，因此也可以选择使用图像训练集。在进行模型训练时，也要考虑与其他系统的交互问题。

8.语音识别模型的构建和验证

下面将介绍语音识别的模型构建和验证，包括预训练和验证两部分。

9.文本提取和多模态融合

文本数据通常包含文本描述和语义分析，其中文本描述的部分是一个句子，而语义分析的部分则需要对句子中的词和短语进行建模。通过文本特征提取器的作用就可以获得句子和词语所包含的含义，然后通过一系列的对话推理来对这些信息进行综合分析，最终得到答案。多模态融合（Multi-touch Conversion andMulti-touch Interface）是将不同模态之间的特征进行融合，从而得到一种更加融合与自然语言理解。

10.图像识别模型的构建及实验研究

图像识别是一项非常重要的任务，但是目前基于图像数据的识别模型都有一些问题。主要包括图像数据量少，图像样本小，目标不清晰等。

11.跨模态跨域交流实验，以及跨模态学习效果评估

跨模态沟通包括跨语言、跨文本和多个模态的交互。由于每个任务的输入信息都是不一样的，因此在这一章节中也提出了三种不同的跨域实验来评估跨模态交流的效果。首先，我们针对对话式学习任务设计了三种不同的模型来评估两个模态之间是否能够进行高效协作。

第二种是对于一个对话任务，我们用一种基于 BERT架构的模型进行跨域交互。

12.跨模态交互的应用与展望。

在多模态交互中，除了语义解释，跨模态对话的使用也越来越广泛。首先，多模态间的对话都是双向的。在跨模态间进行的对话也不例外，例如一个视频片段，需要同时播放三个音频片段来完成其视频信息和文本信息的融合。而目前很多深度学习方法中都包含了多模态交互功能，比如： CNN框架中会学习到图像和语音所具有的信息及特征；而 TensorFlow框架中也会有一些图像和语音所具有的知识。其次，多模态之间的交互可以利用深度学习模型进行跨语言理解，而这也需要大量多领域知识作为基础才行。

13.对话式学习系统及其应用前景

对话式学习的基本思想是在传统对话的基础上，通过深度学习，实现多模态交互，从而实现对多模态信息的自动理解以及跨模态对话。

14.总结与展望

文章主要对对话式学习的关键技术进行了介绍，例如在多模态特征提取方面，本文提出的基于特征抽取的融合方法可以有效地提取到丰富的特征（如：图5），该方法可以有效检测到说话人的面部表情、语气语调、语速等，从而更好地理解说话人的意图；在跨模态学习方面，文章提出了两种新型跨模态交互模型——Multi-hosting与 Passive Through。目前大多数多模态对话系统仅基于一种方式进行沟通或者进行对话式学习，对于不同模态进行相应的训练。Multi-hosting与 Passive Through相结合能够更好地分析不同模态间的相关性，提升对多模态交互任务的建模能力；而基于两种方式进行交互时，对于不同模态之间所表达出的内容都有较好地理解，从而提升模型在理解多模态信息方面的能力。

除此之外，还有：

ChatGPT的多模态对话：语言、图像、音频的结合

近期， NLP研究者 ChatGPT团队推出了一项多模态对话的技术，这是一项多模态对话的技术，可以让计算机实现多种功能。我们看到了很多不同类型的应用：语音、图像和音频，这些应用都能在不同语言和不同背景下进行对话。这是一个非常有潜力的研究方向， ChatGPT团队希望能够将该技术应用于图像、音频、视频等多模态对话系统中。在本文中，我们来探讨一下，这种技术未来可以做哪些功能。

1.多模态

在本文中，我们主要讨论的是多模态对话系统中的语音和图像模块。语音模块就像我们前面提到过的，是计算机对话过程中的一部分（图1）。在这种对话系统中，我们使用了多种语言，其中包括母语非英语。除了母语之外，在多模态下还有很多其他语言。除了使用母语之外，我们还在其他多语言环境下应用了多模态能力。

2.图像

我们看到了很多图像处理的应用，这些应用是我们最近开发的，它们使用不同类型的图像数据进行训练，这些图像数据可以被用于其他领域。

3.音频

音频是我们日常生活中经常用到的模态，我们经常可以听到各种不同的声音，如婴儿的哭声、飞机起飞声音、汽车引擎声等等。但是这些声音通常都非常大，以至于我们无法清楚地听到它们。不过你可以通过音频来识别不同噪音，例如汽车发动机声之类的。ChatGPT团队使用了一种基于深度卷积神经网络的模型来识别不同噪音，这个模型可以处理各种噪声。我们发现这样是非常有用的，它会让计算机听到不同声音背后的意图和意义。在音频中加入这种技术将有助于计算机理解人类行为，例如婴儿哭声与飞机起飞声之间的联系，汽车引擎声等相关内容。

4.图像与音频的交互

计算机可以用图像和音频进行交互，比如在会议中，可以让计算机播放你想听的内容。

5.翻译或翻译器

在很多情况下，计算机只能处理语言之间的翻译。如果你在与一名来自某一个国家的人进行对话，而对方的母语不是你擅长的语言，那么，计算机将无法进行有效地翻译。例如，这是一个英语演讲比赛，如果参赛选手想要讲中文说英语，那么他就无法进行该比赛。

6.视频字幕

视频字幕是计算机理解人类说话的重要方式，这一点对很多应用来说很重要。如果能够将视频对话与文本进行结合，将会产生更好的效果。我们已经看到了很多与视频字幕相关的应用。

7.文本识别与分类（包括文本预测和对话理解）

文本识别与分类也是多模态对话技术中非常重要的一个方面，这是因为该技术能够实现更准确且可预测的对话理解。例如，将机器翻译与机器文本之间的关系进行比较，机器可以很容易地识别出对话是否有问题。在这一领域，我们看到了一些有趣的例子，比如一个聊天应用使用自然语言处理来预测一个对话的有效性。在另一篇文章中，我们探讨了一个用深度学习方法来检测对话是否有问题的例子-我们发现用深度学习方法能更好地识别出问题。

8.语音输入的合成以及对话质量评估（如识别错误或对话能力差）

由于多模态对话系统中的语音输入只会产生单一的句子，因此当计算机发现一个句子中存在错误时，需要对该句子进行处理，并进行评估。当这个语句的识别错误或对话能力差时，计算机就会被要求纠正该语句。ChatGPT可以实现这些功能，因为当计算机检测到一些句子中存在错误的时候，他们就会把这些句子转换成正确的句子。此外，在对话质量评估方面，由于多模态系统中的多个特征之间不能相互学习，所以 ChatGPT也可以利用他们的方法进行对话质量评估。由于该方法是基于深度学习模型进行训练的，所以它还可以用来训练文本或语音输入模型。

9.音频处理（包括录音、图像处理和音频解码）（如降噪、音频合成、编码器预处理、增强等操作）

ChatGPT的多模态技术可以实现音频处理，并且能够对音频进行增强，这是非常有用的，可以实现多任务对话和音频压缩。

10.基于文本的自然语言理解任务以及在特定情况下的应用。

对于一个多模态系统来说，如果没有基于文本的自然语言理解任务，是不可能实现这些功能的。这个问题同样也可以用在特定应用中。例如，在一个自然语言理解任务中，计算机能够通过文本来了解对方的意图，并将其转化为文本输出。这就是多模态系统的应用。对于这个问题，目前也有很多不同的解决方案，比如提出一种基于语言理解的任务模型：一个系统能够对用户说出自己说过的话进行预测。

11.机器翻译和翻译系统；

我们知道，机器翻译系统的发展是一种非常有趣的现象，因为它们的实现需要大量的计算机语言知识和自然语言处理技术。这也为多模态对话技术提供了新的思路，多模态对话可以实现多语间相互翻译和同步。此外，我们还可以利用人工智能在翻译上应用新功能。

12.图像和音视频的整合应用，如基于文本的视频跟踪系统等；

同时，基于文本的语音识别系统可以整合音视频进行对话，实现实时语音沟通。

13.自然语言处理任务；

这种多模态对话可以实现多个自然语言处理任务，包括语音识别和翻译；

14.基于语音输入的多模态对话。

如果将这项技术应用于文本和语音输入中，那么我们可以用更简单的方式来实现多模态对话。通过声音输入，我们也能实现多模态对话。这种方式与文本输入完全不同，它不仅需要语音，还需要图片、图像和视频等的综合信息。