当前位置：前瞻产业研究院 » 经济学人 » 研究员专栏

2025年中国多模态大模型行业核心技术现状关键在表征、翻译、对齐、融合、协同技术【组图】

分享到：

刘海晶 • 2025-06-03 13:00:34 　来源：前瞻产业研究院　E14307G0

行业主要上市公司：阿里巴巴(09988.HK，BABA.US);百度(09888.HK，BIDU.US);腾讯(00700.HK， TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技(688327.SH);拓尔思(300229.SZ)等

多模态大模型的核心技术-表征

表征学习是多模态任务的基础，其中包含了一些开放性问题，例如：如何结合来源不同的异质数据，如何处理不同模态的不同噪声等级，测试样本的某种模态缺失怎么办。相较于多模态，基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前，不同模态所适用的最佳表征学习模型不同，例如，CNN广泛适用CV领域，LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征，之后采用Joint或Coordinated结构进行训练。不过这种思路在很快改变，随着越来越多工作证实Transformer在CV和NLP以及Speech领域都可以获得极佳的性能，仅使用Transformer统一多个模态、甚至多个跨模态任务成为可能。基于Transformer的多模态预训练模型在2019年后喷涌而出。

图表1：多模态大模型表征的联合表示法和坐标表示法

注：联合和协调表示的结构。点表示使用所有模态作为输入投射到相同的空间，另一方面，协调表示存在于自己的空间中，但通过相似性(例如欧几里得距离)或结构约束(例如偏序)进行协调。

多模态大模型的核心技术-翻译

跨模态翻译的目的是学习如何将源模态映射(map)到目标模态。例如：输入一张图像，我们希望生成一句话描述它，或者输入一句话，我们生成与之匹配的一张图。

基于语法模版，即人为设定多个针对目标模态的语法模版，将模型的预测结果插入模版中作为翻译结果。以图像描述为例，模版定义为who did what to whom in a place，其中有四个待替换的插槽。通过不同类型的目标/属性/场景检测器可以获得who, what, whom, place等具体单词，进而完成翻译。

编码-解码器(encoder-decoder)：首先将源模态的数据编码为隐特征，后续被解码器用于生成目标模态。以图像描述为例，编码器(一般为CNN+spatial pooling)将图像编码为一个或多个特征向量，进而输入到RNN中以自回归的方式生成单词序列。

连续性生成(continuous generation)：它针对源模态与目标模态都为流数据且在时间上严格对齐的任务。以文本合成语音为例，它与图像描述不同，语音数据与文本数据在时间上严格对齐。WaveNet采用了CNN并行预测+CTC loss解决该类问题。当然，编码-解码器理论上也可完成该任务，但需处理数据对齐问题。

图表2：多模态大模型表征的文本翻译

多模态大模型的核心技术-对齐

对齐是多模态学习中的一个关键环节，它涉及如何在不同的数据模态之间发现和建立对应关系。通过对齐，多模态模型能够学习到不同模态之间的相互表示，从而增强对复杂场景的理解能力。跨模态对齐目的是挖掘多模态数据的子元素之间的关联性，例如visual grounding任务。在学习表征或翻译时也可能隐式地学习对齐。

显式对齐：此处对实例具有两个或更多子组件的对齐进行分类。如何衡量相似性在显式对齐中很重要。用于设计相似性度量的基于学习的方法可以分为无监督和监督。Unsupervised的大部分内容都受到统计机器翻译和基因组测序等方法的启发。一个典型的例子是动态时间扭曲(DTW)。使用CCA和高斯混合模型的监督方法已经被提出，但深度学习方法变得更加流行。

隐式对齐：与显式对齐不同，隐式对齐用作其他任务中使用的潜在表示。这可用于提高没有严格对齐的任务的方法的性能，例如VQA或机器翻译。方法大致可分为图模型和神经网络。图形模型已用于机器翻译和语音现象对齐。然而，这些方法需要在单词之间进行手动映射。神经网络近年来得到了广泛的应用，编码器-解码器模型可以解决这些传统的机器翻译问题。然而，如果不使用隐式对齐，对编码器的要求会很大(需要熟练地将整个文档和图像转换为潜在表示)。注意力机制是解决这个问题的一种众所周知的方法。

多模态对齐目前处于其发展的非常初期阶段，主要强调与人类指令的对齐，但忽略了如美德和社会规范等高层次和多样化的人类价值。确保无害性提出了一个重大且不可忽视的挑战。

图表3：多模态大模型表征的对齐结构

多模态大模型的核心技术-融合

融合是将多模态数据或其特征结合在一起，以便进行统一的分析和决策。其核心在于如何有效结合不同模态的信息以增强学习任务的性能。融合是一个使用多种模式的数据进行预测的领域。最古老的多模式学习形式之一。优点包括能够通过使用来自多种模态的数据进行更稳健的预测，以及即使某些模态的数据丢失也能够进行预测。应用领域广泛，包括视听语音识别(AVSR)、情感识别、医学图像分析和多媒体事件检测。这里，Fusion分为模型无关的和基于模型的。

早期融合(Early Fusion)：在特征层面进行融合，将不同模态的特征早早地合并，以充分利用各模态的互补信息。

晚期融合(Late Fusion)：在决策层面进行融合，即在模型输出后再结合不同模态的结果，这有助于在最终决策时综合考虑各模态的见解。

混合融合(Hybrid Fusion)：结合早期和晚期融合的优点，可能在多个层面进行特征和决策的结合，以实现更灵活的信息整合。

多模态融合是依赖于任务和数据的，现有工作中常常是多种融合手段的堆积，并未真正统一的理论支撑。最近，神经网络已成为处理多模态融合的一种非常流行的方式，然而图形模型和多核学习仍然被使用，特别是在训练数据有限或模型可解释性很重要的任务中。

图表4：多模态大模型的图像融合

多模态大模型的核心技术-协同

协同学习是通过使用另一种模态(拥有大量数据)的数据来设计一种模态模型的过程。在共同学习中，来自另一种模式的数据仅在训练期间使用，而不在测试期间使用。根据训练时使用的数据资源，协同学习可以分为并行、非并行和混合。

并行学习：并行数据方法需要训练数据集，其中来自一个模态的观察直接与来自其他模态的观察相关联。换句话说，当多模态观察来自相同的实例时，比如在一个音视频语音数据集中，视频和语音样本来自同一说话者。

非并行协同学习：非并行数据方法不需要不同模态观察之间的直接链接。这些方法通常通过在类别方面的重叠来实现协同学习。例如，在零样本学习中，常规的视觉对象识别数据集可以通过扩展为包括来自维基百科的第二个纯文本数据集，以提高视觉对象识别的泛化性能。

混合协同方法：在混合数据设置中，通过共享模态或数据集来连接模态。协同学习中使用的数据并行类型：并行-模式来自同一数据集，并且实例之间存在直接对应;非并行模式来自不同的数据集，没有重叠的实例，但在一般类别或概念上有重叠;混合模式-实例或概念由第三种模式或数据集连接。

多模态协同学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。值得注意的是，协同学习是与任务无关的，可以用于创建更好的融合、翻译和对齐模型。这一挑战可以通过诸如协同训练、多模态表示学习、概念接地和零样本学习(ZSL)等算法来解决，并已在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到广泛应用。

图表5：多模态大模型表征的并行、非并行和混合协同方法