什么是多模态大模型？本质和技术难点有哪些？

2024-11-12

“ 多模态大模型核心要点只有两个，交叉性和互补性；多模态大模型的目的就是在保证互补性的前提下，去除交叉性 ”

生成式大模型的本质是一种表征模型，主要包括两个方面理解与生成，或者说所有的模型都是基于理解和生成两个方面组成。

而什么是多模态模型呢？网上一般谈到多模态模型，就是具有多种数据模式的模型，比如同时能够处理文字，图片，视频等多种模态数据的模型。

其实从本质上来说，多模态模型和生成式模型都是一种表征模型，毕竟多模态也是生成式模型的一种，只不过多模态的数据格式更复杂。

多模态模型

再来回顾一下什么是生成式模型，生成式模型是基于一种机器学习/神经网络模型，构建的一种可以对训练数据进行表征学习，通过模型参数记录表征结果，这个就是大模型的训练/学习的过程；而根据表征结果，模型可以根据用户输入生成新的样本数据；这就是模型的两个核心要点，理解与生成。

多模态是建立在生成式模型基础之上的，一种更加复杂的模型范式，因为其支持多种模态的数据，所以叫做多模态。

那多模态的核心技术难点是什么呢？

从技术的角度来说，多模态的技术原理与生成式模型的技术没有本质的区别，都是数据表征的一种形式；但区别是，多模态要同时表征多种格式的数据，这个难度就不是简单的1加1等于2的问题，其难度系数呈指数式上升。

而其核心技术点，也是其核心难点就是多模态融合；所谓的多模态融合就是指两个以上模态数据形成的多种不同种类的组合。

对于每一种信息来源都属于一种模态，比如耳朵接受的声音信息，眼睛看到的图像信息，以及皮肤感知的温湿度等信息，每一种都是一个模态。之所以需要对不同模态的数据进行融合，是因为不同模态数据表现形式不一样，组织形式也不一样。

比如文本的表现形式主要是字符，而图像的表现形式是像素；而这是完全不同的两种表现形式，更不用说更加复杂的视频等其它模态的数据。

由于不同模态数据之间的表现形式不一样，其表达形式也不一样；所以不同模态数据之间就存在很多交叉点；这就像我们看待一些古人的作品，能在字中看出画，在画中看出字。

而这些数据交叉点就是数据的冗余性，不同数据之间存在着大量的冗余数据；但从另一个角度来说，文字与图片又是互补的，比如说有些人会在画上题诗，也有人以诗作画，而这又是诗与画的互补。

而互补之后的诗和画，要比单纯的诗和画表现形式更好，更生动，更形象；也就是说多模态的表征，要比单模态表征更加的优秀；而且不同模态数据之间可能还存在更加丰富的信息交互形式，而如果能够合理的处理这些信息交互，那么就可以更加丰富的特征信息。

因此，多模态概括来说就是，信息的交叉(冗余)和互补，这也是多模态的一个显著特点。

但是，多模态虽然比单模态表征形式更丰富，更优秀；但怎么让不同模态的数据融合在一起，但又不会丧失其本身的特性；也就是说，怎么保证不同模态数据的互补性的前提下，又能去除不同数据之间的冗余信息。

而这就是多模态的几个核心技术点：

表征：怎么用一种表征方式，同时去表征多种不同模态的数据；简单来说就是使用一种模态能够同时表征出文字，图片和视频等多种格式的数据。
翻译：多模态的目的虽然是模态融合，但有一种输入格式的同时，就需要有一种格式的输出；而在多模态环境下，如果用户输入一段文本，但想要一张图片，怎么把文本数据翻译成图像数据，这就是翻译的作用。
对齐：说到对齐可能很多人简单理解为把文本模态的数据与图像模态的数据进行对齐；但事实上对齐是找到不同模态数据之间的关系，如某个词对应图像的某个区域等；对齐也可以理解为是翻译的基础。
融合：融合就是在对齐的前提下，对多种不同模态的数据进行融合，也就是去除其交叉数据，又保留其本身的特性节点。根据不同的技术实现，融合分为前期融合，中期融合和晚期融合等多种方式。
联合学习：联合学习就是利用不同模态数据之间的特性，使得大模型能够更加快速，更加高效的学习；也能更加高效得生成。比如迁移学习等。
以上只是多模态模型的理论，但具体算法的实现，根据不同的场景有一些不同的实现算法，比如贝叶斯决策理论，稀疏表示理论算法等；当然，也有一些研究人员在不断得开发新的算法。

总之，多模态大模型是一种更加强大的生成式模型，当然其技术实现难度也更大。但多模态也可能是人类实现通用人工智能的一种方式。

多模态融合
https://blog.csdn.net/qq_39388410/article/details/105145074

来源： DFires AI探索时代

THE END