基于模块化思想，阿里达摩院提出多模态基础模型mPLUG-2

对于多模态基础模型，我们希望其不仅可以处理特定的多模态相关任务，还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题，这限制了模型在各种单模态和跨模态下游任务的性能。

基于此，达摩院的研究者提出了 mPLUG-2，其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题，mPLUG-2 在 30 + 多 / 单模态任务，取得同等数据量和模型规模 SOTA 或者 Comparable 效果，在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外，mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作，延续了 mPLUG 系列的模块化训练思想，把 LLM 升级为⼀个多模态⼤模型。mPLUG-2 的研究论文已被 ICML 2023 接收。

论⽂地址：https://arxiv.org/pdf/2302.00402.pdf
mPLUG-2 地址：https://github.com/X-PLUG/mPLUG-2
mPLUG-Owl 地址：https://github.com/X-PLUG/mPLUG-Owl

研究背景

⼤规模预训练基础模型是⼈⼯智能领域的新兴范式，涉及语⾔、视觉和多模态等多个领域。随着 Transformer 体系结构的⼴泛成功，近年来已经出现了语⾔、视觉和多模态预训练的⼤融合趋势。

该趋势下的⼀条主要线路是采⽤统⼀的序列⽣成框架来统⼀任务和模态，如 T5、OFA 和 Flamingo 等。另⼀条主要线路则是将所有任务都视为实例区分 (instance discrimination)，并采用纯编码器架构，如 BERT、Florence 和 BEIT-3 模型。

以上主流基础模型提出为多模态数据建模共享的单⼀网络 (single network)，以此来利用模态协作的信息，如 Flamingo。然而，由于不同模态涉及到的任务的巨⼤差异，这种策略将⾯临模态纠缠的问题，多个模态可能会相互干扰，特别是当存在多种模态和任务时。单模块基础模型难以平衡模态协作的收益和模态纠缠对多个跨模态下游任务的影响。

为了缓解这个挑战，在这项⼯作中，阿⾥达摩院团队引⼊了⼀种新的多模态基础模型的统⼀范式，如下图 1 所示。它采⽤基于模块的⽹络设计来考虑到模态协作和模态纠缠之间的平衡。mPLUG-2 的研究者设计了特定的共享功能模块 (functional modules)，以⿎励模态协作，同时保留特定于模态的模块 (modality-specific modules) 以解决模态纠缠的问题。

基于模块化的设计，不同的模块可以灵活地选取和组合，以适应⼤量的单模态和多模态的理解和⽣成任务。支持的下游任务的详细信息在表 1 中给出，可以看到 mPLUG-2 可以处理多种跨⽂本、图像和视频的不同类型的下游任务。下表 2 中也提供了不同的下游任务所需要的模块组合。

方法概览

模型框图如上图 2 所示：(1) mPLUG-2 设计了⼀个统⼀的双 (dual) 视觉编码器模块，其中视频与图像输⼊共享的标准 Transformer 模块，⽤于建模空间信息。局部时域建模模块⽤于视频相关任务的时域关系建模。(2) mPLUG-2 设计了⼀个新颖的通⽤层模块 ( universal layers module)，⽤于作为不同模态之间的枢纽，其通过共享⾃注意⼒模块将视觉和语⾔模态投影到共同的以语⾔为导向的语义空间中。(3) mPLUG-2 使⽤额外的交叉注意⼒模块将通⽤视觉表示 (universal vision representation) 与原始细粒度视觉表示融合。详细的模块设计如图 2 所示。最后，mPLUG-2 的不同模块通过任务和模态指令 (task and modality instructions) 在单模态和跨模态任务上进⾏联合预训练。在推理过程中，mPLUG-2 可以使⽤模块化 Transformer 架构为各种单模态和交叉模态任务选择不同的模块。