基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模态和跨模态下游任务的性能。

基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为⼀个多模态⼤模型。mPLUG-2 的研究论文已被 ICML 2023 接收。

图片

  • 论⽂地址:https://arxiv.org/pdf/2302.00402.pdf
  • mPLUG-2 地址:https://github.com/X-PLUG/mPLUG-2
  • mPLUG-Owl 地址:https://github.com/X-PLUG/mPLUG-Owl

研究背景

⼤规模预训练基础模型是⼈⼯智能领域的新兴范式,涉及语⾔、视觉和多模态等多个领域。随着 Transformer 体系结构的⼴泛成功,近年来已经出现了语⾔、视觉和多模态预训练的⼤融合趋势。

该趋势下的⼀条主要线路是采⽤统⼀的序列⽣成框架来统⼀任务和模态,如 T5、OFA 和 Flamingo 等。另⼀条主要线路则是将所有任务都视为实例区分 (instance discrimination),并采用纯编码器架构,如 BERT、Florence 和 BEIT-3 模型。

以上主流基础模型提出为多模态数据建模共享的单⼀网络 (single network),以此来利用模态协作的信息,如 Flamingo。然而,由于不同模态涉及到的任务的巨⼤差异,这种策略将⾯临模态纠缠的问题,多个模态可能会相互干扰,特别是当存在多种模态和任务时。单模块基础模型难以平衡模态协作的收益和模态纠缠对多个跨模态下游任务的影响。

为了缓解这个挑战,在这项⼯作中,阿⾥达摩院团队引⼊了⼀种新的多模态基础模型的统⼀范式,如下图 1 所示。它采⽤基于模块的⽹络设计来考虑到模态协作和模态纠缠之间的平衡。mPLUG-2 的研究者设计了特定的共享功能模块 (functional modules),以⿎励模态协作,同时保留特定于模态的模块 (modality-specific modules) 以解决模态纠缠的问题。

图片

基于模块化的设计,不同的模块可以灵活地选取和组合,以适应⼤量的单模态和多模态的理解和⽣成任务。支持的下游任务的详细信息在表 1 中给出,可以看到 mPLUG-2 可以处理多种跨⽂本、图像和视频的不同类型的下游任务。下表 2 中也提供了不同的下游任务所需要的模块组合。

图片

图片

方法概览

图片

模型框图如上图 2 所示:(1) mPLUG-2 设计了⼀个统⼀的双 (dual) 视觉编码器模块,其中视频与图像输⼊共享的标准 Transformer 模块,⽤于建模空间信息。局部时域建模模块⽤于视频相关任务的时域关系建模。(2) mPLUG-2 设计了⼀个新颖的通⽤层模块 ( universal layers module),⽤于作为不同模态之间的枢纽,其通过共享⾃注意⼒模块将视觉和语⾔模态投影到共同的以语⾔为导向的语义空间中。(3) mPLUG-2 使⽤额外的交叉注意⼒模块将通⽤视觉表示 (universal vision representation) 与原始细粒度视觉表示融合。详细的模块设计如图 2 所示。最后,mPLUG-2 的不同模块通过任务和模态指令 (task and modality instructions) 在单模态和跨模态任务上进⾏联合预训练。在推理过程中,mPLUG-2 可以使⽤模块化 Transformer 架构为各种单模态和交叉模态任务选择不同的模块。

mPLUG-2 的卓越性能

mPLUG-2 在 30 多个有挑战性的单模态和跨模态理解和⽣成基准测试中评估了 mPLUG-2 的性能,它在相似的模型大小和数据规模下取得了最先进或有竞争力的结果。

这里展示几个有代表性的实验结果:

多模态任务

研究者在多模态理解型和生成型的相关任务上评测 mPLUG-2 的性能,包括: multimodal retrieval、question answering、visual grounding 和 captioning 等,实验结果表明其可以得到 SOTA 的性能。

图片

图片

图片

图片

纯语言任务

研究者发现,相比于专⽤语⾔预训练模型和其他多模态预训练模型,mPLUG-2 在 GLUE benchmark 上可以取得可⽐的性能。实验结果证明了使⽤ universal layer 做模态协作的有效性。

图片

纯视觉任务

研究者发现,mPLUG-2 在纯视觉任务上,如行为识别,图像分类任务,可以取得具有竞争力的性能。

图片

图片

消融:用于模态协作的通用层 (universal layer) 的作用有多大?

研究者在 baseline 的基础上,添加他们设计的通⽤层 universal layer。可以发现,通过鼓励模态协作,在单模态或者跨模态任务上,都会有明显的性能提升,证明了通⽤层 universal layer 的有效性。

图片

图片

另外,研究者还发现,⿎励模态协作的通⽤层 universal layer 可以得到更小的 modality gap。

图片

更多技术和实验细节请参阅原论⽂。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注