对于多模态根基模子 ,咱们愿望其不光可能处置特定的多模态相关使命 ,还愿望其处置单模态使命时也具备优异的功能。阿⾥达摩院团队发现现有的模子每一每一不能很好的失调模态相助以及模态瓜葛的下场,这限度了模子在种种单模态以及跨模态卑劣使命的功能。
基于此,达摩院的钻研者提出了 mPLUG-2 ,其经由模块化的⽹络妄想妄想来失调多模态之间的相助以及瓜葛下场,mPLUG-2 在 30 + 多 / 单模态使命,取患上划一数据量以及模子规模 SOTA 概况 Comparable 下场 ,在 VideoQA 以及 VideoCaption 上逾越 Flamingo 、VideoCoca、GITv2 等超⼤模子取患上相对于SOTA。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新使命,不断了 mPLUG 系列的模块化磨炼脑子,把 LLM 降级为⼀个多模态⼤模子 。mPLUG-2 的研品评辩说文已经被 ICML 2023 接管。

论⽂地址:https://arxiv.org/pdf/2302.00402.pdf
mPLUG-2 地址 :https://github.com/X-PLUG/mPLUG-2
mPLUG-Owl 地址 :https://github.com/X-PLUG/mPLUG-Owl
钻研布景
⼤规模预磨炼根基模子是⼈⼯智能规模的新兴范式 ,波及语⾔、视觉以及多模态等多个规模。随着 Transformer 系统妄想的⼴泛乐成,近些年来已经泛起了语⾔、视觉以及多模态预磨炼的⼤融会趋向 。
该趋向下的⼀条主要路线是采⽤统⼀的序列⽣成框架来统⼀使命以及模态,如 T五、OFA 以及 Flamingo 等。另⼀条主要路线则是将所有使命都视为实例分说 (instance discrimination),并接管纯编码器架构,如 BERT、Florence 以及 BEIT-3 模子 。
以上主流根基模子提出为多模态数据建模同享的单⼀收集 (single network),以此来运用模态相助的信息 ,如 Flamingo 。可是,由于差距模态波及到的使命的巨⼤差距 ,这种策略将⾯临模态瓜葛的下场