网站中弹出广告怎么做,上海最繁华的区排名,html个人主页简单源码,南通建设网站1. 摘要
本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型#xff08;MLLM#xff09;#xff0c;并同时提出了MM1模型#xff0c;包括30B dense版本和64B的MoE版本。 具体贡献#xff1a;
模型层面#xff1a;影响效果的重要性排序为#xff1a;…1. 摘要
本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型MLLM并同时提出了MM1模型包括30B dense版本和64B的MoE版本。 具体贡献
模型层面影响效果的重要性排序为image resolutionvisual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型image captioninterleaved image-text和text-only。 在few-shot和text-only上的表现interleaved image-text和text-only两种数据最为重要。在zero-shot上的表现image caption数据最为重要。
以上两种特性在SFT阶段也有体现。
通过扩大LLM大小的方式进行scale up。模型大小分别有3B7B30B等。
2. 方法和实验
2.1 简介 这部分主要探索三个结构数据和训练步骤对多模态大模型效果的影响
模型基础配置 Image EncoderViT-L/14模型训练loss为clip loss训练数据DFN-5B和VeCap-300Mimage size为336*336Vision-Language ConnectorC-Abstractor最大输出144 image token。Pre-training Data45% image caption数据45% interleaved image-text数据和10% text-only数据。Language Model 1.2B transformer decoder-only模型。
2.2 模型结构影响
2.2.1 Image Encoder Pre-training
Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。
contrastive loss能让image encoder学习到语义知识。示例模型CLIPReconstructive loss在一些dense prediction上clip类模型很难达到很好的效果比如说VQA和caption这类任务需要对image有很好的理解。示例模型AIM小结 Image resoluton最为重要其次是model size和训练数据组成。从上图中可以看出增加image resolution效果最为明显而增加model size和数据效果提升在1%左右。模型类型对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定因为AIM模型训练数据较少。
2.2.2 Vision-Language Connector and Image Resolution 配置 使用64或144个token代表每个image有两个不同的resolution224和336.结构选择 average pooling对ViT输出结果使用n*n average pooling然后接上linear projection。n[8, 12]attention pooling使用k learnable queries通过改变k来改变输出到LLM的image token数。k[64, 144]Convolutional mappingC-Abstractor moduleResNet blockthrough adaptive pooling can change the number of image tokens。 小结visual token数和image resolution最为重要VL connector有少量影响。在instruction tuning阶段这三种结构在不同的分辨率和image token时有着相似的结果。
2.3 预训练数据影响 小结 Interleaved data对few-shot和text-only的表现最为重要captioning data对zero-shot表现比较重要。Text-only数据对few-shot和text-only表现有帮助。细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为captioninterleavedtext5:5:1。合成数据对few-shot有帮助。
2.4 训练步骤
模型参数和学习率关系 具体关系如下
3. 结论
MM1模型预训练参数 Image EncoderViT-H分辨率378*378训练数据DFN-5BCLIP objectiveVision-Language ConnectorVL connection with 144 tokens选择用C-AbstractorData45% interleaved image-text documents, 45% image-text pair documents, and 10% text-only documents.超参batch size512max sequence lenght4096LR schedule在初始的2000步linear warmup然后在2e5训练步数中降到10%。使用AdamW优化器在30B模型训练中加上z-loss。 pretrain 效果如下 SFT数据配比
参考文献
MM1: Methods, Analysis Insights from Multimodal LLM Pre-training