当前位置: 首页 > news >正文

网站中弹出广告怎么做上海最繁华的区排名

网站中弹出广告怎么做,上海最繁华的区排名,html个人主页简单源码,南通建设网站1. 摘要 本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型#xff08;MLLM#xff09;#xff0c;并同时提出了MM1模型#xff0c;包括30B dense版本和64B的MoE版本。 具体贡献#xff1a; 模型层面#xff1a;影响效果的重要性排序为#xff1a;…1. 摘要 本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型MLLM并同时提出了MM1模型包括30B dense版本和64B的MoE版本。 具体贡献 模型层面影响效果的重要性排序为image resolutionvisual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型image captioninterleaved image-text和text-only。 在few-shot和text-only上的表现interleaved image-text和text-only两种数据最为重要。在zero-shot上的表现image caption数据最为重要。 以上两种特性在SFT阶段也有体现。 通过扩大LLM大小的方式进行scale up。模型大小分别有3B7B30B等。 2. 方法和实验 2.1 简介 这部分主要探索三个结构数据和训练步骤对多模态大模型效果的影响 模型基础配置 Image EncoderViT-L/14模型训练loss为clip loss训练数据DFN-5B和VeCap-300Mimage size为336*336Vision-Language ConnectorC-Abstractor最大输出144 image token。Pre-training Data45% image caption数据45% interleaved image-text数据和10% text-only数据。Language Model 1.2B transformer decoder-only模型。 2.2 模型结构影响 2.2.1 Image Encoder Pre-training Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。 contrastive loss能让image encoder学习到语义知识。示例模型CLIPReconstructive loss在一些dense prediction上clip类模型很难达到很好的效果比如说VQA和caption这类任务需要对image有很好的理解。示例模型AIM小结 Image resoluton最为重要其次是model size和训练数据组成。从上图中可以看出增加image resolution效果最为明显而增加model size和数据效果提升在1%左右。模型类型对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定因为AIM模型训练数据较少。 2.2.2 Vision-Language Connector and Image Resolution 配置 使用64或144个token代表每个image有两个不同的resolution224和336.结构选择 average pooling对ViT输出结果使用n*n average pooling然后接上linear projection。n[8, 12]attention pooling使用k learnable queries通过改变k来改变输出到LLM的image token数。k[64, 144]Convolutional mappingC-Abstractor moduleResNet blockthrough adaptive pooling can change the number of image tokens。 小结visual token数和image resolution最为重要VL connector有少量影响。在instruction tuning阶段这三种结构在不同的分辨率和image token时有着相似的结果。 2.3 预训练数据影响 小结 Interleaved data对few-shot和text-only的表现最为重要captioning data对zero-shot表现比较重要。Text-only数据对few-shot和text-only表现有帮助。细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为captioninterleavedtext5:5:1。合成数据对few-shot有帮助。 2.4 训练步骤 模型参数和学习率关系 具体关系如下 3. 结论 MM1模型预训练参数 Image EncoderViT-H分辨率378*378训练数据DFN-5BCLIP objectiveVision-Language ConnectorVL connection with 144 tokens选择用C-AbstractorData45% interleaved image-text documents, 45% image-text pair documents, and 10% text-only documents.超参batch size512max sequence lenght4096LR schedule在初始的2000步linear warmup然后在2e5训练步数中降到10%。使用AdamW优化器在30B模型训练中加上z-loss。 pretrain 效果如下 SFT数据配比 参考文献 MM1: Methods, Analysis Insights from Multimodal LLM Pre-training
http://www.lakalapos1.cn/news/23664/

相关文章:

  • 做网站广告中敏感词会涉及到工商wordpress采集淘宝
  • 青岛网站建设价格论坛型网站怎么做
  • 工控网做网站维护吗南城网站优化公司
  • 北京专业制作网站公司做视频教学网站
  • 企业网站建设软件wordpress导航菜单栏
  • 做非洲出口的网站业之峰家装公司地址
  • 网站开发的机遇网站开发提高加载速度
  • 网站推广策划方案毕业设计阿里云服务器在哪里放着
  • 深圳网站建设 网站制作 网站设计【迅美】旧版深圳外贸建站网络推广公司
  • 用哪个程序做网站收录好苏州网站制作的公司
  • 佛山市企业网站seo联系方式只需要手机号的广告
  • 网站建设构想c 用mysql做的网站
  • 南通做网站多少钱中国建设工程信息网官网查询
  • 做一般的公司门户网站投资额深圳保障性住房规划
  • 太原专业做网站找推广平台需要多少钱
  • 网站建设多少钱宋柯室内设计经典案例
  • 网站采用什么字体网站改版收费
  • 西安网站网络营销宁夏网站制作
  • 电影网站标题怎么做流量多微信公众号登录手机版
  • jquery动画特效网站drupal 做的网站
  • 莱芜亓家网站网站怎么做竞价
  • 网站设计十大品牌淘客 wordpress
  • 整站优化网站wordpress音频
  • 网站建设服务器是什么ui交互动效 wordpress
  • 公司免费网站建设网站描述 关键词
  • 沭阳奥体小区做网站高中生沉迷哔哩哔哩怎么办
  • 为何网站打开慢企业网站建设公司网络
  • 在建设部网站上的举报中山移动网站建设怎么做
  • 做网站熊掌号做网站办公室图片
  • 网站建设的注意物联网的含义