Qwen2-VL架构解读:Qwen2-VL: Enhancing Vision-Language Model’s Perceptionof the World at Any Resolution
此外,为了减少每个图像的视觉标记,在ViT之后使用了一个简单的MLP层,将相邻的2×2标记压缩成一个标记,并在压缩后的视觉标记的开头和结尾放置特殊的和标记。此外,我们引入了深度为二的3D卷积(Carreira和Zisserman,2017)来处理视频输入,使模型能够处理3D管而不是2D补丁,从而在不增加序列长度的情况下处理更多的视频帧(Arnab等,2021)。在语言处理方面,我们选择了更强大的Q
目录
Qwen2-VL:增强视觉语言模型对世界的感知能力,适应任何分辨率
论文:https://arxiv.org/pdf/2409.12191
Qwen2-VL:增强视觉语言模型对世界的感知能力,适应任何分辨率
模型架构
图2展示了Qwen2-VL的全面结构。保留了Qwen-VL(Bai等,2023b)的框架,该框架集成了视觉编码器和语言模型。为了适应不同规模的需求,实现了一个具有约6.75亿参数的Vision Transformer(ViT)(Dosovitskiy等,2021),能够处理图像和视频输入。在语言处理方面,选择了更强大的Qwen2(Yang等,2024)系列语言模型。为了进一步增强模型在视频中有效感知和理解视觉信息的能力,引入了几个关键升级:
简单动态分辨率
Qwen2-VL的一个关键架构改进是引入了简单动态分辨率支持(Dehghani等,2024)。与其前身不同,Qwen2-VL现在可以处理任何分辨率的图像,并动态地将它们转换为可变数量的视觉标记。为了支持这一特性,通过移除原有的绝对位置嵌入并引入2D-RoPE(Su等,2024; Su, 2021)来捕捉图像的二维位置信息,对ViT进行了修改。在推理阶段,不同分辨率的图像被打包成一个序列,打包长度被控制以限制GPU内存使用。此外,为了减少每个图像的视觉标记,在ViT之后使用了一个简单的MLP层,将相邻的2×2标记压缩成一个标记,并在压缩后的视觉标记的开头和结尾放置特殊的<|vision_start|>和<|vision_end|>标记。因此,一个分辨率为224×224的图像,在使用patch_size=14的ViT编码后,将在进入LLM之前被压缩到66个标记。
多模态旋转位置嵌入(M-RoPE)
另一个关键的架构增强是多模态旋转位置嵌入(M-RoPE)的创新。与传统的1D-RoPE在LLM中仅限于编码一维位置信息不同,M-RoPE有效地建模了多模态输入的位置信息。这是通过将原始旋转嵌入分解为三个组件:时间、高度和宽度来实现的。对于文本输入,这些组件使用相同的位置ID,使得M-RoPE在功能上等同于1D-RoPE(Su,2024)。在处理图像时,每个视觉标记的时间ID保持不变,而高度和宽度组件则根据标记在图像中的位置分配不同的ID。对于被视为帧序列的视频,每帧的时间ID递增,而高度和宽度组件则遵循与图像相同的ID分配模式。在模型输入包含多种模态的情况下,每种模态的位置编号通过将前一模态的最大位置ID加一来初始化。M-RoPE的示意图见图3。M-RoPE不仅增强了位置信息的建模,还减少了图像和视频的位置ID值,使模型在推理期间能够外推到更长的序列。
统一的图像和视频理解
Qwen2-VL采用了混合训练方案,结合了图像和视频数据,确保了图像理解和视频理解的能力。为了尽可能完整地保留视频信息,以每秒两帧的速率对每个视频进行采样。此外,引入了深度为二的3D卷积(Carreira和Zisserman,2017)来处理视频输入,使模型能够处理3D管而不是2D补丁,从而在不增加序列长度的情况下处理更多的视频帧(Arnab等,2021)。为了一致性,每个图像被视为两个相同的帧。为了平衡长视频处理的计算需求和整体训练效率,动态调整每个视频帧的分辨率,将每个视频的总标记数限制在16384个以内。这种训练方法在模型理解长视频的能力和训练效率之间取得了平衡。
更多推荐
所有评论(0)