Qwen2-VL架构解读：Qwen2-VL: Enhancing Vision-Language Model’s Perceptionof the World at Any Resolution

此外，为了减少每个图像的视觉标记，在ViT之后使用了一个简单的MLP层，将相邻的2×2标记压缩成一个标记，并在压缩后的视觉标记的开头和结尾放置特殊的和标记。此外，我们引入了深度为二的3D卷积（Carreira和Zisserman，2017）来处理视频输入，使模型能够处理3D管而不是2D补丁，从而在不增加序列长度的情况下处理更多的视频帧（Arnab等，2021）。在语言处理方面，我们选择了更强大的Q

samoyan

995人浏览 · 2024-09-26 11:39:07

samoyan · 2024-09-26 11:39:07 发布

Qwen2-VL：增强视觉语言模型对世界的感知能力，适应任何分辨率

论文：https://arxiv.org/pdf/2409.12191

github:GitHub - QwenLM/Qwen2-VL: Qwen2-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

Qwen2-VL：增强视觉语言模型对世界的感知能力，适应任何分辨率

模型架构

图2展示了Qwen2-VL的全面结构。保留了Qwen-VL（Bai等，2023b）的框架，该框架集成了视觉编码器和语言模型。为了适应不同规模的需求，实现了一个具有约6.75亿参数的Vision Transformer（ViT）（Dosovitskiy等，2021），能够处理图像和视频输入。在语言处理方面，选择了更强大的Qwen2（Yang等，2024）系列语言模型。为了进一步增强模型在视频中有效感知和理解视觉信息的能力，引入了几个关键升级：

简单动态分辨率

Qwen2-VL的一个关键架构改进是引入了简单动态分辨率支持（Dehghani等，2024）。与其前身不同，Qwen2-VL现在可以处理任何分辨率的图像，并动态地将它们转换为可变数量的视觉标记。为了支持这一特性，通过移除原有的绝对位置嵌入并引入2D-RoPE（Su等，2024; Su, 2021）来捕捉图像的二维位置信息，对ViT进行了修改。在推理阶段，不同分辨率的图像被打包成一个序列，打包长度被控制以限制GPU内存使用。此外，为了减少每个图像的视觉标记，在ViT之后使用了一个简单的MLP层，将相邻的2×2标记压缩成一个标记，并在压缩后的视觉标记的开头和结尾放置特殊的<|vision_start|>和<|vision_end|>标记。因此，一个分辨率为224×224的图像，在使用patch_size=14的ViT编码后，将在进入LLM之前被压缩到66个标记。

多模态旋转位置嵌入（M-RoPE）

另一个关键的架构增强是多模态旋转位置嵌入（M-RoPE）的创新。与传统的1D-RoPE在LLM中仅限于编码一维位置信息不同，M-RoPE有效地建模了多模态输入的位置信息。这是通过将原始旋转嵌入分解为三个组件：时间、高度和宽度来实现的。对于文本输入，这些组件使用相同的位置ID，使得M-RoPE在功能上等同于1D-RoPE（Su，2024）。在处理图像时，每个视觉标记的时间ID保持不变，而高度和宽度组件则根据标记在图像中的位置分配不同的ID。对于被视为帧序列的视频，每帧的时间ID递增，而高度和宽度组件则遵循与图像相同的ID分配模式。在模型输入包含多种模态的情况下，每种模态的位置编号通过将前一模态的最大位置ID加一来初始化。M-RoPE的示意图见图3。M-RoPE不仅增强了位置信息的建模，还减少了图像和视频的位置ID值，使模型在推理期间能够外推到更长的序列。

统一的图像和视频理解

Qwen2-VL采用了混合训练方案，结合了图像和视频数据，确保了图像理解和视频理解的能力。为了尽可能完整地保留视频信息，以每秒两帧的速率对每个视频进行采样。此外，引入了深度为二的3D卷积（Carreira和Zisserman，2017）来处理视频输入，使模型能够处理3D管而不是2D补丁，从而在不增加序列长度的情况下处理更多的视频帧（Arnab等，2021）。为了一致性，每个图像被视为两个相同的帧。为了平衡长视频处理的计算需求和整体训练效率，动态调整每个视频帧的分辨率，将每个视频的总标记数限制在16384个以内。这种训练方法在模型理解长视频的能力和训练效率之间取得了平衡。