作者提出了Qwen2-VL系列,这是先前Qwen-VL模型的先进升级,重新定义了视觉处理中的传统确定分辨率方法。Qwen2-VL引入了Naive动态分辨率机制,使模型能够动态地将不同分辨率的图像处理成不同数量的视觉 Token 。这种方法使模型可以生成更高效、更准确的可视表示,并与人类感知过程紧密一致。模型还集成了多模态旋转位置嵌入(M-RoPE),以促进文本、图像和视频之间位置信息的有效融合。作者采用了一种统一的方法来处理图像和视频,增强了模型的视觉感知能力。

为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉语言模型(LVLMs)的扩展定律。通过扩展模型的参数大小(版本为2B、8B和72B)和训练数据的数量,Qwen2-VL系列在各个多模态基准测试中实现了非常具有竞争力的性能。

值得注意的是,Qwen2-VL-72B模型在各种多模态基准测试中,与GPT-4o和Claude3.5-Sonnet等领先模型相比,实现了相当的结果,超越了其他通用模型。

代码: https://github.com/QwenLM/Qwen2-VL

1 Introduction

在人工智能领域,大型视觉语言模型(LVLMs)是一个重大的进步,这些模型在传统大型语言模型的强大文本处理能力基础上构建。这些先进的模型现在具有处理更广泛的数据的能力,包括图像、音频和视频。这种能力的扩展使LVLMs成为解决各种实际挑战的不可或缺的工具。由于它们独特地将广泛而复杂的知识压缩为功能表示,LVLMs正在为更全面的认知系统铺平道路。通过整合多种数据形式,LVLMs试图更接近地模拟人类感知和互动环境的细微差别。这使得这些模型能够更准确地表示作者如何与作者的环境互动和感知。

近年来大型视觉语言模型(LVLMs)的进步已经取得了显著的改进。这些模型通常遵循一种常见的做法,即“视觉编码器→跨模态连接器→LLM”。这种设置,结合Next-Token预测作为主要训练方法和高质量数据集的可用性,推动了大部分进展。此外,像更大的模型架构,更高的分辨率图像,以及先进的混合专家模型(MoE)等高级技术,模型集成,以及视觉和文本模态之间更复杂的连接器等因素也对增强LVLMs处理复杂视觉和文本信息的能力发挥了关键作用。

然而,当前的大型视觉语言模型(LVLMs)通常受到固定图像输入大小的限制。标准LVLMs将输入图像编码到固定分辨率(例如,224224),通常通过降低采样或增加采样,或者采用“先缩放后填充”的方法。尽管这种一刀切的方法可以实现输入图像在一致分辨率下的处理,但也限制了模型在不同尺度下捕捉信息的能力,特别是在高分辨率图像中,会导致大量详细信息的丢失。因此,这些模型在感知视觉信息时,对尺度和细节的敏感性不如人类视觉。

此外,大多数LVLMs依赖于一个静态、冻结的CLIP式视觉编码器,这引发了关于由这种预训练模型产生的视觉表示是否足够的担忧,尤其是在复杂推理任务和处理图像内的精细细节时。最近的工作试图通过在LVLM训练过程中微调视觉 Transformer (ViT)来解决这些限制,这已经证明可以获得更好的结果。为了进一步增强模型对不同分辨率的适应性,作者在LVLM训练过程中引入了动态分辨率训练。具体来说,作者在ViT中使用2D旋转变位位置嵌入(RoPE),这样模型就可以更好地捕捉不同空间尺度上的信息。

关于视频内容,它本质上是一系列帧,许多现有模型仍然将其视为独立模态。然而,理解视频中现实世界的动态特性,对于那些试图抓住真实世界复杂性的模型至关重要。与文本(天生一维)不同,真实世界存在于三维。目前模型中使用的一维位置编码极大地限制了它们有效模拟三维空间和时间动态的能力。为了弥合这一差距,作者开发了多模态旋转位置编码(MRoPE),该编码器使用单独的组件表示时间和空间信息。这使得模型能够自然地理解动态内容,如视频或 Stream 数据,从而提高其理解和交互世界的能力。

此外,与大型语言模型(LLMs)的扩展相比,当前的LVLMs在探索扩展对训练数据和模型参数的影响方面仍处于早期阶段。LVLMs的扩展定律的探索——模型和数据大小的增长如何影响性能——仍然是一个开放且具有前景的研究领域。

在本工作中,作者引入了Qwen家族的视觉语言模型的最新成员:Qwen2-VL系列,该系列包括三个参数总数分别为20亿、80亿和720亿的开权重模型。

如图1所示,Qwen2-VL的关键改进包括:

在各种分辨率和 aspect ratio 下的最新 AI 理解: Qwen2-VL 在视觉基准测试中实现了领先的性能,包括 DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista 等。

理解扩展时长视频(20分钟以上): Qwen2-VL 能够理解长度超过 20 分钟的视频,从而提高其进行高质量基于视频的问题回答、对话、内容创建等的能力。

具有强大设备操作能力的AI Agent 能力: 具有高级推理和决策能力的Qwen2-VL可以与如手机、机器人等设备集成,实现基于视觉输入和文本指令的自主操作。

多语言支持: 为了服务全球用户,Qwen2-VL现在支持图像内的多语言上下文理解,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

2 Approach

Qwen2-VL系列包含三种大小的模型,分别是Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。表1列出了超参数和重要信息。值得注意的是,Qwen2-VL在各种大小的LLM中使用了675M参数的ViT,以确保ViT的计算负载与LLM的规模无关。

2.1 Model Architecture

图2展示了Qwen2-VL的综合结构。作者保留了Qwen-VL框架,该框架将视觉编码器与语言模型相结合。对于各种尺度的适应性调整,作者实现了大约6.75亿参数的视觉Transformer(ViT),擅长处理图像和视频输入。在语言处理方面,作者选择了更强大的Qwen2系列语言模型。

为了进一步提高模型在视频中有效感知和理解视觉信息的能力,作者引入了几个关键的升级:

这是Qwen2-VL的一个关键架构改进,即引入了naive动态分辨率支持。与其前身不同,Qwen2-VL现在可以处理任意分辨率的图像,动态地将它们转换为可变数量的视觉 Token 。为了支持这一功能,作者对ViT进行了修改,删除了原始的绝对位置嵌入,并引入了2D-RoPE来捕获图像的二维位置信息。在推理阶段,不同分辨率的图像被包装成一个单独的序列中,包装长度受限于GPU内存使用。

此外,为了减少每个图像的视觉 Token ,在ViT之后使用一个简单的MLP层来压缩相邻的 Token 为一个 Token ,压缩后的视觉 Token 的开头和结尾分别放置了特殊的<vision_start|>和<|vision_end|> Token 。因此,使用patch_size=14的ViT编码具有224×224分辨率的图像,在进入LLM之前将被压缩为66个 Token 。

**多模态旋转位置编码(M-RoPE)**另一个关键的架构增强是多模态旋转位置编码(M-RoPE)的创新。与LLMs中的传统1D-RoPE不同,它只能编码一维位置信息,M-RoPE可以有效地模拟多模态输入的位置信息。这是通过将原始旋转嵌入分解为三个组件:时间、高度和宽度来实现的。

  • 对于文本输入,这些组件使用相同的位置ID,使得M-RoPE在功能上等同于1D-RoPE。在处理图像时,每个视觉 Token 的时间ID保持不变,而根据 Token 在图像中的位置,为高度和宽度组件分配不同的ID。

  • 对于视频,由于它们被看作是一系列帧,每个帧的时间ID都会增加,而高度和宽度组件的ID分配模式与图像相同。在模型输入包含多个模态的情况下,每个模态的位置编号通过将前一个模态的最大位置ID加1来初始化。

M-RoPE的示例如图3所示。M-RoPE不仅增强了位置信息建模,还减少了图像和视频的位置ID值,使模型在推理过程中可以扩展到更长的序列。

统一的图像和视频理解 Qwen2-VL采用了一种混合训练方法,结合了图像和视频数据,以确保在图像理解和视频理解方面的熟练程度。为了尽可能地保留视频信息,作者每秒采样每个视频两帧。此外,还集成3D卷积深度为2来处理视频输入,使模型能够处理3D Pipeline 而不是2D块,从而允许在不增加序列长度的情况下处理更多的视频帧。

为了保持一致性,作者将每个图像视为两个相同的帧。为了在长视频处理的计算需求与整体训练效率之间取得平衡,作者动态调整每个视频帧的分辨率,将每个视频的总 Token 数限制在16384个以内。这种训练方法在模型理解长视频的能力和训练效率之间取得了平衡。

2.2 Training

遵循Qwen-VL,作者采用三阶段训练方法:

  • 第一阶段,专注于训练视觉Transformer(ViT)组件,利用大量的图像文本对来增强大型语言模型(LLM)内的语义理解。

  • 第二阶段,解冻所有参数,用更广泛的数据进行训练以进行更全面的学习。

  • 在最后阶段,锁定ViT参数,并使用指导数据集对LLM进行独家微调。

模型在包括图像文本对、光学字符识别(OCR)数据、交错图像文本文章、视觉问答数据集、视频对话和图像知识数据集的多样化数据集上进行了预训练。作者的数据源主要包括清理过的网页、开源数据集和合成数据。数据知识截止日期为2023年6月。这种多样化数据组成对于开发强大的多模态理解能力至关重要。

初始预训练阶段,Qwen2-VL暴露在一个约600万亿个 Token 的语料库中。Qwen2-VL的LLM组件使用Qwen2的参数初始化,而Qwen2-VL的视觉编码器使用自定义的DFN派生的ViT进行初始化。然而,原始DFN的ViT中的固定位置嵌入被替换为RoPE-2D。这个预训练阶段主要关注学习图像-文本关系、通过OCR在图像中识别文本内容以及图像分类任务。这种基础训练对于使模型能够发展出对核心视觉-文本相关性和对齐的强健理解至关重要。

第二阶段预训练标志着重大进步,涉及额外的800亿图像相关数据。这一阶段引入了更多的混合图像文本内容,有助于更精细地理解视觉和文本信息之间的互动。将视觉问答数据集纳入模型,可提高其响应图像相关 Query 的能力。此外,将多任务数据集纳入模型,对于开发模型同时处理多样任务的能力至关重要,这在处理复杂现实世界数据集时尤为重要。同时,纯文本数据继续在保持和提高模型语言熟练度方面发挥关键作用。

在预训练阶段,Qwen2-VL总共处理了1.4万亿个 Token 。具体来说,这些 Token 不仅包括文本 Token ,还包括图像 Token 。然而,在训练过程中,作者只提供了对文本 Token 的监督。这种接触广泛而多样语言和视觉场景的训练确保了模型对视觉和文本信息之间复杂关系的深入理解,从而为各种多模态任务奠定了坚实的基础。

在微调阶段,使用ChatML格式构建指令遵循数据。这个数据集不仅包括纯文本对话数据,还包括多模态对话数据。多模态组件包括图像问答、文档解析、多图像比较、视频理解、视频流对话和基于 Agent 的交互。作者构建数据的方法旨在增强模型在各种模态上理解和执行各种指令的能力。通过结合多种数据类型,作者试图开发一个更通用和强大的语言模型,可以处理复杂的、多模态任务,除了传统的文本交互。

2.2.1 Data Format

与Qwen-VL一样,Qwen2-VL也使用了特殊 Token 来区分视觉和文本输入。在图像特征序列的开始和结束处,插入 Token <|vision_start|>和<|vision_end|>来划分图像内容。

对话数据。在对话格式方面,使用ChatML格式构建指令调优数据集,其中每个交互的语句都使用两个特殊 Token (<|im_start|>和<|im_end|>)来方便对话终止。蓝色部分表示监督部分。

视觉定位。 为了赋予模型视觉定位能力,边界框坐标在 [0, 1000)范围内进行归一化,并作为 “,” 表示。使用 <|box_start|> 和 <|box_end|> Token 边界框文本。为了准确地将边界框与文本描述关联起来,引入了 <|object_ref_start|> 和 <|object_ref_end|> Token 表示边界框引用的内容,从而使模型能够有效解释和生成特定区域的精准描述。

Visual代理。为了将Qwen2-VL开发为一个通用的VL-Agent,作者将各种 Agent 任务,如UI操作、机器人控制、游戏和导航,视为顺序决策问题,使Qwen2-VL能够通过多步动作执行完成任务。对于每个任务,作者首先定义一组允许的动作和关键词模式(下划线)用于函数调用。Qwen2-VL然后分析观察,进行推理和规划,执行选定的动作,并与环境交互以获取新的观察。这个周期会重复迭代,直到任务成功完成。通过集成各种工具并利用大型视觉语言模型(LVLMs)的视觉感知能力,Qwen2-VL能够迭代执行涉及实际世界视觉交互的 increasingly complex 任务。

2.3 多模态模型基础设施

Qwen2-VL模型在Alibaba Cloud的PAI-Lingjun智能计算服务上进行了训练,该服务具有可扩展的计算能力、自动恢复和滞后检测功能。

Storage。作者使用阿里云的超级高速CPFS(Cloud Parallel File Storage)构建了Qwen2-VL预训练和训练的存储系统。作者将文本数据和视觉数据存储解耦。作者仅在CPFS上存储文本数据,并使用mmap进行高效访问。对于视觉数据,作者使用阿里云的OSS(Object Storage Service)(阿里云,2024b)进行持久存储。

在训练过程中,作者通过OSS的python-client并发地访问视觉数据,并调整并发和重试参数以避免达到QPS(每秒 Query 数)限制。作者还发现,视频数据解码是主要 Bottleneck ,尤其是对于长视频。在尝试了开源和内部软件失败后,作者选择了缓存解码技术。预训练权重保存了每个GPU的优化器和模型状态在CPFS上。

并行性。作者使用3D并行性,结合数据并行性(DP),张量并行性(TP)和流水线并行性(PP)来扩展Qwen2-VL模型训练。作者还利用深度速度的零一冗余优化器来节省内存。顺序并行性(SP)与选择性预训练权重激活相结合,以减少内存使用。在启用TP训练时,作者总是将视觉编码器和大语言模型一起切分,但不会将视觉合并器切分,因为其参数相对较少。

作者发现TP训练会导致由于卷积算子的非确定性行为而产生不同的模型共享权重。作者通过离线减少共享权重来解决这个问题,从而避免了额外的全缩减通信步骤。这种方法对性能的影响很小。作者利用1F1B PP进行Qwen2-VL 72B训练。作者将视觉编码器、视觉 Adapter 以及几个LLM的解码层合并到同一阶段,并将剩余的解码层均匀切分。请注意,每个数据点的视觉和文本序列长度都是动态的。作者在启动1F1B过程之前广播动态序列长度,并使用批索引访问形状信息。作者还实现了交错1F1B PP,但发现它的速度比标准1F1B设置慢。

软件。作者使用PyTorch版本2.1.2进行训练,并使用CUDA 11.8进行加速。此外,作者在ViT和语言模型(LLM)中使用Flash-Attention以实现高效的训练。作者还利用了Nvidia提供的融合运算符,如LayerNorm、RMSNorm和Adam。此外,作者在训练过程中利用了矩阵乘法中的通信和计算的重叠。

3 实验

在本节中,作者首先通过在各种视觉基准上进行比较分析来评估模型的性能,展示作者方法的优势。然后,作者对特定能力进行详细检查,包括通用视觉感知、文档理解、图像中的多语言识别、视频理解以及 Agent 能力。最后,作者进行一项消融研究,以调查作者方法的关键组成部分。

3.1 与SOTA相比

作者通过各种视觉基准测试、视频任务和基于 Agent 的评估来评估Qwen2-VL在视觉方面的能力。Qwen2-VL在相同规模上表现出非常高的竞争力,实现了新的最先进水平(SoTA)的结果。

总的来说,Qwen2-VL-72B模型在大多数评估指标上始终提供顶级性能,经常甚至超过封闭源模型如GPT-4o和Claude 3.5-Sonnet。值得注意的是,它在文档理解任务上表现出显著的优势。然而,在MMMU基准测试中,Qwen2-VL在某种程度上仍落后于GPT-4o,这表明在处理更复杂和具有挑战性的问题集时,Qwen2-VL-72B仍有改进的空间。

3.2 定量结果

在本节中,作者对Qwen2-VL系列在多个数据集上的表现进行了广泛的评估,以全面了解模型在不同方面的能力。

3.2.1 通用视觉问答

为了严格评估Qwen2-VL在通用视觉问答任务中的能力,作者在一系列最先进的基准测试上进行了广泛的评估:RealWorldQA,MMStar,MMVet,MMT-Bench,MMBench,MMDench-1.1,MME,以及HallusionBench。Qwen2-VL系列在这些基准测试上表现出色,72B模型在这些基准测试上一直实现或超越最先进的结果,而7B和2B变体也展示了强大的能力。

在RealWorldQA上,该基准测试评估现实世界空间理解,Qwen2-VL-72B的得分达到77.8,超过了先前的最先进水平(72.2)和强大的 Baseline ,如GPT-4o(75.4),从而展示了对物理环境的优越理解。

在MMStar上,该基准测试旨在通过视觉不可缺少的样本评估真正的多模态能力,Qwen2-VL-72B的得分为68.3,超过了先前的最佳结果(67.1),并突显了其在整合视觉和文本信息方面的能力。

在MMVet上,该基准测试评估了在16个复杂多模态任务中跨核心视觉语言能力的整合,Qwen2-VL-72B取得了显著的74.0,明显超过了包括GPT-4V(67.5)在内的强大竞争对手,并展示了其在解决各种多模态挑战方面的多样性。

在MMT-Bench评估中,该基准测试评估了在多模态理解中的高级推理和指令遵循,Qwen2-VL-72B取得了71.7,显著超过了先前的最佳结果(63.4),并展示了其在应用专家知识和执行精心视觉识别、定位、推理和规划方面的优势。

在MMBench上,该基准测试评估了在20个维度上的细微能力,Qwen2-VL-72B在英语测试集上取得了86.5,与最先进水平相匹配,而在中文测试集上取得了86.6,建立了新的基准。

对于MME,该基准测试衡量了14个子任务中的广泛感知和认知能力,Qwen2-VL-72B的总得分达到了2482.7,显著超过了先前的最佳结果(2414.7),并强调了其在视觉感知和高层次认知任务方面的先进能力。

这些全面的结果强调了Qwen2-VL系列在视觉问答任务中的卓越能力。这些模型展示了在实际空间理解、真实多模态集成、复杂推理、指令遵循以及广泛的感知和认知任务方面的先进能力。在各种基准测试上的持续优越性能,特别是72B模型的杰出结果,使Qwen2-VL系列在视觉问答领域成为领先解决方案。

Qwen2-VL在处理视觉必需的任务上表现出色,集成核心视觉语言能力,并在各种多模态场景中展示专业知识,从基本的感知任务到复杂的推理和规划。这次全面的评估突显了Qwen2-VL系列在解决当前最先进的视觉语言模态基准测试所面临的多样化挑战方面的灵活性和有效性,从而为大型视觉语言模型设定新标准。

3.2.2 文档和图表阅读

作者在DocVQA、ChartQA、InfoVQA、TextVQA、AI2D数据集上测试了模型的OCR和文档/高分辨率信息图形/图表文本理解能力。DocVQA/InfoVQA/ChartQA数据集关注模型在文档/高分辨率信息图形/图表中的文本理解能力,而TextVQA数据集检查模型在自然图像中的文本理解能力。OCRBench是一个混合任务的数据集,除了文本型VQA外,还关注数学公式解析和信息提取。AI2D数据集关注包含文本的科学图形的单选题。此外,作者还测试了模型在OCRBench上的OCR和公式识别能力以及模型在MTVQA数据集上的多语言OCR能力。

实验结果表明,Qwen2-VL在多个指标上达到了最先进水平,包括DocVQA、InfoVQA、TextVQA和OCRBench,这表明Qwen2-VL在多个领域的图像文本内容理解方面表现良好。

3.2.3 多语言文本识别与理解

特别地,Qwen2-VL在多语言OCR方面超越了所有现有的通用LVLMs。Qwen2-VL不仅在公开的MTVQA数据集上超过了现有LVLMs(包括专有模型如GPT-4o、Claude 3.5 Sonnet等),还在所有外语(除阿拉伯语)的内部基准测试中超过了GPT-4o(表3)。

3.2.4 数学推理

作者在MathVista和MathVision数据集上进行了实验,以评估数学推理能力。MathVista是一个全面基准,包含6,141个数学和视觉任务的多样化示例。MathVision数据集包含3,040个数学问题,嵌入自实际数学竞赛中的视觉语境,涵盖16个数学学科,难度在五个 Level 上有所不同。这些挑战强调了LVLMs需要展示强大的视觉理解、对数学的深入理解以及良好的逻辑推理能力。Qwen2-VL系列在MathVista上表现出优越的性能,在MathVista上取得了70.5分的成绩,超过了其他LVLMs。此外,它在MathVision上建立了新的开源基准,成绩为25.9。

3.2.5 指称表达理解

关于视觉定位任务,作者在RefCOCO,RefCOCO+和RefCOCOg数据集上评估Qwen2-VL。

结果如表6所示,表明Qwen2-VL在通用模型中取得了顶级结果。得益于更合理的结构设计,Qwen2-VL能够感知高分辨率图像的细节,从而显著优于Qwen-VL。这些模型相对于通用模型和专用模型的优势,突显了它们在推进视觉定位领域以及需要精确视觉理解的任务中进行实际应用的潜力。

3.2.6 视频理解

作者在各种视频理解任务上评估Qwen2-VL,相关基准测试涵盖了几秒钟的短视频到长达一小时的长期视频。表4展示了Qwen2-VL和 Baseline 模型的性能。总体而言,Qwen2-VL在2B、7B和72B大小上表现出强大的结果,Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上实现了最佳性能。这展示了Qwen2-VL在视频理解任务上的优越能力,并且扩大Qwen2-VL可以带来显著的改进。

在这里插入图片描述

对于包含长达一小时的视频的Video-MME基准测试,值得注意的是,作者在评估过程中将每个视频提取的最大帧数限制为768,这可能会影响较长视频上的性能。未来的工作将专注于将Qwen2-VL扩展到支持更长的序列,从而适应更长的视频。

3.2.7 Visual Agent

Qwen2-VL 首先对其通过函数调用与环境互动的能力进行了评估,然后对其通过多轮互动完成复杂顺序决策任务的能力进行了评估。实现基于 Qwen-Agent 框架。

函数调用不同于LLM中的函数调用,LVLMs的函数调用通常涉及从视觉线索中提取信息。由于缺乏公共基准测试来评估LVLMs在函数调用方面的能力,作者构建了作者的内部评估数据集。

为了构建评估数据集,作者进行了以下步骤:场景分类,图像收集,图像内容提取和问题/函数/参数生成。首先,根据不同的视觉应用将场景分类到不同的类别中。然后,从互联网上下载并仔细选择每个类别的优质、代表性图像。接下来,利用先进的LVLM,作者对每个图像进行分析,提取关键视觉元素和文本信息。最后,根据图像的内容信息,作者使用先进的LLM生成了一系列需要特定功能来回答的问题,并指定了这些功能调用所需的输入参数。

类似LLMs中函数调用评估方法,作者设计了两项指标来评估函数选择和参数输入的准确性。具体而言,类型匹配(TM)计算为模型成功调用了正确函数的次数与尝试调用总次数的比值。精确匹配(EM)对于每个函数调用,作者检查传递给函数的参数是否与图像内容信息中记录的参数完全匹配,计算此正确性比例。

如图5所示,Qwen2-VL在两种匹配类型(Type Match: 93.1对比90.2;Exact Match: 53.2对比50.0)下,与GPT-4o的性能对比,证明了Qwen2-VL在功能调用方面的有效性,从而强调了通过外部工具集成扩展其应用潜力的显著可能性。

评估结果表明,GPT-4o 表现不佳,主要归因于两个因素:在存在不确定性的场景中,GPT-4o 表现出保守的策略,避免使用外部工具。GPT-4o 的光学字符识别(OCR)能力被 Qwen2-VL 超越,尤其是在中文文字识别方面。

为了评估Qwen2-VL在处理复杂任务方面的总体能力,作者在多个VL Agent 任务上进行评估,包括移动操作,机器人控制,纸牌游戏,以及视觉语言导航。由于这些任务需要多个动作来完成任务,作者通过Qwen2-VL支持32K的历史(观察,动作),并在每次动作后附加新的观察图像,使Qwen2-VL能够连续推理后续步骤。

UI操作:作者使用AI Zoom任务评估Qwen2-VL。该任务从AITW构建了一个核心干净的测试集。根据手机的常见操作模式,作者为Qwen2-VL定义了与屏幕图标进行交互的动作,如点击、输入和滑动。例如,当Qwen2-VL被要求通过Google Maps找到附近的披萨餐厅时,它应在搜索词中输入“披萨”,滑动以选择适当的餐厅,并点击相应的链接。遵循AI Zoom设置,作者报告了类型匹配(点击、输入或滑动是否正确)和精确匹配(点击位置、输入文本或滑动方向是否正确)。在UI的定位支持下,Qwen2-VL超过了GPT-4和先前的最佳性能。

机器人控制:作者在AI2THOR中评估了Qwen2-VL在ALFRED任务上的表现。该任务要求智能体执行复杂的家居任务,如烤面包和切片苹果以准备一顿饭。为了在虚拟环境中工作,作者定义了高级动作集(GotoLocation, Pickup, PutDown, Open, Close, Clean, Heat, Cool, Slice)。此外,智能体需要定位目标进行操作(例如,只有在识别到苹果时才能拿起苹果)。为了提高操作的准确性,作者集成了SAM。ALFRED任务报告了任务成功率(SR)(例如准备晚餐)和子目标完成指标(GC)(例如面包是否烤熟或苹果是否切片)。Qwen2-VL在有效未见集上略胜于之前的专业模型ThinkBot。

牌类游戏:作者利用来自RL4VLM的牌类游戏环境来评估Qwen2-VL在一系列基于牌类的游戏中(数字线、黑杰克、EZPoint和Point24)的表现。每个游戏都具有独特的挑战:(1)使用+1或-1操作达到目标数字,(2)与庄家竞争,通过抽牌或持牌,(3)应用基本的算术运算达到总分12,(4)应用算术运算达到总分24。作者报告了这些任务的成功率。它们不仅评估了 Agent 的能力,而且需要强大的OCR技能来识别这些牌并理解游戏的发展。Qwen2-VL在所有任务上都表现出色。

视觉语言导航:作者在视觉语言导航(VLN)任务上评估Qwen2-VL,使用了R2R和REVERIE。在VLN中,模型必须根据指令和当前观察自主确定下一个位置。作者报告了VLM在这个任务上达到预定目标的成功率(SR)。Qwen2-VL的表现与GPT-4o相当,但两种模型都显著落后于当前专业的VLN模型。作者将这一差距归因于模型从多张图像中生成的不完整、无结构的地图信息。准确模拟地图和位置在3D环境中仍然是一个多模态模型面临的主要挑战。

3.3 Ablation Study

在本节中,作者进行了关于图像动态分辨率、M-RoPE和模型尺度的消融实验。这些实验旨在揭示这些关键组件对模型性能的影响。

3.3.1 Dynamic Resolution

如图7所示,作者比较了动态分辨率和固定分辨率的性能。对于固定分辨率,作者将图像重新缩放以确保输入到模型中的图像 Token 数量保持恒定,而不是按照特定的高度和宽度缩放,因为这样会使原始的宽高比失真。对于动态分辨率,只设置min_pixels和max_pixels,允许图像 Token 数量主要取决于图像的原始分辨率。可以观察到,调整图像大小只会导致性能的小幅扰动,表明模型对不同图像大小的鲁棒性。

此外,动态分辨率方法更有效。作者可以观察到,没有任何一个固定的分辨率能够在所有基准测试上实现最优性能。相反,动态分辨率方法能够在平均消耗较少的 Token 的同时,始终实现顶级性能。

此外,作者观察到仅增加图像大小并不总是导致性能提高。选择适当分辨率对于不同图像更为重要。如图4所示,作者将小图像上采样以超过指定的min_pixels阈值。上采样图像的评估表明,在感知任务(如InfoVQA,HallusionBench和OCRBench)上的性能得到提升。作者将这些提升归因于计算负载的增加。

然而,对于OCRBench,min_pixels值过高会导致性能急剧下降。这可能是因为OCRBench包含许多非常小的图像,而过度的放大导致这些图像偏离训练数据分布,从而使它们变成边缘样本。相比之下,min_pixels对MMMU基准的影响可以忽略不计。作者推测,MMMU基准上的性能 Bottleneck 可能更多地与模型的推理能力有关,而不仅仅是图像分辨率。

3.3.2 M-RoPE

在本小节中,作者展示了M-RoPE的有效性。首先,在各种下游任务上验证了M-RoPE的能力。作者使用Qwen2-1.5B和ViT-L作为 Backbone 模型,并报告了预训练模型的结果。

如表8所示,与1D-RoPE相比,使用M-RoPE在下游任务上取得了更好的性能,尤其是在视频基准测试中。此外,在Video-MME中评估了M-RoPE的长度外推能力。图5说明了Qwen2-VL-72B在不同推理长度下的性能。利用M-RoPE,模型在各种推理长度下都展示了稳健的结果。值得注意的是,尽管在训练期间限制了每个视频的最大 Token 数为16K,但模型在最大推理长度为80K Token 时仍表现出卓越的性能。

3.3.3 Model Scaling

作者评估了不同规模模型的性能,这些模型涵盖了多个能力维度。具体来说,作者将这些维度分为复杂大学水平问题解决、数学能力、文档和表格理解、通用场景问题回答以及视频理解。一个模型的总体能力通过计算与每个维度相关的不同基准测试的平均得分进行评估。

特别地,作者使用MMMU基准来表示大学 Level 的解决问题的能力,而MathVista和MathVision的平均分数作为数学能力的指标。对于一般情境下的问题回答,作者计算了RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet、MMStar基准的平均分数。文档和表格理解能力通过DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基准的平均分数来反映。最后,视频理解能力通过MVBench、Perception-Test、EgoSchema和Video-MME基准的平均分数来衡量。

在这里插入图片描述

如图6(a)所示,随着模型大小的增加,性能呈现出一致的改进,尤其是在数学能力方面,与模型参数的数量呈正相关。另一方面,对于光学字符识别(OCR)相关的任务,即使较小的模型也表现出相对较强的性能。

如图6(b)所示,在Qwen2-VL-7B的预训练的第二阶段中可视化了模型性能与训练 Token 数量之间的关系。随着训练 Token 数量的增长,模型性能得到改善;然而,在视觉问答(VQA)任务上的性能表现出一些波动。相比之下,对于涉及在图像中理解文本和图形信息的任务,如AI2D和InfoVQA来说,随着训练数据的增加,模型性能表现出稳定的改进。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐