Monkey:多模态图像文本任务模型
这篇论文提出了一种高效的训练方法,可以在不从头开始预训练的情况下,将输入分辨率有效提高到1334×896像素。通过引入多级描述生成方法,Monkey能够自动提供丰富的信息,指导模型学习场景和对象之间的上下关联。这两种设计的协同作用使得Monkey在多个基准测试中取得了优异的结果。与各种LMMs(包括GPT4V)相比,Monkey在图像字幕生成任务中通过关注文本信息和捕捉图像内的细节表现出色;其提高
·
论文地址:Monkey: Image Resolution and Text Label Are Important Things for Large
Multi-modal Models
项目地址:https://github.com/Yuliang-Liu/Monkey
本文是对Monkey: Image Resolution and Text Label Are Important Things for Large
Multi-modal Models这篇论文的翻译与总结。
简介
这篇论文提出了一种高效的训练方法,可以在不从头开始预训练的情况下,将输入分辨率有效提高到1334×896像素。通过引入多级描述生成方法,Monkey能够自动提供丰富的信息,指导模型学习场景和对象之间的上下关联。这两种设计的协同作用使得Monkey在多个基准测试中取得了优异的结果。与各种LMMs(包括GPT4V)相比,Monkey在图像字幕生成任务中通过关注文本信息和捕捉图像内的细节表现出色;其提高的输入分辨率也使其在处理密集文本的文档图像方面表现出色。
优势与创新
- 提高输入分辨率:Monkey能够在不需要预训练的情况下,支持高达1344x896的分辨率,从而更好地识别和理解小物体或密集文本。
- 多级描述生成方法:引入了一种自动生成多级描述的方法,通过无缝结合多个生成器的见解,生成高质量、丰富的字幕数据。
- 性能提升:在18个数据集上的实验表明,Monkey在图像字幕生成、一般视觉问答、场景文本为中心的视觉问答和文档导向的视觉问答等任务上表现优异。
- 与现有模型的比较:在与GPT4V的定性测试中,Monkey在密集文本问答任务上展示了令人鼓舞的结果。
- 资源高效:通过将高分辨率图像分割成较小的局部区域,并使用静态视觉编码器进行处理,Monkey在避免大量参数和计算需求的情况下提高了分辨率。
研究背景
- 研究问题:这篇文章要解决的问题是大型多模态模型(LMMs)在高分辨率输入和复杂场景理解方面的挑战。具体来说,现有的LMMs在处理高分辨率图像和详细场景理解时表现不佳。
- 研究难点:该问题的研究难点包括:处理高分辨率图像所需的计算资源巨大;现有数据集中的文本标签通常过于简单,无法有效捕捉图像中的细节信息。
- 相关工作:该问题的研究相关工作包括Flamingo、OpenFlamingo、BLIP2、Unified-IO、PaLM-E、MiniGPT4、InstructBLIP、MME等方法。这些方法在视觉表示、图像-文本理解等方面取得了一定的进展,但在处理更高分辨率图像和复杂场景理解方面仍存在不足。
研究方法
- 图像分辨率提升:首先,Monkey通过将输入图像分割成均匀的补丁来处理高分辨率图像。每个补丁的大小与原始训练中使用的视觉编码器的大小相匹配(例如448x448)。每个补丁都配备了一个独立的适配器,Monkey可以处理高达1344x896像素的分辨率,从而实现对复杂视觉信息的详细捕捉。为了有效识别和融合细节敏感的特征,Monkey在每个补丁上应用了LoRA调整和一个可训练的视觉重采样器。
- 多级描述生成:其次,Monkey采用了一种多级描述生成方法,以丰富场景-对象关联的上下文。该方法通过无缝结合多个生成器的见解来生成高质量、丰富的标题数据。具体来说,Monkey利用了BLIP2、PPOCR、GRIT、SAM和ChatGPT等系统的独特能力,分别进行整体标题生成、光学字符识别、区域到文本的详细描述、语义对齐和上下文语言生成。
实验设计
- 数据集:Monkey的训练数据完全来自公开可用的数据集,包括详细的标题数据和其他常见的数据集,如COCO标题、TextCaps、VQAV2、OKVQA、GQA、ScienceQA、VizWiz、TextVQA、OCRVQA、AI2D、DocVQA、ChartQA、InfoVQA、DeepForm、KLC、WTQ、TabFact和VisualMRC。
- 模型配置:实验基于预训练的Vit-BigG和Qwen-VL的LLM进行。在指令调优阶段,Hv和Wv设置为448以匹配Qwen-VL的编码器。所有补丁使用一致的重采样器处理。可学习的查询与局部特征一起使用相同的256个可学习查询进行处理。
- 训练过程:在训练过程中,使用AdamW优化器,学习率为1e-5,余弦学习率调度。β1和β2的值分别设置为0.9和0.95。训练过程包括100步的预热期和1024的批量大小。为了控制过拟合,应用了0.1的权重衰减。整个训练过程大约需要40个A800天。
结构分析
- 图像字幕生成:在Flickr30K和TextCaps数据集上的实验结果表明,Monkey在这些数据集上展示了增强的性能。与Qwen-VL-Chat和LLaVA1.5相比,Monkey在生成详细图像描述方面表现出色。
- 一般视觉问答(VQA):在五个基准数据集(VQAV2、OKVQA、GQA、ScienceQA和VizWiz)上的实验结果显示,Monkey在这些数据集上展示了显著的技能,平均超越最近竞争对手1.62%。
- 场景文本为中心的VQA:在四个数据集(TextVQA、AI2D、STVQA和ESTVQA)上的实验结果表明,Monkey在这些数据集上领先于最近的竞争对手,平均超越4.37%。这主要是由于增加的图像分辨率带来了更小的文本和更细的细节。
- 文档导向的VQA:在六个代表性基准数据集(DocVQA、ChartQA、InfographicVQA、DeepForm、KLC和WTQ)上的实验结果显示,Monkey在大多数文档导向的VQA任务中超越了Qwen-VL,平均提升了9.77%。
更多推荐
已为社区贡献1条内容
所有评论(0)