Kimi开源MoE架构多模态推理模型，小激活参数，大能量！

最近Moonshot AI推出了 Kimi-VL，这是一个高效的开源混合专家（MoE）视觉-语言模型（VLM），它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言

魔搭ModelScope社区

208人浏览 · 2025-04-14 13:32:08

魔搭ModelScope社区 · 2025-04-14 13:32:08 发布

引言

最近Moonshot AI推出了 Kimi-VL，这是一个高效的开源混合专家（MoE）视觉-语言模型（VLM），它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数（Kimi-VL-A3B）。

课代表敲黑板，Kimi-VL 在多个具有挑战性的领域中表现出色：

作为一个通用的 VLM，Kimi-VL 在多轮次代理交互任务（例如，OSWorld）上表现出色，达到了与旗舰模型相当的最先进结果。
它在多种多样且具有挑战性的视觉语言任务中展示了非凡的能力，包括大学水平的图像和视频理解、光学字符识别 (OCR)、数学推理、多图像理解等。
在对比评估中，它有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLM 竞争，并在几个专业领域超越了 GPT-4o。
模型配备了一个 128K 的扩展上下文窗口，Kimi-VL 可以处理长而多样化的输入，在 LongVideoBench 上得分为 64.5，在 MMLongBench-Doc 上得分为 35.1；
其原生分辨率视觉编码器 MoonViT 进一步使其能够看到并理解超高分辨率的视觉输入，在 InfoVQA 上得分为 83.2，在 ScreenSpot-Pro 上得分为 34.5，同时在处理常见的视觉输入和一般任务时保持较低的计算成本。

基于这一基础，Moonshot同时推出了：Kimi-VL-Thinking。通过长链思维（CoT）监督微调（SFT）和强化学习（RL）开发，该模型展现出强大的长期推理能力。它在 MMMU 上得分 61.7，在 MathVision 上得分 36.8，在 MathVista 上得分 71.3，同时保持紧凑的 2.8B 激活 LLM 参数量，为高效且能力强的多模态思考模型树立了新标准。

模型架构

该模型采用 MoE 语言模型、原生分辨率视觉编码器（MoonViT）和 MLP 投影仪，如下图所示。

模型列表

对于一般的多模态感知和理解、OCR、长视频和长文档、视频感知以及代理用途，推荐使用 Kimi-VL-A3B-Instruct 以实现高效的推理；对于高级文本和多模态推理（例如数学），请考虑使用 Kimi-VL-A3B-Thinking。

模型	总参数数	激活参数数	上下文长度	下载链接
Kimi-VL-A3B-Instruct	16B	3B	128K	https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Instruct
Kimi-VL-A3B-Thinking	16B	3B	128K	https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Thinking

模型性能

凭借有效的长思考能力，Kimi-VL-A3B-Thinking 在 MathVision 基准测试中的表现可以与 30B/70B 的前沿开源 VLMs 相媲美：

模型推理

使用 transformers 库使用Thinking模型。

from PIL import Image
from modelscope import AutoModelForCausalLM, AutoProcessor

model_path = "moonshotai/Kimi-VL-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

image_paths = ["./figures/demo1.png", "./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image_path} for image_path in image_paths
        ] + [{"type": "text", "text": "Please infer step by step who this manuscript belongs to and what it records"}],
    },
]
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=2048)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(response)