魔搭社区模型速递（6.2-6.7）

魔搭ModelScope本期社区进展：1910个模型,183个数据集,47个创新应用,5 篇内容

魔搭ModelScope社区

240人浏览 · 2025-06-09 10:46:09

魔搭ModelScope社区 · 2025-06-09 10:46:09 发布

🙋魔搭ModelScope本期社区进展：

📟1910个模型：MiniCPM 4.0系列、Qwen3-Embedding、Qwen3-Reranker、BAGEL-7B-MoT 等；

📁183个数据集：VideoMathQA、AceReason-Math、svla_so101_pickplace等；

🎨47个创新应用：MagicColor、浏览器操作标注工具、RapidOCRv3.0.0等；

📄 5 篇内容：

面壁小钢炮MiniCPM 4.0开源，端侧推理常规提速5倍！
基于Qwen3的Embedding和Rerank模型系列，开源！
更丰富的视频创作能力，ModelScope AIGC专区更新！
“一丹一世界”三等奖 | 南柯一梦经验分享
字节Seed开源统一多模态理解和生成模型 BAGEL！

01.模型推荐

MiniCPM 4.0系列

面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型，通过其 CPM.cu 自研推理框架，可实现220倍极致的速度提升，5 倍常规提速。本次在开源社区核心推出 8B 和 0.5B 两个参数规模的版本，均在同级别模型对比中实现了最佳性能。

MiniCPM4系列通过系统性技术创新实现端侧大模型极致推理效率：采用InfLLM v2可训练稀疏注意力架构，在128K长文本处理中将词元关联计算量压缩至不足5%；结合BitCPM三值量化技术实现模型位宽90%压缩，配合FP8低精度计算与多词元预测策略显著降低训练成本；依托UltraClean数据清洗和UltraChat v2合成技术构建高质量多维训练集；推理端集成CPM.cu高效CUDA框架，融合稀疏注意力、模型量化与投机采样技术，并通过ArkInfer跨平台系统实现灵活部署。

模型合集：

https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

示例代码：

推荐使用CPM.cu对MiniCPM4进行推理。CPM.cu是OpenBMB开发的一个CUDA推理框架，集成了高效的稀疏、推测采样和量化技术，充分利用了MiniCPM4的效率优势。

可以通过运行以下命令来安装CPM.cu:

git clone https://github.com/OpenBMB/cpm.cu.git --recursive
cd cpm.cu
python3 setup.py install

MiniCPM4原生支持最长达到32,768 tokens的上下文长度。为了重现论文中的长文本加速效果，建议使用已经验证过的LongRoPE因子。通过修改config.json文件中的rope_scaling字段来启用LongRoPE


{
    ...,
    "rope_scaling": {
        "rope_type": "longrope", 
        "long_factor": [0.9977997200264581, 1.014658295992452, 1.0349680404997148, 1.059429246056193, 1.0888815016813513, 1.1243301355211495, 1.166977103606075, 1.2182568066927284, 1.2798772354275727, 1.3538666751582975, 1.4426259039919596, 1.5489853358570191, 1.6762658237220625, 1.8283407612492941, 2.0096956085876183, 2.225478927469756, 2.481536379650452, 2.784415934557119, 3.1413289096347365, 3.560047844772632, 4.048719380066383, 4.752651957515948, 5.590913044973868, 6.584005926629993, 7.7532214876576155, 9.119754865903639, 10.704443927019176, 12.524994176518703, 14.59739595363613, 16.93214476166354, 19.53823297353041, 22.417131025031697, 25.568260840911098, 28.991144156566317, 32.68408069090375, 36.65174474170465, 40.90396065611201, 45.4664008671033, 50.37147343433591, 55.6804490772103, 61.470816952306556, 67.8622707390618, 75.00516023410414, 83.11898235973767, 92.50044360202462, 103.57086856690864, 116.9492274587385, 118.16074567836519, 119.18497548708795, 120.04810876261652, 120.77352815196981, 121.38182790207875, 121.89094985353891, 122.31638758099915, 122.6714244963338, 122.9673822552567, 123.21386397019609, 123.41898278254268, 123.58957065488238, 123.73136519024158, 123.84917421274221, 123.94701903496814, 124.02825801299717, 124.09569231686116],
        "short_factor": [0.9977997200264581, 1.014658295992452, 1.0349680404997148, 1.059429246056193, 1.0888815016813513, 1.1243301355211495, 1.166977103606075, 1.2182568066927284, 1.2798772354275727, 1.3538666751582975, 1.4426259039919596, 1.5489853358570191, 1.6762658237220625, 1.8283407612492941, 2.0096956085876183, 2.225478927469756, 2.481536379650452, 2.784415934557119, 3.1413289096347365, 3.560047844772632, 4.048719380066383, 4.752651957515948, 5.590913044973868, 6.584005926629993, 7.7532214876576155, 9.119754865903639, 10.704443927019176, 12.524994176518703, 14.59739595363613, 16.93214476166354, 19.53823297353041, 22.417131025031697, 25.568260840911098, 28.991144156566317, 32.68408069090375, 36.65174474170465, 40.90396065611201, 45.4664008671033, 50.37147343433591, 55.6804490772103, 61.470816952306556, 67.8622707390618, 75.00516023410414, 83.11898235973767, 92.50044360202462, 103.57086856690864, 116.9492274587385, 118.16074567836519, 119.18497548708795, 120.04810876261652, 120.77352815196981, 121.38182790207875, 121.89094985353891, 122.31638758099915, 122.6714244963338, 122.9673822552567, 123.21386397019609, 123.41898278254268, 123.58957065488238, 123.73136519024158, 123.84917421274221, 123.94701903496814, 124.02825801299717, 124.09569231686116],
        "original_max_position_embeddings": 32768
    }
}

修改后，你可以运行以下命令来重现长上下文加速效果

python3 tests/test_generate.py

有关CPM.cu的更多详细信息，请参阅 CPM.cu仓库(https://github.com/OpenBMB/cpm.cu).

更多推理、微调实战教程详见：

面壁小钢炮MiniCPM 4.0开源，端侧推理常规提速5倍！

Qwen3-Embedding、Qwen3-Reranker系列

阿里巴巴通义实验室正式发布Qwen3-Embedding系列模型, Qwen模型家族的新成员。该系列模型专为文本表征、检索与排序任务设计，基于Qwen3基础模型进行训练，充分继承了Qwen3在多语言文本理解能力方面的优势。

基于Qwen3基础模型，Embedding模型和Reranker模型分别采用了双塔结构和单塔结构的设计。通过LoRA微调，最大限度地保留并继承了基础模型的文本理解能力。

模型链接：

Qwen3-Embedding

https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

Qwen3-Reranker

https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

示例代码：

使用modelscope推理

import torch
import torch.nn.functional as F
from torch import Tensor
from modelscope import AutoTokenizer, AutoModel
def last_token_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    left_padding = (attention_mask[:, -1].sum() == attention_mask.shape[0])
    if left_padding:
        return last_hidden_states[:, -1]
    else:
        sequence_lengths = attention_mask.sum(dim=1) - 1
        batch_size = last_hidden_states.shape[0]
        return last_hidden_states[torch.arange(batch_size, device=last_hidden_states.device), sequence_lengths]
def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery:{query}'
def tokenize(tokenizer, input_texts, eod_id, max_length):
    batch_dict = tokenizer(input_texts, padding=False, truncation=True, max_length=max_length-2)
    for seq, att in zip(batch_dict["input_ids"], batch_dict["attention_mask"]):
        seq.append(eod_id)
        att.append(1)
    batch_dict = tokenizer.pad(batch_dict, padding=True, return_tensors="pt")
    return batch_dict
# Each query must come with a one-sentence instruction that describes the task
task = 'Given a web search query, retrieve relevant passages that answer the query'
queries = [
    get_detailed_instruct(task, 'What is the capital of China?'),
    get_detailed_instruct(task, 'Explain gravity')
]
# No need to add instruction for retrieval documents
documents = [
    "The capital of China is Beijing.",
    "Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun."
]
input_texts = queries + documents
tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen3-Embedding-8B', padding_side='left')
model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B')
# We recommend enabling flash_attention_2 for better acceleration and memory saving.
# model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B', attn_implementation="flash_attention_2", torch_dtype=torch.float16).cuda()
eod_id = tokenizer.convert_tokens_to_ids("<|endoftext|>")
max_length = 8192
# Tokenize the input texts
batch_dict = tokenize(tokenizer, input_texts, eod_id, max_length)
batch_dict.to(model.device)
outputs = model(**batch_dict)
embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
# normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T)
print(scores.tolist())

使用ollama推理

ollama pull modelscope.cn/Qwen/Qwen3-Embedding-0.6B-GGUF

查看运行结果


curl http://localhost:11434/api/embed -d '{
  "model": "modelscope.cn/Qwen/Qwen3-Embedding-0.6B-GGUF:latest",
  "input": "Hello, World!"
}'

更多推理、微调详见教程：

基于Qwen3的Embedding和Rerank模型系列，开源！

BAGEL-7B-MoT

字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型，具有70亿个激活参数（总共140亿个），并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs，如Qwen2.5-VL和InternVL-2.5，并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。

模型地址：

https://modelscope.cn/models/ByteDance-Seed/BAGEL-7B-MoT

示例代码：

1. 下载代码仓库，并安装依赖

git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
pip install -r requirements.txt

2. 下载模型

modelscope download ByteDance-Seed/BAGEL-7B-MoT --local_dir ./models/BAGEL-7B-MoT/

3. 开启WebUI

pip install gradio
python app.py

更多技术详解文章：

字节Seed开源统一多模态理解和生成模型 BAGEL！

02.数据集推荐

VideoMathQA

VideoMathQA 是一个旨在评估现实教育视频中数学推理能力的基准测试。它要求模型解释并整合来自三种模态（视觉、音频和文本）的信息，并且这些信息是随着时间变化的。该基准测试解决了多模态干草堆中的针问题，其中关键信息稀少且分布在不同的模态和视频的不同时间点。

数据集链接：

https://modelscope.cn/datasets/MBZUAI/VideoMathQA

AceReason-Math

AceReason-Nemotron-14B是一个通过强化学习训练的数学和代码推理模型，基于DeepSeek-R1-Distilled-Qwen-14B。它在AIME 2024、2025和LiveCodeBench v5、v6等基准测试中表现优异，显著提升了数学和代码推理性能。

数据集链接：

https://modelscope.cn/datasets/nv-community/AceReason-Math

svla_so101_pickplace

这是一个由LeRobot创建的机器人操作数据集，包含50个episode，11939帧，1个任务，100个视频，数据集结构详细记录了动作、状态、图像等信息，采用Apache-2.0许可。

数据集链接：

https://modelscope.cn/datasets/lerobot/svla_so101_pickplace

03.创空间

MagicColor

MagicColor 是一个基于扩散模型的多实例草图上色框架，能够通过一键式流程实现精准且自然的色彩填充，适用于动漫草图着色等场景。

体验链接：

https://modelscope.cn/studios/zhdddd/MagicColor

浏览器操作标注工具

该工具是一款基于网络的通用注释工具，适用于多种语言标注任务，包括形态学、句法等多个层面的标注。

体验链接：

https://modelscope.cn/studios/kongquyu/browser-use-annotator

RapidOCRv3.0.0

RapidOCR v3.0.0 是一个基于 PP-OCRv5 模型的高性能多平台 OCR 工具，支持多语言识别和离线部署，适用于各类图像文字提取场景。

体验链接：

https://modelscope.cn/studios/RapidAI/RapidOCRv3.0.0

04.社区精选文章

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

Jina Embeddings V4: 为搜索而生，多模态多语言向量模型

ModelScope魔搭社区

智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking，引入思考范式，性能提升8倍

ModelScope魔搭社区

AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献663条内容