魔搭社区模型速递（2.16-3.1）

魔搭ModelScope本期社区进展：2621个模型，Ovis2系列模型等，276个数据集，203个创新应用， 12篇技术内容

魔搭ModelScope社区

303人浏览 · 2025-03-03 13:20:56

魔搭ModelScope社区 · 2025-03-03 13:20:56 发布

🙋魔搭ModelScope本期社区进展：

📟2621个模型：通义万相Wan2.1、Step- Video-t2v系列、Step-Audio系列、Moonlight-16B-A3B、TinyR1-32B-Preview、Ovis2系列模型等；

📁276个数据集：中文基于满血DeepSeek-R1蒸馏数据集、自我认知微调数据集(COT)、NL2SQL思维链数据集等；

🎨203个创新应用：通义万相Wan2.1视频生成、InspireMusic音乐生成模型、Step-Audio-TTS-3B、olmOCR PDF高精准文本提取等；

📄 12篇技术内容：

人人都是应用开发者：AI时代的全栈产品经理实践
HumanOmni：首个专注人类中心场景的多模态大模型，视觉与听觉融合的突破！
无需微调！扩散模型新突破：Attentive Eraser高效稳定移除目标物体
强强联合，开源中文DeepSeek-R1蒸馏数据集联合魔搭社区，一起来训练中文版推理模型！
英特尔显卡+魔搭社区，一行命令快速部署本地大模型
通义万相Wan2.1视频模型开源！视频生成模型新标杆，支持中文字效+高质量视频生成
Kimi开源Moonlight-16B-A3B：基于Muon优化器的高效大模型，性能与训练效率双突破！
PromptScope: 一个灵活高效的In-Context Training框架
阿里国际Ovis2系列模型开源：多模态大语言模型的新突破
SPO来袭：Prompt工程师90%不存在了？AI自动优化时代开启！
王炸组合，阶跃星辰SOTA模型Step-Video和Step-Audio模型开源
ModelScope魔搭25年2月版本发布月报

01.精选模型

通义万相Wan2.1系列

通义万相Wan2.1是阿里通义实验室开源的视频生成模型，包括14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，实现了性能与易用性的双重突破：

SOTA 性能：Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
支持消费级 GPU：T2V-1.3B 型号仅需 8.19 GB VRAM，可兼容几乎所有消费级 GPU。它可在约 4 分钟内（未使用量化等优化技术）在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。
多项任务：Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色，推动了视频生成领域的发展。
视觉文本生成：Wan2.1是第一个能够生成中英文文本的视频模型，具有强大的文本生成功能，可增强其实际应用。
强大的视频 VAE：Wan-VAE提供卓越的效率和性能，可对任意长度的 1080P 视频进行编码和解码，同时保留时间信息，使其成为视频和图像生成的理想基础。

模型链接：

通义万相2.1-文生视频-1.3B

https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B

通义万相2.1-文生视频-14B

https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-14B

通义万相2.1-图生视频-14B-720P

https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-720P

通义万相2.1-图生视频-14B-480P

https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-480P

示例代码：

使用DiffSynth-Studio进行Wan2.1系列模型推理

安装

通过以下命令可下载并安装 DiffSynth-Studio：

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

模型下载

modelscope download --model Wan-AI/Wan2.1-T2V-1.3B --local_dir ./models/Wan-AI/Wan2.1-T2V-1.3B
modelscope download --model Wan-AI/Wan2.1-T2V-14B --local_dir ./models/Wan-AI/Wan2.1-T2V-14B
modelscope download --model Wan-AI/Wan2.1-I2V-14B-480P --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-480P
modelscope download --model Wan-AI/Wan2.1-I2V-14B-720P --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-720P

<1.3B 模型>

运行 1.3B 文生视频模型的代码（提示词等参数可在代码文件中进行修改）：

python examples/wanvideo/wan_1.3b_text_to_video.py

1.3B 模型需要 6G 显存即可运行。

<14B 模型>

运行 14B 文生视频和图生视频模型的代码：

python examples/wanvideo/wan_14b_text_to_video.py
python examples/wanvideo/wan_14b_image_to_video.py

Moonlight-16B-A3B

月之暗面团队基于Muon训练了Moonlight-16B-A3B系列模型并开源发布。Moonlight-16B-A3B是一个具备16B参数（激活参数为3B）的专家混合(MoE)模型，使用5.7T个token数据训练得到，该模型模型改进了当前的帕累托前沿，与之前的模型相比，使用更少的训练FLOPs就能实现更好的性能。

模型链接：

Moonlight-16B-A3B

https://www.modelscope.cn/models/moonshotai/Moonlight-16B-A3B

Moonlight-16B-A3B-Instruct

https://www.modelscope.cn/models/moonshotai/Moonlight-16B-A3B-Instruct

示例代码：

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

prompt = "1+1=2, 1+2="
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

更多关于Muon优化器微调实战教程，详见：

Kimi开源Moonlight-16B-A3B：基于Muon优化器的高效大模型，性能与训练效率双突破！

Step-Video-T2V系列

Step-Video-T2V系列是由阶跃星辰开源的SoTA文本转视频预训练模型，是目前全球参数量最大的视频生成大模型，具有 300 亿个参数，能够生成高达204帧、540P分辨率的高质量视频，具备复杂运动控制能力，可实现精细的动态表现。

Step-Video-T2V采用高压缩Video-VAE实现16x16空间和8x时间压缩，通过双语文本编码器支持中英输入。模型基于3D全注意力DiT扩散架构，使用Flow Matching训练，将噪声转化为潜在帧，以文本嵌入和时间步为条件。结合视频优化的DPO技术，显著减少伪影，提升视频流畅性与真实感，生成高质量、长时序的多语言适配视频内容。

模型链接：

stepvideo-t2v

https://www.modelscope.cn/models/stepfun-ai/stepvideo-t2v

stepvideo-t2v-turbo

https://www.modelscope.cn/models/stepfun-ai/stepvideo-t2v-turbo

示例代码：

单卡体验

使用DiffSynth-Studio工具在 80G 显存的单卡 A100 上进行推理

下载并安装 DiffSynth-Studio：

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

运行 Step-Video-T2V 模型：

python examples/stepvideo/stepvideo_text_to_video.py

提示词、帧数等参数可在样例代码 stepvideo_text_to_video.py中进行修改。

代码链接：https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/stepvideo/stepvideo_text_to_video.py

Step-Audio系列

Step-Audio系列是由阶跃星辰开源的业界首个产品级语音交互模型，支持多语言（如中文、英文、日语）、情感表达（如开心、悲伤）、方言（如粤语、四川话）以及语速、韵律和唱歌（包括RAP、哼唱）的精准控制，核心技术包括：

1300亿多模态模型实现语音识别、语义理解、对话生成等功能
高效数据生成链路通过130B模型生成高质量合成音频数据
精细语音控制支持多种情绪、方言和声乐风格的细粒度调节
扩展工具调用结合RLHF和ToolCall机制提升复杂任务表现

采用双码本编码器方案和混合语音解码器，确保语音清晰度与自然度，后训练阶段通过SFT和RLHF优化情感、语速等控制能力，在主流测试集中性能领先，尤其在HSK-6评测中表现突出，被称为“最懂中国话”的开源语音交互模型。

模型链接：

Step-Audio-Chat

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-Chat

Step-Audio-Tokenizer

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-Tokenizer

Step-Audio-TTS-3B

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-TTS-3B

示例代码：

安装依赖：

git clone https://github.com/stepfun-ai/Step-Audio.git
conda create -n stepaudio python=3.10
conda activate stepaudio

cd Step-Audio
pip install -r requirements.txt

推理代码如下，你需要在`Step-Audio`目录下运行代码：

import os
import torchaudio
import argparse
from stepaudio import StepAudio
from modelscope import snapshot_download
os.makedirs('output', exist_ok=True)

tokenizer_path = snapshot_download('stepfun-ai/Step-Audio-Tokenizer')
tts_path = snapshot_download('stepfun-ai/Step-Audio-TTS-3B')
model_path = snapshot_download('stepfun-ai/Step-Audio-Chat')

model = StepAudio(
    tokenizer_path=tokenizer_path,
    tts_path=tts_path,
    llm_path=model_path,
)

# example for text input
text, audio, sr = model(
    [{"role": "user", "content": "你好，我是你的朋友，我叫小明，你叫什么名字？"}],
    "闫雨婷",
)
print(text)
torchaudio.save("output/output_e2e_tqta.wav", audio, sr)

# example for audio input
text, audio, sr = model(
    [
        {
            "role": "user",
            "content": {"type": "audio", "audio": "output/output_e2e_tqta.wav"},
        }
    ],
    "闫雨婷",
)
print(text)
torchaudio.save("output/output_e2e_aqta.wav", audio, sr)

显存资源占用：4 * 65GiB

Ovis2系列模型

Ovis2是阿里巴巴国际化团队推出的新型多模态大模型架构，通过结构化对齐视觉和文本嵌入，解决了模态间嵌入策略差异的问题。相较于前序版本，Ovis2在数据构造与训练方法上显著改进，强化了小规模模型的能力密度，并通过指令微调和偏好学习提升了思维链(CoT)推理能力。其新增视频、多图像处理能力，增强多语言支持与复杂场景OCR能力，实用性大幅提升。

Ovis2开源六个版本(1B至34B)，各尺寸均达SOTA水平，其中Ovis2-34B在OpenCompass评测中表现卓越，以不到一半参数量超越多个70B级开源模型。模型架构由三个关键组件构成：视觉tokenizer将图像分割并转化为概率化视觉token；视觉嵌入表存储视觉单词嵌入向量并通过加权平均生成嵌入表示；LLM将视觉与文本嵌入拼接处理，完成多模态任务。Ovis2具备高性能、多任务支持和广泛适用性，为多模态领域带来重要突破。

模型链接：

Ovis2-1B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-1B

Ovis2-2B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-2B

Ovis2-4B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-4B

Ovis2-8B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-8B

Ovis2-16B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-16B

Ovis2-34B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-34B

示例代码

安装依赖

!pip install flash-attn==2.7.0.post2 --no-build-isolation

推理代码

import torch
from PIL import Image
from modelscope import AutoModelForCausalLM

# load model
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Ovis2-4B",
                                             torch_dtype=torch.bfloat16,
                                             multimodal_max_length=32768,
                                             trust_remote_code=True).cuda()
text_tokenizer = model.get_text_tokenizer()
visual_tokenizer = model.get_visual_tokenizer()

# single-image input
image_path = './data/example.jpg'
images = [Image.open(image_path)]
max_partition = 9
text = 'Describe the image.'
query = f'<image>\n{text}'

## cot-style input
# cot_suffix = "Provide a step-by-step solution to the problem, and conclude with 'the answer is' followed by the final solution."
# image_path = '/data/images/example_1.jpg'
# images = [Image.open(image_path)]
# max_partition = 9
# text = "What's the area of the shape?"
# query = f'<image>\n{text}\n{cot_suffix}'

## multiple-images input
# image_paths = [
#     '/data/images/example_1.jpg',
#     '/data/images/example_2.jpg',
#     '/data/images/example_3.jpg'
# ]
# images = [Image.open(image_path) for image_path in image_paths]
# max_partition = 4
# text = 'Describe each image.'
# query = '\n'.join([f'Image {i+1}: <image>' for i in range(len(images))]) + '\n' + text

## video input (require `pip install moviepy==1.0.3`)
# from moviepy.editor import VideoFileClip
# video_path = '/data/videos/example_1.mp4'
# num_frames = 12
# max_partition = 1
# text = 'Describe the video.'
# with VideoFileClip(video_path) as clip:
#     total_frames = int(clip.fps * clip.duration)
#     if total_frames <= num_frames:
#         sampled_indices = range(total_frames)
#     else:
#         stride = total_frames / num_frames
#         sampled_indices = [min(total_frames - 1, int((stride * i + stride * (i + 1)) / 2)) for i in range(num_frames)]
#     frames = [clip.get_frame(index / clip.fps) for index in sampled_indices]
#     frames = [Image.fromarray(frame, mode='RGB') for frame in frames]
# images = frames
# query = '\n'.join(['<image>'] * len(images)) + '\n' + text

## text-only input
# images = []
# max_partition = None
# text = 'Hello'
# query = text

# format conversation
prompt, input_ids, pixel_values = model.preprocess_inputs(query, images, max_partition=max_partition)
attention_mask = torch.ne(input_ids, text_tokenizer.pad_token_id)
input_ids = input_ids.unsqueeze(0).to(device=model.device)
attention_mask = attention_mask.unsqueeze(0).to(device=model.device)
if pixel_values is not None:
    pixel_values = pixel_values.to(dtype=visual_tokenizer.dtype, device=visual_tokenizer.device)
pixel_values = [pixel_values]

# generate output
with torch.inference_mode():
    gen_kwargs = dict(
        max_new_tokens=1024,
        do_sample=False,
        top_p=None,
        top_k=None,
        temperature=None,
        repetition_penalty=None,
        eos_token_id=model.generation_config.eos_token_id,
        pad_token_id=text_tokenizer.pad_token_id,
        use_cache=True
    )
    output_ids = model.generate(input_ids, pixel_values=pixel_values, attention_mask=attention_mask, **gen_kwargs)[0]
    output = text_tokenizer.decode(output_ids, skip_special_tokens=True)
    print(f'Output:\n{output}')