🙋魔搭ModelScope本期社区进展:

📟2621个模型:通义万相Wan2.1、Step- Video-t2v系列、Step-Audio系列、Moonlight-16B-A3B、TinyR1-32B-Preview、Ovis2系列模型等;

📁276个数据集:中文基于满血DeepSeek-R1蒸馏数据集、自我认知微调数据集(COT)、NL2SQL思维链数据集等;

🎨203个创新应用:通义万相Wan2.1视频生成、InspireMusic音乐生成模型、Step-Audio-TTS-3B、olmOCR PDF高精准文本提取等;

📄 12篇技术内容:

  • 人人都是应用开发者:AI时代的全栈产品经理实践

  • HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!

  • 无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

  • 强强联合,开源中文DeepSeek-R1蒸馏数据集联合魔搭社区,一起来训练中文版推理模型!

  • 英特尔显卡+魔搭社区,一行命令快速部署本地大模型

  • 通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成

  • Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与训练效率双突破!

  • PromptScope: 一个灵活高效的In-Context Training框架

  • 阿里国际Ovis2系列模型开源:多模态大语言模型的新突破

  • SPO来袭:Prompt工程师90%不存在了?AI自动优化时代开启!

  • 王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

  • ModelScope魔搭25年2月版本发布月报

01.精选模型

通义万相Wan2.1系列

通义万相Wan2.1是阿里通义实验室开源的视频生成模型,包括14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,实现了性能与易用性的双重突破:

  • SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。

  • 支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。

  • 多项任务:Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。

  • 视觉文本生成:Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。

  • 强大的视频 VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。

模型链接:

通义万相2.1-文生视频-1.3B

https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B

通义万相2.1-文生视频-14B

https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-14B

通义万相2.1-图生视频-14B-720P

https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-720P

通义万相2.1-图生视频-14B-480P

https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-480P

示例代码:

使用DiffSynth-Studio进行Wan2.1系列模型推理

安装

通过以下命令可下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

模型下载

modelscope download --model Wan-AI/Wan2.1-T2V-1.3B --local_dir ./models/Wan-AI/Wan2.1-T2V-1.3B
modelscope download --model Wan-AI/Wan2.1-T2V-14B --local_dir ./models/Wan-AI/Wan2.1-T2V-14B
modelscope download --model Wan-AI/Wan2.1-I2V-14B-480P --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-480P
modelscope download --model Wan-AI/Wan2.1-I2V-14B-720P --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-720P

<1.3B 模型>

运行 1.3B 文生视频模型的代码(提示词等参数可在代码文件中进行修改):

python examples/wanvideo/wan_1.3b_text_to_video.py

1.3B 模型需要 6G 显存即可运行。

<14B 模型>

运行 14B 文生视频和图生视频模型的代码:

python examples/wanvideo/wan_14b_text_to_video.py
python examples/wanvideo/wan_14b_image_to_video.py

更多模型玩法详见:

通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成

Moonlight-16B-A3B

月之暗面团队基于Muon训练了Moonlight-16B-A3B系列模型并开源发布。Moonlight-16B-A3B是一个具备16B参数(激活参数为3B)的专家混合(MoE)模型,使用5.7T个token数据训练得到,该模型模型改进了当前的帕累托前沿,与之前的模型相比,使用更少的训练FLOPs就能实现更好的性能。

模型链接:

Moonlight-16B-A3B

https://www.modelscope.cn/models/moonshotai/Moonlight-16B-A3B

Moonlight-16B-A3B-Instruct

https://www.modelscope.cn/models/moonshotai/Moonlight-16B-A3B-Instruct

示例代码:

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

prompt = "1+1=2, 1+2="
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

更多关于Muon优化器微调实战教程,详见:

Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与训练效率双突破!

Step-Video-T2V系列

Step-Video-T2V系列是由阶跃星辰开源的SoTA文本转视频预训练模型,是目前全球参数量最大的视频生成大模型,具有 300 亿个参数,能够生成高达204帧、540P分辨率的高质量视频,具备复杂运动控制能力,可实现精细的动态表现。

Step-Video-T2V采用高压缩Video-VAE实现16x16空间和8x时间压缩,通过双语文本编码器支持中英输入。模型基于3D全注意力DiT扩散架构,使用Flow Matching训练,将噪声转化为潜在帧,以文本嵌入和时间步为条件。结合视频优化的DPO技术,显著减少伪影,提升视频流畅性与真实感,生成高质量、长时序的多语言适配视频内容。

模型链接:

stepvideo-t2v

https://www.modelscope.cn/models/stepfun-ai/stepvideo-t2v

stepvideo-t2v-turbo

https://www.modelscope.cn/models/stepfun-ai/stepvideo-t2v-turbo

示例代码:

单卡体验

使用DiffSynth-Studio工具在 80G 显存的单卡 A100 上进行推理

下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

运行 Step-Video-T2V 模型:

python examples/stepvideo/stepvideo_text_to_video.py

提示词、帧数等参数可在样例代码 stepvideo_text_to_video.py中进行修改。

代码链接:https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/stepvideo/stepvideo_text_to_video.py

更多玩法详见:

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

Step-Audio系列

Step-Audio系列是由阶跃星辰开源的业界首个产品级语音交互模型,支持多语言(如中文、英文、日语)、情感表达(如开心、悲伤)、方言(如粤语、四川话)以及语速、韵律和唱歌(包括RAP、哼唱)的精准控制,核心技术包括:

  • 1300亿多模态模型 实现语音识别、语义理解、对话生成等功能

  • 高效数据生成链路 通过130B模型生成高质量合成音频数据

  • 精细语音控制 支持多种情绪、方言和声乐风格的细粒度调节

  • 扩展工具调用 结合RLHF和ToolCall机制提升复杂任务表现

采用双码本编码器方案和混合语音解码器,确保语音清晰度与自然度,后训练阶段通过SFT和RLHF优化情感、语速等控制能力,在主流测试集中性能领先,尤其在HSK-6评测中表现突出,被称为“最懂中国话”的开源语音交互模型。

模型链接:

Step-Audio-Chat

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-Chat

Step-Audio-Tokenizer

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-Tokenizer

Step-Audio-TTS-3B

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-TTS-3B

示例代码:

安装依赖:

git clone https://github.com/stepfun-ai/Step-Audio.git
conda create -n stepaudio python=3.10
conda activate stepaudio

cd Step-Audio
pip install -r requirements.txt

推理代码如下,你需要在`Step-Audio`目录下运行代码:

import os
import torchaudio
import argparse
from stepaudio import StepAudio
from modelscope import snapshot_download
os.makedirs('output', exist_ok=True)

tokenizer_path = snapshot_download('stepfun-ai/Step-Audio-Tokenizer')
tts_path = snapshot_download('stepfun-ai/Step-Audio-TTS-3B')
model_path = snapshot_download('stepfun-ai/Step-Audio-Chat')

model = StepAudio(
    tokenizer_path=tokenizer_path,
    tts_path=tts_path,
    llm_path=model_path,
)

# example for text input
text, audio, sr = model(
    [{"role": "user", "content": "你好,我是你的朋友,我叫小明,你叫什么名字?"}],
    "闫雨婷",
)
print(text)
torchaudio.save("output/output_e2e_tqta.wav", audio, sr)

# example for audio input
text, audio, sr = model(
    [
        {
            "role": "user",
            "content": {"type": "audio", "audio": "output/output_e2e_tqta.wav"},
        }
    ],
    "闫雨婷",
)
print(text)
torchaudio.save("output/output_e2e_aqta.wav", audio, sr)

显存资源占用:4 * 65GiB

更多玩法详见:

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

Ovis2系列模型

Ovis2是阿里巴巴国际化团队推出的新型多模态大模型架构,通过结构化对齐视觉和文本嵌入,解决了模态间嵌入策略差异的问题。相较于前序版本,Ovis2在数据构造与训练方法上显著改进,强化了小规模模型的能力密度,并通过指令微调和偏好学习提升了思维链(CoT)推理能力。其新增视频、多图像处理能力,增强多语言支持与复杂场景OCR能力,实用性大幅提升。

Ovis2开源六个版本(1B至34B),各尺寸均达SOTA水平,其中Ovis2-34B在OpenCompass评测中表现卓越,以不到一半参数量超越多个70B级开源模型。模型架构由三个关键组件构成:视觉tokenizer将图像分割并转化为概率化视觉token;视觉嵌入表存储视觉单词嵌入向量并通过加权平均生成嵌入表示;LLM将视觉与文本嵌入拼接处理,完成多模态任务。Ovis2具备高性能、多任务支持和广泛适用性,为多模态领域带来重要突破。

模型链接:

Ovis2-1B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-1B

Ovis2-2B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-2B

Ovis2-4B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-4B

Ovis2-8B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-8B

Ovis2-16B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-16B

Ovis2-34B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-34B

 

示例代码

安装依赖

!pip install flash-attn==2.7.0.post2 --no-build-isolation

推理代码

import torch
from PIL import Image
from modelscope import AutoModelForCausalLM

# load model
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Ovis2-4B",
                                             torch_dtype=torch.bfloat16,
                                             multimodal_max_length=32768,
                                             trust_remote_code=True).cuda()
text_tokenizer = model.get_text_tokenizer()
visual_tokenizer = model.get_visual_tokenizer()

# single-image input
image_path = './data/example.jpg'
images = [Image.open(image_path)]
max_partition = 9
text = 'Describe the image.'
query = f'<image>\n{text}'

## cot-style input
# cot_suffix = "Provide a step-by-step solution to the problem, and conclude with 'the answer is' followed by the final solution."
# image_path = '/data/images/example_1.jpg'
# images = [Image.open(image_path)]
# max_partition = 9
# text = "What's the area of the shape?"
# query = f'<image>\n{text}\n{cot_suffix}'

## multiple-images input
# image_paths = [
#     '/data/images/example_1.jpg',
#     '/data/images/example_2.jpg',
#     '/data/images/example_3.jpg'
# ]
# images = [Image.open(image_path) for image_path in image_paths]
# max_partition = 4
# text = 'Describe each image.'
# query = '\n'.join([f'Image {i+1}: <image>' for i in range(len(images))]) + '\n' + text

## video input (require `pip install moviepy==1.0.3`)
# from moviepy.editor import VideoFileClip
# video_path = '/data/videos/example_1.mp4'
# num_frames = 12
# max_partition = 1
# text = 'Describe the video.'
# with VideoFileClip(video_path) as clip:
#     total_frames = int(clip.fps * clip.duration)
#     if total_frames <= num_frames:
#         sampled_indices = range(total_frames)
#     else:
#         stride = total_frames / num_frames
#         sampled_indices = [min(total_frames - 1, int((stride * i + stride * (i + 1)) / 2)) for i in range(num_frames)]
#     frames = [clip.get_frame(index / clip.fps) for index in sampled_indices]
#     frames = [Image.fromarray(frame, mode='RGB') for frame in frames]
# images = frames
# query = '\n'.join(['<image>'] * len(images)) + '\n' + text

## text-only input
# images = []
# max_partition = None
# text = 'Hello'
# query = text

# format conversation
prompt, input_ids, pixel_values = model.preprocess_inputs(query, images, max_partition=max_partition)
attention_mask = torch.ne(input_ids, text_tokenizer.pad_token_id)
input_ids = input_ids.unsqueeze(0).to(device=model.device)
attention_mask = attention_mask.unsqueeze(0).to(device=model.device)
if pixel_values is not None:
    pixel_values = pixel_values.to(dtype=visual_tokenizer.dtype, device=visual_tokenizer.device)
pixel_values = [pixel_values]

# generate output
with torch.inference_mode():
    gen_kwargs = dict(
        max_new_tokens=1024,
        do_sample=False,
        top_p=None,
        top_k=None,
        temperature=None,
        repetition_penalty=None,
        eos_token_id=model.generation_config.eos_token_id,
        pad_token_id=text_tokenizer.pad_token_id,
        use_cache=True
    )
    output_ids = model.generate(input_ids, pixel_values=pixel_values, attention_mask=attention_mask, **gen_kwargs)[0]
    output = text_tokenizer.decode(output_ids, skip_special_tokens=True)
    print(f'Output:\n{output}')

02.数据集推荐

中文基于满血DeepSeek-R1蒸馏数据集

本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。

数据集链接:

https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT

https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k

更多详情请查看文章:

强强联合,开源中文DeepSeek-R1蒸馏数据集联合魔搭社区,一起来训练中文版推理模型!

自我认知微调数据集(COT)

该数据集主要用于微调大型语言模型,以提升模型在自我认知和思维链推理方面的能力。

数据集链接:

https://www.modelscope.cn/datasets/xitaosun/self-cognition

NL2SQL思维链数据集

该数据集通过引入思维链(Chain of Thought, CoT)的方式,帮助模型更好地理解和生成SQL查询语句,提升自然语言处理在数据库查询场景中的准确性和效率。

数据集链接:

https://www.modelscope.cn/datasets/ruohuaw/sql-cot

03.精选应用

通义万相Wan2.1视频生成

体验直达:

https://www.modelscope.cn/studios/Wan-AI/Wan-2.1

 

InspireMusic音乐生成模型

体验直达:

https://modelscope.cn/studios/Qwen/Qwen2.5-Max-Demo

Step-Audio-TTS-3B

体验直达:

https://www.modelscope.cn/studios/Swarmeta_AI/Step-Audio-TTS-3B

 

olmOCR PDF高精准文本提取

体验直达:

https://www.modelscope.cn/studios/AI-ModelScope/olmOCR

 

SPO:让提示词自我进化

SPO是一种用于大型语言模型(LLMs)的自动化提示工程工具,专为通用领域适配而设计。作为下一代提示工程系统,采用自监督提示优化,与传统方法相比,实现了高达17.8至90.9倍的成本效率提升,达到SoTA的性能水平。

体验直达:

https://modelscope.cn/studios/AI-ModelScope/SPO

04.社区精选文章


Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐