魔搭社区模型速递(4.27-5.10)
魔搭ModelScope本期社区进展:2341个模型,206个数据集,224个创新应用, 15篇内容
🙋魔搭ModelScope本期社区进展:
📟2341个模型:通义千问3系列、MiMo-7B、Step1X-Edit、ACE-Step、Nexus-Gen 全模态图像生成、Kimi-Audio-7B等;
📁206个数据集:UGMathBench、CoVLA-Dataset、describe-anything-dataset等;
🎨224个创新应用:通义千问3家族、Step1X-Edit 图像编辑、吉卜力风格生图、音乐大模型 ACE-Step;
📄 15篇内容:
- 实战 | Qwen3大模型微调入门实战(完整代码)
- Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
- 实战 | Intel OpenVINO™ Day0 实现 Qwen3 快速部署
- 面向对话语音合成的模态间与模态内上下文交互建模
- Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
- 用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
- Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!
- 阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
- 一句话修图!阶跃星辰开源图像编辑模型Step1X-Edit:精准理解+高保真!附DiffSynth框架推理教程
- 魔搭社区大模型一键部署到阿里云边缘云(ENS)
- UGMathBench:评估语言模型数学推理能力的动态基准测试数据集
- 我说魔,你说搭-魔搭AI视频宣传片挑战赛
- AI故事随心绘:多主体ID保留,个性化生成
- “一丹一世界”三等奖 | 灵犀共生 经验分享&浅谈AI对摄影的帮助
- “一丹一世界”三等奖 | 曙光_麦橘超然 创作分享
01.模型推荐
通义千问3系列
通义千问Qwen团队正式开源推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力(深入思考/快速响应)、支持119种语言及方言,并强化了Agent功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。
本次Qwen3开源了两个 MoE 模型的权重:Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源
模型地址
https://www.modelscope.cn/collections/Qwen3-9743180bdc6b48
示例代码
在 transformers 中使用 Qwen3-30B-A3B :
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# parsing thinking content
try:
# rindex finding 151668 (</think>)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content)
print("content:", content)
禁用思考模式,只需对参数 enable_thinking 进行如下修改:
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # True is the default value for enable_thinking.
)
更多推理实战教程,详见文章:
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
MiMo-7B
小米研究团队开源了 MiMo-7B 系列大语言模型,这是一系列从零开始训练并为推理任务而生的模型,本次开源包括基础模型、SFT 模型、从基础模型训练的 RL 模型以及从 SFT 模型训练的 RL 模型的Checkpoint。
基于25万亿token预训练的MiMo-7B-Base采用三阶段数据混合策略,推理能力超越更大规模的32B模型。研究团队通过冷启动SFT模型进行RL训练,推出专攻数学推理与代码生成的MiMo-7B-RL,结合强化学习优化目标函数。模型针对复杂任务设计,在长上下文理解、多步推理等场景表现优异,与 OpenAI o1-mini 的性能相匹配。
模型地址
https://modelscope.cn/collections/MiMo-7edb0ab729c744
示例代码
使用transformers推理
from modelscope import AutoModel, AutoModelForCausalLM, AutoTokenizer
model_id = "XiaomiMiMo/MiMo-7B-Base"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))
Step1X-Edit
阶跃星辰发布开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。一句话总结:不只能“改图”,更能“听得懂、改得准、保得住”。
模型链接:
https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit
示例代码
使用DiffSynth-Studio应用实践
下载并安装 DiffSynth-Studio
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
运行 Python 代码进行图像编辑
import torch
from diffsynth import FluxImagePipeline, ModelManager
from modelscope import snapshot_download
from PIL import Image
import numpy as np
snapshot_download("Qwen/Qwen2.5-VL-7B-Instruct", cache_dir="./models")
snapshot_download("stepfun-ai/Step1X-Edit", cache_dir="./models")
model_manager = ModelManager(torch_dtype=torch.bfloat16, device="cuda")
model_manager.load_models([
"models/Qwen/Qwen2.5-VL-7B-Instruct",
"models/stepfun-ai/Step1X-Edit/step1x-edit-i1258.safetensors",
"models/stepfun-ai/Step1X-Edit/vae.safetensors",
])
pipe = FluxImagePipeline.from_model_manager(model_manager)
image = Image.fromarray(np.zeros((1248, 832, 3), dtype=np.uint8) + 255)
image = pipe(
prompt="draw red flowers in Chinese ink painting style",
step1x_reference_image=image,
width=832, height=1248, cfg_scale=6,
seed=1,
)
image.save("image_1.jpg")
image = pipe(
prompt="add more flowers in Chinese ink painting style",
step1x_reference_image=image,
width=832, height=1248, cfg_scale=6,
seed=2,
)
image.save("image_2.jpg")
ACE-Step
阶跃星辰与 ACE Studio 正式联合发布并开源音乐生成大模型——ACE-Step(中文名:音跃)。ACE-Step 音跃大模型参数量为 3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中、英、日、韩、西班牙、俄语等19 种语言。通过创新架构与训练策略,ACE-Step 提升了旋律的流畅性与歌词的契合度,让生成的音乐在旋律、结构上更完整、更具情感表达力。
作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA 和 ControlNet 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,降低音乐 AI 应用的开发门槛。
模型链接https://www.modelscope.cn/models/ACE-Step/ACE-Step-v1-3.5B
Kimi-Audio-7B系列
月之暗面团队开源Kimi-Audio-7B系列,作为一个通用音频基础模型,能够在单一统一框架内处理各种各样的音频处理任务。Kimi-Audio可以处理多种任务,如语音识别、音频问答、音频描述、语音情感识别、声音事件/场景分类以及端到端语音对话。
模型基于1300万小时多源音频-文本数据预训练,采用创新混合架构:融合连续声学信号与离散语义token作为输入,通过LLM核心实现文本/音频双模态并行生成。推理阶段搭载基于流匹配的分块流式去标记器,保障低延迟音频生成。在多项基准测试中达到SOTA性能,提供一站式音频解决方案。
模型地址
Kimi-Audio-7B
https://www.modelscope.cn/models/moonshotai/Kimi-Audio-7B
Kimi-Audio-7B-Instruct
https://www.modelscope.cn/models/moonshotai/Kimi-Audio-7B-Instruct
02.数据集推荐
UGMathBench
UGMathBench是香港科技大学数学系发布的一个广泛覆盖本科数学且动态的基准测试数据集。数据集由研究团队从在线作业评分系统中精心收集、提取和整理了大量的本科数学问题构成,旨在评估语言模型在本科广泛的科目中的数学推理能力。
数据集链接:
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
CoVLA-Dataset
CoVLA-Dataset 是一个包含超过80小时真实驾驶视频的数据集,由Turing公司、东京大学等研究团队联合推出。该数据集采用了一种基于自动化数据处理和字幕生成流水线的新型、可扩展的方法,以生成精确的驾驶轨迹,并配以详细的自然语言描述来解释驾驶环境和操作。它包括10,000个30秒的视频片段,每个片段都配有从CAN数据和前置摄像头录像中生成的轨迹目标和语言注释。
数据集链接:
https://www.modelscope.cn/datasets/AI-ModelScope/CoVLA-Dataset
describe-anything-dataset
本数据集是用于训练 NVIDIA 和多所大学联合开发的开源项目Describe Anything Model(DAM)的数据集。此数据集集合包括来自以下数据集的注释和图像:
- COCOStuff (COCO-Stuff)
- LVIS (LVIS)
- Mapillary (Mapillary Vistas 2.0)
- OpenImages (Open Images V7)
- PACO (PACO)
- SAM (SAM)
- SAV (SA-V)
数据集链接:
https://www.modelscope.cn/datasets/nv-community/describe-anything-dataset
03.精选应用
通义千问3家族
体验直达:
https://www.modelscope.cn/studios/Qwen/qwen3-chat-demo
音乐大模型 ACE-Step
体验直达:
https://modelscope.cn/studios/ACE-Step/ACE-Step
Step1X-Edit 图像编辑
体验直达:
https://www.modelscope.cn/studios/stepfun-ai/Step1X-Edit
吉卜力风格生图
体验直达:
https://modelscope.cn/studios/EasyControl/EasyControl_Ghibli
04.社区精选文章
- 实战 | Qwen3大模型微调入门实战(完整代码)
- Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
- 实战 | Intel OpenVINO™ Day0 实现 Qwen3 快速部署
- 面向对话语音合成的模态间与模态内上下文交互建模
- Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
- 用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
- Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!
- 阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
- 一句话修图!阶跃星辰开源图像编辑模型Step1X-Edit:精准理解+高保真!附DiffSynth框架推理教程
- 魔搭社区大模型一键部署到阿里云边缘云(ENS)
- UGMathBench:评估语言模型数学推理能力的动态基准测试数据集
- 我说魔,你说搭-魔搭AI视频宣传片挑战赛
- AI故事随心绘:多主体ID保留,个性化生成
- “一丹一世界”三等奖 | 灵犀共生 经验分享&浅谈AI对摄影的帮助
- “一丹一世界”三等奖 | 曙光_麦橘超然 创作分享
更多推荐
所有评论(0)