魔搭社区每周速递（12.29-1.4）

魔搭ModelScope本期社区进展：828个模型，72个数据集，61个创新应用，9篇内容

魔搭ModelScope社区

23人浏览 · 2025-01-06 10:29:53

魔搭ModelScope社区 · 2025-01-06 10:29:53 发布

🙋魔搭ModelScope本期社区进展：

📟828个模型：Cogagent-9b、SmallThinker-3B-Preview、HuatuoGPT-o1系列等；

📁72个数据集：lmsys_chat_1m_clean、reasoning-1-1k、LaTeX公式OCR识别数据集等；

🎨61个创新应用：mirau-14b-demo、GPT-SoVITS V2 Taffy语音在线生成、集体照人脸识别与查询分割（复旦MSE）等；

📄 9篇内容：

AI电影从这个LoRA开始：魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉，快来围观风格化地标！
智谱发布GLM-OS概念及Agent产品，CogAgent-9B模型开源助力GUI交互场景
人人都是音乐家！中科大&科大讯飞重磅开源OpenMusic：音乐生成更高质量，更有乐感
新年课程开启：手把手教学，0基础5次课程学会搭建无限拓展的AI应用
2025的第一节启发课：从想法到实践（基于Gradio的AI应用搭建实践课①）
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了！
社区供稿 | Para-Former：DUAT理论指导下的CV神经网络并行化，提速多层模型推理
极致的显存管理！6G显存运行混元Video模型
2025年啦！0代码，做一本给足情绪价值的夸夸日历

01.精选模型

Cogagent-9b-20241220

CogAgent-9B是智谱AI基于GLM-4V-9B训练的专用Agent任务模型，专注于通过屏幕截图预测下一步GUI操作，无需HTML等文本表征。它能够结合历史操作执行用户指定的任务，适用于个人电脑、手机和车机设备等多种GUI交互场景。相较于2023年12月的第一版，CogAgent-9B-20241220在GUI感知、推理准确性、动作空间、任务普适性和泛化性上显著提升，并支持中英文双语交互。

模型链接：

https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

运行模型

代码下载

git clone https://github.com/THUDM/CogAgent.git
cd CogAgent

模型下载

modelscope download --model ZhipuAI/cogagent-9b-20241220 --local_dir ./cogagent

CLI模型推理

python inference/cli_demo.py --model_dir ./cogagent --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive

HuatuoGPT-o1系列

HuatuoGPT-o1 是一款为高级医学推理而设计的医学大型语言模型。它在提供最终回答之前，会生成一个复杂的思维过程，进行反思和提炼推理。

模型链接：

HuatuoGPT-o1-7B：

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-7B

HuatuoGPT-o1-8B：

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-8B

HuatuoGPT-o1-70B：

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-70B

HuatuoGPT-o1-72B：

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-72B

示例代码：

以 HuatuoGPT-o1-7B 推理为例

from modelscope import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B",torch_dtype="auto",device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B")

input_text = "How to stop a cough?"
messages = [{"role": "user", "content": input_text}]

inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False,add_generation_prompt=True
), return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

SmallThinker-3B-Preview

SmallThinker-3B-Preview是一个基于Qwen2.5-3b-Instruct模型微调的针对边缘部署进行优化的新推理模型，为资源受限设备上的人工智能任务提供了显著的加速。它作为更大的QwQ-32B-Preview的草稿模型，在 llama.cpp 中可以获得 70% 的速度提升（从每秒 40 个 token 提升到每秒 70 个 token）。

模型链接：

https://www.modelscope.cn/models/PowerInfer/SmallThinker-3B-Preview