🙋魔搭ModelScope本期社区进展:

📟828个模型:Cogagent-9b、SmallThinker-3B-Preview、HuatuoGPT-o1系列等;

📁72个数据集:lmsys_chat_1m_clean、reasoning-1-1k、LaTeX公式OCR识别数据集等;

🎨61个创新应用:mirau-14b-demo、GPT-SoVITS V2 Taffy语音在线生成、集体照人脸识别与查询分割(复旦MSE)等;

📄 9篇内容:

  • AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉,快来围观风格化地标!

  • 智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

  • 人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感

  • 新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用

  • 2025的第一节启发课:从想法到实践(基于Gradio的AI应用搭建实践课①)

  • 魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!

  • 社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理

  • 极致的显存管理!6G显存运行混元Video模型

  • 2025年啦!0代码,做一本给足情绪价值的夸夸日历

01.精选模型

Cogagent-9b-20241220

CogAgent-9B是智谱AI基于GLM-4V-9B训练的专用Agent任务模型,专注于通过屏幕截图预测下一步GUI操作,无需HTML等文本表征。它能够结合历史操作执行用户指定的任务,适用于个人电脑、手机和车机设备等多种GUI交互场景。相较于2023年12月的第一版,CogAgent-9B-20241220在GUI感知、推理准确性、动作空间、任务普适性和泛化性上显著提升,并支持中英文双语交互。

模型链接:

https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

运行模型

代码下载

git clone https://github.com/THUDM/CogAgent.git
cd CogAgent

模型下载

modelscope download --model ZhipuAI/cogagent-9b-20241220 --local_dir ./cogagent

CLI模型推理

python inference/cli_demo.py --model_dir ./cogagent --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive

更多详情请见:

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

HuatuoGPT-o1系列

HuatuoGPT-o1 是一款为高级医学推理而设计的医学大型语言模型。它在提供最终回答之前,会生成一个复杂的思维过程,进行反思和提炼推理。

模型链接:

  • HuatuoGPT-o1-7B:

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-7B

  • HuatuoGPT-o1-8B:

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-8B

  • HuatuoGPT-o1-70B:

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-70B

  • HuatuoGPT-o1-72B:

https://www.modelscope.cn/models/FreedomIntelligence/HuatuoGPT-o1-72B

示例代码:

以 HuatuoGPT-o1-7B 推理为例

from modelscope import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B",torch_dtype="auto",device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-7B")

input_text = "How to stop a cough?"
messages = [{"role": "user", "content": input_text}]

inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False,add_generation_prompt=True
), return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

SmallThinker-3B-Preview

SmallThinker-3B-Preview是一个基于Qwen2.5-3b-Instruct模型微调的针对边缘部署进行优化的新推理模型,为资源受限设备上的人工智能任务提供了显著的加速。它作为更大的QwQ-32B-Preview的草稿模型,在 llama.cpp 中可以获得 70% 的速度提升(从每秒 40 个 token 提升到每秒 70 个 token)。

模型链接:

https://www.modelscope.cn/models/PowerInfer/SmallThinker-3B-Preview

02.数据集推荐

lmsys_chat_1m_clean

包含100万条清洁的中文聊天对话记录,用于支持自然语言处理和对话系统的研究与开发。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/lmsys_chat_1m_clean

reasoning-1-1k

包含1000个问题,旨在提升模型的逻辑推理能力。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/reasoning-1-1k

LaTeX公式OCR识别数据集

旨在支持和提升OCR技术在识别和处理LaTeX格式的数学公式和科学文档方面的表现。该数据集对于自然语言处理和文档分析领域的研究与应用具有重要价值。

数据集链接:

https://modelscope.cn/datasets/xmatrix/OCR_Synthetic_LaTeX

03.精选应用

mirau-14b-demo

沉浸式体验剧本,支持文字输入,共有三个角色选择体验。

体验直达:

https://modelscope.cn/studios/mouseEliauk/mirau-14b-demo

GPT-SoVITS V2 Taffy语音在线生成

提供文本到语音的转换服务,用户可以在这个创空间中体验先进的语音合成技术。

体验直达:

https://modelscope.cn/studios/cynika/GPT-SoVITS-v2-taffy

集体照人脸识别与查询分割

支持在集体照片中进行人脸检测和识别。

体验直达:

https://modelscope.cn/studios/funcity159/GroupPhotoFaceRecognition

04.社区精选文章

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐