魔搭社区每周速递（7.14-7.19）

404个模型、133个数据集、86个创新应用、7篇应用文章

魔搭ModelScope社区

135人浏览 · 2024-07-22 11:15:54

魔搭ModelScope社区 · 2024-07-22 11:15:54 发布

🙋魔搭ModelScope本期社区进展：

📟404个模型：PDF内容提取模型（MinerU使用模型）、EchoMimic、mamba-codestral-7B-v0.1等；

📁133个数据集：可图优质咒语书、Lyft_Level_5_Prediction、SA1B-描述-子图对、Pile-PubMed_Abstracts等；

🎨86个创新应用：可图文生图、某种有界背包问题求解器、世界模拟器等；

📄7篇文章：

可图IP-adapter-plus开源，魔搭送你一本中文咒语书
社区供稿 | RWKV-6-World 14B正式开源发布，迄今最强的稠密纯RNN大语言模型
基于 Qwen-Agent 与 OpenVINOTM 构建本地 AI 智能体
魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理
Ollama可以玩GLM4和CodeGeeX4了，快来魔搭玩起来
影视与游戏行业AI视频制作实战：第一步，角色形象设计的一致性
影视与游戏行业AI视频制作实战：第二步，为角色生成个性化语音

精选模型推荐

Kolors-IP-Adapter-Plus

快手可图团队基于Kolors-Basemodel 提供 IP-Adapter-Plus 权重和推理代码。使用更强大的图像特征提取器 Openai-CLIP-336 模型作为图像编码器，能够在参考图像中保留更多细节，使用更多样化和高质量的训练数据，构建了一个大规模和高质量的训练数据集，研究团队相信成对的训练数据可以有效提高性能。

模型链接：

https://modelscope.cn/models/Kwai-Kolors/Kolors-IP-Adapter-Plus

示例代码：

下载代码：

git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
pip install -r requirements.txt

下载模型权重：

基础模型：

modelscope download --model=Kwai-Kolors/Kolors --local_dir weights/Kolors

IP-adapter-plus模型：

modelscope download ---model=Kwai-Kolors/Kolors-IP-Adapter-Plus --local_dir weights/Kolors-IP-Adapter-Plus

推理代码：

python ipadapter/sample_ipadapter_plus.py ./ipadapter/https://raw.githubusercontent.com/junqiangwu/Kolors/master/ipadapter/assert/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图”"

PDF内容提取模型（MinerU使用模型）

PDF文档中包含大量知识信息，然而提取高质量的PDF内容并非易事。为此，我们将PDF内容提取工作进行拆解：

布局检测：使用LayoutLMv3模型进行区域检测，如图像，表格,标题,文本等；
公式检测：使用YOLOv8进行公式检测，包含行内公式和行间公式；
公式识别：使用UniMERNet进行公式识别；
光学字符识别：使用PaddleOCR进行文本识别；

模型链接：

https://www.modelscope.cn/models/wanderkid/PDF-Extract-Kit

示例代码：

SDK Download

# First, install the ModelScope library using pip: pip install modelscope

# Use the following Python code to download the model using the ModelScope SDK: from modelscope import snapshot_download model_dir = snapshot_download('wanderkid/PDF-Extract-Kit')

Git Download

或者，您可以使用 Git 从 ModelScope 克隆模型存储库：

git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git

EchoMimic

EchoMimic：通过可编辑的地标条件处理逼真的音频驱动人像动画

模型链接：

https://www.modelscope.cn/models/BadToBest/EchoMimic

效果演示：

Mamba-codestral-7B-v0.1

Codestral Mamba 是基于 Mamba2 架构的开放代码模型。它的性能与最先进的基于 Transformer 的代码模型相当。

模型链接：

https://www.modelscope.cn/models/LLM-Research/mamba-codestral-7B-v0.1

示例代码：

建议与 mistral-inference 一起使用mistralai/mamba-codestral-7B-v0.1

在魔搭镜像环境中使用

wget "https://modelscope.oss-cn-beijing.aliyuncs.com/releases/causal_conv1d-1.4.0%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl"
wget "https://modelscope.oss-cn-beijing.aliyuncs.com/releases/mamba_ssm-2.2.2%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl"
pip install mistral_inference
pip install mamba_ssm-2.2.2%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
pip install causal_conv1d-1.4.0%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

下载

modelscope download --model=LLM-Research/mamba-codestral-7B-v0.1 --local_dir ./mamba-codestral-7B-v0.1

聊天

安装后，CLI 命令应该在您的环境中可用。mistral_inferencemistral-demo

安装后，CLI 命令应该在您的环境中可用。mistral_inferencemistral-demo

数据集推荐

可图优质咒语书

魔搭社区结合可图Kolors文生图模型开源了专门的各种风格的中文文生图咒语书，可以针对600+种不同风格，完善prompt，生成各种风格图片。

数据集链接：

https://modelscope.cn/datasets/modelscope/Kolors_awesome_prompts

SA1B-描述-子图对

SA1B-长文本图文描述基于 SAM-CLIP_Object_Centric pipeline的后处理数据集，匹配与局部描述对应的子图。

数据集链接：

https://www.modelscope.cn/datasets/Tongyi-DataEngine/SA1B-Paired-Captions-Images

精选应用推荐

可图文生图

快手开源了一种名为Kolors（可图）的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

体验直达：https://www.modelscope.cn/studios/AI-ModelScope/Kolors

某种有界背包问题求解器

在“有界背包问题”中，每个项目都有最大选择次数限制。目标是确定符合这些限制的项目组合，以最大化或满足特定目标值。

体验直达：https://www.modelscope.cn/studios/OhMyDearAI/ILP-Solver

世界模拟器

通过对一个有趣的虚拟世界长期模拟，验证不可预测且确定性的复杂系统涌现现象。也可用于AI Agent、LLM Agent等接入，进行生存竞赛研究。

体验直达：https://www.modelscope.cn/studios/Cyberparticle/Rareworld

社区精选文章

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

Qwen学习笔记1：Qwen模型使用ReAct原理实现function calling，增强模型能力

ModelScope魔搭社区

Qwen2.0正式开源及评测数据集理解

ModelScope魔搭社区

Qwen-VL 开源项目使用指南

Qwen-VL 开源项目使用指南Qwen-VLThe official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud....

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献376条内容