🙋魔搭ModelScope本期社区进展:

📟404个模型:PDF内容提取模型(MinerU使用模型)、EchoMimic、mamba-codestral-7B-v0.1等;

📁133个数据集:可图优质咒语书、Lyft_Level_5_Prediction、SA1B-描述-子图对、Pile-PubMed_Abstracts等;

🎨86个创新应用:可图文生图、某种有界背包问题求解器、世界模拟器等;

📄7篇文章:

  • 可图IP-adapter-plus开源,魔搭送你一本中文咒语书

  • 社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型

  • 基于 Qwen-Agent 与 OpenVINOTM 构建本地 AI 智能体

  • 魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理

  • Ollama可以玩GLM4和CodeGeeX4了,快来魔搭玩起来

  • 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性

  • 影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音

精选模型推荐

Kolors-IP-Adapter-Plus

快手可图团队基于Kolors-Basemodel 提供 IP-Adapter-Plus 权重和推理代码。使用更强大的图像特征提取器 Openai-CLIP-336 模型作为图像编码器,能够在参考图像中保留更多细节,使用更多样化和高质量的训练数据,构建了一个大规模和高质量的训练数据集,研究团队相信成对的训练数据可以有效提高性能。

模型链接:

https://modelscope.cn/models/Kwai-Kolors/Kolors-IP-Adapter-Plus

示例代码:

下载代码:

git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
pip install -r requirements.txt

下载模型权重:

基础模型:

modelscope download --model=Kwai-Kolors/Kolors --local_dir weights/Kolors

IP-adapter-plus模型:

modelscope download ---model=Kwai-Kolors/Kolors-IP-Adapter-Plus --local_dir weights/Kolors-IP-Adapter-Plus

推理代码:

python ipadapter/sample_ipadapter_plus.py ./ipadapter/https://raw.githubusercontent.com/junqiangwu/Kolors/master/ipadapter/assert/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图”"

PDF内容提取模型(MinerU使用模型)

PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:

  • 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;

  • 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;

  • 公式识别:使用UniMERNet进行公式识别;

  • 光学字符识别:使用PaddleOCR进行文本识别;

模型链接:

https://www.modelscope.cn/models/wanderkid/PDF-Extract-Kit

示例代码:

SDK Download

# First, install the ModelScope library using pip: pip install modelscope
# Use the following Python code to download the model using the ModelScope SDK: from modelscope import snapshot_download model_dir = snapshot_download('wanderkid/PDF-Extract-Kit')

Git Download

或者,您可以使用 Git 从 ModelScope 克隆模型存储库:

git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git

EchoMimic

EchoMimic:通过可编辑的地标条件处理逼真的音频驱动人像动画

模型链接:

https://www.modelscope.cn/models/BadToBest/EchoMimic

效果演示:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

Mamba-codestral-7B-v0.1

Codestral Mamba 是基于 Mamba2 架构的开放代码模型。它的性能与最先进的基于 Transformer 的代码模型相当。

模型链接:

https://www.modelscope.cn/models/LLM-Research/mamba-codestral-7B-v0.1

示例代码:

建议与 mistral-inference 一起使用mistralai/mamba-codestral-7B-v0.1

在魔搭镜像环境中使用

wget "https://modelscope.oss-cn-beijing.aliyuncs.com/releases/causal_conv1d-1.4.0%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl"
wget "https://modelscope.oss-cn-beijing.aliyuncs.com/releases/mamba_ssm-2.2.2%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl"
pip install mistral_inference
pip install mamba_ssm-2.2.2%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
pip install causal_conv1d-1.4.0%2Bcu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

下载

modelscope download --model=LLM-Research/mamba-codestral-7B-v0.1 --local_dir ./mamba-codestral-7B-v0.1

聊天

安装后,CLI 命令应该在您的环境中可用。mistral_inferencemistral-demo

安装后,CLI 命令应该在您的环境中可用。mistral_inferencemistral-demo

数据集推荐

可图优质咒语书

魔搭社区结合可图Kolors文生图模型开源了专门的各种风格的中文文生图咒语书,可以针对600+种不同风格,完善prompt,生成各种风格图片。

数据集链接:

https://modelscope.cn/datasets/modelscope/Kolors_awesome_prompts

SA1B-描述-子图对

SA1B-长文本图文描述基于 SAM-CLIP_Object_Centric pipeline的后处理数据集,匹配与局部描述对应的子图。

数据集链接:

https://www.modelscope.cn/datasets/Tongyi-DataEngine/SA1B-Paired-Captions-Images

精选应用推荐

可图文生图

快手开源了一种名为Kolors(可图)的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。

添加图片注释,不超过 140 字(可选)

体验直达:https://www.modelscope.cn/studios/AI-ModelScope/Kolors

某种有界背包问题求解器

在“有界背包问题”中,每个项目都有最大选择次数限制。目标是确定符合这些限制的项目组合,以最大化或满足特定目标值。

添加图片注释,不超过 140 字(可选)

体验直达:https://www.modelscope.cn/studios/OhMyDearAI/ILP-Solver

世界模拟器

添加图片注释,不超过 140 字(可选)

通过对一个有趣的虚拟世界长期模拟,验证不可预测且确定性的复杂系统涌现现象。也可用于AI Agent、LLM Agent等接入,进行生存竞赛研究。

体验直达:https://www.modelscope.cn/studios/Cyberparticle/Rareworld

社区精选文章

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐