01.引言

GPT-4o 展现出的突破性图像生成能力已引发广泛关注。然而开源模型要实现同等能力仍需持续探索。虽然当前开源图像数据集的训练效果尚难以对标 GPT-4o,但当我们将 GPT-4o 的图像生成能力分解为“图像风格迁移”、“图像局部编辑”等原子化能力时,开源模型已具备这些原子能力。基于此,魔搭社区 DiffSynth-Studio 团队正式启动 ImagePulse(图律脉动)数据集建设项目,构建原子能力数据集,致力于为下一代图像理解与生成模型构建关键的数据基础。

开源项目链接:

https://github.com/modelscope/ImagePulse

目前,ImagePulse 开源了四个原子能力数据集,以及对应的数据集构建脚本。

 

02.原子能力数据集

1、修改、添加、移除

对图像中的特定区域中的物体进行修改、添加、移除,用于训练模型的图像编辑能力。

数据集链接:

https://www.modelscope.cn/datasets/DiffSynth-Studio/ImagePulse-ChangeAddRemove

图律脉动数据集-修改、添加、移除

图1

图2

编辑区域

编辑指令

Remove the mustache and beard, change the white shirt to a blue turtleneck sweater, and remove the glass of milk.

反向编辑指令

Add a mustache and beard, change the blue turtleneck sweater to a white shirt, and add a glass of milk.


2、放大、缩小

对图像中的区域进行聚焦放大,用于训练模型的超分辨率和扩图能力。

图律脉动数据集-放大、缩小

图1

图2

放大区域

编辑指令

Zoom in to focus on the headband.

反向编辑指令

Zoom out to show the full view of the anime girl.

3、风格迁移

在保留图像结构的前提下更换图像的风格,用于训练模型的风格迁移能力。

图律脉动数据集-风格迁移

图1

图2

编辑指令

transform the image into a cartoon style with vibrant colors and a confident expression.

反向编辑指令

transform the image into a realistic portrait with a serious expression and subtle lighting.

4、人脸保持

在保证人脸特征不变的情况下对任务动作、神态等进行随机修改,用于训练模型的人脸保持能力。

图律脉动数据集-人脸保持

图1

图2

编辑指令

Add a nighttime street scene with bokeh lights in the background.

反向编辑指令

Remove the nighttime street scene and bokeh lights from the background.

03.运行数据集生成

用户可自行运行数据集生成脚本,生成更多训练数据,我们也期待开源社区的开发者们能够共同参与到 ImagePulse 数据集的建设中,一起构建下一代图像生成模型。

git clone https://github.com/modelscope/ImagePulse.git
cd ImagePulse
pip install -r requirements.txt

 


python change_add_remove.py \
  --target_dir "data/dataset" \
  --cache_dir "data/cache" \
  --dashscope_api_key "sk-xxxxxxxxxxxxxxxx" \
  --qwenvl_model_id "qwen-vl-max" \
  --modelscope_access_token "xxxxxxxxxxxxxxx" \
  --modelscope_dataset_id "DiffSynth-Studio/ImagePulse-ChangeAddRemove" \
  --num_data 1000000 \
  --max_num_files_per_folder 1000
-target_dir: 数据集存储路径
-cache_dir: 缓存路径
-dashscope_api_key: 百炼API Key,调用百炼 API 时需填入
-qwenvl_model_id: 百炼上 Qwen-VL 模型的 ID,调用百炼 API 时需填入
-modelscope_access_token: 魔搭社区访问令牌,上传数据集到魔搭社区时需填入
-modelscope_dataset_id: 魔搭社区数据集 ID,上传数据集到魔搭社区时需填入
-num_data: 数据样本总量
-max_num_files_per_folder: 每个打包文件中的文件数量

04.致谢

ImagePulse 是基于众多开源技术实现的数据集建设项目,包括来自诸多开源模型和数据集的支持:

-DiffusionDB:

https://modelscope.cn/datasets/AI-ModelScope/diffusiondb

-CelebA-HQ-Face:

https://modelscope.cn/datasets/AI-ModelScope/celeb-a-hq_training_untransformed_faces

-FLUX:

https://modelscope.cn/models/black-forest-labs/FLUX.1-dev

-SDXL:

https://modelscope.cn/models/AI-ModelScope/stable-diffusion-xl-base-1.0

-IP-Adapter:

https://modelscope.cn/models/AI-ModelScope/IP-Adapter

-IP-Adapter-FLUX:

https://modelscope.cn/models/InstantX/FLUX.1-dev-IP-Adapter

-Qwen-VL:

https://modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct

-Inpaint-ControlNet:

https://modelscope.cn/models/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta

-Upscaler-ControlNet:

https://modelscope.cn/models/jasperai/Flux.1-dev-Controlnet-Upscaler

-Union-ControlNet:

https://modelscope.cn/models/AI-ModelScope/controlnet-union-sdxl-1.0-promax

-InfiniteYou:

https://modelscope.cn/models/ByteDance/InfiniteYou

欢迎点击链接, 跳转GitHub为项目点⭐~

https://github.com/modelscope/ImagePulse

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐