cover

影视与游戏行业AI视频制作的第3步：为角色生成说话视频

继影视与游戏行业AI视频制作实战：第一步，角色形象设计的一致性以及影视与游戏行业AI视频制作实战：第二步，为角色生成个性化语音后，实现角色生动化的下一步动作就是能让图像动起来。

魔搭ModelScope社区

231人浏览 · 2024-08-01 11:09:11

魔搭ModelScope社区 · 2024-08-01 11:09:11 发布

继影视与游戏行业AI视频制作实战：第一步，角色形象设计的一致性以及影视与游戏行业AI视频制作实战：第二步，为角色生成个性化语音后，实现角色生动化的下一步动作就是能让图像动起来。

今天给大家介绍目前常见的数字人说话视频的开源项目，按开源时间先后来做个评测：

其中，输入均为一张角色形象图片

添加图片注释，不超过 140 字（可选）

和一个音频文件

示例音频

添加图片注释，不超过 140 字（可选）

Sadtalker

项目主页：

https://sadtalker.github.io/

PC端体验地址：

https://modelscope.cn/studios/CVstudio/cv_human_portrait

添加图片注释，不超过 140 字（可选）

注意：需要切换到最后一个tab

步骤：

上传角色形象图片，
上传角色声音文件，
默认参数设置

添加图片注释，不超过 140 字（可选）

生成效果如下：

添加图片注释，不超过 140 字（可选）

效果点评：

作为较早开源的说话视频项目，支持多种参数设置，目前唇形和整体性有一些瑕疵，唇部有时候与语音不完全匹配，头部移动时与头发部分会出现分离现象。

Hallo

项目主页：

https://fudan-generative-vision.github.io/hallo/#/

PC端体验地址：

https://modelscope.cn/studios/AI-ModelScope/Hall

步骤：上传角色形象图片+角色声音文件

添加图片注释，不超过 140 字（可选）

生成效果如下：

添加图片注释，不超过 140 字（可选）

英文版：

添加图片注释，不超过 140 字（可选）

效果点评：

Hallo目前还没有支持中文，所以中文效果一般，在英文的效果还是非常不错的，我们期待Hallo的中文效果。

EchoMimic

项目主页：

https://badtobest.github.io/echomimic

PC端体验地址：

https://modelscope.cn/studios/BadToBest/BadToBest

步骤：上传角色形象图片+角色声音文件

添加图片注释，不超过 140 字（可选）

生成效果如下：

添加图片注释，不超过 140 字（可选）

生成的视频会自动截取脸部位置，唇部和脸部动作较为自然，比较适合脸部特写视频，后期如果能保持上传图片的完整性，应用场景会更加广泛。

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

cover

【Qwen-Agent + 微调】= 百万Token级大模型

ModelScope魔搭社区

cover

搭友来碰头｜魔搭核心开发者共创会精彩回顾

ModelScope魔搭社区

cover

魔搭社区模型速递（5.18-5.24）

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献626条内容