影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性以及影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音 后,实现角色生动化的下一步动作就是能让图像动起来。

今天给大家介绍目前常见的数字人说话视频的开源项目,按开源时间先后来做个评测:

其中,输入均为一张角色形象图片

添加图片注释,不超过 140 字(可选)

和一个音频文件

示例音频

添加图片注释,不超过 140 字(可选)

Sadtalker

项目主页:

https://sadtalker.github.io/

PC端体验地址:

https://modelscope.cn/studios/CVstudio/cv_human_portrait

 

添加图片注释,不超过 140 字(可选)

注意:需要切换到最后一个tab

步骤:

  • 上传角色形象图片,

  • 上传角色声音文件,

  • 默认参数设置

添加图片注释,不超过 140 字(可选)

生成效果如下:

添加图片注释,不超过 140 字(可选)

效果点评:

作为较早开源的说话视频项目,支持多种参数设置,目前唇形和整体性有一些瑕疵,唇部有时候与语音不完全匹配,头部移动时与头发部分会出现分离现象。

Hallo

项目主页:

https://fudan-generative-vision.github.io/hallo/#/

PC端体验地址:

https://modelscope.cn/studios/AI-ModelScope/Hall

步骤:上传角色形象图片+角色声音文件

添加图片注释,不超过 140 字(可选)

生成效果如下:

添加图片注释,不超过 140 字(可选)

英文版:

添加图片注释,不超过 140 字(可选)

效果点评:

Hallo目前还没有支持中文,所以中文效果一般,在英文的效果还是非常不错的,我们期待Hallo的中文效果。

EchoMimic

项目主页:

https://badtobest.github.io/echomimic

PC端体验地址:

https://modelscope.cn/studios/BadToBest/BadToBest

步骤:上传角色形象图片+角色声音文件

添加图片注释,不超过 140 字(可选)

生成效果如下:

添加图片注释,不超过 140 字(可选)

生成的视频会自动截取脸部位置,唇部和脸部动作较为自然,比较适合脸部特写视频,后期如果能保持上传图片的完整性,应用场景会更加广泛。

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐