Paper Reading | MEMO：记忆引导扩散模型实现生动的Talking Head生成

MEMO能够仅通过一张图片和一段音频，生成逼真且富有表现力的人像视频，不仅在音频与口型同步方面表现出色，还能生成自然流畅的面部表情和动作，使得生成的视频栩栩如生，仿佛真人在表演。

魔搭ModelScope社区

163人浏览 · 2025-01-10 11:17:53

魔搭ModelScope社区 · 2025-01-10 11:17:53 发布

项目主页：

https://memoavatar.github.io/

论文链接：

https://arxiv.org/abs/2412.04448

代码链接：

https://github.com/memoavatar/memo

模型链接：

https://www.modelscope.cn/models/ltzheng/memo

近期，来自Skywork AI、南洋理工大学、新加坡国立大学的研究团队发布了最新的视频生成模型MEMO，一经推出便在学术界和技术社区引起了广泛关注。MEMO能够仅通过一张图片和一段音频，生成逼真且富有表现力的人像视频，不仅在音频与口型同步方面表现出色，还能生成自然流畅的面部表情和动作，使得生成的视频栩栩如生，仿佛真人在表演。

https://live.csdn.net/v/442798

MEMO模型采用了先进的扩散模型框架，不仅能够实现精准的音频与口型同步，还能够保持长时间的人物身份一致性，并生成与音频情感相匹配的自然表情动作。例如，人物在讲话时能够根据情绪节奏做出抬眉、皱眉、叹气等细微动作；在唱歌时，表情和动作更加生动自然，适应不同的音乐风格。

MEMO能够生成多种图像风格的输入，例如人像、雕塑、AI艺术、动画等

雕塑

https://live.csdn.net/v/442799

画像

https://live.csdn.net/v/442800

AI艺术

https://live.csdn.net/v/442802

MEMO还支持不同音频类型的输入，包括演讲、唱歌、说唱等

演讲

https://live.csdn.net/v/442803