Paper Reading | MEMO:记忆引导扩散模型实现生动的Talking Head生成
MEMO能够仅通过一张图片和一段音频,生成逼真且富有表现力的人像视频,不仅在音频与口型同步方面表现出色,还能生成自然流畅的面部表情和动作,使得生成的视频栩栩如生,仿佛真人在表演。
项目主页:
https://memoavatar.github.io/
论文链接:
https://arxiv.org/abs/2412.04448
代码链接:
https://github.com/memoavatar/memo
模型链接:
https://www.modelscope.cn/models/ltzheng/memo
近期,来自Skywork AI、南洋理工大学、新加坡国立大学的研究团队发布了最新的视频生成模型MEMO,一经推出便在学术界和技术社区引起了广泛关注。MEMO能够仅通过一张图片和一段音频,生成逼真且富有表现力的人像视频,不仅在音频与口型同步方面表现出色,还能生成自然流畅的面部表情和动作,使得生成的视频栩栩如生,仿佛真人在表演。
https://live.csdn.net/v/442798
MEMO模型采用了先进的扩散模型框架,不仅能够实现精准的音频与口型同步,还能够保持长时间的人物身份一致性,并生成与音频情感相匹配的自然表情动作。例如,人物在讲话时能够根据情绪节奏做出抬眉、皱眉、叹气等细微动作;在唱歌时,表情和动作更加生动自然,适应不同的音乐风格。
MEMO能够生成多种图像风格的输入,例如人像、雕塑、AI艺术、动画等
雕塑
https://live.csdn.net/v/442799
画像
https://live.csdn.net/v/442800
AI艺术
https://live.csdn.net/v/442802
MEMO还支持不同音频类型的输入,包括演讲、唱歌、说唱等
演讲
https://live.csdn.net/v/442803
唱歌
https://live.csdn.net/v/442804
说唱
https://live.csdn.net/v/442805
MEMO还具备多语言支持:例如英语、普通话、西班牙语、日语、韩语、粤语等
普通话
https://live.csdn.net/v/442806
西班牙语
https://live.csdn.net/v/442807
韩语
https://live.csdn.net/v/442808
更多丰富风格的展示,可移步 项目主页:https://memoavatar.github.io
MEMO技术方案
具体来说,MEMO是如何通过记忆引导和情感感知,实现如此生动的效果呢?
MEMO框架中,外观信息和音频信息分别通过专门设计的模块进行处理。在外观信息处理方面,MEMO引入了记忆引导的时序模块,通过存储长期的上下文信息,提升视频生成的身份一致性和动作流畅性。这一模块利用线性注意力机制,有效捕捉跨时间片段的时序信息,从而更好地建模人物的运动信息。
为了进一步提升效果,MEMO设计了情感感知的音频模块,取代了传统的交叉注意力机制,采用多模态注意力机制增强音频与视频的互动。同时,该模块能够从音频中检测情感,利用情感自适应层归一化技术,细化面部表情,使生成的视频不仅在技术上先进,在情感表达上也更加贴近真实。
MEMO使用起来也很方便,克隆仓库(https://github.com/memoavatar/memo)并按照README配好环境后,只需一行代码即可自动下载模型和生成视频。
点击链接阅读原文:https://www.modelscope.cn/models/ltzheng/memo
更多推荐
所有评论(0)