项目主页:

https://memoavatar.github.io/

论文链接:

https://arxiv.org/abs/2412.04448

代码链接:

https://github.com/memoavatar/memo

模型链接:

https://www.modelscope.cn/models/ltzheng/memo

近期,来自Skywork AI、南洋理工大学、新加坡国立大学的研究团队发布了最新的视频生成模型MEMO,一经推出便在学术界和技术社区引起了广泛关注。MEMO能够仅通过一张图片和一段音频,生成逼真且富有表现力的人像视频,不仅在音频与口型同步方面表现出色,还能生成自然流畅的面部表情和动作,使得生成的视频栩栩如生,仿佛真人在表演。

https://live.csdn.net/v/442798

MEMO模型采用了先进的扩散模型框架,不仅能够实现精准的音频与口型同步,还能够保持长时间的人物身份一致性,并生成与音频情感相匹配的自然表情动作。例如,人物在讲话时能够根据情绪节奏做出抬眉、皱眉、叹气等细微动作;在唱歌时,表情和动作更加生动自然,适应不同的音乐风格。

MEMO能够生成多种图像风格的输入,例如人像、雕塑、AI艺术、动画等

雕塑

https://live.csdn.net/v/442799

画像

https://live.csdn.net/v/442800

AI艺术

https://live.csdn.net/v/442802

MEMO还支持不同音频类型的输入,包括演讲、唱歌、说唱等

演讲

https://live.csdn.net/v/442803

唱歌

https://live.csdn.net/v/442804

说唱

https://live.csdn.net/v/442805

MEMO还具备多语言支持:例如英语、普通话、西班牙语、日语、韩语、粤语等

普通话

https://live.csdn.net/v/442806

西班牙语

https://live.csdn.net/v/442807

韩语

https://live.csdn.net/v/442808

更多丰富风格的展示,可移步 项目主页:https://memoavatar.github.io

MEMO技术方案

具体来说,MEMO是如何通过记忆引导和情感感知,实现如此生动的效果呢?

 

 

 

MEMO框架中,外观信息和音频信息分别通过专门设计的模块进行处理。在外观信息处理方面,MEMO引入了记忆引导的时序模块,通过存储长期的上下文信息,提升视频生成的身份一致性和动作流畅性。这一模块利用线性注意力机制,有效捕捉跨时间片段的时序信息,从而更好地建模人物的运动信息。

 

 

 

为了进一步提升效果,MEMO设计了情感感知的音频模块,取代了传统的交叉注意力机制,采用多模态注意力机制增强音频与视频的互动。同时,该模块能够从音频中检测情感,利用情感自适应层归一化技术,细化面部表情,使生成的视频不仅在技术上先进,在情感表达上也更加贴近真实。

 

MEMO使用起来也很方便,克隆仓库(https://github.com/memoavatar/memo)并按照README配好环境后,只需一行代码即可自动下载模型和生成视频。

点击链接阅读原文:https://www.modelscope.cn/models/ltzheng/memo

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐