HumanRig：高德地图提出在大规模数据集中学习人形角色的自动绑定技术，数据集开源！

HumanRig——高德地图3D数字人技术的核心引擎，正深度赋能IP语音包（含3D车标及动态皮肤）、个性化3D数字人等创新业务场景。这项突破性技术大幅度降低角色动画制作成本，成为高德打造沉浸式导航体验

魔搭ModelScope社区

51人浏览 · 2025-04-24 17:35:36

魔搭ModelScope社区 · 2025-04-24 17:35:36 发布

以下文章来源于高德技术，作者颍舟

引言

HumanRig——高德地图3D数字人技术的核心引擎，正深度赋能IP语音包（含3D车标及动态皮肤）、个性化3D数字人等创新业务场景。这项突破性技术大幅度降低角色动画制作成本，成为高德打造沉浸式导航体验的关键基础设施。

目前，业内自动化3D角色绑定技术因缺乏全面、大规模的高质量数据集而面临挑战。作为角色动画的关键步骤，自动绑定技术的进步亟需数据支持。为此，高德推出了HumanRig——业界首个专门针对3D人形角色绑定设计的大规模数据集，包含11,434个遵循统一骨骼拓扑结构的T姿态网格。基于这一数据集，高德提出了一种创新的自动绑定算法，有效克服了基于图神经网络（GNN）的深度学习方法在处理复杂AI生成网格时的局限性，以实现从粗到细的3D骨架关节回归，并完成稳健的蒙皮权重估计。实验结果表明，HumanRig在多项评价指标和可视化对比中均超越了现有方法。这项研究不仅填补了3D人形角色绑定领域的数据集空白，还推动了动画行业向更高效、更自动化的角色绑定方向发展。

https://live.csdn.net/v/475097

论文主题：

HumanRig: Learning Automatic Rigging for Humanoid Character in a Large Scale Dataset

论文链接：https://arxiv.org/abs/2412.02317

项目主页：https://c8241998.github.io/HumanRig/

数据集：

https://modelscope.cn/datasets/jellyczd/HumanRig

Introduction

动画行业正处于一场深刻的变革之中，这场变革的核心在于机器学习与数据驱动技术的深度融合，特别是在3D建模和角色动画领域。在这一背景下，3D拟人角色的“绑定”（rigging）技术，即通过构建骨架和蒙皮来实现逼真运动的关键环节，显得尤为重要。传统绑定工作高度依赖人工操作，需要经验丰富的艺术家手动构建骨架关节并绘制蒙皮权重，这一过程不仅耗时耗力，还难以满足日益加速的内容创作需求。随着行业对效率要求的不断提升，绑定自动化已成为亟待解决的课题。

尽管AI驱动的3D生成领域取得了显著进展，但自动绑定技术的发展仍面临瓶颈，主要原因在于缺乏全面且标准化的数据集。现有数据集如RigNet虽然为早期绑定方法提供了数据基础，但其规模有限（仅包含1729个T-pose人形网格），且存在骨架拓扑不一致、关节标签不完善等问题，难以满足实际动画制作的需求。其他研究如NBS，主要基于SMPL数据集，因此主要局限于真实人体形状，缺乏对多样化角色类型的泛化，限制了其应用范围。这些局限性促使我们开发了HumanRig数据集。

HumanRig是首个专门为3D拟人角色自动绑定任务设计的大规模数据集，包含11,434个高质量的AI生成人形网格。所有模型均以T-pose呈现，并严格遵循行业标准的骨架拓扑结构，确保其可直接应用于主流动画引擎。HumanRig不仅在规模上远超现有数据集，还涵盖了广泛的角色类型和体型比例，从真实人物到卡通角色，甚至拟人化动物，充分满足了多样化应用的需求。

基于HumanRig数据集，我们提出了一种创新的自动绑定框架。与以往依赖图神经网络（GNN）从3D网格几何特征中学习绑定的方法不同，我们的框架通过以下核心模块显著提升了性能：1）先验引导的骨架估计器（Prior-guided skeleton estimator, PGSE），利用2D先验信息投射到3D空间，初始化粗略骨架，大幅降低绑定任务的复杂度；2）U形Point Transformer作为网格编码器，摒弃了对3D网格的边信息的依赖，增强了复杂网格上的绑定鲁棒性；3）网格-骨架互注意力网络（MSMAN），通过在高级语义空间中融合网格与骨架特征，实现了骨架构建与蒙皮的联合优化。

实验结果表明，我们的方法在性能上显著超越了现有技术。这一贡献不仅填补了大规模人形绑定数据集的空白，还为动画行业提供了一种高效的自动绑定解决方案。通过简化绑定流程，我们的研究为角色动画的自动化和高效化铺平了道路，开启了创意表达与内容创作的新篇章。

Dataset

HumanRig数据集构造流程

构建大规模3D人形模型数据集面临的主要挑战是人工成本高。基于AI的2D图像生成技术（如文本到图像生成）和3D模型生成技术（如单图像到3D模型）为这一问题提供了高效解决方案。通过T姿态图像生成、T姿态网格生成及基于Mixamo的半自动绑骨（含人工修复），我们收集了11434个AI生成的3D人形网格，涵盖多样化头身比例和角色类型，并与Mixamo骨架拓扑对齐。每个样本包括：绑定骨骼的T姿态网格、3D骨架关节位置、蒙皮权重矩阵、前视图图像（含相机参数）及2D骨架关节位置。

HumanRig与其他绑骨数据集对比

HumanRig中3D角色头身比分布示意图
与现有数据集相比，HumanRig在规模、多样性和骨架一致性方面具有显著优势，为绑定研究和应用提供了高质量、多样化的数据支持。

Method

HumanRig自动绑定算法

利用具有统一骨架拓扑的HumanRig数据集，我们提出了一种数据驱动的自动绑定框架。正如上图所示，我们的方法首先通过一个先验引导的骨架估计器（PGSE）初始化一个粗略的骨架。这个骨架具有双重作用：它促进关节位置从粗到细的学习，并增强顶点属性以产生骨架感知的顶点特征，从而简化骨架和蒙皮权重的学习过程。此外，我们采用两个编码器分别提取骨架和网格特征：一个基于MLP的骨架编码器用于提取骨架特征，以及一个基于Point Transformer的网格编码器用于提取网格特征。这些不同的特征随后通过网格-骨架互注意网络（MSMAN）进行更深层的特征融合。我们将分别介绍这些模块。

先验引导的骨架估计器（PGSE）

先验引导的骨架估计器（PGSE）利用来自模型正视图的二维骨架先验，并借助摄像机参数将其投影为近似的三维位置。通过提供初始估计，这一方法大大简化了从三维网格几何直接学习骨架位置的任务，然后可以利用网格数据对其进行进一步优化。具体来说，我们在正视图图像上对RTMPose进行微调，以准确预测二维模板关节。随后，每个二维关节被回投影为一条射线。在这个过程中，我们确定粗略的三维骨架，通过计算每条射线与网格表面的交点，并使用每个三维粗略关节的第一次和最后一次交点的中点来得到结果。

骨架和网格编码器

我们使用一个由简单的三层多层感知机（MLP）组成的骨架编码器来处理粗略的三维骨架点并提取骨架特征。这种编码器由于骨架的固定拓扑结构和有限的关节数量而言非常高效。

对于网格特征提取，我们首先提取所有顶点并构建与骨架相关的顶点特征，每个顶点具有三个位置坐标和若干个与骨架的欧几里得距离特征。然后，我们使用一种U形的Point Transformer作为网格编码器来提取深度网格特征，其中最后一个上升转换层的输出作为我们的编码器输出。基于Point Transformer的网格编码器有效地结合了局部几何特征和全局语义特征。与常用的基于图神经网络（GNN）的网格编码器相比，它在处理通常具有不规则面拓扑并包含大量顶点的AI生成网格时表现出更好的泛化能力。

网格-骨架互注意网络

网格-骨架互注意网络（Mesh-Skeleton Mutual Attention Network，简称MSMAN）用以通过互相交叉注意机制整合骨架特征和网格特征。骨架特征为网格特征提供了身体部位的归属信息，这有助于网格顶点的语义理解，并提升蒙皮权重预测的准确性。类似地，网格特征增强了骨架的局部特征表示，这有利于精确定位骨架的准确位置。以一个方向为例，我们引入多头交叉注意机制来增强网格特征。对于交互的另一面，我们采用相同的公式，但将注意机制的点设置为由骨架特征整合到网格特征。最终得到代表具备骨架信息的网格特征。

损失设计

网络整体损失由两部分组成。对于骨骼创建来说，使用均方误差损失，对于蒙皮权重来说，使用KL散度损失。

Experiments

骨架构建：在骨架预测任务中，我们将所提出的方法与RigNet和NBS进行了对比实验。RigNet由于未引入类人骨架的先验知识，导致预测结果存在以下问题：（1）关键关节缺失现象普遍存在；（2）关节位置和骨骼连接关系存在不确定性。NBS虽然采用了SMPL的固定骨架模板，但其预测结果在下肢区域存在明显的关节位置偏差。这种不准确性主要源于两个因素：首先，直接从网格特征回归关节位置本身具有较高的技术挑战性；其次，由于仅在SMPL数据集上进行训练，模型难以有效泛化到具有不同头身比的多样化网格数据。相比之下，我们的方法通过引入稳健的2D先验知识，并结合标准骨架模板进行关节预测，能够生成更加合理且符合解剖学结构的骨架。

网格变形质量定性分析

网格变形质量定量分析

蒙皮预测与网格变形：我们与Heat Diffusion、GVB和RigNet进行了全面的对比分析。定量评估结果表明，RigNet在处理顶点数超过5K的复杂网格时存在明显局限性，而我们的方法在艺术家创作的高精度网格和AI生成的多样化网格上均表现出色。此外，定性可视化分析进一步验证了我们的方法在生成逼真且流畅的动画效果方面的优势，尤其是在处理不同头身比例、穿戴复杂服装或配件的角色时表现尤为突出。这一优势主要归功于我们采用的基于Point Transformer的网格编码器，它能够有效区分不同身体部位的特征，从而生成更加精确的蒙皮权重分布，最终实现更高质量的网格变形效果。

Conclusion

综上所述，本文的贡献如下：

我们提出的HumanRig，是第一个专为3D人形角色模型自动绑定任务量身打造的大规模数据集，提供了11,434个精心制作的AI生成的人形mesh。所有模型均以T-pose生成，并与行业标准的骨架拓扑对齐，使其可以直接在标准动画引擎中即插即用。HumanRig在规模和多样性方面无与伦比，拥有广泛的体型比例和角色类型。
我们推出了一种创新的自动绑定算法，我们方法的核心模块包括：a）先验引导骨架估计器（PGSE），使用投射到3D空间中的2D先验初始化粗略骨架，显著降低绑定任务的复杂性。b）U形Point Transformer作为我们的网格编码器，忽略3D网格中边的信息以增强复杂网格上的绑定稳健性。c）网格-骨架互注意网络（MSMAN），在高级语义空间中通过互信息增强网格和骨架特征，实现骨架构建和蒙皮的联合优化。

对于未来工作，我们有如下展望：