ICCV 2023-日光戊午网

ICCV 2023

时间：2024-11-16 11:58:55 来源：作者：

机械之心专栏

作者：MMLab@NTU

来自南洋理工大学以及商汤科技的钻研者散漫提出了一种全新的文本驱动措施天生框架——ReMoDiffuse。

人体措施天生使命旨在天生传神的人体措施序列，以知足娱乐、伪造事实、机械人技术等规模的需要。传统的天生措施搜罗 3D 脚色建树、关键帧动画以及措施捉拿等步骤，其存在诸多限度，如耗时较长，需要业余技术知识，波及高尚的零星以及软件，差距软硬件零星之间可能存在兼容性下场等。随着深度学习的睁开，人们开始试验运用天生模子来实现人体措施序列的自动天生，好比经由输入文本形貌，要求模子天生与文本要求相立室的措施序列。随着散漫模子被引入这个规模，天生措施与给定文本的不同性不断后退。

可是，天生措施的做作水平离运用需要仍有很大差距。为了进一步提升人体措施天生算法的能耐，本文在 MotionDiffuse [1] 的根基上提出了 ReMoDiffuse 算法（图 1），经由运用检索策略，找到高相关性的参考样本，提供细粒度的参考特色，从而天生更高品质的措施序列。

论文链接：https://arxiv.org/pdf/2304.01116.pdf
GitHub：https://github.com/mingyuan-zhang/ReMoDiffuse
名目主页：https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

经由怪异地将散漫模子以及立异的检索策略融会，ReMoDiffuse 为文本教育的人体措施天生注入了新的性命力。经由精心想象的模子妄想，ReMoDiffuse 不光可能缔造出丰硕多样、着实度高的措施序列，还能实用地知足种种长度以及多粒度的措施需要。试验证实，ReMoDiffuse 在措施生陋习模的多个关键子的上展现卓越，清晰地逾越了现有算法。

措施介绍

ReMoDiffuse 主要由两个阶段组成：检索以及散漫。在检索阶段，ReMoDiffuse 运用混合检索技术，基于用户输入文本以及预期措施序列长度，从外部的多模态数据库中检索出信息丰硕的样本，为措施天生提供强有力的教育。在散漫阶段，ReMoDiffuse 运用检索阶段检索到的信息，经由高效的模子妄想，天生与用户输入语义不同的行动序列。

为了确保高效的检索，ReMoDiffuse 为检索阶段精心妄想了如下数据流（图 2）：

共有三种数据退出检索历程，分说是用户输入文本、预期措施序列长度，以及一个外部的、搜罗多个 < 文本，措施 > 对于的多模态数据库。在检索最相关的样本时，ReMoDiffuse 运用公式一起作为输入给散漫阶段的信号，教育措施天生。

合计出每一个数据库中的样本与用户输入的相似度。这里的第一项是运用预磨炼的 CLIP [2] 模子的文本编码器对于用户输入文本以及数据库实体的文本合计余弦相似度，第二项合计预期措施序列长度以及数据库实体的措施序列长度之间的相对于差距作为行动学相似度。合计相似度分数后，ReMoDiffuse 抉择相似度排名前 k 的样本作为检索到的样本，并提掏出文本特色，以及措施特色。这两者以及从用户输入的文本中提取的特色

散漫历程（图3.c）由正向历程以及逆向历程两个部份组成。在正向历程中，ReMoDiffuse 逐渐将高斯噪声削减到原始措施数据中，并最终将其转化为随机噪声。逆向历程专一于作废噪声并天生传神的措施样本。从一个随机高斯噪声开始，ReMoDiffuse 在逆向历程中的每一步都运用语义调制模块（SMT）（图3.a）来估测着实扩散，并凭证条件信号来逐渐去除了噪声。这里 SMT 中的 SMA 模块将会将所有的条件信息融入到天生的序列特色中，是本文提出的中间模块。

对于 SMA 层（图 3.b），咱们运用了高效的留意力机制（Efficient Attention）[3] 来减速留意力模块的合计，并缔造了一个更夸张全局信息的全局特色图。该特色图为措施序列提供了更综合的语义线索，从而提升了模子的功能。SMA 层的中间目的是经由聚合条件信息来优化措施序列

的天生。在这个框架下：

1.Q 向量详细地代表了咱们期望基于条件信息天生的预期措施序列。

2.K 向量作为一种索引机制综合思考了多个因素，搜罗之后措施序列特色、用户输入的语义特色

，以及从检索样本中取患上的特色

。其中，

展现从检索样本中取患上的措施序

列特色，展现从检索样本中取患上的文本形貌特色。这种综合性的构建方式保障了 K 向量在索引历程中的实用性。

以及

3.V 向量提供了措施天生所需的实际特色。相似 K 向量，这里 V 向量也综合思考了检索样本、用户输入以及之后措施序列。思考到检索样本的文本形貌特色与天生的措施之间不直接分割关连，因此在合计 V 向量时咱们抉择不运用这一特色，以防止不用要的信息干扰。

散漫 Efficient Attention 的全局留意力模板机制，SMA 层运用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特色信息，建树起一系列综合性的全局模板，使患上所有条件信息可能被待天生序列短缺罗致。

试验及服从

咱们在两个数据集 HumanML3D [4] 以及 KIT-ML [5] 上评估了 ReMoDiffuse。在与文本的不同性与措施品质两个角度上，试验服从（表一、2）揭示了咱们提出的 ReMoDiffuse 框架的强盛功能以及优势。

如下是一些能定性揭示 ReMoDiffuse 的强盛功能的示例（图 4）。与以前的措施比照，好比，在给定文本 “一总体在圆圈里跳跃” 时，惟独 ReMoDiffuse 可能精确捉拿到 “跳跃” 措施以及 “圆圈” 道路。这表明 ReMoDiffuse 可能实用地捉拿文本细节，并将内容与给定的行动不断光阴对于齐。

咱们对于 Guo 等人的措施 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所天生的响应措施序列妨碍了可视化揭示，并以问卷方式群集测试退出者的意见。服从的扩散情景如图 5 所示。从服从中可能清晰地看出，在大少数情景下，退出测试者以为咱们的措施 —— 即 ReMoDiffuse 所天生的措施序列在四个算法中最贴合所给的文本形貌，也最做作流利。

图 5：用户调研的服从扩散

援用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

关键词：

ICCV 2023

热点关注