色酷电影

自慰 自拍 双东说念主作为生成新SOTA!浙大暴虐TIMotion框架

         发布日期:2025-07-06 13:16    点击次数:63

自慰 自拍 双东说念主作为生成新SOTA!浙大暴虐TIMotion框架

双东说念主作为生成新 SOTA!自慰 自拍

针对 Human-human motion generation 问题,浙江大学暴虐了一种对双东说念主理解序列进行时序和因果建模的架构 TIMotion,论文已发表于 CVPR 2025。

具体来说,通过辨别诳骗理解序列期间上的因果关系和两东说念主交互经过中的主动被迫关系,TIMotion 假想了两种灵验的序列建模神志。

此外还假想了局部理解神情增强,使得生成的理解愈加平滑当然。

团结教导词下,使用 TIMotion 和刻下 SOTA 步履 Intergen 对比如下:

(翻译版)这两个东说念主歪斜着身子,濒临面,玩起了石头剪刀布。与此同期,有一个东说念主收受出布。

仔细对比手部作为,不错看出 TIMotion 的生收效果更好。

除此除外,执行结果泄漏,TIMotion 在 InterHuman 和 InterX 数据集上均达到了 SOTA 效果。

底下具体来看。

全新对准双东说念主作为生成

在生成式计议机视觉畛域,东说念主类作为生成对计议纯真画、游戏开辟和机器东说念主阻挡皆具有进军风趣风趣。

连年来,在用户指定的万般条款的运转下,东说念主类作为生成技巧取得了显贵高出。其中,很多诳骗大言语模子和扩散模子的步履获利于其宽敞的建模才智,在生成传神而万般的作为方面取得了令东说念主精通的效力。

尽管取得了这一进展,但现存的大巨额步履主若是针对单东说念主体育场景而假想的,因此忽略了东说念主体理解的一个关键身分:东说念主与东说念主之间复杂而动态的互动。

为了更好地探索双东说念主作为生成,接洽团队领先概括出了一个通用框架 MetaMotion,如图 1 左侧所示,它由两个阶段构成:时序建模和交互搀杂。

以往的步履优先辩论的是交互搀杂而非时序建模,主要分为以下两类:

基于单东说念主生成步履的推广

基于单东说念主建模的步履

如图(a)所示,基于单东说念主生成步履的推广会将两个东说念主合并成一个东说念主,然后将其输入现存的单东说念主理解生成模块之中。基于单东说念主建模的步履如图(b)所示,是对两个个体单独建模,然后辨别使用自我提防和交叉提防机制,从两个个体本身和对方身上提真金不怕火理解信息。

按照 MetaMotion 的一般逻辑,团队暴虐了 "时空交互框架"(Temporal and Interactive Framework),如图 ( c ) 所示,该框架模拟了东说念主与东说念主之间的因果互动,这种灵验的时序建模步履不错简化交互搀杂模块的假想,减少可学习参数的数目。

暴虐双东说念主作为生成架构 TIMotion

团队初次暴虐了用于双东说念主作为生成的中枢倡导 " MetaMotion "。

如上图所示,他们将双东说念主理解生成经过概括为两个阶段:时序建模和交互搀杂。

具体来说,两个单东说念主序列通逾期序建模模块得到输入序列。然后,输入序列被送入交互搀杂模块,这依然过可示意为

其中,InteractionMixing 频繁是 Transformer 结构,包括自提防和交叉提防机制。

值得提防的是,InteractionMixing 也不错是一些新兴结构,比如 Mamba、RWKV 等等。

TIMotion

TIMotion 的合座架构如下图所示,主要包含三个部分: ( 1 ) Causal Interactive Injection; ( 2 ) Role-Evolving Scanning; ( 3 ) Localized Pattern Amplification。

Causal Interactive Injection

理解的自我感知以及与他东说念主理解的交互感知是双东说念主理解生成的关键要素。

辩论到理解的因果属性,团队暴虐了  "因果互动注入"(Causal Interactive Injection)这一时序建模步履,以同期终了对自我理解的感知和两东说念主之间的互动。

具体来说,团队用示意两个单东说念主理解序列,其中庸是各自的理解序列,L 是序列的长度。

由于两个东说念主在刻下期间步的理解是由他们在之前期间步的理解共同决定的,因此团队将两个东说念主的理解序列建模为一个因果交互序列

,象征 // 示意除法后四舍五入,k 不错通过下式得到:

然后,团队不错将它们注入交互搀杂模块,并凭证 k 的界说将两个个体的作为特征从输出结果平分离出来。

Role-Evolving Scanning

东说念主类在交互经过中频繁存在一定的内在规则,举例,"持手"频繁由一个东说念主先伸出手,这意味着交互作为不错被分为主动理解和被迫理解。

一些步履将文本描摹分为主动和被迫语态。

但是,跟着互动的进行,"主动方"和"被迫方"不断在两东说念主之间交换,如图 3 所示。

为了幸免冗余的文本预处理而况适应变装的不断变化,论文假想了一种高效且灵验的步履:变装演变扫描(Role-Evolving Scanning)。

对于在 Causal Interactive Injection 中界说的因果交互序列 x,昭彰 a 和 b 辨别代表了主动方理解序列和被迫方理解序列。但是这种对于主动和被迫序列的假定并不老是合乎本体规则。

为了疏忽变装的变化,论文将因果交互序列再行建模为对称因果交互序列

,k ’由下式得到:

给定因果交互序列和对称因果交互序列,论文通过变装演变扫描得到最终的双东说念主交互序列:

然后序列 X 被送入交互搀杂模块得到作为的特征。

接下来,辨别按照特征通说念和期间的维度将两个东说念主的特征取出,并按照元素相加得到两东说念主交互后的最终特征,特征 split 和 fuse 经过如下式:

其中示意按元素相加。

通过诳骗 "变装演变扫描 "技巧让两个东说念主同期饰演主动和被迫变装,网罗不错凭证文本的语义和作为的转折文动态调整两个东说念主的变装。

Localized Pattern Amplification

因果交互注入和变装演变扫描主要基于双东说念主互动之间的因果关系来建模合座理解,但忽视了对局部理解神情的慈祥。

为了惩办这个问题,论文暴虐了局部理解神情增强(Localized Pattern Amplification),通过捕捉每个东说念主的短期理解神情,使得生成愈加平滑和合理的理解。

具体来说,论文诳骗一维卷积层和残差结构来终了局部理解神情增强。给定条款镶嵌和两个单东说念主的理解序列,不错建造下式的结构:

其中 Convk 示意卷积核为 k 的一维卷积,AdaLN 为自适应层正则化。

得到全局输出和局部输出后,两者通过特征通说念维度的进行 Concat,然后通过线性层对特征进行诊疗,得到最终输出特征:

通过这种神志,约略捕捉每个东说念主的短期作为神情,并将其与条款镶嵌集中,从而生成更平滑和更合理的作为序列。

主义函数

论文华取了常见的单东说念主作为圆寂函数,包括足部构兵损结怨关键速率圆寂。

此外,还使用了与 InterGen 调换的正则化圆寂函数,包括骨长度圆寂、掩码关键距离图损结怨相对标的圆寂。

最终,总体圆寂界说为:

执行结果

在 InterHuman 数据集上,TIMotion 在三个不同的交互搀杂结构(Transformer, Mamba, RWKV)上皆得到了较好的透露,其中 TIMotion 和 RWKV 结构相集中 FID 达 4.702,Top1 R precision 达到 0.501,达到了 SOTA。

在 InterX 数据集上,TIMotion 在 R precision,FID, MM Dist 等度量筹商上也达到了最优的透露。

在计议复杂度方面,论文将 TIMotion 与刻下开始进的步履InterGen进行了比较。

与 InterGen 比较,TIMotion 所需的参数和 FLOPs 更少,但在综总筹商 FID 和 R Precision 方面优于 InterGen。

值得提防的是,使用与 InterGen 访佛的 Transformer 架构,TIMotion 每个样本的平均推理期间仅为 0.632 秒,而 InterGen 则需要 1.991 秒。

欧美色

论文在 InterHuman 的测试集上进行了理解剪辑的执行,通过给定序列的前 10% 和后 10% 帧让模子瞻望稀奇 80% 帧的序列来进行评估步履的可剪辑性。

Table 6 泄漏了 TIMotion 在理解插值剪辑任务中,在所有这个词度量筹商上皆卓著了 InterGen。

追想

论文将双东说念主理解生成经过概括为一个通用框架 MetaMotion,其中包括两个阶段:期间建模和交互搀杂。

接洽发现,由于当今的步履对时序建模的慈祥不及,导致次优结果和模子参数冗余。

在此基础上,团队暴虐了 TIMotion,这是一种高效、出色的双东说念主理解生成步履。

具体来说,他们领先暴虐了 Causal Interactive Injection,诳骗时序和因果属性将两个独处的担任序列建模为一个因果序列。

此外,还暴虐了 Role-Evolving Mixing 来适应所有这个词这个词互动经过中的动态变装,并假想了 Localized Pattern Amplification 来捕捉短期理解神情,从而生成更平滑、更合理的理解。

TIMotion 在两个大范畴双东说念主理解生成的数据集 InterHuman 和 InterX 上均达到了 SOTA 的效果,解说了论文所暴虐步履的灵验性。

因此,TIMotion 为 Human-human motion generation 提供了一个灵验的惩办决策。

论文:

https://arxiv.org/abs/2408.17135

技俩主页:

https://aigc-explorer.github.io/TIMotion-page/

一键三连「点赞」「转发」「严防心」

接待在挑剔区留住你的思法!

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 技俩主页勾通,以及接洽神志哦

咱们会(尽量)实时复兴你

� � 点亮星标 � �

科技前沿进展逐日见自慰 自拍



 
友情链接:

Powered by 色表姐 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有