这项由北京邮电大学牵头,联合中国科学技术大学、东北大学、新加坡国立大学、清华大学、电信人工智能研究院(TeleAI)及西北工业大学共同完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.20955。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

当你闭上眼睛,脑海里浮现出一个特定的动作——比如一个人先大步跑向障碍物,腾空跃起,落地时左手高高扬起——你能用文字把它描述清楚吗?大多数人的回答是:很难。你可能会写"跑步并跳过障碍",但这句话完全抓不住那个举手的细节。AI生成人体动画的技术已经相当成熟,但它最大的瓶颈从来不是算法,而是"如何让用户把脑子里的动作说清楚"。北京邮电大学的研究团队换了一个思路:既然说不清楚,那就画出来。

这个项目叫做DrawMotion,核心理念是给用户一支"虚拟画笔",让他们在屏幕上随手画出一个小火柴人(学术上叫"stickman",即棍人图),再画一条运动轨迹,系统就能据此生成一段自然流畅的三维人体动画。整套框架建立在当下最热门的"扩散模型"(一种让AI从噪声中逐步还原出高质量内容的技术)之上,同时接受文字描述和手绘草图两种输入,让语义控制和空间控制并驾齐驱。用户研究数据显示,与纯文字输入相比,这套手绘方式能帮用户节省大约46.7%的时间,同时获得更高的满意度评分。

一、为什么文字描述永远差一口气

以烹饪为例来理解这个问题。假如你想让厨师复刻一道你祖母做的红烧肉,你可以描述"放酱油、放糖、慢炖",但火候、时机、酱汁的黏稠程度,这些靠文字几乎无法精确传递。人体运动的情况更复杂,因为它涉及十几个关节在三维空间里的精确协调。

现有的"文字生成动作"系统,比如研究团队此前对比的ReMoDiffuse等方法,已经能根据"向前踢高腿"这样的描述生成对应动画。但如果用户想要的是"向前踢高腿,同时右臂保持自然下垂,左臂微微向后摆",文字就开始力不从心了。另一些研究尝试用更精细的文字描述来分别控制身体各个部位,但这无异于让用户学一门新语言——代价反而更高。

研究团队此前发布过一个叫StickMotion的系统(已于2025年CVPR发表),首次证明了手绘棍人图可以用来控制动作生成,但那个版本只能在运动序列的开头、中间、结尾这三个固定位置放置棍人图,且无法控制运动轨迹。DrawMotion是在此基础上做出的大幅跃进:用户现在可以先画一条任意形状的轨迹线(比如一个螺旋形、一个字母"m"),然后在轨迹的任意位置插入任意数量的棍人图来指定该位置的姿态。这两项改变带来的灵活度是质的飞跃,同时也带来了三个全新的技术挑战,正是这三个挑战构成了整篇论文的主干。

二、从数据到草图:教会机器"看懂"随手画

第一个挑战是数据问题。训练AI需要大量"配对数据"——也就是一大堆棍人图和它们对应的三维姿势。但真人手绘的棍人图太稀少了,也太难大规模收集。研究团队的解决方案是"自动合成",他们设计了一个叫做"棍人生成算法"(Stickman Generation Algorithm,SGA)的程序,能从已有的三维动作数据集中自动生成风格各异的手绘风格棍人图。

这个算法在模拟时考虑了真实手绘的三个特点。人类画画时手的力度和习惯各不相同,线条的流畅程度千差万别——用鼠标画的线通常比用iPad画的更抖;画棍人时很难做到绝对精准,各个部位的位置会有轻微偏差;更重要的是,手绘时人们往往只关注局部细节,不同身体部位之间的比例可能不一致。算法在生成棍人图时都把这些因素考虑进去,让生成的数据贴近真实的手绘特征。此外,为了避免从侧面看人的时候棍人图模糊不清,系统规定棍人图统一从正面(即垂直于骨盆平面的视角)绘制。

手绘草图的编码方式同样经过精心设计。最直接的做法是记录下用户画笔经过的每一个坐标点,但这样的话,一个棍人图可能需要200多个点,计算量会非常大。研究团队的方案是把棍人图拆解成六条"一笔画"的线段,分别代表头部、躯干和四肢,每条线段单独编码后再由一个小型变换器网络(transformer)整合成一个紧凑的特征向量。这种表示方式不仅计算效率高,识别精度也更好。

值得一提的是"候选损失"机制。棍人图有一个天然的歧义性:当两条腿并拢站立时,从正面看几乎分不清哪条是左腿哪条是右腿。传统的训练方式是强迫模型给出一个确定的答案,但这会导致模型在这种歧义情况下表现很差。研究团队换了个思路:让解码器同时预测N个候选姿势,只对其中误差最小的那个施加主要的惩罚,其余候选姿势施加较轻的辅助惩罚。这样模型就学会了"保留多种合理可能",而不是被迫猜一个。实验证明,这个机制确实提升了动作生成的准确度。

至于二维轨迹的处理,逻辑相对直接:用户在界面上画出的轨迹曲线会被重新采样到与动作序列帧数相同的密度,然后送进由六层一维卷积网络构成的轨迹编码器。采样可以根据用户需求偏向"匀速采样"(忽略画线的速度)或"密度采样"(保留画线的快慢节奏),从而对生成动作的速度节奏进行控制。

三、让AI同时听懂两种语言:多条件融合模块

第二个挑战是如何同时处理文字和手绘两种完全不同性质的输入。文字描述的是全局语义(这个动作在做什么),而手绘描述的是局部空间信息(每一帧的骨架姿态和整体移动路径)。把这两种信息有效整合起来,是DrawMotion架构设计的核心。

传统方法是把所有条件信息拼接成一个长序列,然后用一个统一的"自注意力"机制处理。自注意力机制可以理解为一种让信息互相"打招呼"的方式——每个信息片段都向所有其他片段提问"你对我有多重要?",然后根据重要程度来更新自己。但当用户只提供了文字而没有画手绘时,系统必须把手绘对应的那些位置"屏蔽掉",这种屏蔽操作会浪费大量计算资源,因为被屏蔽的位置虽然不产生有效信息,但计算过程还是会走一遍。

研究团队设计的"多条件模块"(Multi-Condition Module,MCM)采用了完全不同的架构思路。在这个模块里,文字和手绘通过两个独立的"解码器"分别与动作特征进行交互,而不是被拼在一起走同一条路。更巧妙的是,系统在训练时会把一个批次的数据同时分成四组,对应四种条件组合:文字加手绘、只有文字、只有手绘、什么都没有。两个解码器分别处理需要各自对应条件的那几组数据,然后把输出叠加回动作特征上。这样一来,只需要两个解码器就能覆盖四种条件组合,并且不存在任何浪费计算的屏蔽操作。

在两个解码器的内部结构上,研究团队也做了针对性的选择。手绘解码器使用"标准点积注意力",这种方式会让每一帧的动作特征和所有手绘信息做完整的配对比较——因为棍人图是帧级别的局部姿态信息,动作特征的每一帧都需要找到对应的棍人图来参考,完整配对是必要的。文字解码器则使用"高效注意力",这种方式先对文字信息做全局压缩,再依次映射到每个动作帧上——因为文字描述的是全局语义,不需要逐帧细致比对。高效注意力的计算量和序列长度是线性关系,而标准注意力是平方关系,所以这个选择在保持效果的前提下大幅降低了计算开销。消融实验的对比数据清楚地证明了这一点:把文字解码器换成标准注意力,或者把手绘解码器换成高效注意力,效果都会下降。

在训练监督方面,DrawMotion使用三个损失函数的组合来约束模型的学习方向。轨迹损失确保生成动作的移动路径与输入轨迹一致;棍人损失逐帧比较生成姿态与真实姿态的三维关节偏移量,其中用随机采样的二值掩码来允许不同帧的棍人图组合;动作重建损失则对整个运动序列进行全局约束。三者联合优化,确保模型同时学会"走对路线、摆对姿势、做对动作"。

在推理时,系统通过一套"条件混合"策略来平衡文字和手绘的影响权重。在扩散过程的前期(大约前90%的去噪步骤),系统会以一定概率随机选择偏重手绘条件;在最后10%的精细化阶段,则完全使用文字和手绘的联合条件来做最终打磨。用户研究中使用的配置将偏重手绘的概率设为20%,这样既保证了文字语义的准确性,也确保了手绘细节的体现。

四、当轨迹和文字"打架":无需重新训练的动态纠偏

第三个挑战也是最有技术含量的一个:轨迹和文字有时会产生冲突。假设用户输入了"一个人向前走"的文字描述,同时又画了一条向右弯曲的轨迹,模型在两种相互拉扯的信号下可能最终生成一条向右前方斜走的路径,而不是严格沿着用户画的弧线移动。如何在不修改模型参数(即不重新训练)的前提下,让生成结果更精确地遵循用户输入的轨迹,这就是"无训练引导"问题。

这个问题在学术界已经有几种主流解法。一种是在去噪过程中直接把用户指定位置的数值替换进去,但这样做会破坏数据的内部分布,模型往往会把这些"外来数据"当作噪声处理掉,效果很差。另一种是计算轨迹误差,然后把梯度一路反传到初始噪声上,通过微调初始噪声来改变最终结果——这个方法效果好,但计算量极大,因为需要跑完整的去噪过程很多遍。还有一种做法是在去噪过程的中间某一步计算预测值和目标之间的误差,直接用梯度更新那一步的特征,但这样很容易让特征偏离正常范围,导致生成结果失真。

研究团队发现了一个出人意料的特性:MCM模块中"条件融合模块"输出的中间特征,在高维空间里的分布是相对连续和稠密的。用统计学语言说,这些特征不是离散地聚集在几个孤立的点上,而是比较均匀地铺满了一片区域。这意味着在这些特征上施加梯度扰动,特征不会轻易"跑出合理范围",模型也不会因此产生乱码输出。

为了验证这个直觉,研究团队做了一个巧妙的实验:把一批中间特征按批次维度随机打乱,然后用不同比例的"打乱版本"和"原始版本"做线性插值,观察生成质量的变化。对比实验中的ReMoDiffuse在插值比例仅为1%时生成质量就急剧恶化(FID分数从0.159跳升至0.283),10%时几乎完全崩溃(FID高达29.67)。而DrawMotion在插值比例高达30%时仍然保持几乎相同的生成质量(FID从0.146小幅变化至0.143),直到50%才略有下降。这组数据有力地证明了MCM中间特征空间的连续性。

主成分分析(PCA,一种把高维数据投影到低维平面观察分布形状的工具)提供了视觉化的佐证:ReMoDiffuse的中间特征分布呈现出极不规则的条状;MCM的最终输出特征呈现聚集分布;而MCM条件融合模块的中间特征则呈现出一团连续、稠密、近似高斯形的分布。进一步分析四种条件组合的内在维度发现,文字加手绘的组合需要417个主成分才能解释99.9%的方差,而空条件只需要278个,说明多条件组合确实在高维空间中开拓了更宽广的"可居住区域"。

基于这一发现,研究团队提出了"中间特征引导"(Intermediate Feature Guidance,IFG)方法。做法是在每个去噪步骤里,先提取MCM条件融合模块的中间特征,然后对这个特征做若干次梯度下降——每次下降的目标是缩小预测动作的骨盆轨迹与用户输入轨迹之间的欧氏距离误差。为了防止特征在梯度更新过程中跑出合理范围,研究团队引入了"马氏距离裁剪"机制。马氏距离是一种比欧氏距离更聪明的"偏离度"度量方式,它会同时考虑各个维度的方差和维度之间的相关性——可以理解为一把会根据地形自动调节比例尺的尺子。系统会在特征更新前后分别计算马氏距离,一旦更新后的距离超过原始距离加上一个阈值(即"MD边界"),就按比例缩回这次更新的幅度,确保特征始终在安全范围内游走。

超参数调优实验系统性地测试了各项参数的影响。在层选择方面,越靠近输出的层对轨迹误差的改善越显著,但对生成质量(FID)的损害也越大,第三层是两者之间的最佳平衡点。梯度下降的迭代次数越多,轨迹对齐越精确,但计算时间也成比例增加。马氏距离阈值设为1是最优选择:太小会导致特征根本动不了,太大会让特征跑偏。裁剪比例设为0.01效果最佳,意味着一旦触碰边界,只保留更新量的1%,其余99%丢弃——这看似保守,但恰好给了特征一个"朝新方向轻轻探索"的机会,而不会蛮力冲出边界。

五、用数字说话:DrawMotion的实际表现

研究团队在人体动作生成领域最常用的两个数据集上做了全面评估,分别是KIT-ML和HumanML3D,前者包含3911个动作序列,后者包含约14616个。评估指标涵盖FID(衡量生成质量,越低越好)、R精度(衡量生成动作和文字描述的匹配程度,越高越好)、多模态距离、多样性、多模态性,以及两个针对DrawMotion特有能力设计的指标:棍人相似度(StiSim,衡量生成姿态和输入棍人图的匹配程度)和轨迹误差(Traj.Err,衡量生成轨迹和输入轨迹的偏差)。

在文字生成动作的标准评测维度上,DrawMotion在HumanML3D数据集上的FID为0.108,在KIT-ML上为0.135,都优于或持平于当前最好的纯文字方法。棍人相似度方面,DrawMotion在HumanML3D上达到59.26%,远超前代系统StickMotion的41.50%,说明新版本对手绘姿态的捕捉能力有了实质性提升。

与专门做动作轨迹控制的方法相比,DrawMotion的优势更加突出。在HumanML3D数据集上,轨迹误差仅为0.0062,而此前最好的OmniControl是0.0664,约为DrawMotion的十倍;完全依赖训练时约束的CondMDI是0.1178,约为DrawMotion的二十倍。与此同时,DrawMotion的FID为0.108,也显著低于对比方法中的绝大多数(OmniControl为0.218,GMD为0.576,纯训练方法DNO的FID高达2.464)。

在计算效率方面,DrawMotion也有明显优势。以一批16个样本为基准,DrawMotion每批次耗时24秒,使用50步DDIM采样;OmniControl需要153秒,使用1000步DDPM;DNO则需要高达358秒,使用10步DDIM但每步需要多次反传。GPU显存方面,DrawMotion占用2245MB,与OmniControl的2145MB相近,而DNO需要22727MB——足足是前两者的十倍。

用户研究招募了20名普通参与者,让他们先在脑中想象一段10秒左右的人体动作,然后分别通过文字(输入ReMoDiffuse)和手绘(输入StickMotion和DrawMotion)两种方式来生成动画,最后对生成结果打分。结果显示,ReMoDiffuse平均得分7.3分,总耗时33.8秒(其中概述8.1秒,详细文字描述24.5秒,推理1.2秒);StickMotion平均得分8.5分,总耗时16.4秒(概述8.1秒,手绘7.7秒,推理0.7秒);DrawMotion平均得分9.5分,总耗时34.3秒(概述8.1秒,手绘9.1秒,推理17.1秒)。DrawMotion虽然总时间和ReMoDiffuse相近,但满意度得分高出整整2.2分,说明用户明显感到"画出来的结果更符合脑子里的预期"。研究团队还额外邀请了5名专业动画师,让他们在相同轨迹约束下手工制作关键帧动画,结果每个样本平均需要约3小时,满意度评分7.4分——动作自然度不如AI生成,但轨迹符合度较好。

六、深挖一层:为什么这套框架能奏效

DrawMotion的表现不是偶然的,它背后有几个相互支撑的设计逻辑值得细说。

关于棍人相似度的大幅提升,原因来自三个方向的协同。DrawMotion允许用户在轨迹的任意位置放置棍人图,相比StickMotion只能放在固定三个位置,给了模型更精确的空间锚点。训练时平均使用7个棍人图而不是3个,相当于每条训练数据提供了更密集的"路标",模型学习到了更细粒度的姿态对应关系。此外,专门针对手绘条件设计的标准点积注意力结构,比StickMotion使用的方式更擅长处理帧级别的局部对应。

关于轨迹误差的大幅降低,IFG机制是主要功劳。纯粹靠训练时的轨迹损失(即条件融合模块的基础版本)已经比纯文字方法好很多,但加上IFG之后,轨迹误差可以从0.032进一步降至0.026(更多迭代时)。更关键的是,IFG在改善轨迹对齐的同时没有损害FID,这在现有方法中几乎是独一无二的特性——大多数方法要么牺牲质量换轨迹准确度,要么反之。

关于MCM相比传统掩码注意力机制的优势,消融实验给出了明确答案。用传统掩码方法(只有条件融合,没有潜在编码器)时,FID为0.151,R精度(前三名)为0.764,棍人相似度50.6%,轨迹误差0.048,计算量0.46 TFlops;去掉条件融合只保留潜在编码器时,FID升至0.187,计算量降至0.28 TFlops;两者都用时,FID为0.143,计算量0.71 TFlops;而DrawMotion的完整MCM(两者结合,但使用更高效的实现)FID为0.135,计算量仅0.43 TFlops,效果最好,计算量也低于两者简单叠加的版本。

在棍人数量的影响上,实验显示随着棍人数从0增加到7,StiSim从无到52.88%稳步提升,R精度也有小幅改善,而FID和多样性几乎没有变化。这说明增加手绘条件不会以牺牲生成自然度为代价,两者可以共存。7个以上棍人图的提升趋势趋于平缓,这也印证了系统在实际推理时选择7个棍人图是合理的配置。

七、局限与边界:DrawMotion不是万能的

从技术到产品还有一段距离,研究团队在论文中直接点出了DrawMotion当前的局限。当用户输入的轨迹或棍人姿态与文字描述存在逻辑矛盾时(比如文字写"坐下",轨迹却画成快速移动的折线),生成结果往往会在两者之间妥协,不完全符合任何一个输入。当输入违反基本的人体运动物理规律时(比如一个姿势在生理上根本无法完成),系统也无法生成合理的结果,而是会产生扭曲的输出。

研究团队的建议是:系统可以把IFG算法最后一步的引导损失值(也就是预测轨迹和目标轨迹之间的最终误差)返回给用户,作为"输入冲突程度"的参考指标。如果这个损失值很大,说明用户的输入存在内部矛盾,可以据此调整。这是一个务实而诚实的态度:不宣称全能,而是提供辅助信息帮助用户做出更好的决策。

说到底,DrawMotion做的事情是在人与AI之间搭建了一条更直觉化的沟通渠道。动作生成这件事,从来不只是算法问题,更是交互问题。文字适合描述"发生了什么",但对于"怎么发生的"——速度、轨迹、每一帧的姿态——它的精度上限就摆在那里。手绘草图绕过了这个上限,让用户直接在空间维度上表达意图,而不必把空间信息翻译成语言再翻译回来。

技术上,这套系统最值得关注的是MCM中间特征空间连续性这一发现。它揭示了一类模型具备"天然引导容受性"的特质,并由此衍生出IFG这个不需要额外训练、不需要额外模块、计算开销远低于现有方法的轨迹对齐手段。这个思路本身具有一定的普适性,值得在其他扩散模型架构上验证和推广。

对于关心AI辅助创作工具的从业者来说,DrawMotion指向的方向是:多模态输入不是简单叠加,而是要针对不同模态的信息特性设计不同的处理路径,才能真正让各种输入形式发挥各自的优势。下一步值得追问的问题是:当输入的手绘草图更加抽象、更加不精确时,系统的鲁棒性能维持到什么程度?当用户希望动态调整(而不是一次性输入)时,交互界面该如何设计?对这些问题有兴趣的读者,可以通过arXiv论文编号arXiv:2605.20955查阅原文,或访问该团队在GitHub上公开的代码和演示。

Q&A

Q1:DrawMotion是什么技术,和普通的文字生成动画有什么区别?

A:DrawMotion是北京邮电大学等机构开发的三维人体动画生成系统,允许用户通过手绘轨迹和棍人草图来控制生成结果,而不仅仅依靠文字描述。传统文字生成动画方法在描述空间细节(比如具体的运动路径和每帧的姿态)时精度有限,DrawMotion通过手绘方式直接在空间维度表达意图,用户研究显示满意度评分比纯文字方法高出约2.2分。

Q2:DrawMotion的棍人图手绘要求精确吗,普通人能用吗?

A:不需要精确。系统在设计时专门考虑了手绘的不精确性,包括线条抖动、关节位置偏差和比例不一致等情况。训练数据通过棍人生成算法自动合成,模拟了这些手绘特征。此外,引入的候选损失机制让模型能保留多种合理的姿态可能性,而非强迫用户画出精确的关节位置。实际用户研究中,普通参与者平均只需9.1秒完成手绘输入,门槛很低。

Q3:IFG(中间特征引导)和其他轨迹对齐方法相比有什么实际优势?

A:IFG最主要的优势是在不额外训练任何模块的前提下,同时实现了低轨迹误差和高生成质量。在HumanML3D数据集上,DrawMotion的轨迹误差为0.0062,约为OmniControl的十分之一,同时FID仅0.108,也显著优于其他对比方法。计算效率方面,每批16个样本仅需24秒,GPU显存占用约2245MB,而需要多次反传的DNO方法耗时358秒、占用显存约23GB。