让AI"只看动作不看画面"，视频运动预测速度提升万倍！

这项由慕尼黑大学CompVis实验室与慕尼黑机器学习中心、苹果公司联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.11737，有兴趣深入阅读的读者可通过该编号在arXiv平台查询完整原文。

现代视频AI面临一个根本性的困境：每当我们需要预测一段视频中物体将如何运动，现有的方法都要把"画面长什么样"和"东西怎么动"这两件事混在一起处理。就好像一个舞蹈老师，明明只需要教学生手臂的运动轨迹，却非要先把每一帧的服装颜色、灯光效果、背景墙纸都描述清楚才肯开口。这种做法不仅极其浪费，而且效率低得令人发指——当前最先进的视频生成模型每秒只能产生0.2帧画面，等它们勉强生成出第一帧，研究团队的新方法早已给出数千种可能的运动轨迹预测。

这个新方法被命名为ZipMo，其核心思路干脆利落：把运动本身从视频中剥离出来，单独建立一套紧凑的"运动语言"，然后直接在这套语言里做预测和生成。这就像铁路调度员不需要知道每节车厢里坐了多少乘客、行李有多重，只需要掌握每列火车的运行轨迹就能高效调度一样。

一、从视频海洋到运动地图——为什么要把运动单独拎出来？

回到那个舞蹈教学的场景。假设你要教机器人学会预测人类的肢体动作，有两条路可以走。第一条路：让机器人看海量视频，逐帧记忆每一个像素的变化，从肤色到背景墙壁全部一起学。第二条路：只提取每个关节点的运动轨迹，记录它们在空间中的坐标变化。显然第二条路更聪明——不仅信息量小得多，而且完全不受"今天穿蓝色衣服还是红色衣服"这类无关因素干扰。

研究团队正是抓住了这个直觉。他们指出，当前的视频生成模型有一个根深蒂固的问题：运动信息和外观信息高度纠缠在一起。模型在学习"球往右飞"这件事的时候，同时也在学习"球是橙色的"、"背景是绿色的草坪"、"光线从左上方射来"。这种纠缠导致视频模型需要庞大的参数量和计算资源，而且时间压缩能力极差——因为你压缩视频的同时，视觉细节就会损失，所以现有视频自动编码器的时间压缩倍数通常只有4倍到8倍。

相比之下，纯粹的运动轨迹是非常低维度的信息。一个点在64帧视频里的运动，就是64个二维坐标，完全不含任何外观信息。这种信息天然就适合被大幅度压缩。ZipMo团队由此提出了一个大胆的目标：把64帧的运动信息压缩成单个潜在向量，实现64倍的时间压缩率。

这里有一个关键的技术概念值得解释：所谓"轨迹"或"追踪点"，就是在视频的第一帧上标记某个像素点，然后追踪它在后续每一帧里出现的位置，最终得到一条空间中的运动曲线。现代AI追踪器（如TapNext、CoTracker3）能够自动在视频里完成这个工作，为每个感兴趣的点生成完整的运动轨迹。ZipMo的训练数据，正是用这类追踪器从大规模视频中自动提取的。

二、运动地图是怎么绘制的——ZipMo的第一阶段

ZipMo的整个框架分为两个阶段，第一阶段的任务是学会绘制"运动地图"。

具体来说，研究团队训练了一个变分自动编码器（VAE）。不了解这个词也没关系，你可以把它理解为一个"运动速记员"：给它看一段视频里散落的若干条轨迹（比如20条、50条、100条任意分布的运动曲线），再加上视频第一帧的图像特征，它就能把这些稀疏的运动信息"提炼"成一张16×16的潜在网格，每个网格格子里存储着16个数字，整张网格就是这段视频运动状态的高度浓缩版本。

这张16×16的网格，研究团队称之为"潜在运动空间"，它就像一张城市的运动地形图。地图本身很小，但包含了整段视频运动的本质信息。更精妙的是，这张地图是可以"查询"的——你可以问它"第一帧里坐标(0.3, -0.5)这个点在接下来64帧里会怎么运动"，它就能给出答案，即便这个点原本根本没有被追踪过。这实现了从稀疏输入到稠密输出的泛化，是一个非常实用的能力。

在编码器的设计上，团队做了几个精巧的工程决策。每条轨迹上的每个采样点，首先经过傅里叶嵌入处理——简单说就是把普通的坐标数字转换成更丰富的数学表示，帮助模型捕捉高频细节。然后用三维旋转位置编码（3D RoPE）同时编码时间信息和轨迹身份信息，让模型既知道这个点是"哪个轨迹在第几帧"的采样，又能理解轨迹之间的空间关系。所有轨迹点的信息、网格格子的信息，以及第一帧图像的特征，通过全局自注意力机制相互交流，最终将信息汇聚到那张16×16的潜在网格里。

解码器的设计同样值得一提。它采用了掩码自动编码器（MAE）的思路——在训练时，有些轨迹点会被故意隐藏起来，让解码器在不知道这些点原始位置的情况下，仅凭潜在网格和第一帧特征，预测这些被隐藏点的运动轨迹。这个训练策略迫使模型真正学会运动规律的泛化，而不是简单记忆输入。

训练这个速记员用的目标函数包含两部分：一是重建误差，即预测的轨迹坐标与真实轨迹坐标之间的L1距离，要求预测尽量准确；二是KL散度正则化项，要求潜在空间的分布尽可能接近标准正态分布，这样后续的生成模型才能方便地采样。两者之间有一个权衡系数β，团队将其设置为极小的1×10??，说明他们主要希望模型专注于重建精度，正则化只是辅助约束。

三、64倍压缩到底有多神奇——时间压缩的秘密

也许你会问：把64帧压缩成一个格子，信息不会损失得太厉害吗？

研究团队做了一组非常有说服力的实验，专门测试不同时间压缩倍数（从2倍到64倍）的效果。他们在固定的计算资源预算下，训练了一系列具有不同压缩倍数的模型，然后同时评估三件事：运动生成质量、重建精度、以及推理速度。

结论出乎意料但又在情理之中：压缩倍数越高，运动生成质量越好，推理速度越快，而重建精度只有非常轻微的下降。具体来说，从2倍压缩提升到64倍压缩，运动生成质量（用最小均方误差Min MSE衡量）从约7降到约5，同时推理速度从大约1倍提升到约20倍（相对于最低压缩倍数）。重建精度（用δ^avg衡量）则从约96.5%只降到约99%附近——也就是说，重建精度不降反升，因为模型被迫学到了更本质的运动特征。

这背后有两个相互强化的机制。第一是计算效率：压缩倍数越高，需要处理的时序token数量越少，同等计算量下模型可以见到更多样本，训练更充分。第二是语义化程度：更高的压缩迫使模型抛弃细节噪声，只保留运动的本质规律。研究团队用一个kNN检索实验验证了这一点——在Something-Something V2数据集的子集上，随着压缩倍数增加，用潜在向量做最近邻检索的动作类别识别准确率单调上升，从约5%涨到约29%，说明高压缩率的潜在空间确实学到了更丰富的语义信息，相似的运动在这个空间里被聚合得更近。

打个比方：这就像汉字的发展过程。最初的甲骨文尽量模仿实物形状，"日"字画得跟太阳一模一样，细节丰富但难以书写。经过漫长演化，"日"字被高度抽象压缩成简单的方块，反而变得更易书写、更利于组合表达新意。ZipMo的潜在运动空间，做的正是类似的"抽象提炼"工作。

四、让运动地图"开口说话"——ZipMo的第二阶段

有了高质量的运动潜在空间，第二阶段的任务是训练一个生成模型，让它能够在这个空间里自由创作——给定初始场景和运动目标，生成符合物理规律的运动预测。

研究团队选择了流匹配（Flow Matching）这一技术路线。不熟悉这个概念也没关系，可以这样理解：训练一个向导，它的工作是把随机乱七八糟的运动噪声，一步步"引导"成符合真实世界规律的运动模式。这个向导就是ZipMo的第二阶段模型，被命名为ZipMo Planner。

ZipMo Planner是一个基于Transformer的神经网络，有24层，每层的自注意力和交叉注意力维度均为1024，总参数量约5.3亿。它的输入是一个带噪声的潜在运动网格，以及各种条件信号；输出是一个速度场，指示这个噪声向量应该往哪个方向"流动"才能更接近真实的运动分布。

条件信号有两种形式，对应两种不同的使用场景。第一种是"戳点"（poke）：用户在图像上指定若干个点，告诉模型"这个点应该从A位置移动到B位置"。这些点被傅里叶嵌入处理并通过交叉注意力注入模型。这种方式非常灵活——可以只给1个戳点，也可以给2个、4个、8个，甚至全图密集覆盖。戳点稀少时，模型有更多自由发挥空间，生成多样化的运动假设；戳点密集时，模型被紧紧约束，生成高度贴合指定路径的运动。第二种是文字描述：通过BERT文本编码器将任务描述转换为语言特征，同样通过交叉注意力注入模型。这种方式适用于机器人操作等需要语言指令的场景。

值得注意的是，ZipMo Planner始终以第一帧的视觉特征（由冻结的DINOv2 ViT-B/14图像编码器提取）作为场景上下文。这保证了模型知道"当前场景里有什么"，从而生成符合场景物理约束的运动。例如，它不会预测一只鸟向地面俯冲后穿越地板，因为模型知道地板就在那里。

五、训练数据与工程细节——一切从大规模视频开始

两个阶段的模型均在1000万个视频片段上训练，数据来源是开放大规模视频数据集KOALA-36M。每个视频片段最长8秒，研究团队对其进行帧采样（每隔一帧取一帧），得到12至15帧每秒的序列。随后用TapNext追踪器在每个片段中随机采样1024个点位，获得伪真实轨迹作为训练监督信号，并过滤掉不确定性高的轨迹，最终在64帧长度的轨迹上训练。

VAE的训练从64块H200 GPU开始，逐步将批次大小从64扩大到256，总训练步数约80万步，整个训练过程约3天。ZipMo Planner的训练规模与此相近，批次大小从512扩大到2048，总训练步数约70万步，同样约3天。

两个模型均使用AdamW优化器，学习率为1×10??，动量参数为(0.9, 0.95)，以bfloat16混合精度训练以节省显存。VAE采用带预热的稳定衰减学习率调度，Planner则使用常数学习率。归一化层采用RMSNorm，前馈网络使用SwiGLU激活函数，这些都是当前高性能语言模型和视觉模型的通用实践。

六、与其他方法的正面较量——结果如何？

研究团队在多个基准上对ZipMo进行了评估，比较对象涵盖流场预测方法、原始轨迹预测方法，以及最先进的视频生成大模型。

评估指标的设计本身就是一个值得讲解的细节。由于真实世界的运动是高度多模态的——面对同一个场景，有无数种物理上合理的运动方式——使用单一确定性指标（如平均误差）会严重惩罚那些有创意地预测了"另一种合理运动"的模型。因此团队采用了三个互补的指标：Min MSE（最小均方误差，衡量生成的多个样本中有没有一个贴近真实运动，反映分布覆盖能力）、Mean MSE（所有样本的平均均方误差，衡量多样性，太低说明模型崩塌只生成一种运动）、以及EPE（端点误差，在戳点条件下衡量模型是否真的遵循了用户指定的运动终点）。所有指标均在[0,128]分辨率下计算。

在戳点条件下的运动生成对比中，ZipMo与Motion-I2V（流场预测方法，每秒21帧）和Track2Act（轨迹预测方法，每秒180帧）进行了比较。ZipMo以每秒2500帧的速度，在所有条件密度设置下（1个戳点、2个戳点、4个戳点、8个戳点、全图密集）均大幅领先。以1个戳点的情况为例，ZipMo的Min MSE为41.0，Motion-I2V为135.7，差距超过3倍；EPE（条件遵循误差）ZipMo仅0.5，Motion-I2V高达19.7。Track2Act只能在密集条件下评估，其Min MSE为138.7，远高于ZipMo的30.4。

与视频生成大模型的比较尤为引人关注。研究团队选择了两个代表性模型：Wan（14B参数的开源视频模型）和Veo 3（谷歌DeepMind的闭源顶级视频模型）。由于视频模型不能直接输出运动轨迹，团队用CoTracker3对生成视频进行追踪，从而获得可比较的运动预测结果。

在"样本匹配"评估方式下（双方各生成8个样本），ZipMo的Min MSE为27.08，Wan为28.67，Veo 3为36.18。ZipMo略优于Wan，明显优于Veo 3。但这个比较条件对ZipMo其实是不利的——ZipMo只有8.6亿参数，Wan有140亿参数，几乎大了20倍。而且生成8个视频样本对Wan来说需要大约1小时，ZipMo只需要1秒。

在"时间匹配"评估方式下（双方使用相同的计算时间），差距就变得极为悬殊了。Wan在1小时内只能生成1个视频样本，Veo 3同样只能生成1个（且时间未知），而ZipMo在相同时间内可以生成超过1万个样本。结果是ZipMo的Min MSE降至21.29，Wan和Veo 3仍停留在64上下。这意味着，当ZipMo可以对同一个场景进行大量采样、覆盖各种可能的运动模式时，其生成的运动分布质量远超视频大模型。

七、让机器人听话——在机器人操作任务上的表现

研究团队还在LIBERO机器人操作基准上测试了ZipMo的实际决策能力。LIBERO是一套模拟机器人的操控任务集，包括多个子套件（LIBERO-10、LIBERO-90、LIBERO-Spatial、LIBERO-Goal、LIBERO-Object），任务描述用自然语言给出，如"打开炉灶并把摩卡壶放上去"或"把黄白色马克杯放进微波炉并关上门"。

ZipMo的使用方式是：给定场景第一帧和任务文字描述，ZipMo Planner生成一个运动嵌入，预测未来64帧（实际评估时下采样到16帧）内机器人手臂和相关物体的运动轨迹。然后一个浅层的策略头（6层Transformer，768维）根据这个运动嵌入预测机器人的下一步动作（7维关节角度向量）。策略头只能看到运动嵌入，不能直接看到图像，这确保了真正的场景理解和规划工作由ZipMo完成，策略头只是将运动信号翻译为机械臂指令。

整个系统采用滚动规划策略：每执行一步动作后，从当前帧重新规划未来的运动轨迹，实现闭环控制。

在与同类方法的比较中，遵循ATM的评估设置，ZipMo在五个子套件上的平均成功率为77.5%，优于ATM的60.4%和Amplify的71.4%。遵循Tra-MoE的评估设置，ZipMo平均成功率为80.3%，优于Tra-MoE的61.4%。在LIBERO-Object任务（需要精准识别目标物体）上，ZipMo达到了98%的成功率，在LIBERO-Spatial任务上达到91.3%，均远超其他方法。

在轨迹预测的精度比较上，ZipMo同样全面领先。与WHN（目前最佳的轨迹生成基准方法）相比，ZipMo在LIBERO-90侧视角的Min MSE为5.96，WHN为10.99；在LIBERO-10侧视角的Min MSE为7.43，WHN为13.86。与ATM、Tra-MoE等判别式方法相比，优势更为明显——ATM在LIBERO-90侧视角的MSE高达47.82，ZipMo的单次采样误差（8.83）已经大幅低于它。

八、还能做什么——密集运动推断与视觉语义对齐

ZipMo还有一些额外能力值得介绍。

第一是密集运动推断（Track Densification）。追踪器给出的轨迹是稀疏的，只覆盖了视频中部分像素点。但ZipMo可以在任意空间位置查询运动，因此可以把稀疏追踪轨迹转换为全图密集的运动场。具体操作是：将已有的追踪轨迹作为戳点输入给ZipMo Planner，生成完整的潜在运动网格，再对全图每个像素位置进行解码，得到类似光流的稠密运动表示。这对需要全局运动场的下游任务（如视频编辑、运动转移）非常有用。

第二是对追踪器选择的鲁棒性。研究团队专门测试了用TapNext训练的模型能否对CoTracker3的轨迹进行准确重建，反之亦然。结果显示交叉追踪器的重建精度（δ^avg约96-97%）与同源追踪器相当，说明ZipMo学到的是运动的本质规律，而非某个特定追踪器的特有偏差。即便在训练时故意丢弃部分轨迹或只使用未遮挡轨迹，重建精度也只有轻微下降（从96.8%降到93-94%），表现出良好的监督信号鲁棒性。

第三是在DAVIS 2017和PhysicsIQ这两个额外数据集上的泛化测试。DAVIS包含150段带有显著相机运动的真实视频，PhysicsIQ聚焦于固体力学物理场景。ZipMo在两个数据集上均大幅优于Motion-I2V：在DAVIS上Min MSE从222.2降至155.1，在PhysicsIQ上从177.8降至90.6，EPE同样从16.37和12.4大幅降至0.83和0.76。

说到底，ZipMo做的事情可以用一句话概括：用最少的信息，最快的速度，最好地理解"东西是怎么动的"。这项研究的核心洞见是，运动理解不需要绑架在视频生成的巨型计算开销上。把运动从外观中剥离出来，压缩成高度语义化的潜在向量，然后在这个干净的空间里做生成和推理，不仅速度提升了万倍量级，生成质量反而超过了拥有数十倍参数量的视频大模型。

对于机器人领域的研究者而言，ZipMo提供了一个高效的运动规划前端，可以让机器人以远低于当前成本的代价实现从语言指令到运动预测的转化。对于视频理解研究者，它展示了一条不依赖视频像素却能学到强运动语义的新路径。对于普通用户，未来某天你的手机相册应用可能就用上了类似的技术，让它真正理解"这段视频里猫咪跳跃的动作有多优雅"，而不只是识别出"这是一只猫"。

归根结底，这项工作提醒我们：有时候，解决复杂问题的关键不是把模型做得更大，而是想清楚"我们真正需要的是什么信息"。ZipMo把这个问题的答案压缩进了一个16×16的网格里，简洁有力。有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.11737找到完整论文，相关代码和模型权重也在论文主页compvis.github.io/long-term-motion上持续更新。

Q&A

Q1：ZipMo与普通视频生成模型（如Wan、Veo 3）的根本区别是什么？

A：ZipMo只预测运动轨迹，完全不生成视频画面，因此它不需要处理颜色、纹理、光照等视觉信息。这使它能把64帧视频的运动信息压缩成极小的潜在向量，生成速度比视频模型快一万倍以上，而且生成的运动质量反而更好，因为运动信息和外观信息被彻底分离，学习更纯粹。

Q2：ZipMo的"戳点"条件控制是如何工作的？

A：戳点是用户在图像上指定的若干个"起点到终点"的位移指令，比如告诉模型"图中这只手应该从左侧移动到右侧"。ZipMo Planner通过交叉注意力机制把这些戳点整合进运动生成过程，戳点越多，生成运动越贴近指定路径；戳点越少，模型自由发挥空间越大，会生成多种可能的合理运动。

Q3：ZipMo在机器人控制中是如何使用的？

A：给定场景图像和文字任务描述，ZipMo预测未来16步内机器人手臂及相关物体的运动轨迹并压缩为运动嵌入。一个轻量策略头读取这个嵌入，预测机器人的关节动作。每执行一步后重新规划，形成闭环控制。在LIBERO基准测试中，平均任务成功率约77-80%，明显高于同类方法。

【纠错】【责任编辑:叔大肚腩大胡子】

深度观察

新华全媒头条丨沈腾春晚机器人搭档被玩坏！鬼畜区把“纯铁的”剪成年度烂梗