2B参数Spatial-TTT入选ECCV 2026,长视频处理与空间推理能力领先,节省超40%显存与计算

2B参数Spatial-TTT入选ECCV 2026,长视频处理与空间推理能力领先,节省超40%显存与计算 空间理解难题与流式空间智能门槛在机器人、自动驾驶、AR等真实场景中空间理解绝非“看一眼图像”就能解决。相机移动、视角变化、目标隐现使空间信息分散在长时间视频流里模型需“记得住、连得起来、还能持续更新”这让流式空间智能成为多模态大模型迈向真实世界应用的关键门槛。文章思考与Spatial-TTT入选这篇文章思考的是多模态Agent如何在动态变化的世界中持续更新自己而非每次都像首次看见世界。真实世界是一段持续展开的经验流就像人理解空间是在移动、观察、遗忘、修正中形成稳定的空间记忆。近日清华大学博士生刘芳甫担任一作联合多位研究者完成的Spatial-TTT被计算机视觉顶级会议ECCV 2026正式接收。ECCV与CVPR、ICCV并称为计算机视觉三大顶级会议每两年举办一届录用率常年偏低。入选ECCV意味着研究要接受严格的同行评审。Spatial-TTT核心问题与实验结果Spatial-TTT瞄准的是多模态模型从“看懂画面”迈向“理解真实空间”的核心问题视频延长时模型能否不依赖无限膨胀的上下文持续形成并更新空间记忆实验中仅有2B参数的Spatial-TTT在多个专项空间智能基准上超过GPT-5、Gemini-3-pro等闭源模型能处理最长120分钟的流式视频。其答案是让模型在观看过程中边看、边更新、边“长出”空间记忆。空间智能难点与TTT新可能空间智能的难点并非“把上下文做长”而是空间信息在时间维度上的选择、组织和保留。真实场景中模型面对持续涌入的视觉流相机移动、遮挡、物体显隐使关键证据分散。现有方法多局限于单张图像或短视频片段难以扩展到长时程流式视频。问题核心是模型缺少将新观察吸收进内部状态并组织成空间记忆的机制传统静态推理范式难以解决而TTT提供了新可能让模型在推理时边看边更新参数用参数变化承担记忆功能。Spatial-TTT动态记忆解决方案为应对挑战研究团队提出Spatial-TTT将fast weights作为紧凑的非线性记忆在处理视频流时在线更新累积跨时间的3D空间证据。它更像是持续“维护一份空间状态”新视频chunk到来时对已有空间记忆做增量式刷新。设计一混合式TTT架构直接替换所有注意力层为TTT层会破坏模型语义能力。为此研究团队设计混合式TTT架构在解码器中按3:1比例交错插入TTT层与标准self-attention anchor layers75%的层采用TTT负责长程信息写入25%的层保留标准全注意力维持语义理解和跨模态推理能力。同时引入large-chunk更新和并行的sliding-window attention提升处理效率保证局部时空建模能力。设计二Spatial-predictive mechanism传统TTT忽略视觉token局部几何结构和时间连续性不利于空间状态更新。Spatial-TTT在TTT分支引入空间预测机制对Q/K/V加入轻量级3D时空卷积使fast weights学到时空上下文的预测关系增强在线更新稳定性与有效性。设计三稠密场景描述监督现有空间智能数据多为稀疏、局部的QA监督对fast weights学习长期更新动态帮助有限。研究团队构建稠密的3D场景描述数据采用两阶段spatial-aware progressive training方式先让模型学习“记住整个空间”再强化流式空间推理能力。实验结果性能卓越实验结果显示Spatial-TTT在多个空间智能基准上表现出色。在VSI-Bench上Spatial-TTT-2B取得64.4的平均分在多个任务上表现突出。在MindCube-Tiny上准确率达76.2%比最强闭源基线Gemini-3-pro高出12个百分点比代表性开源空间模型MindCube-3B高出近25个百分点。在VSI-SUPER系列任务上Spatial-TTT优势放大能在长时程下保持稳定。深度分析协同发力消融实验表明Spatial-TTT的性能提升是三个设计协同的结果。去掉空间预测机制VSI-Bench平均分从64.4降到62.1去掉密集场景描述监督降到61.3去掉混合架构只用纯TTT结构平均分掉到53.9。效率分析显示Spatial-TTT在长上下文下实现超过40%的显存与计算节省。总结与展望持续世界状态建模Spatial-TTT不仅取得领先成绩还提供了重新理解长视频记忆问题的方式。传统长上下文方案保留历史内容Spatial-TTT追问模型能否将视觉观察转化为可更新、修正和调用的内部空间状态。这对物理Agent系统很重要它们需积累空间经验让观察影响后续感知与决策。这项入选ECCV 2026的工作提供了从流式视觉感知走向持续世界状态建模的路径。