8篇论文入选CVPR 2026！-尧图企业网站定制

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐来源阿里妈妈技术新年快乐开工大吉CVPR 2026录用结果已于近日正式公布作为计算机视觉领域最具影响力的国际学术会议之一IEEE/CVF计算机视觉与模式识别会议The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR每年汇聚全球顶尖研究成果涵盖主会议及多个同期举办的专题研讨会与短期课程。据官方统计本届会议共收到16,092篇论文进入评审流程再创历史新高最终4090篇论文被录用录用率为25.42%。CVPR 2026主会定于2026年6月3日至7日在美国科罗拉多州丹佛市举行。本次淘天集团与阿里未来生活实验室累计有8篇论文被主会收录。研究内容覆盖视频大语言模型优化、人物视频生成、ViT架构创新、大模型推理机制优化、高效视频理解、可控图像生成、面向电商场景的多模态表征学习、长视频推理优化等多个方向。接下来为大家介绍本次入选的论文成果。后续会邀请论文作者详细解析论文思路和技术成果欢迎关注~1、AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding作者Handong Li, Zikang Liu, Longteng Guo, Tongtian Yue, Yepeng Tang, Xinxin Zhu, Chuanyang Zheng, Ziming Wang, Zhibin Wang, Jun Song, YuCheng, Bo Zheng, Jing Liu摘要本文针对视频大语言模型Video-LLMs处理长视频时计算成本极其高昂的问题进行了系统性的突破。面对现有高效方法中因不可逆的信息丢弃导致细粒度感知受损以及预设的刚性稀疏模式阻碍长程时序建模等挑战研究团队对视频特征的时空冗余性进行了详尽的分析与重构。研究揭示了注意力机制的高度内在稀疏性与前馈神经网络对视觉 Token 的计算惯性并引入了基于信息熵Top-p的上下文感知动态算力分配机制。最终文章提出了一种极简的自适应稀疏框架 AdaSpark该方案仅需“自适应立方体选择注意力”和“自适应 Token 选择 FFN”两个协同组件即可解锁视频大模型长上下文的高效处理潜力。在小时级长视频基准测试中AdaSpark 在完整保留细粒度与长程依赖的同时最高可降低57%的计算 FLOPs性能媲美稠密基线模型并显著优于现有高效算法。2、Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization作者Liao Shen, Wentao Jiang, Yiran Zhu, Jiahe Li, Tiezheng Ge, Zhiguo Cao, Bo Zheng摘要现有图生视频I2V模型在生成人物视频时若人物有大幅动作、表情变化或人脸占比较小极易出现人脸ID变化导致“越动越不像”。本文提出一种基于强化学习的人脸ID保持奖励引导优化框架IPRO通过奖励梯度直接反传的方式优化人脸ID保持能力。该方法摒弃了SFT、改模型架构等笨重思路而是通过人脸ID打分器的梯度反传进行RL优化可对任意I2V模型进行直接且高效的轻量化适配。本方法在SOTA开源模型Wan 2.2及自研的TStar模型上的大量实验证明了IPRO的良好表现为工业级I2V的post-training提供了有价值的解决方案。我们还联合ROLL团队将代码进行了开源https://alibaba.github.io/ROLL/docs/User%20Guides/Algorithms/Reward_FL/论文地址https://arxiv.org/abs/2510.142553、ViT: Unlocking Test-Time Training in Vision作者Dongchen Han, Yining Li, Tianyu Li, Zixuan Cao, Ziming Wang, Jun Song, YuCheng, Bo Zheng, Gao Huang摘要视觉Transformer (ViT) 在计算机视觉领域取得了卓越成效但其Softmax注意力具有平方计算复杂度在处理高分辨率图片、视频、长文本等长序列输入时面临巨大的计算挑战显著制约了视觉基础模型的发展。为了打破这一瓶颈测试时训练Test-Time Training, TTT将注意力过程重构为在线学习范式通过在测试阶段利用键值对构建并更新一个内部模型从而实现线性复杂度的序列建模具有突出的应用潜力。然而当前TTT方法引入了一个庞大且缺乏系统研究的设计空间在内部训练机制与内部模型架构方面缺少必要的设计原则限制了其在视觉任务中的应用。本文系统性地探索了视觉TTT模型的设计空间并归纳出构建高效TTT模块的6项核心设计原则。在这些原则的指导下我们提出了首个视觉序列建模的纯TTT架构——视觉测试时训练模型 (ViTTT, 即 ViT。ViT在图像分类、生成、目标检测与语义分割等广泛的视觉任务中全面超越了 Mamba 及多种先进的线性注意力变体验证了TTT范式在视觉任务中的高效性与潜力也为未来视觉TTT研究提供了经验和基线。论文地址https://arxiv.org/abs/2512.016434、Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs作者Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng摘要探索能力既塑造了大型视觉语言模型VLMs在推理阶段的性能也影响其RL训练过程因为随机采样往往会产生冗余的推理路径缺乏高层级的多样性。本文提出了一种新颖的潜在调制框架“推理调色板”Reasoning Palette通过为模型赋予一个随机潜在变量来实现策略性的上下文构建从而在生成token之前引导其内部规划。该潜在上下文是通过VAE从问答对的平均池化嵌入中推断出来的其中每个采样的潜在变量都可能编码一种独特的推理上下文。在推理过程中采样的潜在变量被解码为可学习的token前缀并拼接到输入提示之前以此调节模型的内部推理轨迹。通过这种方式模型在输出生成之前对推理策略进行内部采样从而塑造整个响应序列的风格和结构。一个简短的监督微调SFT预热阶段使模型能够适应这种潜在条件化。在强化学习优化中“推理调色板”通过支持按需注入多样化的推理模式促进了结构化探索显著提升了探索效率和持续学习能力。多个基准实验表明该方法能够实现对VLMs策略行为的可解释且可控的调节性能优于标准RL基线。论文地址https://arxiv.org/abs/2512.172065、GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding作者Junpeng Ma, Sashuai Zhou, Guanghao Li, Xin Gao, Yue Cao, Hengyu Zeng, Yuxiang Yan, Zhibin Wang, Jun Song, Bo Zheng, Shanghang Zhang, Jian Pu摘要本文提出GIFT一种面向视频大语言模型的免训练关键帧选择算法旨在解决现有方法采用短视贪心决策陷入局部最优、割裂评估“问题相关性”与“所选帧多样性”导致引入噪声并破坏时序连贯性的问题。该方法引入“有向多样性”指标量化每一帧的不可替代性从全局维度建立了统一的评判标准在此基础上进一步提出预算感知细化策略低预算下优先锁定核心关键帧随预算增加逐步释放被抑制的邻近帧以补全时序上下文。GIFT 可作为即插即用的模块无缝接入各类主流视频大模型无需额外训练即可显著降低长视频计算开销并提升模型推理性能。6、SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation作者Sashuai Zhou, Qiang Zhou, Junpeng Ma, Yue Cao, Ruofan Hu, Ziang Zhang, Xiaoda Yang, Zhibin Wang, Jun Song, YuCheng, Bo Zheng, Zhou Zhao摘要本文提出SpatialReward一种面向文本到图像生成的可验证空间奖励框架旨在解决现有奖励模型侧重全局语义而忽视细粒度空间关系的问题。该方法通过提示分解将自由文本解析为结构化实体与空间约束并结合开放集检测模型获取对象位置与属性事实在此基础上引入视觉-语言链式推理实现关系级空间一致性评估。SpatialReward 可作为通用奖励模块无缝接入现有强化学习框架在无需修改生成模型结构的条件下提升空间一致性优化能力体现了基于可验证反馈的文本到图像生成强化学习范式潜力。7、MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding作者Zhanheng Nie, Chenghan Fu, Daoze Zhang, Junxian Wu, Wanxian Guan, Pengjie Wang, Jian Xu, Bo Zheng摘要尽管多模态大模型MLLMs在通用视觉语言任务中表现突出但在电商商品理解中仍存在三大挑战(i) 固定比例的模态混合训练易引发模态不平衡削弱跨任务泛化能力(ii) 未能充分建模商品内部图文之间的内在语义对齐关系(iii) 对真实电商数据中的噪声与冗余信息缺乏精细化处理机制。针对上述问题本文提出MOON2.0一种面向电商商品理解的动态模态平衡多模态表征学习框架。MOON2.0包含三个核心组件(1) 通过模态驱动的混合专家MoE机制实现多模态联合学习在统一训练阶段自适应优化不同模态组合(2) 提出双层级对齐方法协同建模商品间inter-product与商品内intra-product的语义关系(3) 并结合基于 MLLM 的图文协同增强与动态样本过滤策略有效提升数据质量与表示鲁棒性。此外本文构建并发布了MBE2.0 多模态表征Benchmark包含大规模协同增强训练数据与多任务评测集。大量零样本实验表明MOON2.0 在 MBE2.0 及多个公开数据集上均取得当前最优性能注意力热力图分析进一步验证了其在细粒度图文对齐上的显著提升。论文地址https://arxiv.org/abs/2511.124498、Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long-Video Understanding作者Pengfei Hu, Meng Cao, Yingyao Wang, Yi Wang, Jiahua Dong, Jun Song, Yu Cheng, Bo Zheng, Xiaodan Liang摘要在长视频推理任务中传统做法往往把“多看帧”当成“多思考”结果却陷入两难帧看得越多视觉token与上下文越膨胀推理越慢帧看得越少又容易漏证据、靠“脑补”产生幻觉。我们认为视频推理的关键差异在于它不是纯文本逻辑题而是“证据检索时间推断”的协同过程——模型的有效思考必须建立在可验证的视觉证据之上。为此我们提出SpecTemp将“推理”与“感知”解耦为目标模型与草稿模型的双系统让目标模型负责提出假设与时间窗口草稿模型在窗口内投机探索并筛选少量代表帧再由目标模型基于证据完成验证与修正并进一步用强化学习优化两者协作策略配套构建SpecTemp-80K证据对齐数据集。该方案在保持/提升准确率的同时显著降低推理延迟为实时、可扩展的长视频理解提供了更高价值的路径。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

相关新闻

OpenClaw Skill 完全指南：安装、升级、管理与排错最佳实践

【Lane】Ultra-Fast-Lane-Detection 实战：从零搭建到自定义数据集训练

ROS 2轮式机器人仿真利器：wpr_simulation2从入门到实战

gwadd：轻量级Git仓库组管理工具，提升多项目开发效率

基于Groq LPU与Whisper的语音识别：超高速ASR方案实践指南

MiniMax-M2.1多模态大模型：轻量级架构、部署实战与性能优化

微信AI智能体连接器：wechat-agent-channel架构解析与实战

DIY便携HDMI监视器：从Adafruit背板到3D打印外壳的完整制作指南

树莓派机械爪控制：从PWM原理到ROS集成的完整实践

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感