AAAI 2026 Oral 解读｜一种双重去偏测试时提示调优方法-尧图企业网站定制

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入点击阅读原文查看作者讲解近日实验室研究团队的论文“Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models”被人工智能领域顶级学术会议AAAI 2026接收。下面将对该论文做详细的解读供大家交流学习。概述视觉语言模型VLMs在大规模预训练的支持下展现了出色的零样本泛化能力能够在各种下游任务中取得显著成果。然而当这些模型在实际应用中面对不同领域的数据时性能会出现退化现象。这种现象通常是由于测试时的领域偏移造成的。为了解决这一问题研究者们提出了多种测试时提示调优Test-Time Prompt TuningTPT方法。这些方法不依赖于标注数据而是通过优化可学习的提示来适应目标任务。然而仅依赖未标注的测试数据进行提示优化可能导致提示优化偏差从而影响模型在下游任务上的表现。本文提出了一种新方法——双重去偏测试时提示调优Doubly Debiased Test-Time Prompt Tuning简称 D2TPT旨在减轻提示优化偏差提升模型的泛化能力。D2TPT通过引入动态检索增强调控模块和可靠性感知提示优化模块有效弥补了现有TPT方法的不足。实验结果表明D2TPT在多项基准数据集上均表现出色显著提升了模型在自然分布偏移和跨数据集泛化任务中的性能。方法为了解决上述问题本文提出了双重去偏测试时提示调优方法D2TPT如图 1所示该方法引入了面向图像和文本输入的模态特定可学习提示并设计了专门的模块来共同减轻提示优化偏差。D2TPT包含两个关键组件1一个动态检索增强调控模块该模块引入了一个动态知识库用于存储高置信度预测并支持持续更新。当一个测试图像到达时我们使用其对应的特征向量作为查询来从知识库中检索匹配的类别原型。检索到的原型的标签信息作为高置信度的外部监督信号用来调控模型对该测试图像的原始预测。2一个可靠性感知的提示优化模块其基于调控后的预测在优化可学习提示时施加了两个正则化约束。一方面我们设计了一个基于置信度的加权集成策略旨在整合来自增强视图的判别信息从而抑制低质量增强的干扰。另一方面我们设计了一个跨模态一致性蒸馏策略其中图像和文本模态交替作为教师和学生来互相学习从而促进两种模态在共享嵌入空间中的语义一致性。图 1 模型框架图实验在涉及自然分布变化和跨数据集泛化的15个基准数据集上的评估结果证明了D2TPT 的有效性。表 1展示了各测试数据集在自然分布偏移下的top-1准确率比较可以看到D2TPT实现了66.57%的最高平均准确率超越了所有竞争方法展示了更强的泛化能力。在分布外OOD平均准确率方面D2TPT达到了65.25%比主要基准方法TPS高出1.1%。验证了D2TPT在处理不同视觉领域的分布偏移时的有效性。表 1 自然分布偏移下的top-1准确率比较表2报告了在10个多样化数据集上的top-1准确率用于评估跨数据集泛化能力。可以看到D2TPT在这些数据集上实现了68.93%的最高平均准确率且在10个数据集中的7个上取得了最佳结果。与主要基准方法TPS相比D2TPT平均获得了1.98%的性能增益。这些结果清晰地展示了D2TPT在具有不同分布和标签语义的多样化视觉领域上的泛化能力。表 2 跨数据集泛化下的top-1准确率比较【论文信息】论文作者宋飞*李懿*王瑞周嘉欢郑昌文李江梦英文标题Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文观看作者直播回放

相关新闻

VS2019 MFC对话框的创建与销毁机制详解

文脉定序系统赋能在线教育：智能排序习题与学习资源

从NLDM到CCS：揭秘先进工艺下时序模型的演进与实战选择

VM安装CentOS 7.9.2009

Web安全必修课：深入理解XSS攻击原理与防御实战

JMeter WebSocket性能测试实战：从插件安装到结果分析

3分钟打造完美角色：d2s-editor暗黑破坏神2存档编辑器的终极解决方案

ARM Cortex-M4低功耗设计实战：Kinetis K10模式解析与优化指南

Dify企业级智能体落地实战：开源零代码AI平台深度解析

MPC8536E嵌入式平台实战：从BSP构建到驱动开发与系统集成

2026年北京电子沙盘制作公司深度评测：从技术选型到落地效果，谁在真正定义“数字+实体”的融合边界？

MCF521xx微控制器在工业数据采集中的实战应用与优化

3个步骤让小爱音箱变身AI语音助手：MiGPT深度体验指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI开发实战：emWin控件API解析与避坑指南

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定