CVPR 2026 | 统一多模态与多目标Tell2Adapt基于视觉基础模型的医学图像无源无监督域自适应论文题目Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model发表出处arXiv 2026作者机构Yulong Shi, Shijie Li, Ziyi Li, Lin Qi (东北大学医学与生物信息工程学院医学图像计算教育部重点实验室等)关键词Source Free Unsupervised Domain Adaptation (SFUDA), Vision Foundation Model (VFM), Medical Image Segmentation, Prompt Regularization1. 省流版摘要 (TL;DR)在医学图像分割中由于隐私限制无源无监督域自适应SFUDA成为了临床部署的关键。然而现有方法大多只能处理特定且差异较小的领域偏移无法泛化为一个统一的框架。本文提出了Tell2Adapt一个巧妙借助视觉基础模型VFM强大泛化能力的统一 SFUDA 框架。该方法通过上下文感知提示正则化CAPR将嘈杂的文本提示标准化引导 VFM 生成高质量伪标签并蒸馏给轻量级学生模型同时引入视觉合理性细化VPR利用解剖学先验剔除假阳性预测。在涵盖腹部、大脑、心脏和息肉的 10 个适应方向和 22 个解剖目标上Tell2Adapt 全面碾压现有方法甚至在极端的 MR-US 跨模态任务中也展现出了惊人的鲁棒性确立了 SFUDA 的新 SOTA2. 背景与痛点 (Motivation)现有问题医学图像由于设备和成像物理原理的不同如 CT 与 MRI甚至 MRI 与超声存在巨大的领域偏移Domain Shift。传统的无监督域自适应需要访问源域数据这在医疗隐私法规下通常行不通因此 SFUDA 成为刚需。传统 SFUDA 的局限错误累积的死循环大多数方法依赖源模型在目标域上的预测来生成伪标签或进行熵最小化。当领域偏移巨大时源模型的预测极其糟糕基于此进行的自适应会导致严重的错误累积Error Accumulation。引入 VFM 的痛点近期有工作尝试引入 SAM 等视觉基础模型VFM但它们往往依赖源模型的低质量预测作为空间提示Spatial Prompts如边界框或点。这依然没有打破错误传播的链条导致 VFM 被错误的空间提示误导生成极差的伪标签。3. 核心方法 (Methodology)Tell2Adapt 彻底放弃了不可靠的“空间提示”转而利用**文本提示Text Prompts**来引导 VFM本文使用的是 BiomedParse从而从根本上切断了源模型的错误传播。框架包含三个核心模块3.1 上下文感知提示正则化 (CAPR: Context-Aware Prompts Regularization)临床医生输入的文本提示往往充满拼写错误、歧义或缺乏上下文。LLM 语义归一化作者引入大语言模型如 Qwen3-VL作为“语义清洗器”。LLM 首先推断全局上下文如模态和解剖区域然后纠正拼写错误并将所有提示格式化为统一的规范结构[目标] in [解剖部位] [模态]。作用为 VFM 提供稳定、无歧义的文本指导确保生成高质量的伪标签。3.2 VFM 引导的知识蒸馏 (VFM-Guided Knowledge Distillation)伪标签生成与直方图均衡化利用规范化后的文本提示BiomedParse 在目标域图像上生成高质量的伪标签。同时对目标图像应用直方图均衡化HE以缓解底层的灰度分布偏移。轻量化蒸馏将 VFM 庞大的泛化知识蒸馏到一个轻量级的源模型如基于 ResNet 的 nnUNet中。这样在最终的临床推理阶段只需要运行 31.1M 参数的轻量级模型而不需要跑 371.8M 参数且极其耗显存的 VFM。3.3 视觉合理性细化 (VPR: Visual Plausibility Refinement)为了进一步保证临床可靠性作者设计了后处理模块 VPR。解剖学统计先验利用 BiomedParse 预计算的各个类别的视觉属性如像素概率、RGB 通道强度的 Beta 分布 ( \mathcal{P}_C )。联合概率过滤对模型预测出的每一个独立连通域计算其“解剖学合理性得分”。如果某个预测区域的底层视觉特征与该器官的先验统计分布严重不符则将其视为噪声或假阳性并予以剔除。4. 实验与结果 (Experiments)极其硬核的实验设置评估了 10 个域自适应方向涵盖 22 个解剖目标。数据集包括 AMOS (腹部 CT/MR)、BraTS (大脑多序列 MRI)、CAMUS/ACDC (心脏 MR/US)、Kvasir/CVCDB (肠镜息肉)。对比实验表现腹部多器官 (MR (\rightarrow) CT)Tell2Adapt 平均 Dice 达到88.2%不仅远超 Baseline (47.4%)甚至逼近了全监督上限 (88.4%)。极限跨模态 (MR (\rightarrow) US 心脏分割)这是物理成像差异极大的地狱级难度。Baseline 和现有 SOTA 方法如 DFG, IPLC几乎全军覆没Dice 仅为个位数而 Tell2Adapt 依然坚挺左心室 (LV) Dice 达到94.6%心肌 (MYO) 达到88.5%。消融实验 (Ablation Study)作者专门设计了“混乱提示Chaos Prompts”包含乱序、错字、缺失来测试系统。在没有 CAPR 的情况下系统性能崩溃MR (\rightarrow) CT 降至 48.9%而加入 CAPR 后性能瞬间恢复至 85.7%证明了该模块在真实杂乱输入下的极强鲁棒性。5. 笔者思考与总结 (Conclusion Thoughts)优点总结这篇文章的思路非常清晰且极具破局感。在大家都绞尽脑汁去优化源模型的伪标签或对齐特征时Tell2Adapt 直接跳出框架指出**“文本提示才是打破错误累积死循环的钥匙”**。利用 LLM 洗数据CAPR利用 VFM 打伪标签利用解剖先验做后处理VPR最后蒸馏给小模型落地。这一套组合拳不仅逻辑自洽而且工程实用性极强真正做到了“大模型指导小模型”的完美闭环。潜在局限正如作者在讨论中所指出的尽管最终部署的学生模型很轻量但在伪标签生成阶段自适应阶段依然需要频繁调用庞大的 VFM 和 LLM这在计算开销和时间成本上相对较高例如腹部数据每体数据需要约 3.47 秒。未来展望这种“文本解耦”的自适应范式极具启发性。未来或许可以探索如何将 CAPR 和 VPR 的逻辑直接融入到轻量级模型的端到端训练中或者利用更高效的轻量级多模态模型来进一步压缩自适应阶段的算力成本。
[CVPR 2026] Tell2Adapt:基于视觉基础模型的医学图像无源无监督域自适应
CVPR 2026 | 统一多模态与多目标Tell2Adapt基于视觉基础模型的医学图像无源无监督域自适应论文题目Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model发表出处arXiv 2026作者机构Yulong Shi, Shijie Li, Ziyi Li, Lin Qi (东北大学医学与生物信息工程学院医学图像计算教育部重点实验室等)关键词Source Free Unsupervised Domain Adaptation (SFUDA), Vision Foundation Model (VFM), Medical Image Segmentation, Prompt Regularization1. 省流版摘要 (TL;DR)在医学图像分割中由于隐私限制无源无监督域自适应SFUDA成为了临床部署的关键。然而现有方法大多只能处理特定且差异较小的领域偏移无法泛化为一个统一的框架。本文提出了Tell2Adapt一个巧妙借助视觉基础模型VFM强大泛化能力的统一 SFUDA 框架。该方法通过上下文感知提示正则化CAPR将嘈杂的文本提示标准化引导 VFM 生成高质量伪标签并蒸馏给轻量级学生模型同时引入视觉合理性细化VPR利用解剖学先验剔除假阳性预测。在涵盖腹部、大脑、心脏和息肉的 10 个适应方向和 22 个解剖目标上Tell2Adapt 全面碾压现有方法甚至在极端的 MR-US 跨模态任务中也展现出了惊人的鲁棒性确立了 SFUDA 的新 SOTA2. 背景与痛点 (Motivation)现有问题医学图像由于设备和成像物理原理的不同如 CT 与 MRI甚至 MRI 与超声存在巨大的领域偏移Domain Shift。传统的无监督域自适应需要访问源域数据这在医疗隐私法规下通常行不通因此 SFUDA 成为刚需。传统 SFUDA 的局限错误累积的死循环大多数方法依赖源模型在目标域上的预测来生成伪标签或进行熵最小化。当领域偏移巨大时源模型的预测极其糟糕基于此进行的自适应会导致严重的错误累积Error Accumulation。引入 VFM 的痛点近期有工作尝试引入 SAM 等视觉基础模型VFM但它们往往依赖源模型的低质量预测作为空间提示Spatial Prompts如边界框或点。这依然没有打破错误传播的链条导致 VFM 被错误的空间提示误导生成极差的伪标签。3. 核心方法 (Methodology)Tell2Adapt 彻底放弃了不可靠的“空间提示”转而利用**文本提示Text Prompts**来引导 VFM本文使用的是 BiomedParse从而从根本上切断了源模型的错误传播。框架包含三个核心模块3.1 上下文感知提示正则化 (CAPR: Context-Aware Prompts Regularization)临床医生输入的文本提示往往充满拼写错误、歧义或缺乏上下文。LLM 语义归一化作者引入大语言模型如 Qwen3-VL作为“语义清洗器”。LLM 首先推断全局上下文如模态和解剖区域然后纠正拼写错误并将所有提示格式化为统一的规范结构[目标] in [解剖部位] [模态]。作用为 VFM 提供稳定、无歧义的文本指导确保生成高质量的伪标签。3.2 VFM 引导的知识蒸馏 (VFM-Guided Knowledge Distillation)伪标签生成与直方图均衡化利用规范化后的文本提示BiomedParse 在目标域图像上生成高质量的伪标签。同时对目标图像应用直方图均衡化HE以缓解底层的灰度分布偏移。轻量化蒸馏将 VFM 庞大的泛化知识蒸馏到一个轻量级的源模型如基于 ResNet 的 nnUNet中。这样在最终的临床推理阶段只需要运行 31.1M 参数的轻量级模型而不需要跑 371.8M 参数且极其耗显存的 VFM。3.3 视觉合理性细化 (VPR: Visual Plausibility Refinement)为了进一步保证临床可靠性作者设计了后处理模块 VPR。解剖学统计先验利用 BiomedParse 预计算的各个类别的视觉属性如像素概率、RGB 通道强度的 Beta 分布 ( \mathcal{P}_C )。联合概率过滤对模型预测出的每一个独立连通域计算其“解剖学合理性得分”。如果某个预测区域的底层视觉特征与该器官的先验统计分布严重不符则将其视为噪声或假阳性并予以剔除。4. 实验与结果 (Experiments)极其硬核的实验设置评估了 10 个域自适应方向涵盖 22 个解剖目标。数据集包括 AMOS (腹部 CT/MR)、BraTS (大脑多序列 MRI)、CAMUS/ACDC (心脏 MR/US)、Kvasir/CVCDB (肠镜息肉)。对比实验表现腹部多器官 (MR (\rightarrow) CT)Tell2Adapt 平均 Dice 达到88.2%不仅远超 Baseline (47.4%)甚至逼近了全监督上限 (88.4%)。极限跨模态 (MR (\rightarrow) US 心脏分割)这是物理成像差异极大的地狱级难度。Baseline 和现有 SOTA 方法如 DFG, IPLC几乎全军覆没Dice 仅为个位数而 Tell2Adapt 依然坚挺左心室 (LV) Dice 达到94.6%心肌 (MYO) 达到88.5%。消融实验 (Ablation Study)作者专门设计了“混乱提示Chaos Prompts”包含乱序、错字、缺失来测试系统。在没有 CAPR 的情况下系统性能崩溃MR (\rightarrow) CT 降至 48.9%而加入 CAPR 后性能瞬间恢复至 85.7%证明了该模块在真实杂乱输入下的极强鲁棒性。5. 笔者思考与总结 (Conclusion Thoughts)优点总结这篇文章的思路非常清晰且极具破局感。在大家都绞尽脑汁去优化源模型的伪标签或对齐特征时Tell2Adapt 直接跳出框架指出**“文本提示才是打破错误累积死循环的钥匙”**。利用 LLM 洗数据CAPR利用 VFM 打伪标签利用解剖先验做后处理VPR最后蒸馏给小模型落地。这一套组合拳不仅逻辑自洽而且工程实用性极强真正做到了“大模型指导小模型”的完美闭环。潜在局限正如作者在讨论中所指出的尽管最终部署的学生模型很轻量但在伪标签生成阶段自适应阶段依然需要频繁调用庞大的 VFM 和 LLM这在计算开销和时间成本上相对较高例如腹部数据每体数据需要约 3.47 秒。未来展望这种“文本解耦”的自适应范式极具启发性。未来或许可以探索如何将 CAPR 和 VPR 的逻辑直接融入到轻量级模型的端到端训练中或者利用更高效的轻量级多模态模型来进一步压缩自适应阶段的算力成本。