PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion论文地址https://arxiv.org/abs/2605.23902项目页面https://github.com/nv-tlabs/PiD进 Q 学术交流群922230617 或加 CV_EDPJ 进 W 交流群目录1. 引言2. 方法像素扩散解码器2.1 问题形式化2.2 以潜码为条件的像素解码器2.3 模型训练2.4 快速推理蒸馏与提前终止3. 实验3.1 数据与训练细节3.2 量化评估设置3.3 量化结果与性能1. 引言目前主流的高分辨率文生图系统包括潜空间扩散模型 / LDM 和自回归模型大多在紧凑的潜空间Latent Space中完成生成再通过解码器将潜码Latent Code映射回像素。然而传统的潜码解码器以重建为导向为了反演编码器而优化而不是合成更多细节并且随着图像达到兆像素级别这类方法的计算开销急剧上升。这促使我们需要一种更具表现力、更高效率的解码新范式。受近期可扩展像素扩散模型的启发本文提出PiDPixel diffusion Decoder像素扩散解码器一种将潜码解码重构为条件像素扩散模型的方法将解码和超分统一在一个生成模块中。具体地PiD 直接在像素空间执行去噪能以低延迟合成 4 倍甚至 8 倍放大图像。为了注入潜空间条件设计了一个轻量级的 sigma 感知适配器向像素扩散主干注入带噪潜码使 PiD 能够解码部分去噪潜码从而提前终止潜扩散过程。进一步地采用 DMD2 技术进行蒸馏将推理步数压缩至 4 步。本文实现了以下几方面创新统一解码与上采样将潜码解码和高分辨率超分融合为一个生成模块避免了复杂的级联架构。高效的潜码条件注入设计了一个轻量级的 sigma 感知适配器允许解码器适应不同噪声水平的潜码。这项设计让 PiD 可以解码部分去噪潜码从而提前终止基座 LDM 的生成过程。广泛兼容性PiD 不仅适用于 VAE 潜码也能有效扩展到语义潜码如 DINOv2 特征为 RAE 类模型提供强大的高分辨率解码能力。极致效率与高质量在 RTX 509013 GB 显存或 GB200 GPU210 ms上实现高速解码且输出图像质量超越级联超分方案。2. 方法像素扩散解码器2.1 问题形式化设 z 为从文本条件下的自编码器潜空间中采样得到的潜码。传统方法是先用解码器得到低分辨率图像再经过一个独立上采样模块。PiD 则直接以条件像素扩散建模目标分辨率图像分布本工作中取放大系数 s 4 或 8。潜码提供整体结构和语义线索像素扩散先验则在目标分辨率下合成精细细节。2.2 以潜码为条件的像素解码器像素空间生成先验选用 PixelDiT 作为基础架构从预训练的 1024×1024 像素扩散模型出发扩展至高分辨率。从像素先验到潜码解码器采用 ControlNet 风格的轻量级适配器将潜码信息注入像素扩散模型同时保留前阶段文本到图像先验作为强力初始值。带噪潜码条件不仅使用干净潜码还让解码器接触不同噪声水平的潜码。这可以避免解码器过度依赖潜码而抑制细节生成也支持基座 LDM 提前退出。注入与 sigma 感知门控将潜码通过缩放、残差块、展平、线性投影等方式对齐为潜码条件 token每隔两个主干块进行注入。用一个 sigma 感知门控来控制注入强度随着潜码噪声水平提高注入强度减弱。2.3 模型训练首先使用标准的矫直流rectified-flow训练高分辨率像素扩散先验。构建有噪图像模型预测矫直流速度场通过如下流匹配Flow Matching损失优化【2024|ICLR|德州大学InstaFlow 整流流 回流 蒸馏InstaFlow一步就足以实现基于扩散的高质量文本到图像生成在矫直流中轨迹是直线可参考如上文章所以把 t 代入第一个公式对于 t 0 时刻的纯噪声 和 t 1 时刻的干净图像 x0整体速度场可视为 (x0 - ) / (1 - 0) x0 - 或者更简单的第一个公式直接对 t 求导也可得相同结果】然后基于预训练像素先验使用相同的整流流目标联合微调扩散主干和潜码注入模块。训练中模型学习在不同潜码噪声水平下平衡重建忠实度与生成合成能力。2.4 快速推理蒸馏与提前终止少步蒸馏利用 DMD2 将教师模型蒸馏为仅需 4 次采样步长的学生模型同时将无分类器引导classifier-free guidanceCFG蒸馏到学生模型中推理时无需分开执行条件和无条件的前向传播。基座 LDM 提前终止基座 LDM 在完成全部去噪步骤之前即可停止部分去噪后的潜码噪声水平与训练时带噪潜码条件一致可直接送入 PiD 解码。3. 实验3.1 数据与训练细节训练数据包含 MultiAspect-4K-1M 等高质量图像经过 Q-Align 过滤后使用 2.4M 张图像。每张图像标注三种粒度的文本描述长描述、中等描述和短描述。像素扩散先验基于 PixelDiT 1.3B 参数模型使用 128 张 H100 训练约 1 天。潜码注入微调阶段使用 64 张 H100 训练约半天。蒸馏阶段使用 128 张 H100 训练约 2 小时。3.2 量化评估设置测试了三种 VAE 潜码FLUX.1、FLUX.2、SD3和两种视觉编码器潜码DINOv2、SigLIP。对比基线包括 VAE/RAE 解码器 上采样模型以及 LUA 等潜空间上采样器。评价指标包含 MUSIQ、NIQE、DEQA、MANIQA、Q-Align、UniperceptIAA/IQA和 VisualQuality-R1。3.3 量化结果与性能PiD 在 6 种不同的潜码设置下大部分指标均取得了最佳或次佳结果。在 RAE 类语义潜码如 SigLIP上PiD 的领先优势最为明显MUSIQ 从 73.68 提升至 74.03DEQA 从 4.00 提升至 4.17Unipercept-IAA 从 59.95 提升至 64.94。端到端解码延迟方面PiD 在单张 GB200 GPU 配合torch.compile后约为210 毫秒。相比之下最先进的扩散式一步超分基线如 TSD-SR 和 InvSR在相同硬件上需要 724–1237 毫秒即 PiD 比它们快约3–6 倍同时图像质量更优。更轻量的上采样器如 Real-ESRGAN延迟虽低62 毫秒但视觉质量明显下降。PiD 天然支持基座 LDM 提前终止。实验表明即便基座 LDM 只完成部分去噪步骤PiD 仍能提供高质量、高分辨率的输出图像这为速度与质量之间的权衡提供了灵活的选择空间。
(2026|NVIDIA,图像生成,超分辨率,流匹配,矫直流,蒸馏)PiD:基于像素扩散的快速高分辨率潜在解码
PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion论文地址https://arxiv.org/abs/2605.23902项目页面https://github.com/nv-tlabs/PiD进 Q 学术交流群922230617 或加 CV_EDPJ 进 W 交流群目录1. 引言2. 方法像素扩散解码器2.1 问题形式化2.2 以潜码为条件的像素解码器2.3 模型训练2.4 快速推理蒸馏与提前终止3. 实验3.1 数据与训练细节3.2 量化评估设置3.3 量化结果与性能1. 引言目前主流的高分辨率文生图系统包括潜空间扩散模型 / LDM 和自回归模型大多在紧凑的潜空间Latent Space中完成生成再通过解码器将潜码Latent Code映射回像素。然而传统的潜码解码器以重建为导向为了反演编码器而优化而不是合成更多细节并且随着图像达到兆像素级别这类方法的计算开销急剧上升。这促使我们需要一种更具表现力、更高效率的解码新范式。受近期可扩展像素扩散模型的启发本文提出PiDPixel diffusion Decoder像素扩散解码器一种将潜码解码重构为条件像素扩散模型的方法将解码和超分统一在一个生成模块中。具体地PiD 直接在像素空间执行去噪能以低延迟合成 4 倍甚至 8 倍放大图像。为了注入潜空间条件设计了一个轻量级的 sigma 感知适配器向像素扩散主干注入带噪潜码使 PiD 能够解码部分去噪潜码从而提前终止潜扩散过程。进一步地采用 DMD2 技术进行蒸馏将推理步数压缩至 4 步。本文实现了以下几方面创新统一解码与上采样将潜码解码和高分辨率超分融合为一个生成模块避免了复杂的级联架构。高效的潜码条件注入设计了一个轻量级的 sigma 感知适配器允许解码器适应不同噪声水平的潜码。这项设计让 PiD 可以解码部分去噪潜码从而提前终止基座 LDM 的生成过程。广泛兼容性PiD 不仅适用于 VAE 潜码也能有效扩展到语义潜码如 DINOv2 特征为 RAE 类模型提供强大的高分辨率解码能力。极致效率与高质量在 RTX 509013 GB 显存或 GB200 GPU210 ms上实现高速解码且输出图像质量超越级联超分方案。2. 方法像素扩散解码器2.1 问题形式化设 z 为从文本条件下的自编码器潜空间中采样得到的潜码。传统方法是先用解码器得到低分辨率图像再经过一个独立上采样模块。PiD 则直接以条件像素扩散建模目标分辨率图像分布本工作中取放大系数 s 4 或 8。潜码提供整体结构和语义线索像素扩散先验则在目标分辨率下合成精细细节。2.2 以潜码为条件的像素解码器像素空间生成先验选用 PixelDiT 作为基础架构从预训练的 1024×1024 像素扩散模型出发扩展至高分辨率。从像素先验到潜码解码器采用 ControlNet 风格的轻量级适配器将潜码信息注入像素扩散模型同时保留前阶段文本到图像先验作为强力初始值。带噪潜码条件不仅使用干净潜码还让解码器接触不同噪声水平的潜码。这可以避免解码器过度依赖潜码而抑制细节生成也支持基座 LDM 提前退出。注入与 sigma 感知门控将潜码通过缩放、残差块、展平、线性投影等方式对齐为潜码条件 token每隔两个主干块进行注入。用一个 sigma 感知门控来控制注入强度随着潜码噪声水平提高注入强度减弱。2.3 模型训练首先使用标准的矫直流rectified-flow训练高分辨率像素扩散先验。构建有噪图像模型预测矫直流速度场通过如下流匹配Flow Matching损失优化【2024|ICLR|德州大学InstaFlow 整流流 回流 蒸馏InstaFlow一步就足以实现基于扩散的高质量文本到图像生成在矫直流中轨迹是直线可参考如上文章所以把 t 代入第一个公式对于 t 0 时刻的纯噪声 和 t 1 时刻的干净图像 x0整体速度场可视为 (x0 - ) / (1 - 0) x0 - 或者更简单的第一个公式直接对 t 求导也可得相同结果】然后基于预训练像素先验使用相同的整流流目标联合微调扩散主干和潜码注入模块。训练中模型学习在不同潜码噪声水平下平衡重建忠实度与生成合成能力。2.4 快速推理蒸馏与提前终止少步蒸馏利用 DMD2 将教师模型蒸馏为仅需 4 次采样步长的学生模型同时将无分类器引导classifier-free guidanceCFG蒸馏到学生模型中推理时无需分开执行条件和无条件的前向传播。基座 LDM 提前终止基座 LDM 在完成全部去噪步骤之前即可停止部分去噪后的潜码噪声水平与训练时带噪潜码条件一致可直接送入 PiD 解码。3. 实验3.1 数据与训练细节训练数据包含 MultiAspect-4K-1M 等高质量图像经过 Q-Align 过滤后使用 2.4M 张图像。每张图像标注三种粒度的文本描述长描述、中等描述和短描述。像素扩散先验基于 PixelDiT 1.3B 参数模型使用 128 张 H100 训练约 1 天。潜码注入微调阶段使用 64 张 H100 训练约半天。蒸馏阶段使用 128 张 H100 训练约 2 小时。3.2 量化评估设置测试了三种 VAE 潜码FLUX.1、FLUX.2、SD3和两种视觉编码器潜码DINOv2、SigLIP。对比基线包括 VAE/RAE 解码器 上采样模型以及 LUA 等潜空间上采样器。评价指标包含 MUSIQ、NIQE、DEQA、MANIQA、Q-Align、UniperceptIAA/IQA和 VisualQuality-R1。3.3 量化结果与性能PiD 在 6 种不同的潜码设置下大部分指标均取得了最佳或次佳结果。在 RAE 类语义潜码如 SigLIP上PiD 的领先优势最为明显MUSIQ 从 73.68 提升至 74.03DEQA 从 4.00 提升至 4.17Unipercept-IAA 从 59.95 提升至 64.94。端到端解码延迟方面PiD 在单张 GB200 GPU 配合torch.compile后约为210 毫秒。相比之下最先进的扩散式一步超分基线如 TSD-SR 和 InvSR在相同硬件上需要 724–1237 毫秒即 PiD 比它们快约3–6 倍同时图像质量更优。更轻量的上采样器如 Real-ESRGAN延迟虽低62 毫秒但视觉质量明显下降。PiD 天然支持基座 LDM 提前终止。实验表明即便基座 LDM 只完成部分去噪步骤PiD 仍能提供高质量、高分辨率的输出图像这为速度与质量之间的权衡提供了灵活的选择空间。