Token-Level Differential Privacy for LLMs / DP-Fusion1. 核心问题与动机大型语言模型LLMs在训练后部署阶段会处理大量未见过的上下文资料例如使用者提示、工具呼叫结果或外部资料库检索内容RAG。这些上下文可能包含敏感资讯如个人识别资讯PII姓名、地址、病历、帐单等、密码或医疗记录。LLM 的生成输出可能无意中「洩漏」这些敏感 token即使是正常使用也可能被对手透过membership inference、reconstruction attacks或jailbreak 提示提取。传统解决方案的局限Scrubbing / NER Redaction使用命名实体识别NER移除或替换敏感 token产业界广泛採用。但过度移除会严重损害文本效用utility且相邻上下文仍可能间接洩漏资讯如代名词透露性别。Prompt Engineering / Paraphrasing指示模型改写文件以避免洩漏 PII效用较佳但无形式化保证易受 jailbreak 攻击且白盒攻击者仍能高成功率推断敏感资讯。既有 DPI 方法如 DP-Decoding混合 uniform distributionDP-Promptlogits clipping exponential mechanism提供一定隐私但效用/隐私权衡差或仅在训练阶段有效推论阶段保证不足。动机需要在推论阶段inference-time实现token-level的差分隐私Differential Privacy, DP提供可证明保证provable bounds同时维持高文本品质。适用情境包括医院文件隐私化、RAG 私有检索、私有 ICLIn-Context Learning等。DP-Fusion聚焦「文件隐私化document privatization」将含敏感 token 的文件改写成隐私保护版本供 LLM 使用。2. 结果与成果DP-Fusion 方法核心DP-Fusion是一种Token-Level Differentially Private Inference (DPI)机制其核心创新在于混合fusion两个 LLM 前向传递的输出分布建立公开基准public baseline移除所有敏感 token 群组运行 LLM 得到 baseline 分布。针对每个隐私群组privacy groups可依 NER 信心度或类型如 NAME、DATE 分组运行 LLM 得到含该群组的私有分布。混合分布使用参数β或 λ控制混合使最终输出分布与 baseline 的统计距离Rényi divergence有界从而限制敏感 token 对生成 token 的影响。自迴归生成改写文件ϵ 参数控制 trade-offϵ0 完全隐藏敏感资讯ϵ 较大则提升品质。理论保证基于Rényi DPRDP与近似 DP(ε, δ)-DP证明敏感 token 群组对输出 token 的影响有界。即使对手可适应性查询包含 jailbreak攻击优势仍受限。支援多群组隐私预算分配per-group privacy budgetsNER oracle 品质越高保证越强与其他方法不同。对邻近资料集add/remove token的影响有形式化界限。实证成果效用在 perplexity 等指标上比相关 DPI 方法低约6 倍大幅更好文本品质接近原始。隐私理论与经验隐私均大幅优于 baselinescrubbing、prompt engineering、DP-Decoding、DP-Prompt。攻击成功率显着降低。实验涵盖多种 LLM、资料集与攻击者模型展示稳定 trade-off。额外好处可缓解 prompt injection且计算成本为多次前向传递可接受于本地部署。GitHub 提供完整程式码、PyPI 套件与部署 demo方便複製使用。3. 分析与洞见优势与创新点细粒度token-level超越 document-level 或 sentence-level DP更精准保护特定敏感部分。可扩展性NER oracle 可替换未来更好 tagger 会直接提升效能隐私保证随 oracle 改善而增强。实用性适用开源 LLM本地运行避免第三方信任问题ϵ 参数提供直观控制。对比洞见既有方法常过度 sanitization 或无保证DP-Fusion 在 utility/privacy Pareto 前沿明显领先平衡了 scrubbing 的激进与 paraphrasing 的脆弱。限制与边缘案例计算开销每个群组需额外 LLM 呼叫对于极长上下文或多群组可能昂贵可优化如 batching 或近似。NER 依赖false negative漏标敏感 token仅享经验保护false positive 则被纳入保证较安全但略增开销。攻击者模型假设灰盒知方法与模型权重但无 logits 存取对更强白盒或 side-channel 攻击需额外考量。效用边界极低 ϵ 下仍可能影响连贯性尤其高度依赖敏感上下文的任务如特定医疗诊断。泛化主要验证文件改写延伸至一般 RAG/ICL 需更多实测多语言或非英文资料集效果待验证。更广洞见反映 LLM 部署从「训练隐私」转向「推论隐私」的重要性。DP-Fusion 提供一套框架可延伸至其他生成任务。强调「oracle mechanism」组合更好敏感检测 强 DPI 机制是未来方向。隐私不是二元而是可调控光谱形式化保证让系统设计者能量化风险与合规e.g., GDPR。潜在社会影响促进 LLM 在医疗、金融等敏感领域安全部署降低再识别风险但也需注意过度隐私可能损害可用性。4. 结论DP-Fusion是 LLM 推论阶段 token-level 差分隐私的重大进展提供可证明、细粒度且实用的解决方案有效解决既有方法在保证与效用上的双重不足。透过分布融合机制它在保护敏感 token 的同时显着提升生成文本品质为私有 RAG、文件 sanitization 等应用开闢新路径。论文不仅贡献理论框架与实证优势还开放程式码具高度可複製性。未来方向可能包括降低计算成本、整合更先进 NER/检测器、多模态延伸或在更大规模模型上的验证。此工作强化了「隐私为预设」的 AI 部署理念对负责任 AI 发展具有重要意义。论文连结arXivhttps://arxiv.org/abs/2507.04531PDFhttps://arxiv.org/pdf/2507.04531.pdf
[论文学习]Token级差分隐私于大型语言模型:DP-Fusion 方法深入分析
Token-Level Differential Privacy for LLMs / DP-Fusion1. 核心问题与动机大型语言模型LLMs在训练后部署阶段会处理大量未见过的上下文资料例如使用者提示、工具呼叫结果或外部资料库检索内容RAG。这些上下文可能包含敏感资讯如个人识别资讯PII姓名、地址、病历、帐单等、密码或医疗记录。LLM 的生成输出可能无意中「洩漏」这些敏感 token即使是正常使用也可能被对手透过membership inference、reconstruction attacks或jailbreak 提示提取。传统解决方案的局限Scrubbing / NER Redaction使用命名实体识别NER移除或替换敏感 token产业界广泛採用。但过度移除会严重损害文本效用utility且相邻上下文仍可能间接洩漏资讯如代名词透露性别。Prompt Engineering / Paraphrasing指示模型改写文件以避免洩漏 PII效用较佳但无形式化保证易受 jailbreak 攻击且白盒攻击者仍能高成功率推断敏感资讯。既有 DPI 方法如 DP-Decoding混合 uniform distributionDP-Promptlogits clipping exponential mechanism提供一定隐私但效用/隐私权衡差或仅在训练阶段有效推论阶段保证不足。动机需要在推论阶段inference-time实现token-level的差分隐私Differential Privacy, DP提供可证明保证provable bounds同时维持高文本品质。适用情境包括医院文件隐私化、RAG 私有检索、私有 ICLIn-Context Learning等。DP-Fusion聚焦「文件隐私化document privatization」将含敏感 token 的文件改写成隐私保护版本供 LLM 使用。2. 结果与成果DP-Fusion 方法核心DP-Fusion是一种Token-Level Differentially Private Inference (DPI)机制其核心创新在于混合fusion两个 LLM 前向传递的输出分布建立公开基准public baseline移除所有敏感 token 群组运行 LLM 得到 baseline 分布。针对每个隐私群组privacy groups可依 NER 信心度或类型如 NAME、DATE 分组运行 LLM 得到含该群组的私有分布。混合分布使用参数β或 λ控制混合使最终输出分布与 baseline 的统计距离Rényi divergence有界从而限制敏感 token 对生成 token 的影响。自迴归生成改写文件ϵ 参数控制 trade-offϵ0 完全隐藏敏感资讯ϵ 较大则提升品质。理论保证基于Rényi DPRDP与近似 DP(ε, δ)-DP证明敏感 token 群组对输出 token 的影响有界。即使对手可适应性查询包含 jailbreak攻击优势仍受限。支援多群组隐私预算分配per-group privacy budgetsNER oracle 品质越高保证越强与其他方法不同。对邻近资料集add/remove token的影响有形式化界限。实证成果效用在 perplexity 等指标上比相关 DPI 方法低约6 倍大幅更好文本品质接近原始。隐私理论与经验隐私均大幅优于 baselinescrubbing、prompt engineering、DP-Decoding、DP-Prompt。攻击成功率显着降低。实验涵盖多种 LLM、资料集与攻击者模型展示稳定 trade-off。额外好处可缓解 prompt injection且计算成本为多次前向传递可接受于本地部署。GitHub 提供完整程式码、PyPI 套件与部署 demo方便複製使用。3. 分析与洞见优势与创新点细粒度token-level超越 document-level 或 sentence-level DP更精准保护特定敏感部分。可扩展性NER oracle 可替换未来更好 tagger 会直接提升效能隐私保证随 oracle 改善而增强。实用性适用开源 LLM本地运行避免第三方信任问题ϵ 参数提供直观控制。对比洞见既有方法常过度 sanitization 或无保证DP-Fusion 在 utility/privacy Pareto 前沿明显领先平衡了 scrubbing 的激进与 paraphrasing 的脆弱。限制与边缘案例计算开销每个群组需额外 LLM 呼叫对于极长上下文或多群组可能昂贵可优化如 batching 或近似。NER 依赖false negative漏标敏感 token仅享经验保护false positive 则被纳入保证较安全但略增开销。攻击者模型假设灰盒知方法与模型权重但无 logits 存取对更强白盒或 side-channel 攻击需额外考量。效用边界极低 ϵ 下仍可能影响连贯性尤其高度依赖敏感上下文的任务如特定医疗诊断。泛化主要验证文件改写延伸至一般 RAG/ICL 需更多实测多语言或非英文资料集效果待验证。更广洞见反映 LLM 部署从「训练隐私」转向「推论隐私」的重要性。DP-Fusion 提供一套框架可延伸至其他生成任务。强调「oracle mechanism」组合更好敏感检测 强 DPI 机制是未来方向。隐私不是二元而是可调控光谱形式化保证让系统设计者能量化风险与合规e.g., GDPR。潜在社会影响促进 LLM 在医疗、金融等敏感领域安全部署降低再识别风险但也需注意过度隐私可能损害可用性。4. 结论DP-Fusion是 LLM 推论阶段 token-level 差分隐私的重大进展提供可证明、细粒度且实用的解决方案有效解决既有方法在保证与效用上的双重不足。透过分布融合机制它在保护敏感 token 的同时显着提升生成文本品质为私有 RAG、文件 sanitization 等应用开闢新路径。论文不仅贡献理论框架与实证优势还开放程式码具高度可複製性。未来方向可能包括降低计算成本、整合更先进 NER/检测器、多模态延伸或在更大规模模型上的验证。此工作强化了「隐私为预设」的 AI 部署理念对负责任 AI 发展具有重要意义。论文连结arXivhttps://arxiv.org/abs/2507.04531PDFhttps://arxiv.org/pdf/2507.04531.pdf