[论文学习]EncryptedLLM:基于 GPU 加速全同态加密的隐私保护大型语言模型推论分析

[论文学习]EncryptedLLM:基于 GPU 加速全同态加密的隐私保护大型语言模型推论分析 EncryptedLLM: Privacy-Preserving Large Language Model Inference via GPU-Accelerated Fully Homomorphic Encryption (Leo de Castro et al., ICML 2025)核心问题与动机随着大型语言模型LLM如 GPT 系列的普及其推论计算高度依赖第三方云端服务。这带来严重的隐私洩露风险用户的敏感查询例如医疗、金融或个人资料相关提示会以明文形式传送给云端供应商云端可能意外或恶意洩露资料。同时模型拥有者也希望保护自身智慧财产训练成本高昂的模型权重。传统加密方式无法在加密状态下进行複杂计算导致隐私与实用性之间的紧张关係。全同态加密Fully Homomorphic Encryption, FHE提供自然解决方案用户加密查询后传给云端云端在密文上直接执行 LLM 推论最终返回仍处于加密状态的结果只有持有私钥的用户才能解密。这实现了非互动式non-interactive隐私保护推论无需多次往返通讯适合云端环境。然而FHE特别是 CKKS 方案支援近似实数运算在实际应用中面临巨大效能瓶颈LLM 本身计算密集大量矩阵乘法、非线性激活如 GeLU、LayerNorm、Softmax。FHE 操作如乘法、旋转、bootstrapping 以控制噪音远比明文慢数个数量级。先前工作如 Zhang et al., 2024 使用 SEAL 库的 CPU 实作虽有进展但仍不够实用即使对小型模型也需数小时。论文动机透过 GPU 加速 FHE 实现可行的加密 LLM 推论聚焦 GPT-2开放源码、具代表性并透过精确的激活函数近似平衡准确度与效能。作者开源了 OpenFHE 的 GPU 扩展贡献不仅限于 LLM还适用于广泛 FHE 应用。结果 / 成果1. GPU 加速 FHE 实作扩展流行 OpenFHE 库实现 GPU 加速 CKKS 方案。关键操作如 bootstrapping获得~200×加速CPU 需数秒GPU 仅 22–27 ms。这是当时最快的开源 GPU CKKS 实作之一结合多项优化记忆体中心、并行等。2. 加密 GPT-2 前向传递效能针对 GPT-2 Small12 层768 维在位置 128 生成下一个 token 的前向传递从 CPU 基准的数小时降至 GPU 的几分钟~200× 整体加速。支援批次评估batched evaluation利用 CKKS 槽位并行进一步提升 throughput尤其适合 fine-tuning 或多样本处理。提供不同安全等级λ128 或 λ80的权衡后者 bootstrapping 吞吐更高。3. 激活函数近似与准确度使用低阶多项式近似 GeLU、LayerNorm、Softmax包含 exp、max、division 等并整合 Cho et al. (2024) 的 Softmax 优化查表取代昂贵 max 电路。在多项基准HellaSwag、ARC、PIQA、MNLI、SST-2 等上近似模型与 baseline GPT-2 准确度下降极小证明 LLM 对低精度具有鲁棒性类似量化技术。提供详细参数表如 Newton 迭代次数、Taylor 展开阶数便于重现。开源贡献GPU-FHE 扩展、修改的 Hugging Face GPT-2 实作以及实验程式码。这为后续专案提供了强大基础。分析与洞见技术深度分析瓶颈转移明文 LLM 中线性层矩阵乘法主导计算但在 FHE 下非线性激活需多项式近似 bootstrapping成为主要开销。论文透过精巧近似深度控制在可管理范围和 GPU 加速有效缓解。CKKS 特性利用近似算术适合 LLM 的浮点运算槽位打包与批次评估最大化并行性。权衡空间近似参数多项式阶数、迭代次数直接影响深度bootstrapping 次数与准确度。论文提供广泛实验展示 LLM 特别适合此方法相较影像模型需更高精度。与相关工作比较优于先前 CPU 方案相较 MPC 方法FHE 通讯模式更简单单次往返但计算成本更高。论文未直接比较其他 GPU FHE 工作但强调开源实用性。专案导向洞见可扩展性结果可线性扩展至更大 GPT 模型批次支援适合私有资料 fine-tuning企业可将专有资料加密后在云端训练。应用场景非即时任务如文件摘要、草稿生成、医疗/金融报告分析已具实用性。即时聊天仍具挑战但未来硬体ASIC或进一步优化可改善。边缘案例批次大小影响效能安全等级选择取决于应用λ80 适合较低风险模型权重隐私未完全解决伺服器持有模型但 FHE 主要保护用户输入。限制近似引入少量误差bootstrapping 仍是成本中心Argmax 等最终操作需小心处理。对更高精度需求模型效果较差。未来方向整合混合系统TEE FHE、更好近似、硬体加速、更大模型基准、自动化近似优化等。更广泛影响这不仅推进隐私保护 AI还提升 FHE 整体实用性。对金融、医疗等规范严格产业意义重大允许在不洩露资料前提下利用云端 LLM 能力。结论《EncryptedLLM》是 FHE 应用于 LLM 推论的重要里程碑透过 GPU 加速和激活近似显着降低效能障碍使加密 GPT-2 前向传递从不实用转向可行200× 加速。它证明在适当权衡下FHE 可实现具竞争力的隐私保护 LLM 服务同时开源工具为社群后续开发铺路。论文连结OpenReviewhttps://openreview.net/forum?idPGNff6H1TVPDFhttps://openreview.net/pdf?idPGNff6H1TV 或 https://proceedings.mlr.press/v267/de-castro25a/de-castro25a.pdfICML 2025 Posterhttps://icml.cc/virtual/2025/poster/45395