大模型 GPU 显存管理与优化技术深度解析:从 CUDA Graph 到 vGPU 的内存虚拟化目录摘要一、GPU 显存架构基础二、LLM 推理中的显存分布三、PagedAttention 与 KV-Cache 管理四、CUDA Graph 与计算图优化五、显存卸载与虚拟化技术
大模型 GPU 显存管理与优化技术深度解析:从 CUDA Graph 到 vGPU 的内存虚拟化
大模型 GPU 显存管理与优化技术深度解析:从 CUDA Graph 到 vGPU 的内存虚拟化目录摘要一、GPU 显存架构基础二、LLM 推理中的显存分布三、PagedAttention 与 KV-Cache 管理四、CUDA Graph 与计算图优化五、显存卸载与虚拟化技术