黄仁勋的AI工厂不是PPT了:Vera Rubin量产,推理5倍碾压前代 量产了,不是“即将“

黄仁勋的AI工厂不是PPT了:Vera Rubin量产,推理5倍碾压前代 量产了,不是“即将“ 黄仁勋的AI工厂不是PPT了Vera Rubin量产推理5倍碾压前代量产了不是即将6月1日COMPUTEX台北NVIDIA宣布Vera Rubin平台进入全面量产。“ramping into full production”——产线已经在跑。不是PPT上画个路线图不是我们计划在Q3开始小规模试产是现在、立刻、台湾的顶级服务器制造商已经在大规模出货基于Vera Rubin的系统了。黄仁勋在GTC 2026上画的AI工厂蓝图三个月后硬件就从产线上下来了。先看硬数据Vera Rubin vs BlackwellVera Rubin的核心是Rubin R100 GPU和Vera CPU。直接上参数对比规格项Vera Rubin R100Blackwell B200提升幅度晶体管数3360亿2080亿61.5%制造工艺TSMC 3nm 双芯片TSMC 4NP一代领先推理性能(NVFP4)50 PFLOPS20 PFLOPS2.5x显存容量288 GB HBM4192 GB HBM3e50%显存带宽22 TB/s8 TB/s2.75x单卡数据已经够震撼了。但Vera Rubin的设计从来不是单卡思维——它是一个7芯片、5种机架配置的完整平台。NVL72机架3.6 EFLOPS的推理怪兽Vera Rubin的最小部署单元是NVL72机架72个Rubin R100 GPU 36个Vera CPU。整机架性能指标Vera Rubin NVL72Grace Blackwell NVL72提升NVFP4推理3.6 EFLOPS~720 PFLOPS5xHBM总容量20.7 TB~13.5 TB1.5xHBM总带宽1.6 PB/s~576 TB/s2.8xNVLink带宽260 TB/s130 TB/s2x系统内存(CPU)54 TB~17 TB3.2x单token推理成本——降低10x每瓦推理吞吐量——提升10x推理成本降10倍、能效提升10倍。这两个10x才是AI工厂从概念到商业的关键——不是算力堆多高是单位成本能不能低到让推理密集型应用跑得起。整机架功耗120.8 kW重量1.36吨全液冷设计。这不是放在办公室的设备这是数据中心的算力砖块。Vera CPU88核Arm第一款原生支持FP8的CPUVera CPU代号Olympus88核Armv9.2架构支持176线程通过NVIDIA空间多线程技术。几个关键参数内存最高1.5 TB LPDDR5X带宽1.2 TB/sCPU-GPU互联NVLink-C2C带宽1.8 TB/s比PCIe Gen6快7倍首创第一款原生支持FP8精度的CPU每核6个128位SVE2 SIMD单元FP8 CPU意味着什么意味着CPU本身可以直接参与低精度AI计算不需要把数据搬到GPU再搬回来。在AI推理场景里CPU不再是纯调度器而是真正的计算单元。256个Vera CPU组成的CPU机架可以维持22,500个并行CPU沙箱。NVIDIA明确说了这些沙箱是为AI智能体状态管理设计的。一个沙箱跑一个Agent一个CPU机架同时跑2万多个Agent。不只是GPU是七颗芯片的平台Vera Rubin平台不是一颗GPU就完事了。它包含7颗独立芯片覆盖计算、互联、网络、卸载、加速全栈Rubin R100 GPU— 核心计算引擎3360亿晶体管TSMC 3nm双芯片Vera CPU— 88核Armv9.2定制处理器第一款原生FP8 CPUNVLink 6交换芯片— GPU间高速互联ConnectX-9 SuperNIC— 网络智能网卡BlueField-4 DPU— 数据处理卸载Spectrum-6— 以太网交换硬件Groq LPU— 最有意思的一颗。NVIDIA把竞争对手Groq的LPU直接集成进了自己的平台栈。不是消灭对手是把对手变成自己的加速器。Groq LPU在CUDA栈中作为透明卸载计算单元运行128GB SRAM 40 PB/s带宽专门干超低延迟推理。从机架到POD三层规模怎么堆NVL72机架是最小部署单元72个GPU 36个CPU3.6 EFLOPS推理液冷120.8 kW1.36吨。一台机架就是一个推理怪兽。往上叠一层256个Vera CPU组成CPU机架可以维持22,500个并行CPU沙箱。NVIDIA明确说了这些沙箱是为AI智能体状态管理设计的。一个沙箱跑一个Agent一台CPU机架同时跑2万多个Agent——这是Agent从原型走向规模化生产的基础设施。再往上40个机架组成一个POD级超算1,152个GPU60 Exaflops算力。集成1.2万亿个晶体管近20,000枚NVIDIA裸片10 PB/s总扩展带宽。1.2万亿个晶体管集成在一个POD里。人脑的突触连接约100万亿NVIDIA一个POD的晶体管数是人脑突触的1.2%。还在指数增长曲线上。训练只需要1/4的GPUNVIDIA给出了一个关键数据训练大型MoE模型时Vera Rubin只需要Blackwell1/4的GPU数量就能达到同等性能。这意味着如果你原来需要4000张B200来训练一个MoE模型用Vera Rubin只需要1000张R100。GPU采购成本降75%机房面积降75%电力消耗降75%。推理端更直接单token推理成本降10倍。这是让无限推理成为商业可能的那个数字。首批部署和量产时间线首批部署的云服务商2026下半年AWSGoogle CloudMicrosoft AzureOracle Cloud InfrastructureCoreWeaveNVIDIA预测到2026年底AI芯片安装基数将从2025年底的334万块增长至768万块B300等效单位一年翻2.3倍。供应链上TSMC独家代工Q1 2026营收357.1亿美元计划560亿美元资本支出亚利桑那州1650亿美元扩建GigaFab集群确保美国本土产能。三星和SK海力士负责HBM4内存供应。OpenClaw智能体计算的Linux和硬件一起发布的还有OpenClaw——NVIDIA称之为智能体计算的Linux。OpenClaw包含NemoClaw框架兼容Claude Code等系统。它的定位是给AI Agent提供标准化的运行环境就像Linux给服务器软件提供标准化运行环境一样。黄仁勋在发布会上说了一句话值得琢磨“训练为主的AI时代已结束未来属于能推理、使用工具、浏览网页、编写代码并与物理环境交互的AI智能体。”Vera Rubin的整个架构设计就是为这句话服务的CPU沙箱跑Agent状态、FP8 CPU参与推理、Groq LPU做超低延迟推理、OpenClaw提供标准化运行时。从芯片到软件每一层都在为Agentic AI铺路。对开发者的实际意义推理密集型应用的开发者要注意了推理成本降10倍意味着很多之前算不起的场景变得可行了。实时语音Agent、大规模代码生成、多轮复杂推理——2026下半年Vera Rubin上线后这些应用的经济模型会根本性改变。以前跑一次推理要1块钱以后只要1毛整个产品的定价策略和用户量天花板都要重新算。Agent开发者盯住一个数字22,500个并行CPU沙箱。加OpenClaw框架一个Vera CPU机架同时跑2万多个Agent实例。这不再是我先做个demo看看而是我可以直接上生产。至于GPU采购决策急用先买Blackwell不急等到2026下半年Vera Rubin大批量出货。NVIDIA自己的数据说训练只需1/4的GPU数量、推理成本降10倍但量产爬坡到实际可用需要时间。AI工厂不是PPT了。硬件在跑供应链在转五大云厂商等着接货。下一步看的是3.6 EFLOPS的推理能力到底能催生什么样的应用。