【高清视频】PCIe插卡调试利器:PCIe功耗分析和sideband边带信号监控设备 Quarch PAM 深度解析

【高清视频】PCIe插卡调试利器:PCIe功耗分析和sideband边带信号监控设备 Quarch PAM 深度解析 我们很多购买了PAMpower analysys module)的客户最初的时候都被这个名称误导了以为该PAM仅能分析功耗实际上它的功能非常丰富绝对不是普通示波器和逻辑分析仪可以做到的例如它可以长时间记录、分析、回溯各类PCIe 总线的sideband边带信号而监控这些信号对于我们分析很多故障和异常也非常有帮助。我们今天的视频先从插卡拍起来后续看时间也拍摄一下针对PCIe/NVMe SSD的接口包括U.2, M.2等接口形态的高清视频。我们今天的高清视频从工程师视角结合之前在Saniffer公众号中反复关注的几个主题以及官网上PAM 与 Power Studio 的功能和技术指标可以让你获得更多调试PCIe插卡的经验• PCIe / NVMe / GPU 功耗测试• PCIe 边带信号调试PERST / REFCLK / CLKREQ• AI服务器与高功耗GPU卡调试• PCIe analyzer 与 power debug 的结合【高清视频】PCIe插卡调试利器PCIe功耗分析和sideband边带信号监控设备 Quarch PAM 深度解析一、背景为什么 PCIe 插卡功耗分析越来越重要在 AI 服务器、GPU 计算卡、NVMe SSD、PCIe Switch 等设备中功耗行为与系统稳定性高度相关常见问题包括• PCIe 卡枚举失败• GPU训练时突然掉卡• NVMe SSD高负载下 reset• PCIe Switch链路反复 retrain• AI inference server随机卡死这些问题很多时候并不是• PCIe protocol bug• Firmware bug而是电源行为异常例如• 12V rail 瞬时电压下跌• GPU 瞬时电流 spike• AUX power 时序异常• REFCLK / PERST 与供电时序不匹配传统工具示波器 万用表很难做到• 长时间记录• 多通道同步• 关联 PCIe 事件因此产生了一类专门设备PCIe 功耗分析设备其中最典型的就是Quarch PAMPower Analysis Module二、Quarch PAMPCIe 插卡功耗分析模块1 PAM 的基本定义PAM Power Analysis Module核心用途实时监控 PCIe 插卡功耗与边带信号行为根据视频说明PAM 会被串接在 PCIe 插卡与主机之间实现透明监控。可记录• 电压• 电流• 功耗• Sideband 信号例如• PERST#• REFCLKOK• CLKREQ• WAKE#2 PAM 的系统结构典型系统由三部分组成Host Server │ │PCIe │ ┌────────────────────┐ │ Quarch AIC Fixture │ │ (PCIe slot adapter)│ └────────────────────┘ │ │USB-C control │ ┌──────────────────┐ │ PAM Module │ │ (Power Analysis) │ └──────────────────┘ │ │USB / Ethernet │ Control PC (Power Studio)视频中也展示了• PCIe Gen5 x16 fixture• USB Type-C 连接 PAM 管理模块三、PAM 支持的 PCIe 设备类型1 标准 PCIe 插卡≤75W例如• NIC• NVMe AIC• FPGA• PCIe Switch 卡直接使用PCIe 插卡治具串接在Host slot │ PAM Fixture │ PCIe card2 高功耗 PCIe 设备GPU / AI卡现代 GPU 功耗GPU功耗A100400WH100700WB1001000W视频中提到GPU 甚至可能达到700W / 1000W / 1500W因此需要额外设备AUX power fixture用于分析• 8-pin / 12VHPWR 供电• 电流波动• Power transient系统结构PCIe slot power External GPU power │ Fixture │ PAM四、PAM 可测量的信号类型PAM 主要监控四类信号1 电压例如12V slot 3.3V slot Aux power主要分析• 电压跌落• 电压稳定性• 上电时序2 电流监测• GPU power ramp• NVMe active current• PCIe card idle power3 功耗Power计算Power Voltage × Current可分析• 峰值功耗• 平均功耗• workload power profile4 PCIe Sideband 信号例如信号作用PERST#设备复位REFCLKOK时钟稳定CLKREQ#低功耗唤醒WAKE#唤醒信号这些信号对PCIe link training非常关键。视频中示例监控• PERST• REFCLKOK并与功耗变化同步显示。五、Quarch Power Studio 软件Power Studio 是 PAM 的控制与分析软件。视频演示的版本Power Studio v1.50并识别设备QTL2312 PAM QTL2983 Gen5 x16 AIC Fixture六、Power Studio 的核心功能1 实时数据采集可设置采样周期示例1.024 ms sampling因此可以捕获• PCIe link training• GPU workload spike• power transient2 Trace RecordingPower Studio 可以持续记录功耗 trace。默认行为recording saved to temp file close software - file deleted因此建议修改设置auto-save trace否则可能出现记录一天数据 → 关闭软件全部消失3 Channel 管理软件支持多通道Voltage Current Power Sideband用户可以选择显示例如12V Voltage 12V Current 12V Power PERST REFCLKOK4 时间轴缩放类似示波器支持• zoom in• zoom out• drag timeline时间轴精度可查看毫秒级事件。例如4 min 26 sec → 4 min 27 sec5 A/B 游标测量软件支持Cursor A Cursor B可计算Δtime Δvoltage Δcurrent Δpower视频示例Δtime 5 ms Δvoltage 2.5 V Δcurrent 0.358 A Δpower 2.5 W这对于分析• power spike• GPU load change• PCIe reset timing非常重要。6 Statistics 统计Power Studio 可以对选定时间窗口统计max min avg例如12V voltage 12V current sideband state七、PAM 在 PCIe / AI服务器调试中的典型应用结合你之前经常研究的 PCIe debug这个设备非常适合以下场景场景 1PCIe 设备枚举失败例如BIOS boot PCIe device missing可能原因PERST timing error power ramp slow REFCLK unstablePAM 可以同时看到Power ramp PERST REFCLKOK场景 2GPU 推理服务器掉卡AI inference server 常见问题GPU suddenly disappears CUDA error training crashPAM 可记录GPU current spike power limit event VRM instability场景 3NVMe SSD 高负载 reset典型情况fio workload SSD suddenly reset可能原因12V droop power transient场景 4PCIe Switch 系统调试视频中的 demo 就是PCIe Switch card通过 PAM 分析switch power profile link initialization八、PAM 与 PCIe Protocol Analyzer 的区别这是你之前经常问的问题。工具功能PCIe Protocol Analyzer分析协议PAM分析功耗示波器电信号BMC telemetry粗粒度功耗最强组合PCIe Analyzer Quarch PAM可以做到Protocol event ↓ Power spike例如FLR event GPU power drop九、PAM 在 AI服务器时代的价值随着 AI GPU 功耗爆炸式增长设备功耗A100400WH100700WB2001000W服务器电源问题越来越复杂。常见现象AI training crash GPU reset PCIe retrain这些都与power transient power sequencing相关。因此Power analysis 正在成为服务器验证的必备工具。十、总结Quarch PAM 是一套专门针对PCIe 插卡功耗分析的专业设备。核心能力1 实时功耗监控• 电压• 电流• 功耗2 PCIe 边带信号分析• PERST• REFCLK• CLKREQ3 长时间 trace 记录4 毫秒级事件分析5 GPU / NVMe / Switch 功耗调试在 AI服务器时代PAM 已成为GPU validation PCIe debug power integrity analysis的重要工具。