国家超算中心 西安站 异构加速卡2 显存16GB详细配置, 海光 Z100SM HCU

国家超算中心 西安站 异构加速卡2 显存16GB详细配置, 海光 Z100SM HCU 国家超算中心 西安站 异构加速卡2 显存16GB详细配置 海光 Z100SM HCU设备信息汇总 解读一、整体硬件概览机器搭载4 颗海光 C86 7285 CPU4 张海光 Z100SM HCUgfx906 架构兼容 ROCm系统正常识别所有硬件ROCm 环境加载正常。二、rocm-smi 状态空载HCU 0~3 共4张卡 - 温度45~46℃空载温度优秀 - 功耗21~25W极低空载功耗 - 功耗上限450W/卡 - 负载VRAM、HCU 占用均 0%当前无任务运行 - 运行模式Normal 正常模式Perf 为 manual手动功耗/性能档位三、rocminfo 详细参数1. CPU 部分Agent1~4型号Hygon C86 7285 32核处理器共 4 路 CPU主频上限2000 MHz单路内存池容量约 32GB大内存带宽配置适合多卡并行、大模型训练设备类型纯 CPU 计算节点无 GPU 计算单元2. HCU 加速卡部分Agent5~8共4卡 Z100SM核心架构gfx906兼容 AMD ROCm 生态对标 MI50 架构基础规格单卡显存16760832 KB ≈ 16368 MB ≈ 16GB计算单元 CU64 个/卡主频上限1319 MHzL1 Cache16KBL2 Cache8192KB8MB算力/调度参数Wavefront 大小64AMD 系标准调度粒度单工作组最大线程1024支持Fast F16FP16 运算加速原生支持ISA 指令集amdgcn-amd-amdhsa--gfx906:sramecc:xnack-标准 ROCm 编译目标兼容性说明驱动模块C-3000 module正常加载海光 HCU ROCm 驱动就绪完全兼容基于 ROCm 的深度学习、HPC、AI 推理/训练框架四、关键结论 建议硬件状态4 卡 HCU 全部识别正常温度、功耗、硬件状态无异常适合上线任务。软件环境ROCm 栈完整gfx906架构可直接运行适配 AMD GPU 的代码/镜像。使用建议编译模型/算子时指定目标架构--rocm-archgfx906当前为manual性能模式如需满负载跑任务可调整为自动性能档位提升算力释放。单卡 16GB 显存适合中小规模模型推理、微调、传统 HPC 计算多卡可做分布式训练。需要我给你几条常用的ROCm 环境查看、架构编译、多卡任务调度实用命令吗