Ultra Ethernet协议:高性能数据中心网络传输新标准

Ultra Ethernet协议:高性能数据中心网络传输新标准 1. Ultra Ethernet传输协议概述现代数据中心网络正面临着前所未有的性能挑战。随着AI训练、高性能计算(HPC)和分布式存储等应用的快速发展传统TCP/IP协议栈在低延迟、高吞吐量场景下的局限性日益凸显。Ultra Ethernet(UE)传输协议应运而生它通过一系列创新设计在保持以太网兼容性的同时显著提升了大规模分布式应用的网络性能。UE协议栈的核心创新在于其分层架构设计。与传统的TCP/IP协议不同UE将传输功能划分为三个关键子系统Packet Delivery Subsystem(PDS)负责数据包的可靠传输Congestion Management Subsystem(CMS)处理网络拥塞控制Transport Security Subsystem(TSS)提供端到端安全保护。这种模块化设计使得每个子系统可以独立优化同时保持整体协议的高效协同。关键提示UE协议并非要完全取代TCP/IP而是针对特定高性能场景的优化方案。它在保持以太网帧格式兼容性的基础上通过协议栈重构实现了性能突破。UE的典型应用场景包括大规模AI模型训练需要高带宽和低延迟的all-to-all通信模式高性能计算集群对MPI通信的严格有序性要求分布式存储系统大量并发的读写操作需要高效的数据传输云计算基础设施多租户环境下的网络性能隔离和保障2. 数据包传输子系统(PDS)设计原理2.1 瞬时数据包传递上下文(PDC)UE协议最具革命性的创新之一是引入了Packet Delivery Contexts(PDC)概念。与TCP需要三次握手建立连接不同PDC可以在第一个数据包到达时就动态创建几乎不引入额外延迟。这种即时连接机制特别适合短突发流量的场景。PDC的工作原理如下发起方发送带有SYN标志的首个数据包随机生成初始Packet Sequence Number(PSN)目标方收到后分配本地PDCID并返回ACK双方进入ESTABLISHED状态开始全速传输通信结束后通过优雅关闭流程释放PDC资源示例PDC建立流程 发起方 NIC 目标方 NIC |--------SYN PSN4--------| (分配PDCID19) |---ACK PSN4 PDCID19----| |-------DATA PSN5--------| |---ACK PSN5 PDCID19----| |--------CLOSE------------| |-----CLOSE ACK-----------|PDC的状态机设计考虑了各种异常情况超时重传机制处理丢失的SYN或ACK最大重试次数限制防止无限重试明确的错误报告和处理路径资源回收保证即使异常终止也不会泄漏2.2 多模式传输协议UE设计了四种传输模式以适应不同应用场景的需求模式缩写可靠性有序性适用场景实现复杂度可靠无序传输RUD是否AI训练、批量数据传输中等可靠有序传输ROD是是HPC、MPI通信高不可靠无序传输UUD否否管理流量、监控数据低幂等操作可靠传输RUDI是否重复读/写操作中等RUD模式作为默认的批量传输模式具有以下特点支持数据包喷洒(packet spraying)充分利用多路径带宽使用消息ID(mid)确保消息级有序匹配接收端维护位图跟踪数据包到达情况允许动态调整最大PSN范围控制接收端资源使用ROD模式则通过以下机制保证严格有序单路径传输避免乱序采用类似TCP的go-back-N重传机制适用于需要通配符匹配的场景(如MPI)实现相对简单适合资源受限设备2.3 快速丢包检测机制传统TCP依赖超时检测丢包这在高速网络中效率低下。UE引入了三种创新的丢包检测方法数据包修剪(Packet Trimming)交换机在缓冲区满时修剪数据包载荷仅转发头部信息给接收端接收端立即请求重传需要交换机硬件支持乱序计数(Out-of-order Count)计算连续PSN之间的缺口大小超过阈值判定为丢包可通过ACK扩展头字段反馈给发送方对网络乱序有一定容忍度熵向量(Entropy Vector)检测每个EV对应唯一网络路径发送方维护(EV,PSN)发送记录通过ACK顺序推断丢包支持精确到路径的丢包定位这三种方法可以组合使用相比传统超时机制能将丢包检测延迟从毫秒级降低到微秒级。2.4 头部格式优化UE的头部设计体现了按需付费的理念通过可选字段和灵活配置最小化协议开销典型UE数据包结构 --------------------------------------------------------- | 以太网头(14B) | IP/UDP头(8B) | PDS头(4-16B) | SES头(20-44B) | 数据 | FCS(4B) | ---------------------------------------------------------关键头部优化包括支持UDP/IP或裸IP传输(节省8B)PDS头长度根据传输模式变化(4-16B)SES头有三种格式适应不同消息大小可选的端到端CRC校验(4B)安全头(TSS)仅在需要时添加(12-16B)这种灵活的头部设计使得UE在保持功能丰富的同时协议开销可以控制在10-30字节之间远低于传统TCP/IP栈的40-60字节。3. 拥塞管理子系统(CMS)设计3.1 双模式拥塞控制UE的拥塞管理子系统采用了创新的双算法设计网络信号拥塞控制(NSCC)基于ECN标记和RTT测量四种反应策略应对不同网络状态包含快速适应(QA)算法处理突发拥塞适合通用网络环境接收端信用拥塞控制(RCCC)接收方主动分配发送信用精确控制每个流的发送速率特别适合接收端拥塞(incast)场景实现简单高效两种算法可以独立或协同工作UE建议在复杂网络环境中同时启用两者以获得最佳性能。3.2 典型拥塞场景处理UE针对数据中心常见的三种拥塞模式进行了专门优化Incast(多对一)多个发送方同时向一个接收方传输RCCC能完美分配各流带宽NSCC需要较长时间收敛Outcast(一对多)一个发送方向多个接收方传输NSCC处理效果更好RCCC可能出现带宽分配不均网络内部拥塞中间交换机成为瓶颈NSCC通过ECN/RTT检测RCCC需要与NSCC配合通过仿真测试UE的拥塞控制系统在2:1超订阅的fat-tree拓扑中能够实现90%以上的链路利用率同时保持公平性和稳定性。3.3 负载均衡策略UE提供了两种创新的负载均衡方案回收熵喷洒(REPS)使用ACK返回的EV进行发送自时钟机制自动平衡路径负载无需维护路径状态适合稳定网络环境位图轮转调度维护EV集合和拥塞位图轮询选择非拥塞EV发送动态调整EV集合大小对网络变化响应更快这些负载均衡算法与拥塞控制解耦设计使得UE能够适应各种网络拓扑和流量模式。4. 安全子系统(TSS)设计4.1 安全域模型UE采用了零信任安全模型其主要特点包括基于安全域(Secure Domain)的隔离对称密钥加密(AES-256-GCM)完整的端到端认证防重放攻击保护安全域密钥(SDK)由安全管理实体(SDME)统一分发和更新支持三种密钥派生模式直接使用SDK基于KDF的源密钥派生基于KDF的每目标密钥派生4.2 安全启动流程为防止PDC建立过程中的重放攻击UE提供了两种安全启动方案方案一安全握手发起方发送NOP查询目标方返回随机PSN双方使用安全PSN建立PDC 优点安全性高 缺点增加1RTT延迟方案二预协调PSN安全域维护start_psn和expected_psn新连接使用start_psn目标方验证PSN≥expected_psn 优点零开销启动 缺点需要额外协调机制5. 实际部署考量5.1 硬件要求UE协议可以运行在三种硬件平台上平台类型功能完整性性能适用场景智能网卡完整功能最高新建数据中心FPGA加速主要功能高现有设备升级软件实现基本功能中开发和测试5.2 性能优化建议根据实际部署经验我们总结了以下优化建议PDC参数调优根据应用特点设置合适的PDC超时调整最大PSN范围平衡性能和内存使用合理配置PDC缓存大小传输模式选择AI训练使用RUD模式MPI应用使用ROD模式管理流量使用UUD模式拥塞控制配置高带宽网络优先使用RCCC复杂网络环境启用NSCCRCCC调整ECN标记阈值适应交换机特性5.3 典型性能数据在100Gbps网络环境中的测试结果显示指标TCP/IPUE提升短流完成时间15μs3μs5x长流吞吐量85Gbps98Gbps15%拥塞恢复时间50ms5ms10xCPU利用率30%8%3.75x这些数据表明UE在延迟、吞吐量和CPU效率方面都有显著优势。