核心内容摘要
尘封的牌局:心跳与指尖的较量,不止是输赢
从 AI 大模型训练到多模态推理算力规模持续放大。
网络已成为决定 AI 系统上限的关键因素不仅需要更高带宽还需更少层级以实现低成本、低时延互联。
基于对超大规模 AI 集群的长期实践与思考火山引擎正式上线
1
4T 自研交换机并以此支撑新一代 HPN
0 架构可支持十万卡级 GPU 集群的高效互联。
火山引擎自研的
1
4T 交换机凭借多维度的硬件技术创新和细节打磨以高性能、高稳定、低成本的核心优势成为下一代 AI 网络的关键硬件底座。
图1 火山引擎
1
4T 自研交换机其核心特性如下全端口 LPO 支持实现低时延、低功耗、低成本兼顾性能、稳定与成本。
创新的高速系统设计使用 3 层扣板架构在 4U 空间实现了 128 个 800G OSFP 端口。
高速系统首创 SerDes PCB RDL 设计MAC 板仅为 36 层结合 M8NM7 叠层实现了小于 20dB 的 Bump-Bump 损耗 在无 Cable 和 PHY 的条件下极致支持 800G LPO。
精密的结构与装配创新的板载定位与多级导向精准装配方案大幅提升了组装效率。
通过优化连接器同向布局释放容差能力累计公差减少 50%为长期稳定运行筑牢基础。
极致的风冷散热为应对单芯片超过 1600 W 的散热压力散热器融合了非牛顿流体材料、石墨烯导热材料与强化毛细结构并配合系统级定向风场设计最终实现 40℃ 环温下 1800m 海拔满配稳定运行将风冷技术潜力挖掘至极致。
超大尺寸芯片焊接通过仿真和推导热形变数据在板图设计与生产中实现精确热补偿成功攻克超大尺寸芯片的 SMT 焊接难题目前焊接良率达到 100%。
模块化与成本效益机电结构、管理板等核心部件复用上一代成熟设计仅需更换端口板即可适配不同应用需求显著降低后续升级与维护成本。
图2
1
4T 自研交换机内部构成极致的软件特性Lambda OS 是火山引擎自主研发的网络操作系统它以开源 SONiC 系统为基础结合业务场景和大规模网络运维经验进行了深度产品化定制与创新。
全局负载均衡AI 大模型的流量特征呈现为大流Elephant Flow和少流Paucity of Flows网络负载不均会导致部分链路空闲而部分链路拥塞丢包使带宽利用率从设计的 90% 降至 50% 以下。
传统 Hash 算法的不均可能导致部分链路延迟飙升拖慢整个集群的参数同步。
例如某链路拥塞导致同步延迟增加 10 ms迭代 1000 次后总延迟将增加 10s严重影响模型训练效率及推理用户体感。
为此火山引擎与芯片厂商深度合作联合开发了业界首个可扩展的全局网络负载均衡技术——SGLB可扩展且稳健的全局负载均衡。
SGLB 基于全局拓扑能够微秒级感知链路拥塞状态并计算端到端最优路径。
实测性能表明相较于传统 Hash 选路GPU 网络带宽可提升 40%。
更多技术细节可参阅 SIGCOMM 2025 的相关论文https://dl.acm.org/doi/
1
1145/
3
3750527。
图3 SGLB 示意图图4 SGLB 性能数据带宽对称性负载均衡在小规模网络集群中设备间通常存在多链路互联带宽具有对称性。
如图 5 所示的拓扑当一条 800G 链路断开时理想情况下业务带宽也应相应损失 800G。
然而在实际场景中如图 6 所示由于 BGP 路由仍然可达且传统负载均衡无法感知全局拓扑变化导致业务带宽损失被不成比例地放大损失值可能是物理带宽损失的数倍最高可达 32 倍。
图5 小规模集群网络图6 非对称下的业务带宽损失因此Lambda OS 设计了带宽对称性负载均衡机制。
该机制能够感知拓扑中的带宽对称性确保物理带宽损失与业务带宽损失呈线性关系从而提升网络的可预期性。
微秒级路由收敛在 AI 网络中链路抖动对模型训练和推理有直接影响。
大模型训练期间成千上万的 GPU 需频繁同步数据任何链路抖动导致的丢包都会使其他数千个 GPU 必须空转等待形成“木桶效应”极大地降低 GPU 利用率造成算力资源浪费。
公开资料显示一个万卡 AI 集群每年因链路故障导致的训练中断约 60 次谷歌在 OFC 2025 的报告中也指出百万级链路规模下每日故障约 40 次月均约 1200 次。
因此在链路故障时快速切换路由、减少丢包至关重要。
图7 路由收敛示意图链路故障时快速切换流量的瓶颈在于跨设备的远端链路中断Down时的路由收敛。
业界通过协议优化通常能实现秒级收敛。
例如AWS 在 reInvent 2024 上介绍其自研的 SIDR 协议将路由收敛时间从 10s 优化至 1s。
基于在 SGLB 实践中积累的微秒级端到端路径感知能力火山引擎设计并实现了自研的 SyncMesh 路由协议其特点如下硬件卸载与微秒级切换SyncMesh 支持芯片卸载实现微秒级端到端状态感知与路径切换。
收敛性能与路由规模解耦在万级路由规模下仍能保证微秒级的收敛速度。
与业界 1s 级的路由收敛性能相比SyncMesh 将其提升至 50 μs实现了 5 个数量级的性能飞跃。
微秒级可视化监控HFT高频遥测支持对全量端口带宽、队列长度等多个统计指标进行微秒级监控解决了传统秒级监控难以观测和分析业务流量细节的问题。
图8 LLaMA 流量模型下的微秒级监控数据新一代的 HPN 网络架构基于
1
4T 自研交换机在软硬件一体化方面的能力积累火山引擎推出了面向训推一体场景的融合网络架构——HPN
0。
围绕“规模、融合、确定性”三个核心目标HPN
0 重新定义了超大规模算力集群的网络底座。
- 超大规模演进能力采用三层 Clos 架构单 POD 最大支持 65k 规模组网集群能力可线性扩展至百万级。
在不引入额外层级的前提下HPN
0 兼顾了规模扩展性与网络时延可控性为十万卡、百万卡时代提供了可持续演进的网络基础。
- 面向训推一体的深度融合设计网络支持 200G/400G/800G RDMA NIC 的混速组网并针对不同速率、不同代际 GPU 间的带宽不对等与通信模式差异引入了创新优化方案确保多代算力与多类型业务能够稳定协同。
同时HPN
0 提供算子级与任务级双粒度 QoS 能力使网络资源能够精准匹配训练、推理等不同阶段的通信特征为大规模分布式训练提供可预期、可验证的高性能通信。
- 以确定性为目标的稳定性体系通过多平面容灾架构与芯片级 Fast Failover 能力实现微秒级故障收敛将网络异常对算力任务的影响控制在最小范围内。
结合微秒级流量可视化与亿万分之一丢包级别的可感知能力使网络问题从“事后定位”转变为“事前感知”为超大规模 HPN 网络的长期稳定运行提供底层保障。
图9 火山引擎 HPN
0 网络架构结束语
1
4T 自研交换机和 HPN
0 网络架构的上线是火山引擎 AI 网络架构演进中的一个重要里程碑。
它不仅满足了当前大规模 GPU 集群的严苛需求也为未来的网络升级奠定了坚实的基础。
随着 AI 技术的飞速发展从 800G 到
6T从万卡到更大规模的算力集群网络基础设施的演进之路永无止境。
火山引擎将继续在硬件、软件和系统架构上不断探索与创新构建更高效、更稳定、更可持续演进的 AI 网络底座推动 AI 技术浪潮向前发展。