Industry Scenario

智算中心与大模型训练

围绕AI训练集群中的GPU、RDMA/RoCE、NCCL通信和作业长尾,提升训练稳定性和算力投资回报。

场景挑战

大模型训练对基础设施状态极其敏感。GPU空转、Rank掉队、无损网络拥塞或NCCL通信异常,都可能造成训练作业长尾和算力浪费。

建设路径

采集GPU、NIC、交换机、eBPF和作业调度数据

关联PFC、ECN、CNP、QPN、NCCL和Rank维度

将基础设施异常映射到作业效率、训练瓶颈和容量优化建议

预期价值

训练链路瓶颈更快定位

GPU与NIC健康状态可解释

为智算中心运营形成高价值可观测数据底座

客户信息说明

我们尊重客户信息安全与商业保密要求,案例内容以行业、场景、问题和建设价值为主,不展示未经客户许可的名称、Logo、金额和部署范围。