Anonymized Case · AI基础设施

某智算中心AI训练链路观测

围绕RDMA/RoCE、NCCL通信、GPU利用率和作业长尾建立AI训练链路可观测能力。

客户挑战

训练作业异常可能由GPU、NIC、交换机、队列、作业调度或通信库共同造成,需要将基础设施信号映射到作业级影响。

建设方案

采集GPU、NIC、交换机、eBPF和作业事件

关联PFC、ECN、CNP、QPN、NCCL和Rank维度

以小科AI辅助形成训练链路瓶颈、影响范围和复盘证据

客户价值

Rank掉队和作业长尾定位更快

GPU与NIC健康状态可解释

支撑算力效率和智算中心运营优化

客户信息说明

我们尊重客户信息安全与商业保密要求,案例内容以行业、场景、问题和建设价值为主,不展示未经客户许可的名称、Logo、金额和部署范围。