AI Infrastructure

智算中心AI可观测能力

面向大模型训练和智算中心,观测RDMA/RoCE、NCCL通信、GPU利用率和作业长尾。

产品定位

智算中心可观测能力将科来高保真数据优势延伸到AI训练基础设施。它关注GPU空转、Rank掉队、PFC/ECN拥塞、NCCL Hang等直接影响算力效率的问题。

核心能力

典型场景

能力架构

采集:eBPF、DCGM、NIC计数器、交换机遥测和作业事件

关联:GPU、主机、网络、队列、Rank和作业拓扑

输出:瓶颈定位、影响评估和训练链路证据

客户信息说明

我们尊重客户信息安全与商业保密要求,案例内容以行业、场景、问题和建设价值为主,不展示未经客户许可的名称、Logo、金额和部署范围。