能力说明
在 智算中心AI可观测能力 中,RDMA/RoCE网络健康与拥塞观测 不只是一个功能点,而是连接采集、分析、呈现和复盘的能力模块。它需要与产品的整体架构协同,帮助客户把分散运行信号转化为可解释、可追溯、可行动的运行现场。
建设路径
明确 RDMA/RoCE网络健康与拥塞观测 所需的数据来源,并与现有业务、云网、应用或回溯数据进行映射。
建立面向异常、体验、链路或证据的分析模型,避免只展示原始指标。
将分析结果接入小科AI、告警收敛、业务视图或复盘报告,让能力进入日常工作流。
客户价值
让产品能力从功能清单转化为客户可感知的业务结果。
提升异常定位、协同排障和复盘报告的证据完整度。
为AI Agent和AIOps流程提供更稳定的高保真输入。
相关场景
大模型训练集群稳定性保障
智算中心算力利用率提升
无损网络拥塞与丢包风险分析
训练作业异常复盘和容量优化
产品架构支撑
采集:eBPF、DCGM、NIC计数器、交换机遥测和作业事件
关联:GPU、主机、网络、队列、Rank和作业拓扑
输出:瓶颈定位、影响评估和训练链路证据