1.2 BookSim2源码解读1:NoC片上网络模拟 核心函数调用逻辑
1.1 NCCL的不足,各种集合通信库初步调研BCCL、TCCL、ACCL、HCCL
1.4 RDMA基本操作类型Write,Read机制和通信过程
2.2阿里十万卡集群 网络拓扑架构和优势 Alibaba HPN: A Data Center Network for Large Language Model
1.10 万卡集群集群容错性能监控 心跳检测 自行诊断 故障恢复
NCCL通信仿真器SimAI-CCL,大规模集群集合通信模拟
1.7 大规模集群训练、通信初始化优化、网络拓扑
1.6 RDMA PD(Protection Domain)保护域机制
1.8 大规模集群大模型训练,网络拥塞控制 ECMP PFC DCQCN NCCL通信超时重传
1.5 RDMA MR(Memory Region, 内存区域)基本概念和作用
1.1 字节大规模/万卡集群训练平台MegaScale的挑战、设计原则、考虑因素、出现原因Scaling Large Language
2.1 ECMP等价多路由,大模型训练流量特点,拥塞冲突极化产生原因
1.1 NCCL官网案例源码详解One Device per Process or Thread
2.2 NCCL源码分析:物理拓扑识别感知xml通信topo构建 ncclTopoGetSystem()
1.1 RDMA基本原理和优势,以太网socket通信为什么要用户空间拷贝到内核空间
1.1 系统架构概述,系统架构设计师职责
1.2 RDMA基本元素和组成 通信过程元素关系解析
1.1 VLLM pagedattention出现的原因 推理框架 Efficient Memory Management for Large Language
Virtualbox虚拟机安装,Ubuntu iso镜像下载
1.1 数据并行 模型并行 DP DDP Zero分布式并行