[Pytorch 分布式] DeepSpeed Ulysses 分布式序列并行算法,尤利西斯,Ring attention

2672
1
2025-05-11 00:15:04
正在缓冲...
112
20
122
13
本期 code:https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/3D-parallel/SP-%E5%BA%8F%E5%88%97%E5%B9%B6%E8%A1%8C.ipynb
数学,计算机科学,现代人工智能。bridge the gap。
pytorch distributed
(17/17)
自动连播
10.3万播放
简介
[pytorch distributed] 01 nn.DataParallel 数据并行初步
15:34
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
15:28
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)
18:41
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
21:01
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
18:38
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
15:51
[pytorch distributed] nccl 集合通信(collective communication)
15:24
[pytorch distributed] amp 原理,automatic mixed precision 自动混合精度
17:49
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
20:47
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
14:12
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
14:58
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
30:28
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
33:59
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
20:14
[pytorch 加速] CPU传输 & GPU计算的并行(pin_memory,non_blocking)
08:54
[Pytorch 分布式] ring-allreduce 算法(scatter-reduce、allgather)以及 FSDP
20:10
[Pytorch 分布式] DeepSpeed Ulysses 分布式序列并行算法,尤利西斯,Ring attention
16:01
客服
顶部
赛事库 课堂 2021拜年纪