AI集群用什么服务器架构?Ring All Reduce算法跟物理网络啥关系?【分布式集群】系列第02篇

8068
18
2022-10-25 23:27:19
253
170
141
31
AI系统之【分布式集群】系列第02篇:AI集群用哪种服务器架构?Ring All Reduce算法跟物理网络啥关系? 参数服务器PS架构已经成为现在AI集群、AI服务器中最常用的组网架构,有了参数服务器PS架构之后,训练大模型就需要解决模型参数同步的问题,于是出现了各种各样的物理网络互联方式,通过集合通信进行网络数据传输。而环是一种较优的网络拓扑,通过Ring All Reduce算法可以有效地解决参数服务器之间的数据同步问题。
昇腾招人,已经毕业的快联系鸭

更适合中国大学生体质的论文辅助工具!

6.4万播放 icon 简介
什么是大模型?什么是分布式训练?什么是AI集群?大模型模型参数量实在太大,需要分布式并行训练能力一起来加速训练过程。分布式并行是在大规模AI集群上工作的,想要加速就需要软硬件协同,不仅仅要解决通信拓扑的问题、集群组网的问题,还要了解上层MOE、Transform等新兴算法。通过对算法的剖析,提出模型并行、数据并行、优化器并行等新的并行模式和通信同步模式,来加速分布式训练的过程。最小的单机执行单元里面,还要针对大模型进行混合精度、梯度累积等算法,进一步压榨集群的算力!
01.分布式集群基础介绍
07:39
02.AI集群P/S服务器架构
13:14
03.AI集群软硬件通信
12:15
04.通信原语
09:38
05.AI框架分布式功能
16:13
06. 大模型训练挑战
13:45
07. 大模型经典算法结构
16:06
08. SOTA大模型
15:35
客服
顶部
赛事库 课堂 2021拜年纪