分布式训练总结!【大模型与分布式训练】系列第07篇

5026
9
2022-11-11 14:13:40
211
186
129
19
【大模型与分布式训练】系列第07篇:分布式训练总结 分布式训练不只是只有数据并行、模型并行。实际上要训练大模型、要利用分布式训练能力,需要从AI集群开始了解,通过通信把机器跟机器之间建立网络拓扑关系。有了AI集群,而且还可以互相通信,研究大模型算法去咯!但是研究大模型算法,需要AI框架支持分布式系统功能。一切感觉都准备好啦,框架、算法、算力。嗯,可以训练起来啦!太慢了?训练介黑暗料理了解下,数据并行、模型并行、加速优化!都加进来!
昇腾招人,已经毕业的快联系鸭

电脑桌面上养老婆?我也想要!

4.0万播放 icon 简介
随着深度学习中的数据规模和网络规模越来越大,训练神经网络会耗费越来越多的时间,势必需要从单 GPU 训练向多 GPU 训练甚至多机训练进行扩展。比如在大规模人脸识别中,训练上千万人脸 ID 需要对最后的全连接层做模型并行,而 GPT-3 为代表的大模型更是有 1750 亿参数,需要在多台机器上做流水并行、模型并行、数据并行、张量并行等并行策略才能训起来。
01. 分布式并行内容介绍
03:31
02.数据并行算法
13:50
03.模型并行之张量并行
16:19
04.张量自动并行
06:12
05.模型并行之流水并行
15:28
06. 混合并行算法
15:33
07.分布式并行策略总结
13:07
客服
顶部
赛事库 课堂 2021拜年纪