AI集群用什么服务器架构?Ring All Reduce算法跟物理网络啥关系?【分布式集群】系列第02篇
8068
18
2022-10-25 23:27:19
253
170
141
31
AI系统之【分布式集群】系列第02篇:AI集群用哪种服务器架构?Ring All Reduce算法跟物理网络啥关系?
参数服务器PS架构已经成为现在AI集群、AI服务器中最常用的组网架构,有了参数服务器PS架构之后,训练大模型就需要解决模型参数同步的问题,于是出现了各种各样的物理网络互联方式,通过集合通信进行网络数据传输。而环是一种较优的网络拓扑,通过Ring All Reduce算法可以有效地解决参数服务器之间的数据同步问题。