5分钟讲透AdamW,从Adam的坑到解耦本质,新手也能吃透
“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化
SGD->动量法->RMSProp->Adam->AdamW:大模型优化之路!| 白板GPT#16
深度学习第6课:最优化算法(学习率,SGD,Adam,Momentum,NAG等)
深度学习中的“batch”和“epoch”(李宏毅讲解)
过拟合克星——正则化
【深度学习 搞笑教程】19 激活函数 sigmoid tanh ReLU LeakyReLU ELU Swish | 草履虫都能听懂 零基础入门 | 持续更新
梯度下降的过程优化——动量法、AdaGrad、RMSProp以及Adam
ADAM优化器
深度学习五种优化器的性能横向对比
【硬核】从最底层讲解,全网最详细激活函数教程!没有之一!
停止使用 AdamW,现在所有人都在用 Muon
深度学习中的优化器原理(SGD,SGD+Momentum,Adagrad,RMSProp,Adam)
常见面试问题:优化器原理、BGD、SGD、Momentum
1993年“CNN之父”杨立昆展示世界上第一个卷积神经网络
彻底明白梯度下降法和SGD,BGD,MBGD公式理解
[5分钟深度学习] #01 梯度下降算法
Adam优化算法
优化器、dropout、学习率、BN、batch_size等
什么是信息量、信息熵、交叉熵与KL散度,及其相互之间的关系