三个同样的Resnet 20网络训练200 eopch完成后,只是激活函数分别为ReLU、Mish和Swish。
最终网络的损失函数ReLU性能最差,而且存在不平滑,容易陷入另一个局部最优,和ReLU负半轴丢失掉全部梯度信息有关。但是ReLU就是又快又简单,容易得到稀疏的模型,自带一定抗过拟合dropout的功效,因为梯度直接丢掉一半了。
何凯明的论文Delving deep into rectifiers中说ReLU在使用他的卷积核初始化方法时比较好用。
论文地址:https://arxiv.org/abs/1712.09913 《Visualizing the Loss Landscape of Neural Nets》来自马里兰的大佬 通过降维的方式可视化