17. 以下关于深度神经网络的说法中错误的是
AA 使用梯度裁剪(gradient clipping)有助于减缓梯度爆炸问题
BB 若batch size过小,batch normalization的效果会出现退化
CC 在使用SGD训练时,若训练loss的变化逐渐平缓不再明显下降时,通常可以通过减小learning rate的方式使其再进一步下降
DD 增大L2正则项的系数有助于减缓梯度消失问题
AA 使用梯度裁剪(gradient clipping)有助于减缓梯度爆炸问题
BB 若batch size过小,batch normalization的效果会出现退化
CC 在使用SGD训练时,若训练loss的变化逐渐平缓不再明显下降时,通常可以通过减小learning rate的方式使其再进一步下降
DD 增大L2正则项的系数有助于减缓梯度消失问题