24.某个神经网络中所有隐藏层神经元使用tanh激活函数。那么如果使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值会发生什么?( )
AA.这不会对训练产生影响。只要随机初始化权重,梯度下降不受权重大小的影响。
BB.这会导致tanh的输入也非常大,从而使梯度也变大。因此,你必须将学习率α设置得非常小以防止发散。这会减慢网络参数学习速度。
CC.这会导致tanh的输入也非常大,从而使梯度接近于零, 优化算法将因此变得缓慢。
DD.这会导致tanh的输入也非常大,导致神经元被“高度激活”,从而加快了学习速度。