AMini-Batch为偶数的时候,梯度下降算法训练的更快
BMini-Batch设为2的幂,是为了符合CPU
C不使用偶数时,损失函数是不稳定的
D以上答案都不正确
机器学习训练时,Mini-Batch的大小优选为2的幂,如256或512。它背后的原因是()。
训练集分割为小一点的子集训练,这些子集被取名为mini-batch。
首页
每日一练
打赏一下
浏览记录