A.增加训练轮次B.使用梯度裁剪C.使用循环神经网络D.使用更大的批量大小
A.增加层数B.减少层数C.使用浅层网络D.不使用层次结构
A.使用更小的批量大小B.降低学习率C.使用蒸馏技术D.增加更多层