您的位置：首页 > 运维架构

Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

2019-01-28 11:10 447 查看

在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad 了。相当于每个在开始时将grad置0.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航