您的位置:首页 > 运维架构

Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

2019-01-28 11:10 447 查看

在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad 了。相当于每个在开始时将grad置0.

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: