torch.optim.Adam
2022-03-31 09:55
926 查看
class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)
参数:
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率(默认:1e-3)
betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数(默认:0.9,0.999)
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)
weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)
个人理解:
lr:同样也称为学习率或步长因子,它控制了权重的更新比率(如 0.001)。较大的值(如 0.3)在学习率更新前会有更快的初始学习,而较小的值(如 1.0E-5)会令训练收敛到更好的性能。
betas = (beta1,beta2)
beta1:一阶矩估计的指数衰减率(如 0.9)。
beta2:二阶矩估计的指数衰减率(如 0.999)。该超参数在稀疏梯度(如在 NLP 或计算机视觉任务中)中应该设置为接近 1 的数。
eps:epsilon:该参数是非常小的数,其为了防止在实现中除以零(如 10E-8)。
相关文章推荐
- torch.optim优化算法理解之optim.Adam()
- Torch中optim的sgd(Stochastic gradient descent)方法的实现细节
- pytorch torch.optim.SGD
- Pytorch:torch.optim
- 关于torch.optim的灵活使用详解(包括重写SGD,加上L1正则)
- torch入门笔记14:Torch中optim的sgd(Stochastic gradient descent)方法的实现细节
- 【pytorch】torch.optim
- PyTorch中的优化器的构建: torch.optim.Optimizer
- torch.optim
- PyTorch学习之 torch.optim 的6种优化器及优化算法介绍
- torch.optim.lr_scheduler.MultiStepLR
- torch.optim的灵活使用(包括重写SGD,加上L1正则)
- win10+cuda10.0+pytorch安装
- pytorch 学习笔记 part8 卷积神经网络基础
- torch.gather
- 【Deep learning with pytorch 自学教程】Dataset&Dataloder
- pytorch:norm/argmax/argmin/topk/kthvalue以及比较函数
- Pytorch evaluation每次运行结果不同的解决
- import torchvision 时 cannot import name optional怎么解决
- 深度学习笔记(二):2优化算法(二)(Momentum, RMSProp, Adam)