Deep Learning Notes(1):值域,学习率,参数迭代形式
2016-05-25 13:26
232 查看
1 输入特征的值域归一化
输入特征的值域相差太大的话会导致Cost函数的梯度不均匀。Cost函数等高线为扁椭圆,梯度下降时会有长时搜索。
如果值域差不多,Cost函数的等高线近似圆形。梯度下降较快。
归一化方法:
x−mean(x)max(x)−min(x)
理想值域在[-1,1]。当然[-5, 5] 之类的也没有关系。只要不要有数量级的差别就可以。
2学习率选择
学习率的变化可以近似3的倍速增减。
-> 1-> 0.3-> 0.1 -> 0.03 -> 0.01 -> 0.003 -> 0.001 ->
3 Linear Regression 与 Logistic Regression中的参数更新的形式相同,本质不同
θj:=θj−α∂∂θjJ(θ)=θj−α1m∑i=1m(hθ(xi)−yi))xi
Linear Regression中的输出代表的是线性拟合的值,公式如下:
hθ(x)=θTx
但是Logistic Regression的输出代表的是概率,公式如下:
hθ(x)=11+e−θTx
所以Linear Regression 与Logistic Regression的参数更新的形式相同,本质是不同的。
输入特征的值域相差太大的话会导致Cost函数的梯度不均匀。Cost函数等高线为扁椭圆,梯度下降时会有长时搜索。
如果值域差不多,Cost函数的等高线近似圆形。梯度下降较快。
归一化方法:
x−mean(x)max(x)−min(x)
理想值域在[-1,1]。当然[-5, 5] 之类的也没有关系。只要不要有数量级的差别就可以。
2学习率选择
学习率的变化可以近似3的倍速增减。
-> 1-> 0.3-> 0.1 -> 0.03 -> 0.01 -> 0.003 -> 0.001 ->
3 Linear Regression 与 Logistic Regression中的参数更新的形式相同,本质不同
θj:=θj−α∂∂θjJ(θ)=θj−α1m∑i=1m(hθ(xi)−yi))xi
Linear Regression中的输出代表的是线性拟合的值,公式如下:
hθ(x)=θTx
但是Logistic Regression的输出代表的是概率,公式如下:
hθ(x)=11+e−θTx
所以Linear Regression 与Logistic Regression的参数更新的形式相同,本质是不同的。
相关文章推荐
- CUDA搭建
- 稀疏自动编码器 (Sparse Autoencoder)
- 白化(Whitening):PCA vs. ZCA
- softmax回归
- 卷积神经网络初探
- TensorFlow人工智能引擎入门教程之九 RNN/LSTM循环神经网络长短期记忆网络使用
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- TensorFlow人工智能入门教程之十一 最强网络DLSTM 双向长短期记忆网络(阿里小AI实现)
- TensorFlow人工智能引擎入门教程所有目录
- 如何用70行代码实现深度神经网络算法
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
- 安装caffe过程记录
- DIGITS的安装与使用记录
- 图像识别和图像搜索
- 卷积神经网络
- 深度学习札记
- Applied Math and Machine Learning Basics 摘要笔记
- 图像智能打标签‘神器’-AlchemyVision API
- 10 个值得一试的开源深度学习框架
- ubuntu theano 安装成功,windows theano安装失败