Deep Learning Specialization课程笔记——神经网络基础
2018-03-21 20:31
381 查看
第二周的课程,首先是重温神经网络编程的基本知识。
Binary classification
逻辑回归是二元分类问题。比如:根据图片判断cat or not的问题。
这时,图像矩阵包含的元素总数为64*64*3(红绿蓝三色 64*64为图像大小)所以用n(x)=12288表示输入特征向量x的维度;输出y为1或0(标签)。当测试用例为m个时,给出的X:
这种nx*m写法比m*nx在神经网络的运用时会更简单。
Logistic Regression
线性回归对二分类问题来说,并不是好算法(二分类概率应在0~1之间,线性回归wx+b很容易出此范围。)
这时使用逻辑回归,对wx+b取sigmoid函数:
另外要注意的是,在实现神经网络时,把参数w和b分开看待会更加简单,b是偏置量,w是nx维参数:
Logistic Regression Cost Function
损失函数是为了用来优化逻辑回归模型的参数w和b。
误差函数(Loss function)是为了在算法输出时定义损失,检测算法运行情况(需要进行设定)。
但在逻辑回归里一般不用平方误差的损失函数,因为研究参数时,优化问题会非凸。实际使用的损失函数公式为:
在这个公式中,当y=1,想要小的L,则需要很大的log(yhat),又yhat是sigmoid函数,所以取最大为无限接近1;
当y=0,想要小的L,则要很大的log(1-yhat),同理,取yhat无限接近0。
所以损失函数如上,它想找到对所有样本来说,整体成本最小的w和b。
逻辑回归是一个很小的神经网络。
Gradient Descent
本小节问题:如何用梯度下降来调整训练集中的参数w和b。
对上小节的J(w,b)进行画图(在实践中w可以是更高的维度),损失函数J是一个凸函数(convex function),每一步都在试图沿着最陡的下坡方向走:
用:=表示该参数在进行迭代,在算法收敛前,repeat:
其中,alpha代表学习率,是每一次迭代中梯度下降的步长。
当参数太大时,导数为正,参数变小;参数太小时相反。
Derivatives(微积分)
讲直线slope(斜率)处处相同的,初中数学。
More Derivatives Examples
讲曲线斜率不是处处相同的,同样初中数学。
Computation graph
没什么内容。
Derivatives with a Computation graph
解释什么是反向传播,链式法则。
Logistic Regression Gradient Descent
接上小节,反向传播意义:反向算出需要改变的w和b。
Gradient Descent on m examples
大数据for循环太慢,所以一般用vectorization(矢量化)。
Binary classification
逻辑回归是二元分类问题。比如:根据图片判断cat or not的问题。
这时,图像矩阵包含的元素总数为64*64*3(红绿蓝三色 64*64为图像大小)所以用n(x)=12288表示输入特征向量x的维度;输出y为1或0(标签)。当测试用例为m个时,给出的X:
这种nx*m写法比m*nx在神经网络的运用时会更简单。
Logistic Regression
线性回归对二分类问题来说,并不是好算法(二分类概率应在0~1之间,线性回归wx+b很容易出此范围。)
这时使用逻辑回归,对wx+b取sigmoid函数:
另外要注意的是,在实现神经网络时,把参数w和b分开看待会更加简单,b是偏置量,w是nx维参数:
Logistic Regression Cost Function
损失函数是为了用来优化逻辑回归模型的参数w和b。
误差函数(Loss function)是为了在算法输出时定义损失,检测算法运行情况(需要进行设定)。
但在逻辑回归里一般不用平方误差的损失函数,因为研究参数时,优化问题会非凸。实际使用的损失函数公式为:
在这个公式中,当y=1,想要小的L,则需要很大的log(yhat),又yhat是sigmoid函数,所以取最大为无限接近1;
当y=0,想要小的L,则要很大的log(1-yhat),同理,取yhat无限接近0。
所以损失函数如上,它想找到对所有样本来说,整体成本最小的w和b。
逻辑回归是一个很小的神经网络。
Gradient Descent
本小节问题:如何用梯度下降来调整训练集中的参数w和b。
对上小节的J(w,b)进行画图(在实践中w可以是更高的维度),损失函数J是一个凸函数(convex function),每一步都在试图沿着最陡的下坡方向走:
用:=表示该参数在进行迭代,在算法收敛前,repeat:
其中,alpha代表学习率,是每一次迭代中梯度下降的步长。
当参数太大时,导数为正,参数变小;参数太小时相反。
Derivatives(微积分)
讲直线slope(斜率)处处相同的,初中数学。
More Derivatives Examples
讲曲线斜率不是处处相同的,同样初中数学。
Computation graph
没什么内容。
Derivatives with a Computation graph
解释什么是反向传播,链式法则。
Logistic Regression Gradient Descent
接上小节,反向传播意义:反向算出需要改变的w和b。
Gradient Descent on m examples
大数据for循环太慢,所以一般用vectorization(矢量化)。
相关文章推荐
- Deep Learning Specialization课程笔记——神经网络编程基础
- Deep Learning Specialization课程笔记——浅层神经网络
- Deep Learning Specialization课程笔记——深层神经网络
- 深度学习DeepLearning.ai系列课程学习总结:2. 神经网络基础
- [DeeplearningAI笔记]神经网络与深度学习2.1-2.4神经网络基础
- [DeeplearningAI笔记]神经网络与深度学习2.11_2.16神经网络基础(向量化)
- 深度学习DeepLearning.ai系列课程学习总结:8. 多层神经网络代码实战
- Coursera吴恩达《神经网络与深度学习》课程笔记(3)-- 神经网络基础之Python与向量化
- 吴恩达Deeplearning.ai专项课程笔记(一)-- 神经网络基础
- DeepLearning.ai学习笔记(一)神经网络和深度学习--Week3浅层神经网络
- Coursera deeplearning.ai 深度学习笔记1-3-Shallow Neural Networks-浅层神经网络原理推导与代码实现
- [DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.10_1.12/梯度消失/梯度爆炸/权重初始化
- DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week1深度学习的实用层面
- [DeeplearningAI笔记]神经网络与深度学习人工智能行业大师访谈
- 《深度学习Ng》课程学习笔记01week2——神经网络基础
- Deep Learning Specialization课程笔记——深度学习介绍
- DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week2优化算法
- 吴恩达深度学习课程笔记之神经网络基础
- [DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.9_归一化normalization
- Deep Q-Network 学习笔记(二)—— Q-Learning与神经网络结合使用(有代码实现)