Machine Learning Yearning(3、4)
2017-03-08 11:14
190 查看
NG的机器学习教程,第三章:预备知识和注释;第四章:规模驱使机器学习前进。
完整手稿翻译详见:https://github.com/xiaqunfeng/machine-learning-yearning
Chapter 3Prerequisites and Notation
Chapter 4Scale drives machine learning progress
如果你有学习过机器学习课程,比如我在Coursera上的的机器学习MOOC,或者如果你有应用监督学习的经验,你也将能够理解这段文字。
我假设你熟悉监督学习(supervised learning):使用标记的训练样本(x,y)去学习一个从x映射到y的函数。 监督学习算法包括线性回归(linear regression),逻辑回归(logistic regression)和神经网络(neural networks)。 机器学习的形式有很多,但是现如今大部分机器学习的实用价值来自于监督学习。
我将经常提到神经网络(也称为“deep learning”)。你只需要遵循本问对它是什么有一个基本的理解就可以了。
如果您不熟悉这里提到的概念,请观看在Coursera上前三周 机器学习视频课程http://ml-class.org
深度学习(神经网络)的许多想法已经存在几十年了。 为什么这些想法现在才火起来?
最近得以进步的最大驱动因素有两个:
数据可用性。 人们现在在数字设备(笔记本电脑,移动设备)上花费更多的时间。这些活动产生大量的数据,我们可以使用这些数据来训练和反馈我们的学习算法。
计算尺度。 我们几年前才开始能够训练足够大的神经网络,以利用我们现在拥有的巨大的数据集。
具体来说,即使你积累了更多的数据,通常传统学习算法(如逻辑回归)的性能表现“平稳”。这意味着它的学习曲线“平坦”,即使你给它更多的数据,算法也不会再有提升效果。
这就好像传统的算法不知道如何处理我们现在拥有的所有数据。
如果你在同一个监督学习任务上训练一个小的神经网络(NN),你可能会获得略好一点的性能:
这里,“小的神经网络”是指仅具有少量隐藏单位/层/参数的神经网络。 最后,如果你训练越来越大的神经网络,你可以获得更好的性能:[1]
因此,当你做到下面两点的时候你会获得最佳的性能(i)训练一个非常大的神经网络,使其在上面的绿色曲线上; (ii)有大量的数据。
许多其他细节,如神经网络架构也很重要,这里已经有很多创新。 但是现在提高算法性能的更可靠的方法之一仍然是(i)训练更大的网络和(ii)获得更多的数据。
如何完成(i)和(ii)的方法是极其复杂的。 这本书将详细讨论细节。 我们将从对传统学习算法和神经网络都有用的一般策略开始,并建立构建深度学习系统所需的最先进策略。
[1]这个图表展示了NN在小数据集下做得更好。这种效果不如NNs在大数据集中表现良好的效果一致。 在小数据系统中,取决于特征是如何手工设计的,传统算法可能做的很好,也可能做得并不好。 例如,如果你有20个训练样本,那么使用逻辑回归还是神经网络可能并不重要; 手工特征的选择将比算法的选择产生更大的影响。 但如果你有100万的样本,我更倾向于神经网络。
完整手稿翻译详见:https://github.com/xiaqunfeng/machine-learning-yearning
Chapter 3Prerequisites and Notation
Chapter 4Scale drives machine learning progress
Chapter 3、Prerequisites and Notation
预备知识和注释 如果你有学习过机器学习课程,比如我在Coursera上的的机器学习MOOC,或者如果你有应用监督学习的经验,你也将能够理解这段文字。
我假设你熟悉监督学习(supervised learning):使用标记的训练样本(x,y)去学习一个从x映射到y的函数。 监督学习算法包括线性回归(linear regression),逻辑回归(logistic regression)和神经网络(neural networks)。 机器学习的形式有很多,但是现如今大部分机器学习的实用价值来自于监督学习。
我将经常提到神经网络(也称为“deep learning”)。你只需要遵循本问对它是什么有一个基本的理解就可以了。
如果您不熟悉这里提到的概念,请观看在Coursera上前三周 机器学习视频课程http://ml-class.org
Chapter 4、Scale drives machine learning progress
规模驱使机器学习前进深度学习(神经网络)的许多想法已经存在几十年了。 为什么这些想法现在才火起来?
最近得以进步的最大驱动因素有两个:
数据可用性。 人们现在在数字设备(笔记本电脑,移动设备)上花费更多的时间。这些活动产生大量的数据,我们可以使用这些数据来训练和反馈我们的学习算法。
计算尺度。 我们几年前才开始能够训练足够大的神经网络,以利用我们现在拥有的巨大的数据集。
具体来说,即使你积累了更多的数据,通常传统学习算法(如逻辑回归)的性能表现“平稳”。这意味着它的学习曲线“平坦”,即使你给它更多的数据,算法也不会再有提升效果。
这就好像传统的算法不知道如何处理我们现在拥有的所有数据。
如果你在同一个监督学习任务上训练一个小的神经网络(NN),你可能会获得略好一点的性能:
这里,“小的神经网络”是指仅具有少量隐藏单位/层/参数的神经网络。 最后,如果你训练越来越大的神经网络,你可以获得更好的性能:[1]
因此,当你做到下面两点的时候你会获得最佳的性能(i)训练一个非常大的神经网络,使其在上面的绿色曲线上; (ii)有大量的数据。
许多其他细节,如神经网络架构也很重要,这里已经有很多创新。 但是现在提高算法性能的更可靠的方法之一仍然是(i)训练更大的网络和(ii)获得更多的数据。
如何完成(i)和(ii)的方法是极其复杂的。 这本书将详细讨论细节。 我们将从对传统学习算法和神经网络都有用的一般策略开始,并建立构建深度学习系统所需的最先进策略。
[1]这个图表展示了NN在小数据集下做得更好。这种效果不如NNs在大数据集中表现良好的效果一致。 在小数据系统中,取决于特征是如何手工设计的,传统算法可能做的很好,也可能做得并不好。 例如,如果你有20个训练样本,那么使用逻辑回归还是神经网络可能并不重要; 手工特征的选择将比算法的选择产生更大的影响。 但如果你有100万的样本,我更倾向于神经网络。
相关文章推荐
- Machine_Learning_Yearning 翻译与理解
- 11. When to change dev/test sets and metrics 何时更改开发/测试集和评估指标(《MACHINE LEARNING YEARNING》翻译)
- Machine Learning Yearning(开篇、1、2)
- 《MACHINE LEARNING YEARNING》翻译——开篇
- 12. Takeaways: Setting up development and test sets 小结:建立开发集和测试集(《MACHINE LEARNING YEARNING》翻译)
- Machine Learning Yearning(5、6、7)
- 1. Why Machine Learning Strategy 为什么需要机器学习策略(《MACHINE LEARNING YEARNING》翻译)
- 2. How to use this book to help your team 如何使用这本书来帮助你的团队(《MACHINE LEARNING YEARNING》翻译)
- 3. Prerequisites and Notation 预备知识和符号约定(《MACHINE LEARNING YEARNING》翻译)
- 4. Scale drives machine learning progress 规模促进了机器学习的发展(《MACHINE LEARNING YEARNING》翻译)
- 纯干货8 吴恩达新书《Machine_Learning_Yearning》_version_5.01分享
- 5. Your development and test sets 你的开发集和测试集(《MACHINE LEARNING YEARNING》翻译)
- machine learning yearning: 3
- 7. How large do the dev/test sets need to be? 开发集和测试集多大合适(《MACHINE LEARNING YEARNING》翻译)
- Machine Learning Yearning book draft - 读记(前14章)
- 9. Optimizing and satisficing metrics 优化指标和满足指标(《MACHINE LEARNING YEARNING》翻译)
- Machine Learning Yearning book draft - 读记(更新至Chapters 14)
- 10. Having a dev set and metric speeds up iterations 有一个开发集和评估指标来加速迭代(《MACHINE LEARNING YEARNING》翻
- NG《Machine_Learning_Yearning》笔记
- Brief History of Machine Learning