您的位置:首页 > 其它

andrew ng机器学习笔记

2015-11-21 15:31 232 查看

第五周

Neural Networks: Learning

cost function



m组数据,图片里面有四层,L=4,最后一层K是输出层的数据,也是sL。

Backpropagation algorithm





Gradient Checking

梯度检查是为了检查自己写的代码的确是在梯度下降。第一个是导数的近似替代。



也就是用导数的定义来计算你的算法正确与否。但是替代的这个方法效率很低,所以其实就是实际训练的时候进行屏蔽。

这章主要是介绍一种调试方案吧。

第六周

Advice for applying maching learning

Evaluating a hypothesis

把数据的70%作为training set学习参数,然后再抽取30%作为test set验证误差



Model selection and training/validation/test sets

这里面有一个问题就是,如果训练集作为学习参数的数据集,那么训练集得到的误差会蛮小。那么训练集的误差和测试集的误差相比,就会小很多,为了避免这种情况,有了交叉验证集(cross validation set) 。



Bias vs. Variance

这两个翻译成偏差和方差吧。



偏差针对欠拟合,方差针对过拟合。

Data For Machine Learning



在开始前,收集大量的数据。用不同的算法验证不同大小的训练集。

结果表明,只要训练集够大,那么你的算法的准确性会更高。

所以就有了,取得成功的人不是拥有最好算法而是拥有更多数据的人的一种理论。



counterexample是反例的意思。也就是思考给定输入数据,对于判定输出数据的合理性问题。所以前提是对于数据集,X的提供的信息要够多。



所以好的结果需要两个条件满足要求,一个条件是具有很多参数的学习算法,另外一个是需要一个相当大的数据集

第七周 Support Vector Machines

Large Margin Classification

Optimization objective

这里主要介绍了cost function,从regular逻辑回归到svm的成本函数的区别。



Large Margin Intuition

这节主要讲了优化函数的意义。



当C比较大的时候,也就是cost function左边的部分比较大,决策边界比起一般的逻辑回归,是从粉红色的线到黑色的线,也就是说,鲁棒性比较好。



当C从小到大,就是黑色的线到粉红色的线,这里想讲的概念是对异常点的处理问题。黑色的线处理效果更好。

The mathematics behind large margin classification (optional)

这里讲了一些数学原理,主要针对SVM的margin

kernel

核函数决定了cost function,主要讨论了逻辑回归,线性核函数和高斯核函数。以及他们的应用场景。



第八周 无监督学习

clustering

K-means algorithm



聚类讲了最简单的K-means

Optimization objective

优化目标


Random initialization

如果k比较小的话,可以多次随机初始化,这样可能得到好的结果,因为不同的初始点,k-means聚类的结果可能并没有那么好。

Choosing the number of clusters

有两种选择方式,一种是”肘部方法”,选择拐点那个地方



但是很多时候这个方法不适用,那就根据你聚类的目的选择方法。

Dimensionality Reduction

Principal Component Analysis algorithm



为什么这个算法有效并没有证明,其实知道中间过程也是差不多。

Advice for applying PCA

这里讲了一下pca的应用情况,一种是加速算法,节约空间,或者是可视化。



与此同时,pca不应该拿来代替正则化。

第八周 异常检测和系统推荐

Anomaly detection

Gaussian distribution



Developing and evaluating an anomaly detection system



Choosing what features to use



Multivariate Gaussian distribution



Anomaly detection using the multivariate Gaussian distribution



这里面有一个sigma可逆的问题,多元高斯分布的sigma矩阵前提是可逆的,那就要保证选定的特征m>矩阵的行数或者列数,另外要保证特征不重复或者没有相加关系,就是保证特征行列式不为0把。

Recommender Systems

Collaborative filtering



这里举得例子是用户评分的例子,要学习两组参数,一组是用户的特征,另外一组是电影的特征。

Collaborative filtering algorithm



下面一个是: Mean normalization还有Vectorization: Low rank matrix factorization,不贴了。

第10周Large scale machine learning

Stochastic gradient descent



batch gradient descent和stochastic gradient descent的区别是,batch是利用全部数据来算,而stochastic是利用一个的数据来算梯度下降。

Mini-batch gradient descent

它介于上面两者之间,有了p个数据以后迭代一次theta。



Online learning

在线学习是针对流数据调整参数,数据是不断地新产生,然后这个集合能够根据数据来不断地进行改变。

Map-reduce and data parallelism



map-reduce主要针对加法优化,multi-core也是。

然后一些线性代数库会利用计算机的资源自动优化算法。

第11周

Application Example: Photo OCR

Problem description and pipeline

pipeline的意思是,就是把一个大问题,分解成很多小问题。



Getting lots of data: Artificial data synthesis

这里主要讲,如果数据量变大的话,那么你的结果容易变好,那么什么样子的情况下,数据量会变大?



Ceiling analysis: What part of the pipeline to work on next



就是假定这一模块完全正确,那么它的正确率能够提高多少,也就是上限能够提高的分析,如果能够提高很大的正确率,那么说明这个模块的改进空间很大,反之则不行。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: