您的位置：首页 > 大数据

Stanford机器学习第一周：机器学习概念及单变量线性回归

2017-03-06 16:15 393 查看

一、引言

1.1 机器学习定义

提问：

1.2 监督学习

Eg1:

预测房价的例子：横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是千美元。那基于这组数据，假如你有一个朋友，他有一套750平方英尺房子，现在他希望把房子卖掉，他想知道这房子能卖多少钱。

从图中可以看出直线拟合数据，预测这套房子可能卖$150, 000；二次函数来拟合数据，预测房子可能卖$200, 000。这是预测连续的数值，这是一个回归问题。

Eg2:

预测肿瘤恶性（malignant）还是良性（benign）：集中，横轴表示肿瘤的大小，纵轴上，我标出1和0 表示是或者不是恶性肿瘤。

图中我们有5个良性肿瘤样本跟5个恶性肿瘤样本，现在假设一个人的肿瘤尺寸是横轴上粉色箭头位置那么大，那么机器学习要做的就是估算这个肿瘤是恶性还是良性的概率。这是预测离散的值，是一个分类问题。

有些机器学习问题，遇到的特征不止一种。比如我们知道肿瘤的尺寸、患者的年龄这两个特征（通常采用的特征有肿块密度、尺寸一致性、形状一致性等）

通过机器学习算法用图中直线分类两种肿瘤（良性的肿瘤改成用O表示，恶性的继续用X表示）。图中粉红色的瘤位于良性区域，是良性肿瘤的概率大。

概括一下，监督学习的思想是：数据集中的每个样本都有对应的标签，再根据这些样本集来预测未知样本的结果。预测房子的价格这类预测连续的值属于回归问题，预测肿瘤的结果这类预测离散的值属于分类问题。

提问：

1.3 非监督学习

无监督学习是把不带标签的数据分成不同的聚类（聚类只是无监督学习中的一种）。谷歌新闻每天都在收集非常非常多的网络新闻内容。它再将这些新闻分组，组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件，自动地把它们聚类到一起。所以，这些新闻事件全是同一主题的，所以显示到一起。

Eg:

鸡尾酒宴问题，宴会上两个人同时说话，麦克风会同时录下两个人的声音，把每个人的声音单独的分离出来就属于无监督学习

看上去这个算法会很复杂，实际上这个算法可以用一行代码来完成

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

使用Octave或Matlab，很多算法都可以用几行代码来实现，这也是本视频采用Octave或Matlab编程的原因。

提问：