您的位置：首页 > 移动开发

8-Advice for Applying Machine Learing

2015-09-02 00:29 267 查看

如何选择机器学习算法、系统

1 - Deciding What to Try Next 在模型遇到问题时该怎么办

当你用regularized linear regression 实现了housing prices predict问题之后，发现你的模型在测试新数据时出现非常大的误差。

这时可能的措施如下：

Get more training examples

Try smaller sets of features

Try getting additional features

Try adding polynomial features (x21,x22,x1x2,etc)(x_1^2,x_2^2,x_1x_2,etc)

Try decreasing λ

Try increasing λ

但是往往你不知道到底该选择哪一种方法，而通常逐个尝试这些方法可能会浪费大量的时间。

Machine learning diagnostic：

Diagnostic：

一种能够知道你的学习算法是否有效，并且知道如何更好的改进你的算法的测试方法。

Diagnostic 需要一定的时间去实现，但是这绝对不会是在浪费时间！

2 - Evaluating a Hypothesis 评价你的模型

将数据集划分成训练集（70%）和测试集（30%），用训练集去训练模型，用测试集去评价模型的效果。

step 1: 学习出参数 θ （最小化训练集的误差J(θ)）

step 2: 计算测试集的误差

3 - Model Selection and training/validation/test Sets

为了避免 underfitting 和overfitting 的问题，引入 cross validation set，即交叉验证数据集。将数据集按6:2:2的比例分成training set、cross validation set 和 testing set三部分。

error计算公式如下：