您的位置:首页 > 其它

「初级算法学习小组」任务1——线性回归算法梳理

2019-03-29 15:59 393 查看

1. 机器学习基础概念

1.1 监督与无监督

监督学习研究的是属性x和输出值y之间的关系。

无监督研究的是属性和属性之间的关系,这时候没有输出值或者标签值y。

1.2 泛化能力

我们学得的模型,它作用于新样本的表现能力,称为泛化能力。

1.3 过拟合欠拟合

模型对训练集适配得很好,模拟得很好,在测试集上却表现很差,叫作过拟合。这时候方差会比较大。
过拟合是无法完全避免的,只能尽可能去减少过拟合的风险。

模型对训练集都模拟不好,就叫欠拟合。这时候偏差会很大。
解决方法:增加训练集样本数、增加训练次数,在决策树中,我们可以增加训练的分支数。

方差、偏差 各自解决办法

1.4 交叉验证

将样本划分成k个大小相似的互斥子集。(尽量保证每个子集与总体分布一致)
每次使用k-1个子集训练模型,剩下的子集作为测试集。如此进行k次训练、测试,最终返回k次测试结果的均值。

2. 线性回归原理

线性回归是一种通过构建线性模型来进行预测的回归分析。它的基本形式是属性的线性组合函数:

3.线性回归损失函数、目标函数

3.1 损失函数、代价函数

损失函数讲的是单个样本的误差。
代价函数是训练集所有样本误差的均值。

Tips:最小二乘法:
基于均方误差最小化来求解模型的方法叫作“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。这时候对应的参数值,就是我们要找的最有参数。

Tips:欧氏距离:
也叫欧几里得距离,两点之间的真实距离。(对应坐标之差的平方和)

3.2 目标函数

也就是优化的目标是谁。可以直接是损失函数,也可以是损失函数+正则项。

4. 优化方法

4.1 梯度下降

一种迭代方法,不断更新参数,找到使得目标函数最小的最优参数。

4.2 牛顿法

求解导数为0的点。

4.3 拟牛顿法

牛顿法在每次迭代时需要计算出Hessian矩阵,然后求解一个以该矩阵为系数矩阵的线性方程组。

5. 评估指标

MESE、RMSE、R方 等指标。

6. sklearn参数详解

sklearn.linear_model.LinearRegression

sklearn官方doc

4000
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: