您的位置:首页 > 其它

机器学习 -- 线性回归的简单版理解

2020-04-21 15:35 183 查看

回归

对于一组特征数据和其标记值(x1, y1), (x2, y2), ……, (xi, yi)。
假设x表示房间个数, y表示价格。用特征值个数来对价格进行预测,此时价格是连续的,可以是2w,也可以是2.11w。
假设x表示价格,y表示房间个数。用价格来预测可以带几个房间的房子,此时房间个数是离散的,你只能买1个,2个,但是你无法买1.2个房间。
通常y是连续的,则称为回归;如果y是离散的,则称为分类。

线性回归

假如x轴表示房间个数,y表示价格。你需要找出一条尽量包含很多样本点的直线,你可以画出很多条,像图中的1或者2.
y = kx + b;(k和b就是参数)

那么如何来判定,哪条直线更好呢(k和b最优)?

损失函数

度量单样本预测的错误程度,损失函数值越小,模型就越好。错误程度就是样本点距离预测直线的距离,简单来说就是哪条曲线预测的房价更能贴近真实的房价。
问题到这里,就演化成寻找最小的损失函数值,哪种损失函数值越小哪种模型(哪种直线)就越好。

寻找最小的损失函数值

1、梯度下降法
可以简单的看为图上的一元二次曲线,寻找最低的那点o,怎么才能找到o呢?先从图上取一点a,然后沿着负梯度的方向迭代(简单说就是沿着斜率绝对值下降的方向移动),例如a -> b ->c,最后无限趋向于o。

其中a向b移动中的横向距离称为步长。步长如果过大,可能直接跨过o点,无法收敛。

2、最小二乘法
3、牛顿法
4、拟牛顿法

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: