机器学习速成课程笔记3:深入了解机器学习 (Descending into ML)-训练与损失
2018-04-01 16:07
387 查看
快速翻阅,快速学习
简单来说,训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化。
损失是对糟糕预测的惩罚。也就是说,损失是一个数值,表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则损失会较大。训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。例如,图 1 左侧显示的是损失较大的模型,右侧显示的是损失较小的模型。关于此图,请注意以下几点:
图 1. 左侧模型的损失较大;右侧模型的损失较小。
请注意,左侧曲线图中的红色箭头比右侧曲线图中的对应红色箭头长得多。显然,相较于左侧曲线图中的蓝线,右侧曲线图中的蓝线代表的是预测效果更好的模型。
您可能想知道自己能否创建一个数学函数(损失函数),以有意义的方式汇总各个损失。
平方损失:一种常见的损失函数
接下来我们要看的线性回归模型使用的是一种称为平方损失(又称为 L2 损失)的损失函数。单个样本的平方损失如下: = the square of the difference between the label and the prediction= (observation - prediction(x))2
= (y - y')2均方误差 (MSE) 指的是每个样本的平均平方损失。要计算 MSE,请求出各个样本的所有平方损失之和,然后除以样本数量:
虽然 MSE 常用于机器学习,但它既不是唯一实用的损失函数,也不是适用于所有情形的最佳损失函数。
[u] 划重点!!!关键字词:[/u]
1.经验风险最小化 (ERM, empirical risk minimization)
用于选择可以将基于训练集的损失降至最低的模型函数。与结构风险最小化相对。[u][/u]
结构风险最小化 (SRM, structural risk minimization)
一种算法,用于平衡以下两个目标:期望构建最具预测性的模型(例如损失最低)。
期望使模型尽可能简单(例如强大的正则化)。
例如,旨在将基于训练集的损失和正则化降至最低的模型函数就是一种结构风险最小化算法。
如需更多信息,请参阅 http://www.svms.org/srm/。
[u][/u]
与经验风险最小化相对。
2.均方误差 (MSE, Mean Squared Error)
每个样本的平均平方损失。MSE 的计算方法是平方损失除以样本数。TensorFlow Playground 显示的“训练损失”值和“测试损失”值都是 MSE。TensorFlow Playground
一款用于直观呈现不同的超参数对模型(主要是神经网络)训练的影响的程序。要试用 TensorFlow Playground,请前往 http://playground.tensorflow.org。3.训练 (training)
确定构成模型的理想参数的过程。参数 (parameter)
机器学习系统自行训练的模型的变量。例如,权重就是一种参数,它们的值是机器学习系统通过连续的训练迭代逐渐学习到的。与超参数相对超参数 (hyperparameter)
在模型训练的连续过程中,您调节的“旋钮”。例如,学习速率就是一种超参数。与参数相对。
学习速率 (learning rate)
在训练模型时用于梯度下降的一个变量。在每次迭代期间,梯度下降法都会将学习速率与梯度相乘。得出的乘积称为梯度步长。学习速率是一个重要的超参数。
梯度下降法 (gradient descent)
一种通过计算并且减小梯度将损失降至最低的技术,它以训练数据为条件,来计算损失相对于模型参数的梯度。通俗来说,梯度下降法以迭代方式调整参数,逐渐找到权重和偏差的最佳组合,从而将损失降至最低。4.损失 (Loss)
一种衡量指标,用于衡量模型的预测偏离其标签的程度。或者更悲观地说是衡量模型有多差。要确定此值,模型必须定义损失函数。例如,线性回归模型通常将均方误差用于损失函数,而逻辑回归模型则使用对数损失函数。对数损失函数 (Log Loss)
二元逻辑回归中使用的损失函数。逻辑回归 (logistic regression)
一种模型,通过将 S 型函数应用于线性预测,生成分类问题中每个可能的离散标签值的概率。虽然逻辑回归经常用于二元分类问题,但也可用于多类别分类问题(其叫法变为多类别逻辑回归或多项回归)。二元分类 (binary classification)
一种分类任务,可输出两种互斥类别之一。例如,对电子邮件进行评估并输出“垃圾邮件”或“非垃圾邮件”的机器学习模型就是一个二元分类器。多类别分类 (multi-class classification)
区分两种以上类别的分类问题。例如,枫树大约有 128 种,因此,确定枫树种类的模型就属于多类别模型。反之,仅将电子邮件分为两类(“垃圾邮件”和“非垃圾邮件”)的模型属于二元分类模型。[u][/u]
平方损失函数 (squared loss)
在线性回归中使用的损失函数(也称为 L2 损失函数)。该函数可计算模型为有标签样本预测的值和标签的实际值之差的平方。由于取平方值,因此该损失函数会放大不佳预测的影响。也就是说,与 L1 损失函数相比,平方损失函数对离群值的反应更强烈。L1 损失函数 (L₁ loss)
一种损失函数,基于模型预测的值与标签的实际值之差的绝对值。与 L2 损失函数相比,L1 损失函数对离群值的敏感性弱一些。相关文章推荐
- 机器学习速成课程笔记2:深入了解机器学习 (Descending into ML)-线性回归
- 机器学习速成课程MLCC(2)--深入了解机器学习 (Descending into ML)
- 机器学习速成课程笔记4:降低损失 (Reducing Loss)
- 机器学习速成课程笔记5:降低损失 (Reducing Loss)-梯度下降法
- 机器学习速成课程笔记6:降低损失 (Reducing Loss)-学习速率
- 机器学习速成课程笔记9:降低损失 (Reducing Loss)-Playground 练习
- 2 深入了解机器学习 (Descending into ML):线性回归
- Google机器学习速成课笔记(3)训练与损失
- 机器学习速成课程笔记8:降低损失 (Reducing Loss)-随机梯度下降法
- 机器学习速成课程MLCC(10)--训练神经网络(编程练习)
- [机器学习速成课程]表示法-学习笔记
- 机器学习速成课程笔记10:使用TF的基本步骤
- Coursera台大机器学习课程笔记6 -- The VC Dimension
- 斯坦福大学Andrew Ng教授《机器学习》课程的个人学习笔记
- Stanford机器学习课程笔记1-Linear Regression与Logistic Regression
- hadoop学习笔记之深入了解YARN
- C/C++学习笔记1 - 深入了解scanf()/getchar()和gets()等函数
- 机器学习(五):CS229ML课程笔记(1)——线性回归
- 【Java学习笔记之二十八】深入了解Java8新特性
- 机器学习之&&Andrew Ng课程复习--- 学习笔记(一、二课)