您的位置：首页 > 其它

CS231n第二课：线性分类器学习记录

2016-09-04 21:55 232 查看

结合视频第二集和笔记：https://zhuanlan.zhihu.com/p/20918580?refer=intelligentunit

线性分类器（Linear classifier）

加深理解

线性分类器计算图像中3个颜色通道中所有像素的值与权重的矩阵乘，从而得到分类分值。根据我们对权重设置的值，对于图像中的某些位置的某些颜色，函数表现出喜好或者厌恶（根据每个权重的符号而定）。

这里假设了猫的图像就只有四个像素。

将图像看做高维度的点：既然图像被伸展成为了一个高维度的列向量，那么我们可以把图像看做这个高维度空间中的一个点（即每张图像是3072维空间中的一个点，因为是32*32*3大小的图片）。整个数据集就是一个点的集合，每个点都带有1个分类标签。

既然定义每个分类类别的分值是权重和图像的矩阵乘，那么每个分类类别的分数就是这个空间中的一个线性函数的函数值。我们没办法可视化3072维空间中的线性函数，但假设把这些维度挤压到二维，那么就可以看看这些分类器在做什么了：

将线性分类器看做模板匹配：关于权重W的另一个解释是它的每一行对应着一个分类的模板（有时候也叫作原型）。一张图像对应不同分类的得分，是通过使用内积（也叫点积）来比较图像和模板，然后找到和哪个模板最相似。从这个角度来看，线性分类器就是在利用学习到的模板，针对图像做模板匹配。从另一个角度来看，可以认为还是在高效地使用k-NN，不同的是我们没有使用所有的训练集的图像来比较，而是每个类别只用了一张图片（这张图片是我们学习到的，而不是训练集中的某一张），而且我们会使用（负）内积来计算向量间的距离，而不是使用L1或者L2距离。

偏差和权重的合并技巧

数据预处理（Part 3 部分会讲一下为什么需要预处理）

在机器学习里，规范化/归一化（Normalization）输入特征（这里指像素值[0,255]）是非常常见且必要的，特别是对于各维度幅度变化非常大的数据集。但对于图像而言，一般只要去均值（mean subtraction）即可（因为图像每一维的像素值都在[0,255]之间），即计算出训练集图像的均值图像，然后每张图像（包括训练集、验证集和测试集）减去均值图像（一般不需要归一化和白化）。在numpy中此过程可以表示为： X -= np.mean(X, axis=0)。