深度学习小白——线性分类(Softmax)
2017-03-22 15:48
246 查看
一、Softmax分类器(区别于SVM)
在Softmax分类器中,评分函数
保持不变,但是这些评分被视为每个分类的未归一化的对数概率,
损失函数变为cross-entropy loss:
被称作softmax函数,输入为一个评分值的向量f,输出为0~1的压缩值,含义是
给定图像数据xi,以W为参数,分配给正确分类标签yi的归一化概率,所有元素和为1
(个人理解)由信息论的熵的定义知:熵为平均获取的信息量,若是输入输出“差异”越大,则信息量越大,则熵越大,反之,“差异”越小,熵越小
交叉熵的定义式,(q与p之间的熵)
因此:Softmax分类器所做的就是最小化估计分类概率和真实分布之间的交叉熵(真实分布为p=[0,0,....1,0,0..0]在yi的位置为1,其余为0)
【实际操作】
因为式子中有
和
,所以数值可能会非常大,所以需要分子分母同乘常数C,并把它变换到去和之中,就能得到一个从数学上等价的公式:
通常,将C设为
该技巧简单地说,就是应该将向量
中的数值进行平移,使得最大值为0
【求解L关于W的偏导数】——反向传播会用到
二、SVM 和Softmax的比较
Softmax 分类器输出的是p(yi | xi ; W), 即正确分类的概率
当λ变大时,权重W就会被惩罚的更多,然后W就会变得更小,算出来的分数也会更小,则,概率分布就越来越平均化。
相对于Softmax分类器,SVM更加“局部目标化”,因为对于[10,-2,3]的数据,其中第一分类是正确的,那么当△=1时,就会得到损失值为0,对于[10,-100,-100]和[10,9,9]都是一样的,所以对SVM来说没什么不同,只要满足超过边界值等于1,那么损失值就等于0
但对于Softmax分类器,就不一样。 对于[10,9,9]来说,计算出的损失值就远远高于[10,-100,-100]
在Softmax分类器中,评分函数
保持不变,但是这些评分被视为每个分类的未归一化的对数概率,
损失函数变为cross-entropy loss:
被称作softmax函数,输入为一个评分值的向量f,输出为0~1的压缩值,含义是
给定图像数据xi,以W为参数,分配给正确分类标签yi的归一化概率,所有元素和为1
(个人理解)由信息论的熵的定义知:熵为平均获取的信息量,若是输入输出“差异”越大,则信息量越大,则熵越大,反之,“差异”越小,熵越小
交叉熵的定义式,(q与p之间的熵)
因此:Softmax分类器所做的就是最小化估计分类概率和真实分布之间的交叉熵(真实分布为p=[0,0,....1,0,0..0]在yi的位置为1,其余为0)
【实际操作】
因为式子中有
和
,所以数值可能会非常大,所以需要分子分母同乘常数C,并把它变换到去和之中,就能得到一个从数学上等价的公式:
通常,将C设为
该技巧简单地说,就是应该将向量
中的数值进行平移,使得最大值为0
f = np.array([123, 456, 789]) # 例子中有3个分类,每个评分的数值都很大 p = np.exp(f) / np.sum(np.exp(f)) # 不妙:数值问题,可能导致数值爆炸 # 那么将f中的值平移到最大值为0: f -= np.max(f) # f becomes [-666, -333, 0] p = np.exp(f) / np.sum(np.exp(f)) # 现在OK了,将给出正确结果
【求解L关于W的偏导数】——反向传播会用到
二、SVM 和Softmax的比较
Softmax 分类器输出的是p(yi | xi ; W), 即正确分类的概率
当λ变大时,权重W就会被惩罚的更多,然后W就会变得更小,算出来的分数也会更小,则,概率分布就越来越平均化。
相对于Softmax分类器,SVM更加“局部目标化”,因为对于[10,-2,3]的数据,其中第一分类是正确的,那么当△=1时,就会得到损失值为0,对于[10,-100,-100]和[10,9,9]都是一样的,所以对SVM来说没什么不同,只要满足超过边界值等于1,那么损失值就等于0
但对于Softmax分类器,就不一样。 对于[10,9,9]来说,计算出的损失值就远远高于[10,-100,-100]
相关文章推荐
- 深度学习小白——线性分类(SVM)
- 深度学习入门笔记--图像线性分类
- 深度学习-基于softmax神经网络分类的源码实现
- 深度学习-线性分类
- 深度学习与媒体计算②——kNN的优化与线性分类 (CS231n)
- 斯坦福李飞飞-深度学习与计算机视觉 数据驱动的图像分类方式:K最近邻与线性分类器
- [caffe]深度学习之图像分类模型AlexNet解读
- Netflix工程总监眼中的分类算法:深度学习优先级最低
- 深度学习6一般线性模型
- [caffe]深度学习之图像分类模型AlexNet解读
- Netflix工程总监眼中的分类算法:深度学习优先级最低
- [caffe]深度学习之图像分类模型AlexNet解读
- ubuntu14.04安装深度音乐+百度音乐插件 分类: ubuntu学习 软件插件学习 2015-04-16 18:35 108人阅读 评论(0) 收藏
- 深度学习6一般线性模型
- [caffe]深度学习之图像分类模型VGG解读
- 深度学习(主要是CNN)用于图片的分类和检测总结
- Netflix工程总监眼中的分类算法:深度学习优先级最低
- 深度学习4线性回归,逻辑回归
- 深度学习4线性回归,逻辑回归
- 深度学习基础(一)神经网络 分类: 深度学习 2015-01-19 21:29 84人阅读 评论(0) 收藏