您的位置：首页 > 其它

机器学习基石笔记(2)——Learning to Answer Yes/No

2017-03-12 13:18 246 查看

2.1 Perceptron Hypothesis Set

　　感知机的假设空间：认为输入实例的特征向量上的每个分量都有一个权重，其加权和若高于阈值则判正例，否则判负例。该模型可变型为加权和减阈值取符号，若正判正例否则判负例，将阈值的负数作为0维权重，1作为0维特征分量，模型可写成h(x)=sign(wTx)。
　　该函数的几何意义是n维空间上的超平面。特征分量越重要权值越高，否则越小或者为负。

2.2 Perceptron Learning Algorithm

　　感知机的学习方法(PLA)：当判断训练实例发生错误时：wt+1=wt+yn(t)xn(t)，其中n是第n个实例，t是第t次迭代。其几何意义是，当正例判负时，说明加权向量的线在实例点上方，故缩小加权向量与实例向量(从0到实例点的向量)的夹角，让该实例更容易判正，反之亦然。
　　一个有趣的公式：ynwTt+1xn≥ynwTtxn，说明对于第n个实例来说，这一次的修订可能会使它被正确划分。

2.3 Guarantee of PLA

2.3.1 线性可分：如果所有训练数据都能用一个超平面分成正反两类，则称其为线性可分，否则为线性不可分。
2.3.2 PLA的收敛性
　　(1)yn(t)wTfxn(t)≥minnynwTfxn导出wt不停接近wf
该公式表明，如果理想划分wTf存在的话，那么在所有被错误划分的点中，存在一个离理想超平面最近的点xn，所以wTfwt+1>wTfwt+minnynwTfxn>wTfwt，说明wt不停接近wf。
　　(2) ||wt||不会增长太快
将||wt+1||2拆分成wt的表达式，去掉中间的负项得||wt+1||2≤||wt||2+maxn||xn||2。可见其增长的最大速度是实例中范数最大的向量的范数。
　　(3)根据以上两式联合推导

1≥wTfwt||wf||·||wt||≥T‾‾√ρR

其中R=maxn||xn||2，ρ=minnynwTfxn||wf||。上述等式的左边与右边变型即得T的上界。

2.4 Non-Separable Data

　　口袋算法：在PLA的基础上记录到目前为止划分效果最好的方案，并将PLA每次迭代生成的方案与最好方案进行对比，留下较好者。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航