您的位置：首页 > 其它

台大-林轩田老师-机器学习基石学习笔记2

2017-10-24 08:37 288 查看

第一节课中，主要讲解的是机器学习的基本思路和相关的应用，算是一种对机器学习的大致介绍和简单的科普。到了第二讲，林老师将重点放在了PLA算法上，通过这个算法让机器学习的演算法大门正式打开了。

对于机器学习，类似人的成长一般，一般是先学会判断是和不是，所以这一讲是介绍一种可以回答是非题的机器学习演算法——PLA。

引入一个银行信用卡的例子，对于银行要对如下的用户进行判断要不要允许其办理信用卡。

机器学习的思路是，通过分析这名用户之前的所有用户的案例，设定评判标准即可。那么用数学的表示法应该是：把一个（信用卡）使用者看成是一个多维度的向量，包括了这个使用者一个个的特征（features），用来计算一个值，这个将其称为得分，当这个得分>门槛值（阀值）时，就是合格的。这个分数的计算方法，这里使用的是赋权的方法，给每个纬度一个权重，用于计算最后的分数。

每一组设置的权值和门槛值，成为一个简单的h（hypothesis），权值的不同或者是门槛的不同构成的h（hypothesis）历史上是被称为（类神经网络）感知器。在我看来，试想一下我们在评判一个人的时候，对他的各方面的属性是不是有一种侧重，这种侧重就体现在权值的大小中，这种类似人脑的思维方式就是人工智能正如连接流派一般，组成神经网络的一种思维方式。

<
bf6c
p>这个时候我们不妨让我们的用户属性和权值构成两个向量：

这个算式还不算好看，因为我们还需要单列一个门槛值的变量进行单独考虑，这个时候我们可以通过转化门槛值的表达方式，得到一个新的权值集合和属性集合

那么x是表示用户的属性的向量的，w是改变后的权值列表，对其作转置的运算和x取内积就可以得到我们潜在的x->y的映射。【x，y的概念第一讲的时候有叙述】

那么，我们式子列出来，h到底长什么样呢，不同的w对应就是一个h，假设x和w的纬度只有2，那么就是一个二维平面上的一个线性分类器，所以我们剩下的任务就是找到一个最好的线，来对使用者进行区分：

到了这里就是一个如何设计一个演算法的问题了。我们知道，data是从f（目标函数）产生的，如果g（best h）和f足够像，就必须保证遍历过的data必须都满足g。对于上图，就是让o和x被一条线完全分开就好。

那么，在此直接介绍这个分类器的演算过程：

1、一开始选择一条线。初始状态w0【开始】

2、若这个线不好，则一定可以找到一个点，不在满足范围内。【找error】

3、纠正规则：W+Yx【纠正】

4、更新到不再犯错【遍历】

这个演算法就被称为PLA（perception learning algorithm）

正所谓【知错能改善莫大焉】A fault confessed is half redressed

表述，很简单，但是PLA算法纠结该如何实现呢？这边给出一个循环法：

之后林老师对于这个方法进行了现场操作。【略】这个写法的核心是：每一次都遍历全部点，并对第一个错误的点进行矫正，之后再一次进行循环遍历。

这个纠正的方式是：

【平面几何的基本思路，往哪边歪了就把他往反向方向纠正】

那么，肯定有个这样的问题，这个算法会停下来吗？这个算法真的可以找出有效值嘛？

我们看一下这个演算，看看能不能得到这个式子：

。

【tips：二式，两边同乘yn，xn】。这样我们就知道了，这个演算法是在去尝试着实现做好某件事情。

那么，PLA一定可以找到有效值吗，如果上面的式子的变化不断增大呢？

当然，每个算法都有自己的局限性，PLA算法什么时候会停下来呢。

1、数据是线性可分的。这个可以将其划分的线，将会是我们的目标。

所以我们开始考察wf和wt+1，查看是否接近，内积越来越大（证了一半）。

1、数据算法的演化是有错才更新

向量长度也要考虑。为了这一点我们必须让有错才更新作为我们的假设基础。

同样经过类似的推理我们也可以判断算法的收敛性：

由于这个算法的核心是【有错才更新】所以始终是越来越接近目标函数的，因此可以到下面的推倒，利用

由于每个点都会与那个分隔线有一定距离，那么，可以有上式。

即T次更新，两个正规化的向量的乘积会比根号T乘以一个常量。

这个证明他的确表示两个向量的内积，这样就是说，这个算法会停下来！

1、wt
Gets More Aligned with wf ，越来越接近目标函数（此处为目标向量）

2、wt
Does Not Grow Too Fast ，具有算法收敛性

补充：

，其中T是，

一句话总结：算法会停且增长不会太快。

现在开始总结PLA算法的优缺点：

优点：

1、易实现、速度快、多少纬度都适用。

2、涉及假设，数据集是线性可分且算法有错才更新，后者不是坏事，前者很难保证，且不知道假设对不对，算法复杂度也难以衡量。

那么在接下来的课程中，会就数据不是线性可分、数据有噪音等方面进行讲解【一两节课后】

比如如果不是线性可分，那我们尽量保证最优

pocket algorithm算法：随机选取点，使用贪心原则，保持最佳h。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航