您的位置:首页 > 其它

周志华机器学习读后总结 第14、15、16章

2017-10-23 17:58 267 查看

概率图模型

什么是概率图模型

概率图模型是一类用图来表达变量相关关系的概率模型。概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网。

 

隐马尔可夫模型

隐马尔科夫模型是结构最简单的动态贝叶斯网,是一种著名的有向图模型。隐马尔科夫模型中的变量可分为两组:第一组是状态变量,第二组是观测变量。

马尔可夫链:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。

除了结构信息,欲确定一个隐马尔可夫模型还需以下三组参数:状态转移概率、输出观测概率和初始状态概率。

实际应用中,人们常关注隐马尔科夫模型中的三个基本问题:第一个是如何评估模型与观测序列之间的匹配程度;第二个是如何根据观测序列推断出隐藏的模型状态;第三个是如何训练模型使其能最好地描述观测数据。

 

马尔可夫随机场

马尔可夫随机场是典型的马尔可夫网,是一种著名的无向图模型。图中每个节点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。马尔可夫随机场有一组势函数,这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。

马尔可夫随机场满足全局马尔可夫性、局部马尔可夫性和成对马尔可夫性。

势函数的作用是定量刻画变量集中变量之间的相关关系,它应该是非负函数,且在所偏好的变量取值上有较大函数值。

 

条件随机场

条件随机场是一种判别式无向图模型。生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模。隐马尔科夫模型和马尔科夫随机场都是生成式模型,而条件随机场则是判别式模型。

转移特征函数:用于刻画相邻标记变量之间的相关关系以及观测序列对他们的影响。

状态特征函数:用于刻画观测序列对标记变量的影响。

 

学习与推断

推断问题的目标就是计算边际概率或条件概率;概率图模型的推断方法大致可分为两类:精确推断方法和近似推断方法。

两种代表性的精确推断方法:变量消去和信念传播。

两大类近似推断方法:第一类是采样,第二类是使用确定性近似完成近似推断。

 

话题模型

话题模型是一族生成式有向图模型,主要用于处理离散性的数据,在信息检索、自然语言处理等领域有广泛应用;隐狄利克雷分配模型是话题模型的典型代表。

 

规则学习

什么是规则学习

规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则。规则学习具有更好的可解释性,能使用户更直观地对判断过程有所了解;规则学习能更自然地在过程学习中引入领域知识。

从形式语言表达能力而言,规则可分为两类:命题规则和一阶规则;前者是由原子命题构成的简单陈述句,后者的基本成分是能描述事物的属性或关系的原子公式。

 

序贯覆盖

规则学习的目标是产生一个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程。由于每次只处理一部分数据,因此也被称为分治策略。

序贯覆盖法的关键是如何从训练集学出单条规则。

产生规则的两条策略:第一种是自顶向下,是规则逐渐特化的过程;第二种是自底向上,是规则逐渐泛化的过程。前者通常更容易产生泛化性能好的规则,而后者则更适合于训练样本较少的情形。

 

剪枝优化

规则生成本质上是一个贪心搜索过程,需有一定的机制来缓解过拟合的风险,最常见的做法是剪枝。

LRS是一种信息量指标,衡量了规则覆盖样例的分布与训练集经验分布的差别:LRS越大,说明采用规则进行预测与直接使用训练集正、反例比率进行猜测的差别越大;LRS越小,说明规则的效果越可能仅是偶然现象。在数据量比较大的现实任务中,通常设置为在LRS很大时CN2算法才停止规则生长。

后剪枝最常用的策略是减错剪枝,规则学习算法RIPPER将剪枝与后处理相结合。

 

一阶规则学习

FOIL是著名的一阶规则学习算法,它遵循序贯覆盖框架且采用自顶向下的规则归纳策略。FOIL使用FOIL增益来选择文字,FOIL增益仅考虑正例的信息量,并且用新规则覆盖的正例数作为权重。

 

归纳逻辑程序设计

归纳逻辑程序设计在一阶规则学习中引入了函数和逻辑表达式嵌套。最小一般泛化将特殊规则转变为更一般的规则。

逆归结:逆归结研究在已知C和某个Ci的情况下如何得到Cj。四种逆归结操作有吸收、辨识、内构和互构。

置换是用某些项来替换逻辑表达式中的变量。

合一是用一种变量置换令两个或多个逻辑表达式相等。

 

 

 

 

强化学习

什么是强化学习

强化学习中,包含两种基本的元素:状态与动作,在某个状态下执行某种动作,这便是一种策略,学习器要做的就是通过不断地探索学习,从而获得一个好的策略。强化学习是通过反馈的结果信息不断调整之前的策略,从而算法能够学习到:在什么样的状态下选择什么样的动作可以获得最好的结果。强化学习的目的就是要找到能使长期累积奖赏最大化的策略。

 

K摇摆赌博机

欲最大化单步奖赏,我们需要知道每个动作带来的期望奖赏值,这样便能选择奖赏值最大的动作来执行。若每个动作的奖赏值为确定值,则只需要将每个动作尝试一遍即可,但大多数情形下,一个动作的奖赏值来源于一个概率分布,因此需要进行多次的尝试。单步强化学习实质上是K-摇臂赌博机的原型

利用有限的次数进行有效地探索方法:仅探索法:将尝试的机会平均分给每一个动作,即轮流执行,最终将每个动作的平均奖赏作为期望奖赏的近似值。仅利用法:将尝试的机会分给当前平均奖赏值最大的动作。

ε-贪心:ε-贪心法基于一个概率来对探索和利用进行折中,具体而言:在每次尝试时,以ε的概率进行探索,即以均匀概率随机选择一个动作;以1-ε的概率进行利用,即选择当前最优的动作。

Softmax:Softmax算法则基于当前每个动作的平均奖赏值来对探索和利用进行折中,Softmax函数将一组值转化为一组概率,值越大对应的概率也越高,因此当前平均奖赏值越高的动作被选中的几率也越大。

 

有模型学习

若学习任务中的四个要素状态空间、动作空间、转移概率以及奖赏函数都已经给出,这样的情形称为有模型学习。

策略评估:在模型已知的前提下,我们可以对任意策略的进行评估;常使用以下两种值函数来评估某个策略的优劣:状态值函数和状态-动作值函数。

策略改进:理想的策略应能使得每个状态的累积奖赏之和最大,因此对于给定的某个策略,我们需要对其进行改进,从而得到最优的值函数。

策略迭代算法:将策略评估与策略改进结合起来,我们便得到了生成最优策略的方法;先给定一个随机策略,现对该策略进行评估,然后再改进,接着再评估/改进一直到策略收敛、不再发生改变。

值迭代算法:先迭代得到最优的值函数,再来计算如何改变策略。

 

免模型学习

若学习算法不依赖于环境建模,则称为免模型学习。

蒙特卡罗强化学习:蒙特卡罗强化学习基于采样来估计状态-动作值函数,它对采样轨迹中的每一对状态-动作,记录其后的奖赏值之和,作为该状态-动作的一
9e8c
次累积奖赏,通过多次采样后,使用累积奖赏的平均作为状态-动作值的估计,并引入ε-贪心策略保证采样的多样性。被评估和被改进的都是同一个策略,称为同策略蒙特卡罗强化学习算法;评估时使用ε-贪心策略,改进时使用原始策略,是异策略蒙特卡罗强化学习算法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息