您的位置：首页 > 其它

机器学习（Machine Learning and Data Mining）CS 5751——final复习记录(3)

2020-01-31 23:07 806 查看

机器学习（Machine Learning and Data Mining）CS 5751——final复习记录因为是整理来给自己看的，所以都是大纲……

强化学习Reinforcement Learning
1.1
1.3
1.4
2.1
3.1
3.4
Markov Property

3.7

4单元-Dynamic programming动态编程

迭代策略评估iterative policy evaluation
策略改进
策略迭代Policy Iteration
值迭代value iteration

5单元-蒙特卡罗Monte Carlo学习

控制问题Monte Carlo Control
关于exploring start的两种情况

6单元-时序差分TD Learning

Sarsa

Q-learning

因为是整理来给自己看的，所以都是大纲……

强化学习Reinforcement Learning

是一种交互中学习的计算方法，探索理想化的学习情境并评估各种学习方法的有效性。侧重于从交互中进行目标导向的学习，而不是其他机器学习方法。

1.1

强化学习的两个最重要的区别特征。
（1）试错法trial-and-error search
（2）延迟奖励delayed reward
强化学习的定义不是通过表征学习方法，而是通过表征学习问题。任何非常适合解决该问题的方法，我们都认为是强化学习方法。
新挑战：探索exploration和开发exploitation之间的权衡

1.3

除了代理和环境之外，还可以识别强化学习系统的四个主要子元素：
策略policy，奖励函数reward function，价值函数value function，以及可选的环境模型。

策略：决定了代理在给定时间的behaving。它是从感知的环境状态到在这些状态下要采取的行动的映射。
（1）策略可以是简单的函数或查找表
（2）可能涉及广泛的计算，例如搜索过程。
（3）一般而言，策略可能是随机的。
奖励函数决定了强化学习的目标。是改变策略的基础，并且奖励函数也可以是随机的。
价值函数：长期意义上的好处。
（1）也有一些强化学习的问题不使用价值函数，比如：遗传算法，遗传编程，模拟退火。
（2）它们直接在策略中间中搜索，称为进化论方法evolutionary methods，本书中使用术语“强化学习”时，将不包括进化方法。
**环境模型：**模仿环境行为的东西，模型可以预测结果的下一状态和下一个奖励。

1.4

使用强化学习和近似值函数来解决井字问题的方法。
tic-tac-toe：

（1）为该游戏所有可能的state建立一个表，然后为每个state评估（least estimate）获胜的可能性，这个就是value表。
（2）于对手进行多次游戏。选择我们的行动时，往往在表中查找最大的value值，但是偶尔也会随机行动。这样的随机行为，被认为是探索行动exploratory moves。
（3）在行动后，当前的state改变了，所以value也改变了。

其中，a被称为步长参数step-size，它将影响学习速度。

如果step-size随时间适当减小，则对于任何固定的对手，该方法收敛于在给定玩家最佳游戏的情况下从每个状态获胜的真实概率。
如果step-size没有随着时间的推移一直变为零，那么这个玩家也可以很好地对抗慢慢改变他们的比赛方式的对手。

2.1

强化学习，最主要的就是能够evaluate当前即将采取的action，而不是直接被instructs获得正确的行动。
An-armed bandit：类似于老虎机，所以用“单臂匪徒”来命名，区别在于它有n杠杆而不是一个杠杆，核心思想在于协调贪婪行为和探索行为。

e-greedy算法: 每隔一段时间，随即选择一次。
但是也存在一个缺点，探索时，它在所有行动中平等的选择，这意味着选择最差的行动和选择次佳的行动都是可能是。
解决方法： softmax 动作选择规则

T是温度参数，高温导致全部动作等概率，低温导致较大差异。
（1）当T趋近于0时，softmax动作选择将等同于贪婪行动

3.1

强化学习的问题

关于策略：π（s,a）是在当前state的情况下，选择某一个action的概率

非连续性任务
（1）当代理-环境有一个暂时的结束时，我们把这样的互交成为情景片段episodes。
（2）每一个情景片段的结束，我们称为结束状态terminal state。
（3）所有的nontermianl states，被称为S。
（4）all states加上了nontermianl states，被称为S+。

连续性任务continuing tasks
（1）企图最大化的回报本身是无限的，所以需要引入一个discounting折扣的概念。
（2）γ（gama）参数在（0,1）之间，让无限和具有有限值（the infinite sum has a finite value）。
（3）代理人只关注相对接近的奖励，但，当γ趋近于1时，代理会显得更有的有远见farsighted。
（4）折扣回报discounting return：