强化学习第二版(翻译)第一章 导论 第六节 小结 1.6 Summary
2018-04-01 10:07
656 查看
强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习,而不依赖于监督或完整的环境模型。在我们看来,强化学习是第一个认真处理在学习与环境的互动时产生的计算问题,以实现长期目标的第一个领域。
强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用,包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性,以及目标的存在性。
价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为,在政策空间中,价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。
强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用,包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性,以及目标的存在性。
价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为,在政策空间中,价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。
相关文章推荐
- 强化学习第二版(翻译)第一章 导论 第四节 局限性和适用范围 1.4 Limitations and Scope
- 强化学习第二版(翻译)第一章 导论 第三节 强化学习的要素 1.3 Elements of Reinforcement Learning
- 强化学习第二版(翻译)第一章 导论 第二节 例子 1.2 Examples
- 强化学习第二版(翻译)第一章 导论 第五节 拓展例子:井字棋 1.5 An Extended Example: Tic-Tac-Toe
- 强化学习第二版(翻译)第一章 导论 第一节 强化学习 1.1 Reinforcement Learning
- 强化学习第二版(翻译)第二版前言
- (翻译)《Expert .NET 2.0 IL Assembler》 第一章 简单示例 1.4 小结
- C++程序设计(第二版)第一章学习笔记
- Page 的生命周期学习小结(翻译兼笔记)
- 强化学习导论(3)有限马尔可夫决策过程
- ASM学习笔记--ASM 4 user guide 第一章翻译
- 【翻译作品】JavaScript Event学习第一章:Event介绍
- 《ERP从内部集成起步》第一章 Garthner公司是如何提出ERP的——学习小结
- ASM学习笔记--ASM 4 user guide 第一章翻译
- 【算法导论】学习笔记第一章:算法在计算中的作用
- 面向对象软件构造(第二版)翻译第一章到第十章
- 数据结构基础(C语言版)(朱仲涛翻译)代码学习 第一章002
- python 学习第一章(python基础编程第二版)
- 王爽《汇编语言》(第二版) 学习笔记 (第一章 基础知识)
- 从单片机初学者迈向单片机工程师第二版第一章 究竟该如何学习