强化学习

其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。

在机器学习问题中，环境通常被抽象为马尔可夫决策过程（Markov decision processes，MDP），因为很多强化学习算法在这种假设下才能使用动态规划的方法。传统的动态规划方法和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。

介绍

由于其通用性很强，强化学习已经在诸如博弈论、控制论、运筹学、信息论、仿真优化、多智能体、群体智能和统计学等领域有了深入研究。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划。强化学习所感兴趣的问题在最优控制（一种关注最优解的存在性、表示和求解的理论，但较少涉及学习和近似）中也有所研究，尤其是环境的数学模型难以求得的时候。在经济学和博弈论中，强化学习可能被用来解释在有限的理性（rationality）下如何达到平衡状态。

基本的强化学习被建模为马尔可夫决策过程：

环境状态的集合 $S$ ;
动作的集合 $A$ ;
在状态之间转换的规则（转移概率矩阵） $P$ ；
规定转换后“即时奖励”的规则（奖励函数） $R$ ；
描述主体能够观察到什么的规则。

规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中，主体被假设为可以观察现有的环境状态，这种情况称为“完全可观测”（full observability），反之则称为“部分可观测”（partial observability）。通常，主体被允许的动作是有限的，例如，在棋盤中棋子只能上、下、左、右移動，或是使用的钱不能多于所拥有的。

强化学习的主体与环境基于离散的时间步作用。在每一个时间 $t$ ，主体接收到一个观测 $o_{t}$ ，通常其中包含奖励 $r_{t}$ 。然后，它从允许的集合中选择一个动作 $a_{t}$ ，然后送出到环境中去。环境则变化到一个新的状态 $s_{t+1}$ ，然后决定了和这个变化 $(s_{t},a_{t},s_{t+1})$ 相关联的奖励 $r_{t+1}$ 。强化学习主体的目标，是得到尽可能多的奖励。主体选择的动作是其历史的函数，它也可以选择随机的动作。

将这个主体的表现和自始自终以最优方式行动的主体相比较，它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动，主体必须根据它的长时间行动序列进行推理：例如，要最大化我的未来收入，我最好现在去上学，虽然这样行动的即时货币奖励为负值。

因此，强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用，包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。

强化学习的强大能力来源于两个方面：使用样本来优化行为，使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中：

模型的环境已知，且解析解不存在；
仅仅给出环境的模拟模型（模拟优化方法的问题）
从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题，而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法，这两种规划问题都可以被转化为机器学习问题。

常用算法

蒙特卡洛学习 Monte-Carlo Learning
Temporal-Difference Learning
SARSA算法
Q学习

探索机制

强化学习需要比较聪明的探索机制，直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚，这些性质很难在状态空间规模比较大的时候适用，这个时候相对简单的探索机制是更加现实的。

其中的一种方法就是 $\epsilon$ -貪婪演算法，这种方法会以比较大的概率(1- $\epsilon$ )去选择现在最好的动作。如果没有选择最优动作，就在剩下的动作中随机选择一个。 $\epsilon$ 在这里是一个可调节的参数，更小的 $\epsilon$ 意味着算法会更加贪心。

参考文献

Scholia上有關强化学习的信息

This article uses material from the Wikipedia 中文 article 强化学习, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). 除非另有声明，本网站内容采用CC BY-SA 4.0授权。 Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki 中文 (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.

强化学习

介绍

常用算法

探索机制

参考文献

Tags:

🔥 Trending searches on Wiki 中文: