强化学习

强化学习(英語:Reinforcement learning,簡稱RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡,强化学习中的“探索-利用”的交换,在多臂老虎机(英语:multi-armed bandit)问题和有限MDP中研究得最多。

其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论控制论运筹学信息论、仿真优化、多智能体系统群体智能统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。

在机器学习问题中,环境通常被抽象为马尔可夫决策过程(Markov decision processes,MDP),因为很多强化学习算法在这种假设下才能使用动态规划的方法。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。

介绍

强化学习 
强化学习的典型框架:智能体在环境中采取一种行为,环境将其转换为一次回报和一种状态表示,随后反馈给智能体。

由于其通用性很强,强化学习已经在诸如博弈论控制论运筹学信息论、仿真优化、多智能体、群体智能统计学等领域有了深入研究。在运筹学和控制文献中,强化学习被称为近似动态规划神经动态规划。强化学习所感兴趣的问题在最优控制(一种关注最优解的存在性、表示和求解的理论,但较少涉及学习和近似)中也有所研究,尤其是环境的数学模型难以求得的时候。在经济学和博弈论中,强化学习可能被用来解释在有限的理性(rationality)下如何达到平衡状态。

基本的强化学习被建模为马尔可夫决策过程:

  1. 环境状态的集合强化学习 ;
  2. 动作的集合强化学习 ;
  3. 在状态之间转换的规则(转移概率矩阵)强化学习 
  4. 规定转换后“即时奖励”的规则(奖励函数)强化学习 
  5. 描述主体能够观察到什么的规则。

规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盤中棋子只能上、下、左、右移動,或是使用的钱不能多于所拥有的。

强化学习的主体与环境基于离散的时间步作用。在每一个时间强化学习 ,主体接收到一个观测强化学习 ,通常其中包含奖励强化学习 。然后,它从允许的集合中选择一个动作强化学习 ,然后送出到环境中去。环境则变化到一个新的状态强化学习 ,然后决定了和这个变化强化学习 相关联的奖励强化学习 。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。

将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。

因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制、电梯调度、电信通讯、双陆棋西洋跳棋

强化学习的强大能力来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:

  • 模型的环境已知,且解析解不存在;
  • 仅仅给出环境的模拟模型(模拟优化方法的问题)
  • 从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题,而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法,这两种规划问题都可以被转化为机器学习问题。

常用算法

探索机制

强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。

其中的一种方法就是 强化学习 -貪婪演算法,这种方法会以比较大的概率(1-强化学习 )去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。强化学习  在这里是一个可调节的参数,更小的 强化学习  意味着算法会更加贪心。

参考文献

Tags:

强化学习 介绍强化学习 常用算法强化学习 探索机制强化学习 参考文献强化学习en:multi-armed bandit机器学习無監督學習生态环境监督学习

🔥 Trending searches on Wiki 中文:

周杰倫2022年國際足協世界盃生化危機4 重製版第9節課納粹德國邱沁宜宋美齡曹丕宋慧喬帕金森氏症國際橋牌社22022年俄羅斯入侵烏克蘭浪漫醫生金師傅捍衛任務3:全面開戰李再勇格鲁吉亚蟻人與黃蜂女:量子狂熱Lisa (泰國歌手)阿拉斯加州白俄罗斯YouTube草原狒狒馬克塔·佩卡洛娃·阿達莫娃水卜麻美孔乙己徐正溪麻豆传媒哈萨克斯坦Jennie (韓國歌手)杨紫琼Supercell (游戏公司)玩具总动员社內相親吳慷仁賭命為王且试天下乌克兰泽山璃奈英雄王,為了窮盡武道而轉生~而後成為世界最強見習騎士♀~张澜澜劉德華渡邊航貴赵乐际马拉维林语堂東日本大震災宋仲基李帝勳陳山聰天气之子百變小櫻柯文哲李沁各国家和地区人口列表对习近平的争议正态分布BLUE LOCK 藍色監獄角色列表周生如故倪妮朱元璋首页Rosé (歌手)沈棟抖音Hanni华国锋阿河 (河馬)模範計程車中国历史年表周深李学政臺灣鈴木一朗奔跑吧印度中国共产党中央政治局左正東秦厚修北京四通桥抗议🡆 More