Q学习

Q-学习(英語:Q-learning)是强化学习的一种方法。Q-学习就是要記錄下学习過的策略,因而告诉智能体什么情况下采取什么行动會有最大的獎勵值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。

对于任何有限的馬可夫決策過程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。

「Q」这个字母在强化学习中表示一个动作的期望奖励。

强化学习

强化学习涉及一个智慧型代理人agent),一组「状态」Q学习 和每个状态下的动作集合Q学习 。通过执行一个行动Q学习 ,该智慧型代理人从一个状态转移到另一个状态。在一个特定的状态下执行一个动作时,智慧型代理人可以得到一个奖励。

智慧型代理人的目标是最大化其奖励的總和。这个潜在的奖励是所有未来可以拿到的奖励值的期望的加权和。

例如,假设现在你要上地铁,奖励就是你所花的时间的相反数。一种策略就是车门一开就往上挤,但是还有很多人要下车,逆着人流往上挤也会花费不少时间,这个时候你花的总时间可能是:

  • 0秒钟等待时间+15秒挤上去的时间

在接下来的一天,很巧合,你决定先让别人下车。虽然这个时候看起来等待的时间稍微增加了,但是下车的人也会下的更顺畅,这个时候你可能花的时间是:

  • 5秒等待时间+0秒挤上去的时间。

算法

Q学习 
將Q表格的值初始化为零,每个单元會經過訓練而更新其值。

Q-學習演算法,主要內容為計算狀態與行為對應的最大期望奖励函式Q学习 

    Q学习  .

在演算法初始化階段,Q学习 初始值為零(由設計者設計)。在時間Q学习 時,環境的狀態為Q学习 ,智慧型代理人選擇一個行為Q学习 ,並且獲得獎勵Q学习 ,環境因為代理人的行為導致狀態改變為新的狀態Q学习 ,此時便可根據以下公式更新Q学习 值。演算法的核心為簡單的利用過去與最近的權重平均值來迭代更新數值。

    Q学习 

其中 Q学习  代表從狀態 Q学习  到狀態 Q学习  所得到的獎勵值, Q学习 學習率(Q学习 )。Q学习  為衰減系數(Q学习 ),當 Q学习  數值越大時,智慧型代理人便更加重視未來獲得的長期獎勵, Q学习  數值越小時,智慧代理人便更加短視近利,只在乎目前可獲得的獎勵。



实现

Q-学习最简单的实现方式就是将獎勵值存储在一个表格(Q-table)中,但是这种方式受限于状态和动作空间的数目。

函数逼近

Q-学习可以结合函数逼近。 这使得在更大的状态空间中使用 Q-学习,即使状态空间是连续的。

一个解决方案是以使用人工神经网络来进行函数逼近。。函数逼近的方法在一些问题中会有很好的加速效果,某些时候算法可以通过早期经验的总结可以在一些未出现的状态中依然可以有很好的效果。

变种

深度Q-学习

深度Q-学习(Deep Q-learning)是一个由DeepMind公司开发的利用深度卷积神经网络来进行Q-学习的算法。在使用非线性函数逼近的时候,强化学习经常会有不稳定性或者发散性:这种不稳定性来于当前的观测中有比较强的自相关。DeepMind 通过使用经历回放,也就是每次学习的时候并不直接从最近的经历中学习,而是从之前的经历中随机采样来进行训练。

深度双Q-学习

尽量深度Q-学习的效果已经很好了,但是人们发现了一个问题,它会过高的估计Q值。DeepMind在2015年证明了这个估值错误真的存在,并且采用双Q-学习的方法改进了算法,从而降低了过高估值带来的影响。

参见

参考文献

外部链接

Tags:

Q学习 强化学习Q学习 算法Q学习 实现Q学习 变种Q学习 参见Q学习 参考文献Q学习 外部链接Q学习强化学习

🔥 Trending searches on Wiki 中文:

明成祖Stray Kids和平歸來瑞士信貸集團東非狒狒陳百強RubberBand最強陰陽師的異世界轉生記盧凱彤BLACKPINK李宰旭林郁婷舒文 (音樂人)模仿犯 (2023年電視劇)中年好聲音庞琂予摩尔定律【我推的孩子】法言人 (無綫電視劇)中越战争德意志银行满江红 (2023年电影)中國被解僱的暗黑士兵(30多歲)開始了慢生活的第二人生小熊維尼:血與蜜劉德華曹操樂天女孩肖戰穿山甲五月天火影忍者謝金燕李现順德聯誼總會翁祐中學洪都拉斯時代少年團好青年荼毒室(哲學部)白珍熙安普賢帕金森氏症2023年世界羽聯世界巡迴賽杨洋鄭知蘇张译小智是女孩啦!段伟红秦始皇伯利兹越位 (足球)乌克兰李一桐國際足協世界排名欧洲联盟齊寧郡ASCII來吧!營業中中華民國外交真的出现了!沙贊!眾神之怒棒球大聯盟任天堂深圳地铁越南战争浪漫醫生金師傅3公共電視文化事業基金會李多慧 (啦啦隊)黃子華盧允瑞习近平悠木碧2023年日本動畫列表毒舌大狀王鶴棣編程隨想中国历史黑色五葉草🡆 More