Förstärkningsinlärning: Område inom maskininlärning

Förstärkningsinlärning (eng.

reinforcement learning) är ett område inom maskininlärning som behandlar hur en mjukvaruagent bör agera för att maximera någon typ av sammanräknad belöning. Förstärkningsinlärning är en av tre grundläggande paradigmer inom maskininlärning, tillsammans med vägledd inlärning (eng. supervised learning) och ickevägledd inlärning (eng. unsupervised learning).

Tillvägagångssättet skiljer sig från vägledd maskininlärning genom att man inte behöver tillhandahålla märkt data, d.v.s. data som för varje indatapunkt innehåller en utdatapunkt som används för att träna algoritmen att förutse korrekt utdata då den matas med ny indata. En annan skillnad är att suboptimalt agerande inte behöver korrigeras explicit. Istället ligger fokus på att hitta en balans mellan utforskning (av outforskat territorium) och utnyttjande (av aktuell kunskap).

Miljön beskrivs typiskt i form av en markovbeslutsprocess (eng. Markov decision process, MDP) eftersom många förstärkningsinlärningsalgoritmer utnyttjar metoder från dynamisk programmering. Den huvudsakliga skillnaden mellan klassiska metoder baserade på dynamisk programmering och förstärkningsinlärningsalgoritmer är att de senare inte antar att en exakt matematisk modell av MDP:n är känd, samt att de riktar sig mot stora MDP:er för vilka exakta metoder blir otillämpbara.

Inledning

Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 
Den typiska formuleringen av ett förstärkningsinlärningsscenario: en agent utför handlingar i en miljö, vilket leder till ett nytt tillstånd, och vars konsekvenser kvantifieras i form av en belöning. Tillståndet och belöningen matas sedan tillbaka till agenten och kan utnyttjas för beslut om framtida handlingar.

Till följd av sin generalitet studeras förstärkningsinlärning inom många andra discipliner, såsom spelteori, självkörande bilar, människors upp- och nedröstning av chattbotars svar, reglerteori, operationsanalys, informationsteori, simuleringsbaserad optimering, multiagentsystem, svärmintelligens, statistik, samt genetiska algoritmer. I operationsanalys- och reglertekniklitteratur kallas förstärkningsinlärning approximativ dynamisk programmering eller neurodynamisk programmering. De problem som är av intresse i förstärkningsinlärning har också studerats inom teorin för optimal reglering. Denna teori fokuserar huvudsakligen på att undersöka existensen av och att karaktärisera optimala lösningar, samt algoritmer för exakt beräkning av dessa, och mindre på inlärning och approximering, speciellt vid avsaknad av en matematisk modell för miljön. Inom ekonomi och spelteori kan förstärkningsinlärning användas för att förklara hur jämvikt kan uppstå vid begränsad rationalitet.

Grundläggande förstärkningsinlärning modelleras som en markovbeslutsprocess med följande komponenter:

  • en mängd av tillstånd för miljön och agenten, S,
  • en mängd av handlingar, A, som agenten kan utföra,
  • övergångssannolikheter Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , d.v.s. sannolikheten att gå från tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  till tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  vid handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , för varje kombination av tillståndspar och handling,
  • omedelbar belöning Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , d.v.s. den erhållna belöningen vid en övergång från Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  till Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  efter handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning ,
  • regler som beskriver vad agenten observerar.

Reglerna är ofta stokastiska. Observationen involverar typiskt den skalära omedelbara belöningen kopplad till den senaste övergången. I många arbeten antar man att agenten kan observera det aktuella miljötillståndet (fullständig observerbarhet). I annat fall har agenten ofullständig (eller partiell) observerbarhet. Mängden av handlingar kan ibland vara begränsad.

En förstärkningsinlärningsagent interagerar med sin miljö i diskreta tidssteg. Vid varje tidpunkt t erhåller agenten en observation Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som i regel inkluderar belöningen Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Därefter väljer agenten en handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  från mängden av tillgängliga handlingar, vilken sedan skickas till miljön. Miljön förändras till ett nytt tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  och belöningen Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  kopplad till övergången Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  bestäms. Målet för förstärkningsinlärningsagenten är att samla så stor sammanlagd belöning som möjligt. Agenten kan välja sina handlingar (eventuellt slumpmässigt) som en funktion av historien, d.v.s. tidigare observationer. Funktionen enligt vilken agenten väljer sin nästa handling baserat på det aktuella tillståndet och den aktuella kunskapen om miljön kallas för en policy.

Skillnaden mellan agentens sammanlagda belöning givet en viss policy och den sammanlagda belöningen vid en optimal policy (d.v.s. en policy som maximerar den sammanlagda belöningen) kallas på engelska regret. För att välja en policy som leder till nära optimalt agerande så måste agenten resonera om de långsiktiga konsekvenserna av dess handlingar (d.v.s. maximera den framtida vinsten). Detta kan leda till att agenten väljer handlingar som riskerar att ge en låg omedelbar belöning, men som tros leda till kunskap som kan användas för att få större framtida belöningar (som kompenserar för den låga omedelbara belöningen).

Förstärkningsinlärning är således väl lämpat för problem som involverar en avvägning mellan långsiktiga och kortsiktiga belöningar. Metodiken har framgångsrikt tillämpats på vitt skilda problem, såsom robotreglering, schemaläggning för hissar, telekommunikation, backgammon, damspel och brädspelet Go (AlphaGo).

Det finns två element som gör förstärkningsinlärning kraftfullt: användningen av sampling för att optimera prestandan, samt användningen av funktionsapproximering för att hantera stora miljöer. Tack vare dessa nyckelkomponenter kan förstärkningsinlärning användas i stora miljöer i följande situationer:

  • då en modell för miljön är känd men ingen analytisk lösning finns att tillgå,
  • då endast en simuleringsmodell för miljön är tillgänglig (det fall som behandlas i simuleringsbaserad optimering),
  • då det enda sättet att samla information om miljön är att interagera med den.

De två första av dessa problem skulle kunna ses som planeringsproblem (eftersom någon form av modell är tillgänglig), medan det sista kan ses som ett rent inlärningsproblem. Förstärkningsinlärning behandlar emellertid även de båda planeringsproblemen som maskininlärningsproblem.

Utforskning

Avvägningen mellan att utforska och att utnyttja har studerats mest ingående för problemet med flerarmade banditer och för markovbeslutsprocesser (MDP:er) med ändliga tillståndsrum i Burnetas och Katehakis (1997).

Förstärkningsinlärning kräver noggrant uttänkta utforskningsmekanismer. Att välja handlingar slumpmässigt, utan att ta hänsyn till skattade sannolikhetsfördelningar, leder till dålig prestanda. Fallet med en (liten) ändlig markovbeslutsprocess är relativt väl förstått. Eftersom det saknas algoritmer som skalar väl med antalet tillstånd (eller skalar till problem med oändliga tillståndsrum), är emellertid enkla utforskningsmetoder mest praktiska.

En sådan metod är den Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning -giriga algoritmen (eng. epsilon-greedy), där Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  är en parameter som styr mängden utforskande relativt mängden utnyttjande. Med sannolikheten Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  väljer agenten att utnyttja, vilket innebär att agenten utnyttjar sin aktuella kunskap för att välja den handling som tros leda till störst sammanlagd belöning på lång sikt (ifall flera likvärdiga handlingar finns så väljs en av dem slumpmässigt). I annat fall, med sannolikhet Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , väljer agenten att utforska, och handlingen väljs då slumpmässigt med likformig sannolikhetsfördelning.

Algoritmer för policyinlärning

Även om man bortser från utforskningsproblemet och även ifall tillståndet är observerbart (vilket hädanefter antas) så återstår problemet att utnyttja tidigare erfarenheter för att bestämma fördelaktiga handlingar.

Optimalitetskriterium

Policy

Agentens val av handling modelleras som en funktion som kallas för policy:

    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 
    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

Policyfunktionen ger sannolikheten för att utföra handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  då man befinner sig i tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning .:61 Som specialfall kan man ha en deterministisk (icke-stokastisk) policy.

Tillståndsvärdefunktion

Värdefunktionen Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  definieras som den förväntade avkastningen då man startar i tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , d.v.s. Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , och därefter följer policyn Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Man kan alltså i princip säga att värdefunktionen ger en skattning av "hur bra" det är att vara i ett visst tillstånd.:60

    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

där den stokastiska variabeln Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  betecknar avkastningen (eng. return), vilken definieras som summan av framtida reducerade belöningar

    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

där Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  är belöningen i steg Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  och Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  är reduktionsfaktorn. Reduktionsfaktorn är en designparameter som avgör hur högt framtida belöningar viktas relativt belöningar i närtid. Ifall faktorn är nära 0 så optimerar man främst belöningar i närtid, medan en faktor nära 1 (t.ex. 0.999), värderar förväntade belöningar långt fram i tiden nästan lika högt som belöningar i närtid.

Algoritmens mål är att hitta en policy som maximerar den förväntade avkastningen. Från teorin för markovbeslutsprocesser (MDP:er) är det känt att policysökningen kan begränsas till mängden av så kallade stationära policyer. En policy är stationär ifall handlingsfördelningen som den returnerar bara beror på det senast besökta tillståndet (från agentens observationshistoria). Sökningen kan vidare inskränkas till deterministiska stationära policyer. En deterministisk stationär policy bestämmer handlingar deterministiskt baserat på det aktuella tillståndet. Eftersom varje sådan policy kan beskrivas som en avbildning från tillståndsmängden till handlingsmängden så kan dessa policyer identifieras med sådana avbildningar utan minskad generalitet.

Totalsökning (brute force)

Totalsökningsmetoden består av två steg:

  • För varje möjlig policy, följ policyn och beräkna resulterande avkastningar (detta utgör en sampling av avkastningen)
  • Välj den policy som har störst förväntad avkastning

Ett problem med denna metod är att antalet policyer kan vara stort eller till och med oändligt. Ett annat problem är att variansen för avkastningen kan vara stor, vilket gör att man måste sampla många gånger för att kunna ge en noggrann skattning av avkastningen från varje policy.

Dessa problem kan mildras ifall vi antar en viss struktur och tillåter sampel som genererats av en viss policy att påverka skattningarna även för andra policyer. De två huvudsakliga tillvägagångssätten för att åstadkomma detta är värdefunktionsskattning och direkt policysökning.

Värdefunktion

Värdefunktionsmetoder försöker hitta en policy som maximerar avkastningen genom att spara en mängd skattningar av förväntade avkastningar för någon policy (vanligtvis antingen den aktuella eller optimala policyn).

Dessa metoder bygger på teorin för Markovbeslutsprocesser, där optimalitet definieras i en starkare mening än den beskriven ovan: En policy kallas optimal ifall den åstadkommer den högsta förväntade avkastningen från vilket begynnelsetillstånd som helst (d.v.s. initiala fördelningar spelar ingen roll i denna definition). Återigen kan en optimal policy alltid hittas bland stationära policyer.

För att ge en formell definition av optimalitet så definierar vi värdefunktionen för en policy Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som

    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

där Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  står för avkastningen som erhålls då Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  följs från begynnelsetillståndet Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Vi definierar Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som det största möjliga värdet på Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , där Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  får lov att ändras,

    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

Även om värdefunktionen är tillräcklig för att definiera optimalitet är det också användbart att definiera handlingsvärden. Givet ett tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , en handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  och en policy Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  så är definieras handlingsvärdet av paret Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  för policyn Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som

Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

där Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  nu står för den slumpmässiga avkastningen som erhålls då man först utför handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  i tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  och därefter följer Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning .

Teorin för Markovbeslutsprocesser säger att ifall Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  är en optimal policy så agerar vi optimalt (väljer den optimala handlingen) genom att i tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  välja den handling från Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som har störst värde. Handlingsvärdefunktionen för en sådan optimal policy (Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning ) kallas den optimala handlingsvärdefunktionen och brukar betecknas med Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Sammanfattningsvis är det tillräckligt att endast känna till handlingsvärdefunktionen för att avgöra hur man agerar optimalt.

Om man antar att Markovbeslutsprocessen är helt känd så finns det två grundläggande tillvägagångssätt för att beräkna den optimala handlingsvärdefunktionen: värdeiterering och policyiterering. Båda algoritmerna beräknar en följd av funktioner Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  (Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning ) som konvergerar mot Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Vid beräkning av dessa funktioner måste man beräkna väntevärden för hela tillståndsrummet, vilket är opraktiskt förutom för små (ändliga) Markovbeslutsprocesser. I förstärkningsinlärningsmetoder approximerar man väntevärden genom att beräkna medelvärden över sampel och använda funktionsapproximationstekniker för att kunna representera värdefunktioner för stora tillståndshandlingsrum.

Monte Carlo-metoder

Monte Carlo-metoder kan användas för algoritmer som imiterar policyiterering. Policyitering består av två steg: policyutvärdering och policyförbättring.

Monte Carlo-metoder används för policyutvärderingssteget. I detta steg är vi givna en stationär deterministisk policy Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  och målet är att beräkna handlingsvärdena Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  (eller en bra approximation av dessa) för alla par av tillstånd och handlingar Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Vi antar (för enkelhets skull) att Markovbeslutsprocessen är ändlig, att tillräckligt minne finns tillgängligt för att lagra handlingsvärdena samt att problemet är episodiskt och att efter varje episod så startar en ny från ett slumpmässigt begynnelsevärde. Då kan skattningen av värdet av ett visst par av tillstånd och handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  beräknas genom att räkna ut medelvärdet över tid av de samplade avkastningarna med ursprung i Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Efter tillräckligt lång tid kan denna procedur alltså ge en precis skattning Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  av handlingsvärdefunktionen Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Detta avslutar beskrivningen av policyutvärderingssteget.

I policyförbättringssteget erhålls nästa policy genom att beräkna en girig policy med avseende på Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning : Givet ett tillstånd Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  så returnerar denna policy en handling som maximerar Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . I praktiken kan lat evaluering skjuta upp beräkningen av de maximerande handlingarna tills de behövs.

Några problem med denna procedur är:

  • Proceduren kan lägga för mycket tid på att utvärdera en suboptimal policy.
  • Den utnyttjar sampel ineffektivt genom att en lång bana bara leder till en förbättrad skattning för det enda par av tillstånd och handling som inledde banan.
  • När avkastningarna längs banorna har hög varians så är konvergensen långsam.
  • Den fungerar bara för episodiska problem.
  • Den fungerar bara för små ändliga Markovbeslutsprocesser.

Tidsskillnadsmetoder

Det första problemet löses genom att man tillåter proceduren att ändra policy (för något eller alla tillstånd) innan värdena är exakt bestämda. Detta kan också vara problematiskt eftersom det kan förhindra konvergens. De flesta aktuella algoritmer gör detta, vilket leder till en klass av generaliserade policyiterationsalgoritmer. Många aktör-kritiker-metoder tillhör denna kategori.

Det andra problemet kan lösas genom att tillåta banor att bidra till värdeberäkningen för alla par av tillstånd och värden som förekommer i banan. Detta kan också i viss utsträckning mildra det tredje problemet, men en bättre lösning när avkastningen har hög varians är att använda Suttons tidsskillnadsmetoder (temporal difference methods, TD) som bygger på den rekursiva Bellmanekvationen. Beräkningen i TD-metoder kan göras inkrementellt (efter övergången ändras minnet och övergången kastas bort) eller ihop (när övergångerna hopas och skattningarna beräknas en gång baserat på hopen). Hopmetoder, som minsta kvadrat-tidsskillnadsmetoden kan utnyttja information i samplen bättre medan inkrementella metoder är det enda valet när hopmetoder är oapplicerbara på grund av deras höga beräknings- eller minneskomplexitet. Vissa metoder försöker kombinera de två tillvägagångssätten. Metoder som baseras på tidsskillnader löser även det fjärde problemet.

För att hantera det femte problemet används funktionsapproximeringsmetoder. Linjär funktionsapproximering börjar med en avbildning Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som till varje par av tillstånd och handling tilldelar en ändligtdimensionell vektor. Handlingsvärdena för ett par av tillstånd och handling Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  erhålls sedan genom att linjärt kombinera komponenterna av Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  med några vikter Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning :

    Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning 

Algoritmerna justerar sedan vikterna, istället för att justera värdena kopplade till de enskilda paren av tillstånd och handling.

Värdeiteration kan också användas som startpunkt, vilket ger upphov till Q-inlärningsalgoritmen och dess många varianter.

Problemet med att använda handlingsvärden är att det kan behövas väldigt exakta skattningar av konkurrerande handlingsvärden, vilket kan vara svårt att erhålla ifall avkastningarna är brusiga. Detta problemet mildras dock i viss utsträckning med tidsskillnadsmetoder. Att använda den så kallade kompatibla funktionsapproximationsmetoden kompromissar generalitet och effektivitet. Ett annat problem som är specifikt för TD-metoder kommer från att de förlitar sig på den rekursiva Bellmanekvationen. De flesta TD-metoder har en så kallad Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning -parameter Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  som tillåter kontinuerlig interpolering mellan Monte Carlo-metoder som inte bygger på Bellmanekvationer och de grundläggande TD-metoderna som helt bygger på Bellmanekvationer. Detta kan vara effektivt för att lindra detta problem.

Direkt policysökning

En alternativ metod är att direkt söka en policy i (någon delmängd av) policyrummet. I detta fall blir problemet ett fall av stokastisk optimering. De två tillvägagångssätt som finns tillgängliga är gradientbaserade och gradientfria metoder.

Gradientbaserade metoder (policygradientmetoder) börjar med en avbildning från en ändligtdimensionell (parameter)rymd till policyrummet: givet parametervektorn Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning , låt Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  beteckna policyn associerad med Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Prestandafunktionen definieras som

Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning .

Under milda antaganden är denna funktion deriverbar som en funktion av parametervektorn Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning . Om gradienten för Förstärkningsinlärning: Inledning, Utforskning, Algoritmer för policyinlärning  vore känd så skulle man kunna använda gradientstigningsmetoden. Eftersom inget analytiskt uttryck för gradienten är tillgängligt har vi bara en brusig skattning att tillgå. En sådan skattning kan konstrueras på många sätt, vilket ger upphov till algoritmer såsom Williams REINFORCE metod (vilken är känd som sannolikhetsförhållandemetoden i litteratur om simuleringsbaserad optimering). Policysökningsmetoder har använts i robotiksammanhang. Många policysökningsmetoder kan fastna i lokala optima (eftersom de bygger på lokal sökning).

En stor klass av metoder undviker att förlita sig på gradientinformation. Dessa innefattar simulerad glödgning, korsentropisökning eller metoder från evolutionär beräkning. Många gradientfria metoder kan (i teorin eller i gränsövergången) uppnå globalt optimum.

Policysökningsmetoder kan konvergera långsamt givet brusig data. Detta händer till exempel i episodiska problem när banorna är långa och avkastningsvariansen är stor. Värdefunktionsbaserade metoder som bygger på tidsskillnader kan hjälpa i detta fall. Under senare år har aktör-kritiker-metoder föreslagits och presterat väl på diverse problem.

Referenser

Tags:

Förstärkningsinlärning InledningFörstärkningsinlärning UtforskningFörstärkningsinlärning Algoritmer för policyinlärningFörstärkningsinlärning ReferenserFörstärkningsinlärningMaskininlärning

🔥 Trending searches on Wiki Svenska:

ÖstergötlandFinlands presidentVladimir LeninMaratontabell för Svenska HockeyliganBulgarienM-gängaArmeniska folkmordetHabaneroMalgorzata PieczynskaGiorgetto GiugiaroShetlandsöarnaAmy DeasismontKokoskrabbaCarola HäggkvistGustav EngvallBea UusmaAlicanteFröken SnuskTove JanssonPehr G. GyllenhammarTed BundyYoutubeTjernobylolyckanMiriam BryantKap VerdeLivstids fängelse i SverigeLista över clearingnummer till svenska bankerSamerRednexBK HäckenUpper East Side27 ClubJehovas vittnenInstagramYasin (rappare)Hedvig SöderlundRobinson CrusoeRichard GaddLinda HammarTommy KörbergManchester United FCCéline DionStockholmHåkäringNiclas WahlgrenJakob SilfverbergKorpAnnika JankellSaudiarabienIsabell SchierenbeckJutta LeerdamJessica GunningStellan SkarsgårdPeter StormareSveriges nationaldagLista över kampsporterThailandKarlatornetSchweiz kantonerSvenskaLily JamesAnders EkborgJapanCarl von LinnéLista över länder efter folkmängdVipeholmsexperimentenKristendomNya ZeelandSmå AntillernaKolväteNava MauGrönsiskaCreedence Clearwater RevivalNiklas StrömstedtJulius CaesarShogunVolkswagenVärldsdelar och kontinenterLista över Sveriges statsministrar🡆 More