Podržano učenje

Podržano učenje (engleski: reinforcement learning – RL) područje je mašinskog učenja koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizirali pojam kumulativne nagrade. Podržano učenje jedan je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.
Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahtijeva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje ne baš najboljih akcija. Umjesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.[2]
Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je ta što podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i ciljaju na velike MDP-ove za koje tačne metode postaju nemoguće.
Formalizacija problema[uredi | uredi izvor]
Okolina[uredi | uredi izvor]
Podržano učenje se uglavnom definira kao Markovljev proces odlučivanja nazvan po ruskome matematičaru Markovu. Model je koncipiran kao skup stanja koja posjeduju sve informacije o sistemu odnosno okolini kojeg modeliraju. Svako od stanja omogućuje što preciznije predviđanje posljedica svake izvedene radnje. MDP se formalno zapisuje kao četverac , pri čemu je:
- : množina svih mogućih stanja.
- : množina svih mogućih radnji u svakom stanju.
- : vjerovatnost prelaza u stanje , pod pretpostavkom da se nalazimo u stanju i da je izvršena radnja .
- : nagrada / kazna
Strategija[uredi | uredi izvor]
Cilj postupka je pronaći strategiju ponašanja (policy) π: , koja za svako stanje [3]:61 i akciju maksimizira očekivanu buduću nagradu. Strategija se može mijenjati tokom učenja ovisno o količini dobijenih nagrada.
Postoji nekoliko opcija za odabir akcije, na primjer:
- greedy: uvijek će biti izabrana najbolja akcija -
- ε-greedy: uglavnom će biti izabrana najbolja akcija, povremeno sa vjerovatnoćom ε bit će odabrana i nasumična akcija
Vrijednost funkcije[uredi | uredi izvor]
Postoje dvije slične varijante vrijednosti funkcije
- Funkcije vrijednosti stanja (state value function)
- Funkcije vrijednosti prelaza između stanja (state-action value function)
Funkcije vrijednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sljedećeg algoritma:
- Čekaj nagradu u budućnosti s faktorom umanjenja γ:
- Uvažavajući stanja :
- Uvažavajući prelaze između stanja :
Također pogledajte[uredi | uredi izvor]
Reference[uredi | uredi izvor]
- ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Arhivirano s originala, 20. 11. 2001.
- ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. 12. str. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
- ^ "Reinforcement learning: An introduction" (PDF). Arhivirano s originala (PDF), 12. 7. 2017. Pristupljeno 2. 4. 2023.
Dalje čitanje[uredi | uredi izvor]
- Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
- Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Arhivirano s originala, 31. 7. 2016. Pristupljeno 2. 4. 2023.
- Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 izd.). MIT Press. ISBN 978-0-262-03924-6.
- Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009. Arhivirano s originala, 30. 3. 2017. Pristupljeno 2. 4. 2023.
- Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. str. 1031–1038. Arhivirano s originala (PDF), 14. 7. 2010.