Aprenentatge per Reforç

Crèdits

Tipus

Optativa

Requisits

Aquesta assignatura no té requisits , però té capacitats prèvies

Departament

Web

https://www.cs.upc.edu/~mmartin/RL-MAI.html

Mail

mmartin@cs.upc.edu

L'objectiu d'aquest curs és introduir i aprofundir en el marc d'aprenentatge per reforçament on l'agent aprèn el comportament adequat per resoldre els seus objectius a partir d'interaccions directes de l'agent amb l'entorn i sense coneixement previ del món.

Específicament, el curs iniciarà introduint els conceptes més bàsics d'aprenentatge per reforç fins a arribar als algoritmes més moderns que són estat de l'art. A continuació el curs aprofundirà en diferents tècniques avançades que intenten ampliar el marc descrit a (1) un aprenentatge més eficient a partir de tècniques d'exploració i de modelització de l'entorn, (2) a un aprenentatge continu de l'agent a diferents tasques necessari per a una Intel·ligència Artificial General i (3) l'aprenentatge automàtic de comportaments en sistemes multi-agents sigui ja en entorns cooperatius o competitius.

En acabar, l'estudiant coneixerà l'estat de l'art en l'aprenentatge per reforçament i els dominis on és adient aplicar-lo, i haurà implementat diferents algoritmes en els entorns de programació més actuals en l'àrea.

Professorat

Responsable

Mario Martín Muñoz ( mmartin@cs.upc.edu )

Hores setmanals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

5.33

Competències

Competències Tècniques Generals

Genèriques

CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.

CG4 - Capacitat per a la direcció general, direcció tècnica i direcció de projectes de recerca, desenvolupament i innovació en empreses i centres tecnològics, en l'àmbit de la Intel·ligència Artificial.

Competències Tècniques de cada especialitat

Acadèmiques

CEA3 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques principals d'Aprenentatge Automàtic, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.

CEA9 - Capacitat de comprendre les tècniques avançades de Sistemes Multiagents, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.

CEA11 - Capacitat de comprendre les tècniques avançades d'Intel·ligència Computacional, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.

Professionals

CEP2 - Capacitat de resoldre els problemes de presa de decisions de les diferents organitzacions, integrant eines intel·ligents.

CEP3 - Capacitat d'aplicació de les tècniques d'Intel·ligència Artificial en entorns tecnològics i industrials per a la millora de la qualitat i la productivitat.

CEP8 - Capacitat de respectar l'entorn ambiental i dissenyar i desenvolupar sistemes intel·ligents sostenibles.

Competències Transversals

Treball en equip

CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.

Objectius

Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
Competències relacionades: CEA11, CEA3, CG3, CG4,
Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
Competències relacionades: CEP2, CEP3, CEP8, CG4, CT3,
Conèixer i entendre les tècniques més avançades i recents en el camp dels sistemes Multi-Agent per aprendre a cooperar o competir.
Competències relacionades: CEA9, CEP2, CEP3, CEP8, CG4, CT3,
Comprendre les dificultats i les ineficiències de l'enfocament d'aprenentatge de reforç i proposar les tècniques i enfocaments que els podrien resoldre
Competències relacionades: CEP3, CEP8, CG3, CG4, CEA11,
Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
Competències relacionades: CEA11, CEA3, CG3, CG4,
Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
Competències relacionades: CEA11, CEA3, CEP2, CEP3,

Continguts

Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
Trobant polítiques òptimes mitjançant la programació dinàmica
Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
Introducció als enfocaments sense models del món.
Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
Aproximació de funcions a l'aprenentatge de reforç
La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
Aprenentatge per reforç profund (DRL)
Revolució a RL introduint Deep Learning. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
Mètodes del gradient en la política
Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
Temes avançats: Com tractar el problema del reforç espars
El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
Temes avançats: Aprenentatge de reforç basat en models (MBRL)
Separar l'aprenentatge de la política de l'aprenentatge d'un model de món té alguns avantatges i alguns problemes. Eficiència de l'aprenentatge en RL per al·lucinació i imaginació.
Temes avançats: Cap a l'aprenentatge continu la vida als agents
És RL un camí per obtenir una Intel·ligència Artificial General? Aprenentatge multitasca en RL, Transferència d'aprenentatge en RL i Meta-aprenentatge en RL. Enfocaments d'última generació.
Aprenentatge de reforç en el marc multi-agent
Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

Activitats

Activitat Acte avaluatiu

Introducció, motivació i exemples d'aplicacions amb èxit a RL

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
Objectius: 6 5
Continguts:

1 . Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Definició del marc RL. Elements clau a RL. Trobar la política òptima mitjançant la Iteració de valor i la Iteració de polítiques

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 1 6 5
Continguts:

1 . Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Desenvolupament del tema corresponent de l'assignatura
Objectius: 1 6 5
Continguts:

3 . Introducció als enfocaments sense models del món.

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aproximació de funcions en RL

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
Objectius: 1 2 4
Continguts:

4 . Aproximació de funcions a l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforç profund

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 1 2 4
Continguts:

5 . Aprenentatge per reforç profund (DRL)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Mètodes del gradient en la política

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 1 4
Continguts:

6 . Mètodes del gradient en la política

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Treballs pràctics dirigits

Objectius: 2 6 3
Continguts:

1 . Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
2 . Trobant polítiques òptimes mitjançant la programació dinàmica
3 . Introducció als enfocaments sense models del món.
5 . Aprenentatge per reforç profund (DRL)
4 . Aproximació de funcions a l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Examen final

Setmana: 15

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Estudi de l'estat de l'art en un treball de tema avançat

Setmana: 11

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Temes avançats sobre aprenentatge del comportament: augment de l'eficiència de la mostra

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

RL multiagent

Objectius: 3
Continguts:

10 . Aprenentatge de reforç en el marc multi-agent

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Metodologia docent

Les classes de teoria introdueixen tots els coneixements, les tècniques i els conceptes
necessaris que es posen en pràctica en les classes de laboratori. Les classes de teoria seran
majoritàriament del tipus classe magistral, però algunes d'elles poden ser del tipus classe
expositiva participativa, amb participació dels estudiants en la resolució de problemes o exercicis.

Les classes de laboratori tenen com a objectiu que els estudiants treballin amb eines de
programari que permeten aplicar les tècniques presentades a teoria a problemes reals.
Els estudiants usaran aquestes eines per desenvolupar el seu treball pràctic de l'assignatura,
que constarà d'una part de treball autònom individual i una part de treball en equip de 2/3
persones. Una part del temps de les classes de laboratori es dedicarà a l'orientació i
supervisió per part del professor d'aquests treballs autònoms i cooperatius.

Mètode d'avaluació

La nota (M) es calcula de la següent manera:

M = 0,20 * Quiz+ 0,30 * Pràctic + 0,5 * Teòric

on

* Quiz * es refereix a un Quiz amb preguntes teòriques i conceptuals sobre la primera part del curs
* Pràctic * fa referència a la implementació d'un algorisme RL sobre un problema realitzat a Python
* Teòric * es refereix a un estudi de l'estat de l'art en un treball de tema avançat que ha de triar l'estudiant

Bibliografia

Bàsic

Reinforcement learning : an introduction - Sutton, Richard S; Barto, Andrew G, The MIT Press, [2018]. ISBN: 9780262039246
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004166329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Deep reinforcement learning - Morales, M, Manning Publications, 2020. ISBN: 9781617295454
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004208939706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Complementari

Deep reinforcement learning in action - Zai, A.; Brown, B, Manning Publications Co., 2020. ISBN: 9781617295430
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004203829706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Web links

Master in Artificial Intelligence http://www.fib.upc.edu/en/masters/mai.html
Web page of the course with all materials. https://www.cs.upc.edu/~mmartin/ATCI-RL.html

Capacitats prèvies

Conceptes bàsics de Deep Learning.