L'objectiu d'aquest curs és introduir i aprofundir en el marc d'aprenentatge per reforçament on l'agent aprèn el comportament adequat per resoldre els seus objectius a partir d'interaccions directes de l'agent amb l'entorn i sense coneixement previ del món.
Específicament, el curs iniciarà introduint els conceptes més bàsics d'aprenentatge per reforç fins a arribar als algoritmes més moderns que són estat de l'art. A continuació el curs aprofundirà en diferents tècniques avançades que intenten ampliar el marc descrit a (1) un aprenentatge més eficient a partir de tècniques d'exploració i de modelització de l'entorn, (2) a un aprenentatge continu de l'agent a diferents tasques necessari per a una Intel·ligència Artificial General i (3) l'aprenentatge automàtic de comportaments en sistemes multi-agents sigui ja en entorns cooperatius o competitius.
En acabar, l'estudiant coneixerà l'estat de l'art en l'aprenentatge per reforçament i els dominis on és adient aplicar-lo, i haurà implementat diferents algoritmes en els entorns de programació més actuals en l'àrea.
Professorat
Responsable
Mario Martín Muñoz (
)
Hores setmanals
Teoria
1.8
Problemes
0
Laboratori
0.9
Aprenentatge dirigit
0.3
Aprenentatge autònom
5
Competències
Competències Tècniques Generals
Genèriques
CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.
CG4 - Capacitat per a la direcció general, direcció tècnica i direcció de projectes de recerca, desenvolupament i innovació en empreses i centres tecnològics, en l'àmbit de la Intel·ligència Artificial.
Competències Tècniques de cada especialitat
Acadèmiques
CEA3 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques principals d'Aprenentatge Automàtic, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.
CEA9 - Capacitat de comprendre les tècniques avançades de Sistemes Multiagents, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.
CEA11 - Capacitat de comprendre les tècniques avançades d'Intel·ligència Computacional, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.
Professionals
CEP2 - Capacitat de resoldre els problemes de presa de decisions de les diferents organitzacions, integrant eines intel·ligents.
CEP3 - Capacitat d'aplicació de les tècniques d'Intel·ligència Artificial en entorns tecnològics i industrials per a la millora de la qualitat i la productivitat.
CEP8 - Capacitat de respectar l'entorn ambiental i dissenyar i desenvolupar sistemes intel·ligents sostenibles.
Competències Transversals
Treball en equip
CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.
Objectius
Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
Competències relacionades:
CEA3,
CEA11,
CG3,
CG4,
Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
Competències relacionades:
CEA3,
CEA11,
CEP2,
CEP3,
Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
Competències relacionades:
CEA3,
CEA11,
CG3,
CG4,
Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
Competències relacionades:
CG4,
CEP2,
CEP3,
CEP8,
CT3,
Conèixer i entendre les tècniques més avançades i recents en el camp dels sistemes Multi-Agent per aprendre a cooperar o competir.
Competències relacionades:
CEA9,
CG4,
CEP2,
CEP3,
CEP8,
CT3,
Comprendre les dificultats i les ineficiències de l'enfocament d'aprenentatge de reforç i proposar les tècniques i enfocaments que els podrien resoldre
Competències relacionades:
CEA11,
CG3,
CG4,
CEP3,
CEP8,
Continguts
Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
Trobant polítiques òptimes mitjançant la programació dinàmica
Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
Introducció als enfocaments sense models del món.
Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
Aproximació de funcions a l'aprenentatge de reforç
La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
Aprenentatge per reforç profund (DRL)
Revolució a RL introduint Deep Learning. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
Temes avançats: Aprenentatge de reforç basat en models (MBRL)
Separar l'aprenentatge de la política de l'aprenentatge d'un model de món té alguns avantatges i alguns problemes. Eficiència de l'aprenentatge en RL per al·lucinació i imaginació.
Mètodes del gradient en la política
Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
Temes avançats: Com tractar el problema del reforç espars
El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
Temes avançats: Cap a l'aprenentatge continu la vida als agents
És RL un camí per obtenir una Intel·ligència Artificial General? Aprenentatge multitasca en RL, Transferència d'aprenentatge en RL i Meta-aprenentatge en RL. Enfocaments d'última generació.
Aprenentatge de reforç en el marc multi-agent
Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.
Activitats
ActivitatActe avaluatiu
Introducció, motivació i exemples d'aplicacions amb èxit a RL
Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori. Objectius:12 Continguts:
Les classes de teoria introdueixen tots els coneixements, les tècniques i els conceptes
necessaris que es posen en pràctica en les classes de laboratori. Les classes de teoria seran
majoritàriament del tipus classe magistral, però algunes d'elles poden ser del tipus classe
expositiva participativa, amb participació dels estudiants en la resolució de problemes o exercicis.
Les classes de laboratori tenen com a objectiu que els estudiants treballin amb eines de
programari que permeten aplicar les tècniques presentades a teoria a problemes reals.
Els estudiants usaran aquestes eines per desenvolupar el seu treball pràctic de l'assignatura,
que constarà d'una part de treball autònom individual i una part de treball en equip de 2/3
persones. Una part del temps de les classes de laboratori es dedicarà a l'orientació i
supervisió per part del professor d'aquests treballs autònoms i cooperatius.
Mètode d'avaluació
La marca (M) es calcula de la següent manera:
M = 0,20 * Quiz+ 0,30 * Pràctic + 0,5 * Teòric
on
* Quiz * es refereix a un Quiz amb preguntes teòriques i conceptuals sobre la primera part del curs
* Pràctic * fa referència a la implementació d'un algorisme RL sobre un problema realitzat a Python
* Teòric * es refereix a un estudi de l'estat de l'art en un treball de tema avançat que ha de triar l'estudiant