Conceptes Avançats en Intel·ligència Computacional

Hores setmanals
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Web links
Capacitats prèvies

Crèdits

Tipus

Optativa

Requisits

Aquesta assignatura no té requisits, però té capacitats prèvies

Departament

Web

https://www.cs.upc.edu/~mmartin/ATCI-RL.html

Mail

L'objectiu d'aquest curs és introduir i aprofundir en el marc d'aprenentatge per reforçament on l'agent aprèn el comportament adequat per resoldre els seus objectius a partir d'interaccions directes de l'agent amb l'entorn i sense coneixement previ del món.

Específicament, el curs iniciarà introduint els conceptes més bàsics d'aprenentatge per reforç fins a arribar als algoritmes més moderns que són estat de l'art. A continuació el curs aprofundirà en diferents tècniques avançades que intenten ampliar el marc descrit a (1) un aprenentatge més eficient a partir de tècniques d'exploració i de modelització de l'entorn, (2) a un aprenentatge continu de l'agent a diferents tasques necessari per a una Intel·ligència Artificial General i (3) l'aprenentatge automàtic de comportaments en sistemes multi-agents sigui ja en entorns cooperatius o competitius.

En acabar, l'estudiant coneixerà l'estat de l'art en l'aprenentatge per reforçament i els dominis on és adient aplicar-lo, i haurà implementat diferents algoritmes en els entorns de programació més actuals en l'àrea.

Professorat

Responsable

Mario Martín Muñoz ( )

Hores setmanals

Teoria

1.8

Problemes

Laboratori

0.9

Aprenentatge dirigit

0.3

Aprenentatge autònom

Objectius

Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
Competències relacionades: CEA11, CEA3, CG3, CG4,
Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
Competències relacionades: CEA11, CEA3, CEP2, CEP3,
Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
Competències relacionades: CEA11, CEA3, CG3, CG4,
Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
Competències relacionades: CT3, CEP2, CEP3, CEP8, CG4,
Conèixer i entendre les tècniques més avançades i recents en el camp dels sistemes Multi-Agent per aprendre a cooperar o competir.
Competències relacionades: CT3, CEA9, CEP2, CEP3, CEP8, CG4,
Comprendre les dificultats i les ineficiències de l'enfocament d'aprenentatge de reforç i proposar les tècniques i enfocaments que els podrien resoldre
Competències relacionades: CEA11, CEP3, CEP8, CG3, CG4,

Continguts

Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
Trobant polítiques òptimes mitjançant la programació dinàmica
Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
Introducció als enfocaments sense models del món.
Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
Aproximació de funcions a l'aprenentatge de reforç
La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
Aprenentatge per reforç profund (DRL)
Revolució a RL introduint Deep Learning. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
Temes avançats: Aprenentatge de reforç basat en models (MBRL)
Separar l'aprenentatge de la política de l'aprenentatge d'un model de món té alguns avantatges i alguns problemes. Eficiència de l'aprenentatge en RL per al·lucinació i imaginació.
Mètodes del gradient en la política
Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
Temes avançats: Com tractar el problema del reforç espars
El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
Temes avançats: Cap a l'aprenentatge continu la vida als agents
És RL un camí per obtenir una Intel·ligència Artificial General? Aprenentatge multitasca en RL, Transferència d'aprenentatge en RL i Meta-aprenentatge en RL. Enfocaments d'última generació.
Aprenentatge de reforç en el marc multi-agent
Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

Activitats

Activitat Acte avaluatiu

Introducció, motivació i exemples d'aplicacions amb èxit a RL

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
Objectius: 1 2
Continguts:

1 . Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Definició del marc RL. Elements clau a RL. Trobar la política òptima mitjançant la Iteració de valor i la Iteració de polítiques

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 1 2 3
Continguts:

1 . Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Desenvolupament del tema corresponent de l'assignatura
Objectius: 1 2 3
Continguts:

3 . Introducció als enfocaments sense models del món.

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aproximación de funciones en RL

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
Objectius: 3 6 4
Continguts:

4 . Aproximació de funcions a l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforç profund

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 3 6 4
Continguts:

5 . Aprenentatge per reforç profund (DRL)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Mètodes del gradient en la política

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 3 6
Continguts:

7 . Mètodes del gradient en la política

Teoria

Problemes

Laboratori

0.5h

Aprenentatge dirigit

Aprenentatge autònom

Treballs pràctics dirigits

Objectius: 2 5 4
Continguts:

1 . Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
2 . Trobant polítiques òptimes mitjançant la programació dinàmica
3 . Introducció als enfocaments sense models del món.
4 . Aproximació de funcions a l'aprenentatge de reforç
5 . Aprenentatge per reforç profund (DRL)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Examen final

Objectius: 1 2 3 5 6 4
Setmana: 15 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Estudi de l'estat de l'art en un treball de tema avançat

Objectius: 5 6 4
Setmana: 11

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Temes avançats sobre aprenentatge del comportament: augment de l'eficiència de la mostra

Objectius: 3 6 4
Continguts:

6 . Temes avançats: Aprenentatge de reforç basat en models (MBRL)
8 . Temes avançats: Com tractar el problema del reforç espars
9 . Temes avançats: Cap a l'aprenentatge continu la vida als agents

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

RL multiagent

Objectius: 5
Continguts:

10 . Aprenentatge de reforç en el marc multi-agent

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Metodologia docent

Les classes de teoria introdueixen tots els coneixements, les tècniques i els conceptes
necessaris que es posen en pràctica en les classes de laboratori. Les classes de teoria seran
majoritàriament del tipus classe magistral, però algunes d'elles poden ser del tipus classe
expositiva participativa, amb participació dels estudiants en la resolució de problemes o exercicis.

Les classes de laboratori tenen com a objectiu que els estudiants treballin amb eines de
programari que permeten aplicar les tècniques presentades a teoria a problemes reals.
Els estudiants usaran aquestes eines per desenvolupar el seu treball pràctic de l'assignatura,
que constarà d'una part de treball autònom individual i una part de treball en equip de 2/3
persones. Una part del temps de les classes de laboratori es dedicarà a l'orientació i
supervisió per part del professor d'aquests treballs autònoms i cooperatius.

Mètode d'avaluació

La marca (M) es calcula de la següent manera:

M = 0,20 * Quiz+ 0,30 * Pràctic + 0,5 * Teòric

on

* Quiz * es refereix a un Quiz amb preguntes teòriques i conceptuals sobre la primera part del curs
* Pràctic * fa referència a la implementació d'un algorisme RL sobre un problema realitzat a Python
* Teòric * es refereix a un estudi de l'estat de l'art en un treball de tema avançat que ha de triar l'estudiant

Bibliografia

Bàsica:

Reinforcement learning : an introduction - Sutton, Richard S; Barto, Andrew G, The MIT Press, [2018]. ISBN: 9780262039246
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004166329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Deep reinforcement learning - Morales, M, Manning Publications, 2020. ISBN: 9781617295454
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004208939706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Complementaria:

Deep reinforcement learning in action - Zai, A.; Brown, B, Manning Publications Co. , 2020. ISBN: 9781617295430
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004203829706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Web links

Master in Artificial Intelligence http://www.fib.upc.edu/en/masters/mai.html
Web page of the course with all materials. https://www.cs.upc.edu/~mmartin/ATCI-RL.html

Capacitats prèvies

Conceptes bàsics de Deep Learning.

Conceptes Avançats en Intel·ligència Computacional

Professorat

Responsable

Hores setmanals

Objectius

Continguts

Activitats

Introducció, motivació i exemples d'aplicacions amb èxit a RL

Definició del marc RL. Elements clau a RL. Trobar la política òptima mitjançant la Iteració de valor i la Iteració de polítiques

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Aproximación de funciones en RL

Aprenentatge per reforç profund

Mètodes del gradient en la política

Treballs pràctics dirigits

Examen final

Estudi de l'estat de l'art en un treball de tema avançat

Temes avançats sobre aprenentatge del comportament: augment de l'eficiència de la mostra

RL multiagent

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

On som

Contacta amb la FIB

Conceptes Avançats en Intel·ligència Computacional

Esteu aquí

Professorat

Responsable

Hores setmanals

Objectius

Continguts

Activitats

Introducció, motivació i exemples d'aplicacions amb èxit a RL

Definició del marc RL. Elements clau a RL. Trobar la política òptima mitjançant la Iteració de valor i la Iteració de polítiques

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Aproximación de funciones en RL

Aprenentatge per reforç profund

Mètodes del gradient en la política

Treballs pràctics dirigits

Examen final

Estudi de l'estat de l'art en un treball de tema avançat

Temes avançats sobre aprenentatge del comportament: augment de l'eficiència de la mostra

RL multiagent

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

On som

Contacta amb la FIB