Conceptes Avançats en Intel·ligència Computacional

Esteu aquí

Crèdits
4
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
Mail
L'objectiu d'aquest curs és introduir i aprofundir en el marc d'aprenentatge per reforçament on l'agent aprèn el comportament adequat per resoldre els seus objectius a partir d'interaccions directes de l'agent amb l'entorn i sense coneixement previ del món.

Específicament, el curs iniciarà introduint els conceptes més bàsics d'aprenentatge per reforç fins a arribar als algoritmes més moderns que són estat de l'art. A continuació el curs aprofundirà en diferents tècniques avançades que intenten ampliar el marc descrit a (1) un aprenentatge més eficient a partir de tècniques d'exploració i de modelització de l'entorn, (2) a un aprenentatge continu de l'agent a diferents tasques necessari per a una Intel·ligència Artificial General i (3) l'aprenentatge automàtic de comportaments en sistemes multi-agents sigui ja en entorns cooperatius o competitius.

En acabar, l'estudiant coneixerà l'estat de l'art en l'aprenentatge per reforçament i els dominis on és adient aplicar-lo, i haurà implementat diferents algoritmes en els entorns de programació més actuals en l'àrea.

Professors

Responsable

  • Mario Martín Muñoz ( )

Altres

  • Enrique Romero Merino ( )
  • Luis Antonio Belanche Muñoz ( )
  • Maria Angela Nebot Castells ( )
  • René Alquezar Mancho ( )

Hores setmanals

Teoria
1.8
Problemes
0
Laboratori
0.9
Aprenentatge dirigit
0.3
Aprenentatge autònom
5

Competències

Competències Tècniques Generals

Genèriques

  • CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.
  • CG4 - Capacitat per a la direcció general, direcció tècnica i direcció de projectes de recerca, desenvolupament i innovació en empreses i centres tecnològics, en l'àmbit de la Intel·ligència Artificial.

Competències Tècniques de cada especialitat

Acadèmiques

  • CEA3 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques principals d'Aprenentatge Automàtic, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.
  • CEA9 - Capacitat de comprendre les tècniques avançades de Sistemes Multiagents, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.
  • CEA11 - Capacitat de comprendre les tècniques avançades d'Intel·ligència Computacional, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.

Professionals

  • CEP2 - Capacitat de resoldre els problemes de presa de decisions de les diferents organitzacions, integrant eines intel·ligents.
  • CEP3 - Capacitat d'aplicació de les tècniques d'Intel·ligència Artificial en entorns tecnològics i industrials per a la millora de la qualitat i la productivitat.
  • CEP8 - Capacitat de respectar l'entorn ambiental i dissenyar i desenvolupar sistemes intel·ligents sostenibles.

Competències Transversals

Treball en equip

  • CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.

Objectius

  1. Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
    Competències relacionades: CEA3, CEA11, CG3, CG4,
  2. Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
    Competències relacionades: CEA3, CEA11, CEP2, CEP3,
  3. Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
    Competències relacionades: CEA3, CEA11, CG3, CG4,
  4. Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
    Competències relacionades: CG4, CEP2, CEP3, CEP8, CT3,
  5. Conèixer i entendre les tècniques més avançades i recents en el camp dels sistemes Multi-Agent per aprendre a cooperar o competir.
    Competències relacionades: CEA9, CG4, CEP2, CEP3, CEP8, CT3,
  6. Comprendre les dificultats i les ineficiències de l'enfocament d'aprenentatge de reforç i proposar les tècniques i enfocaments que els podrien resoldre
    Competències relacionades: CEA11, CG3, CG4, CEP3, CEP8,

Continguts

  1. Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
    Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
  2. Trobant polítiques òptimes mitjançant la programació dinàmica
    Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
  3. Introducció als enfocaments sense models del món.
    Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
  4. Aproximació de funcions a l'aprenentatge de reforç
    La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
  5. Aprenentatge per reforç profund (DRL)
    Revolució a RL introduint Deep Learning. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
  6. Mètodes del gradient en la política
    Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
  7. Temes avançats: Aprenentatge de reforç basat en models (MBRL)
    Separar l'aprenentatge de la política de l'aprenentatge d'un model de món té alguns avantatges i alguns problemes. Eficiència de l'aprenentatge en RL per al·lucinació i imaginació.
  8. Temes avançats: Com tractar el problema del reforç espars
    El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
  9. Temes avançats: Cap a l'aprenentatge continu la vida als agents
    És RL un camí per obtenir una Intel·ligència Artificial General? Aprenentatge multitasca en RL, Transferència d'aprenentatge en RL i Meta-aprenentatge en RL. Enfocaments d'última generació.
  10. Aprenentatge de reforç en el marc multi-agent
    Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

Activitats

Activitat Acte avaluatiu


Introducció, motivació i exemples d'aplicacions amb èxit a RL

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
Objectius: 1 2
Continguts:
Teoria
1h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Definició del marc RL. Elements clau a RL. Trobar la política òptima mitjançant la Iteració de valor i la Iteració de polítiques

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 1 2 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Desenvolupament del tema corresponent de l'assignatura
Objectius: 1 2 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Aproximación de funciones en RL

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
Objectius: 3 6 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h

Aprenentatge per reforç profund

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 3 6 4
Continguts:
Teoria
3h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Mètodes del gradient en la política

Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
Objectius: 3 6
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
9h


Examen final


Objectius: 1 2 3 5 6 4
Setmana: 15 (Fora d'horari lectiu)
Tipus: examen final
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
3h
Aprenentatge autònom
4h

Estudi de l'estat de l'art en un treball de tema avançat


Objectius: 5 6 4
Setmana: 11
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Teoria
6h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

RL multiagent


Objectius: 5
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Metodologia docent

Les classes de teoria introdueixen tots els coneixements, les tècniques i els conceptes
necessaris que es posen en pràctica en les classes de laboratori. Les classes de teoria seran
majoritàriament del tipus classe magistral, però algunes d'elles poden ser del tipus classe
expositiva participativa, amb participació dels estudiants en la resolució de problemes o exercicis.

Les classes de laboratori tenen com a objectiu que els estudiants treballin amb eines de
programari que permeten aplicar les tècniques presentades a teoria a problemes reals.
Els estudiants usaran aquestes eines per desenvolupar el seu treball pràctic de l'assignatura,
que constarà d'una part de treball autònom individual i una part de treball en equip de 2/3
persones. Una part del temps de les classes de laboratori es dedicarà a l'orientació i
supervisió per part del professor d'aquests treballs autònoms i cooperatius.

Mètode d'avaluació

La marca (M) es calcula de la següent manera:

M = 0,20 * Concurs + 0,30 * Pràctic + 0,5 * Teòric

on

* Quiz * es refereix a un Quiz amb preguntes teòriques i conceptuals sobre la primera part del curs
* Pràctic * fa referència a la implementació d'un algorisme RL sobre un problema realitzat a Python
* Teòric * es refereix a un estudi de l'estat de l'art en un treball de tema avançat que ha de triar l'estudiant

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

Conceptes bàsics de Deep Learning.

Addenda

Continguts

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT

Metodologia docent

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT. Si no es poden realitzar classes presencials, es penjaran vídeos amb els continguts de les mateixes.

Mètode d'avaluació

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT.

Pla de contingència

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT