Vés al contingut

Aprenentatge per Reforç

Crèdits
4
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
CS
Web
https://www.cs.upc.edu/~mmartin/RL-MAI.html
Mail
mmartin@cs.upc.edu
L'objectiu d'aquest curs és introduir i aprofundir en el marc d'aprenentatge per reforçament on l'agent aprèn el comportament adequat per resoldre els seus objectius a partir d'interaccions directes de l'agent amb l'entorn i sense coneixement previ del món.

Específicament, el curs iniciarà introduint els conceptes més bàsics d'aprenentatge per reforç fins a arribar als algoritmes més moderns que són estat de l'art. A continuació el curs aprofundirà en diferents tècniques avançades que intenten ampliar el marc descrit a (1) un aprenentatge més eficient a partir de tècniques d'exploració i de modelització de l'entorn, (2) a un aprenentatge continu de l'agent a diferents tasques necessari per a una Intel·ligència Artificial General i (3) l'aprenentatge automàtic de comportaments en sistemes multi-agents sigui ja en entorns cooperatius o competitius.

En acabar, l'estudiant coneixerà l'estat de l'art en l'aprenentatge per reforçament i els dominis on és adient aplicar-lo, i haurà implementat diferents algoritmes en els entorns de programació més actuals en l'àrea.

Professorat

Responsable

Hores setmanals

Teoria
2
Problemes
0
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
5.33

Competències

Genèriques

  • CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.
  • CG4 - Capacitat per a la direcció general, direcció tècnica i direcció de projectes de recerca, desenvolupament i innovació en empreses i centres tecnològics, en l'àmbit de la Intel·ligència Artificial.
  • Acadèmiques

  • CEA3 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques principals d'Aprenentatge Automàtic, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.
  • CEA9 - Capacitat de comprendre les tècniques avançades de Sistemes Multiagents, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.
  • CEA11 - Capacitat de comprendre les tècniques avançades d'Intel·ligència Computacional, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.
  • Professionals

  • CEP2 - Capacitat de resoldre els problemes de presa de decisions de les diferents organitzacions, integrant eines intel·ligents.
  • CEP3 - Capacitat d'aplicació de les tècniques d'Intel·ligència Artificial en entorns tecnològics i industrials per a la millora de la qualitat i la productivitat.
  • CEP8 - Capacitat de respectar l'entorn ambiental i dissenyar i desenvolupar sistemes intel·ligents sostenibles.
  • Treball en equip

  • CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.
  • Objectius

    1. Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
      Competències relacionades: CEA11, CEA3, CG3, CG4,
    2. Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
      Competències relacionades: CEP2, CEP3, CEP8, CG4, CT3,
    3. Conèixer i entendre les tècniques més avançades i recents en el camp dels sistemes Multi-Agent per aprendre a cooperar o competir.
      Competències relacionades: CEA9, CEP2, CEP3, CEP8, CG4, CT3,
    4. Comprendre les dificultats i les ineficiències de l'enfocament d'aprenentatge de reforç i proposar les tècniques i enfocaments que els podrien resoldre
      Competències relacionades: CEP3, CEP8, CG3, CG4, CEA11,
    5. Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
      Competències relacionades: CEA11, CEA3, CG3, CG4,
    6. Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
      Competències relacionades: CEA11, CEA3, CEP2, CEP3,

    Continguts

    1. Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
      Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
    2. Trobant polítiques òptimes mitjançant la programació dinàmica
      Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
    3. Introducció als enfocaments sense models del món.
      Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
    4. Aproximació de funcions a l'aprenentatge de reforç
      La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
    5. Aprenentatge per reforç profund (DRL)
      Revolució a RL introduint Deep Learning. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
    6. Mètodes del gradient en la política
      Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
    7. Temes avançats: Com tractar el problema del reforç espars
      El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
    8. Temes avançats: Aprenentatge de reforç basat en models (MBRL)
      Separar l'aprenentatge de la política de l'aprenentatge d'un model de món té alguns avantatges i alguns problemes. Eficiència de l'aprenentatge en RL per al·lucinació i imaginació.
    9. Temes avançats: Cap a l'aprenentatge continu la vida als agents
      És RL un camí per obtenir una Intel·ligència Artificial General? Aprenentatge multitasca en RL, Transferència d'aprenentatge en RL i Meta-aprenentatge en RL. Enfocaments d'última generació.
    10. Aprenentatge de reforç en el marc multi-agent
      Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

    Activitats

    Activitat Acte avaluatiu


    Introducció, motivació i exemples d'aplicacions amb èxit a RL

    Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
    Objectius: 6 5
    Continguts:
    Teoria
    1h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    1h

    Definició del marc RL. Elements clau a RL. Trobar la política òptima mitjançant la Iteració de valor i la Iteració de polítiques

    Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
    Objectius: 1 6 5
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    1h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

    Desenvolupament del tema corresponent de l'assignatura
    Objectius: 1 6 5
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    1h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Aproximació de funcions en RL

    Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori.
    Objectius: 1 2 4
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    1h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    2h

    Aprenentatge per reforç profund

    Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
    Objectius: 1 2 4
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    1h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    8h

    Mètodes del gradient en la política

    Desenvolupament del tema corresponent de l'assignatura i exercicis de laboratori
    Objectius: 1 4
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    9h


    Examen final



    Setmana: 15
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Estudi de l'estat de l'art en un treball de tema avançat



    Setmana: 11
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Temes avançats sobre aprenentatge del comportament: augment de l'eficiència de la mostra



    Teoria
    6h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    8h

    RL multiagent


    Objectius: 3
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Metodologia docent

    Les classes de teoria introdueixen tots els coneixements, les tècniques i els conceptes
    necessaris que es posen en pràctica en les classes de laboratori. Les classes de teoria seran
    majoritàriament del tipus classe magistral, però algunes d'elles poden ser del tipus classe
    expositiva participativa, amb participació dels estudiants en la resolució de problemes o exercicis.

    Les classes de laboratori tenen com a objectiu que els estudiants treballin amb eines de
    programari que permeten aplicar les tècniques presentades a teoria a problemes reals.
    Els estudiants usaran aquestes eines per desenvolupar el seu treball pràctic de l'assignatura,
    que constarà d'una part de treball autònom individual i una part de treball en equip de 2/3
    persones. Una part del temps de les classes de laboratori es dedicarà a l'orientació i
    supervisió per part del professor d'aquests treballs autònoms i cooperatius.

    Mètode d'avaluació

    La nota (M) es calcula de la següent manera:

    M = 0,20 * Quiz+ 0,30 * Pràctic + 0,5 * Teòric

    on

    * Quiz * es refereix a un Quiz amb preguntes teòriques i conceptuals sobre la primera part del curs
    * Pràctic * fa referència a la implementació d'un algorisme RL sobre un problema realitzat a Python
    * Teòric * es refereix a un estudi de l'estat de l'art en un treball de tema avançat que ha de triar l'estudiant

    Bibliografia

    Bàsic

    Complementari

    Web links

    Capacitats prèvies

    Conceptes bàsics de Deep Learning.