Vés al contingut

Aprenentatge per Reforç i No Supervisat

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
CS
Web
https://sites.google.com/upc.edu/aprns
Aquest curs cobreix dos àrees importants de l'aprenentatge automàtic: l'aprenentatge no supervisat i l'aprenentatge per reforç. L'aprenentatge no supervisat és un tipus d'aprenentatge automàtic en què l'algorisme aprèn patrons i estructures a partir de dades no etiquetades, mentre que l'aprenentatge per reforç és un tipus d'aprenentatge automàtic en què l'algorisme aprèn a través de recompenses o càstigs.

El curs començarà amb una introducció als conceptes i algorismes fonamentals de l'aprenentatge no supervisat profund, com ara els autocodificadors, les xarxes adversàries o de difusio. Després, el curs passarà a l'aprenentatge per reforç, cobrint conceptes com ara els processos de decisió de Markov, el Q-learning i els mètodes de gradient de política. El curs també explorarà les últimes investigacions en aquests camps, incloent-hi l'aprenentatge per reforç profund i l'aprenentatge profund no supervisat.

Al final del curs, els estudiants tindran una base sòlida en l'aprenentatge no supervisat i per reforç, i seran capaços d'aplicar aquestes tècniques a problemes del món real.

Professorat

Responsable

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Transversals

  • CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.
  • Bàsiques

  • CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia
  • Específiques

  • CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
  • Genèriques

  • CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.
  • CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
  • Objectius

    1. Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
      Competències relacionades: CG2, CT6, CE18,
    2. Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
      Competències relacionades: CG2, CE18,
    3. Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
      Competències relacionades: CG4, CE18,
    4. Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
      Competències relacionades: CG2, CG4, CT6, CE18,
    5. Coneixer els problemes que es poden modelitzar amb algoritmes no supervisats produnds
      Competències relacionades: CG2, CT6, CE18,
    6. Entendre les particularitats dels algoritmes no supervisats profunds
      Competències relacionades: CG4, CT6, CE18,
    7. Coneixer els algoritmes mes importants i l'estat de l'art del aprenentatge no supervisat profund
      Competències relacionades: CG2, CT6, CB5, CE18,
    8. Saber implementar i aplicar a un problema algoritmes d'aprenentatge profund fent servir el entorn mes actuals
      Competències relacionades: CG2, CT6, CB5, CE18,

    Continguts

    1. Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
      Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
    2. Trobant polítiques òptimes mitjançant la programació dinàmica
      Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
    3. Introducció als enfocaments sense models del món.
      Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
    4. Aproximació de funcions en aprenentatge per reforçament
      La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
    5. Aprenentatge per reforç profund (DRL)
      Introducció de DL a RL. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
    6. Mètodes del gradient en la política
      Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
    7. Temes avançats: Com tractar el problema del reforç espars
      El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
    8. Temes avançats: Aprenentatge de reforç en el marc multi-agent
      Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.
    9. Introducció: L'aprenentatge no supervisat profund
      Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions
    10. Models autoregressius
      Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models
    11. Fluxes normalitzants
      Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat
    12. Models de variables latents
      Introducció als models basats en variables latents i als autocodificadors variacionals
    13. Xarxes adversàries generatives
      Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs
    14. Xarxes de difusió
      Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal
    15. Aprenentatge per autosupervisió
      Introducció al aprenentatge per autosupervisión pel entrenament de xarxes generadores de característiques, mètodes contrastius i no contrastius, enmascarament

    Activitats

    Activitat Acte avaluatiu


    Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç



    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Trobant polítiques òptimes mitjançant la programació dinàmica

    Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

    Desenvolupament del tema corresponent de l'assignatura

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Aproximació de funciones en RL



    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Aprenentatge per reforç profund



    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Mètodes del gradient en la política

    Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Temes avançats: Com tractar el problema del reforç espars

    El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Temes avançats: Aprenentatge de reforç en el marc multi-agent

    Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    9h

    Control de la part d'aprenentatge per reforçament


    Objectius: 3 4 2 1
    Setmana: 8 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Introducció: L'aprenentatge no supervisat profund

    Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Models autoregressius

    Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Fluxes normalitzants

    Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Models de variables latents

    Introducció als models basats en variables latents i als autocodificadors variacionals

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Xarxes adversàries generatives

    Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs

    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Xarxes de difusió i Aprenentatge per autosupervisió

    Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal

    Teoria
    2h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    9h

    Control del temari d'aprenentatge no supervisat


    Objectius: 5 6 7 8
    Setmana: 15 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    Les clases estan dividides en sessions de teoria, problemes i laboratori.

    A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.


    A les clases de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries especifiques que permetran practicar i reforçar els coneixements de les classes de teoria.

    Mètode d'avaluació

    L'assignatura comprendrà els següents actes avaluatoris:

    - Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.

    - Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.

    - En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.

    Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:

    0.4*L + 0.3*P1+0.3*P2


    Només es poden presentar a la reavaluació aquelles persones que, havent-se presentat a l'examen final l'hagin suspès. La nota màxima que es pot obtenir a la reavaluació és un 7.

    Bibliografia

    Bàsic

    Complementari

    Capacitats prèvies

    Coneixements bàsics de Deep Learning i de Machine Learning.