Aprenentatge per Reforç i No Supervisat

Crèdits

Tipus

Obligatòria

Requisits

Aquesta assignatura no té requisits , però té capacitats prèvies

Departament

Web

https://sites.google.com/upc.edu/aprns

Aquest curs cobreix dos àrees importants de l'aprenentatge automàtic: l'aprenentatge no supervisat i l'aprenentatge per reforç. L'aprenentatge no supervisat és un tipus d'aprenentatge automàtic en què l'algorisme aprèn patrons i estructures a partir de dades no etiquetades, mentre que l'aprenentatge per reforç és un tipus d'aprenentatge automàtic en què l'algorisme aprèn a través de recompenses o càstigs.

El curs començarà amb una introducció als conceptes i algorismes fonamentals de l'aprenentatge no supervisat profund, com ara els autocodificadors, les xarxes adversàries o de difusio. Després, el curs passarà a l'aprenentatge per reforç, cobrint conceptes com ara els processos de decisió de Markov, el Q-learning i els mètodes de gradient de política. El curs també explorarà les últimes investigacions en aquests camps, incloent-hi l'aprenentatge per reforç profund i l'aprenentatge profund no supervisat.

Al final del curs, els estudiants tindran una base sòlida en l'aprenentatge no supervisat i per reforç, i seran capaços d'aplicar aquestes tècniques a problemes del món real.

Professorat

Responsable

Javier Béjar Alonso ( bejar@cs.upc.edu )
Mario Martín Muñoz ( mmartin@cs.upc.edu )

Hores setmanals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Competències

Competències Transversals

Transversals

CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.

Bàsiques

CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques

Específiques

CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.

Competències Tècniques Generals

Genèriques

CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.

CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.

Objectius

Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
Competències relacionades: CG2, CT6, CE18,
Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
Competències relacionades: CG2, CE18,
Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
Competències relacionades: CG4, CE18,
Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
Competències relacionades: CG2, CG4, CT6, CE18,
Coneixer els problemes que es poden modelitzar amb algoritmes no supervisats produnds
Competències relacionades: CG2, CT6, CE18,
Entendre les particularitats dels algoritmes no supervisats profunds
Competències relacionades: CG4, CT6, CE18,
Coneixer els algoritmes mes importants i l'estat de l'art del aprenentatge no supervisat profund
Competències relacionades: CG2, CT6, CB5, CE18,
Saber implementar i aplicar a un problema algoritmes d'aprenentatge profund fent servir el entorn mes actuals
Competències relacionades: CG2, CT6, CB5, CE18,

Continguts

Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
Trobant polítiques òptimes mitjançant la programació dinàmica
Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
Introducció als enfocaments sense models del món.
Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
Aproximació de funcions en aprenentatge per reforçament
La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
Aprenentatge per reforç profund (DRL)
Introducció de DL a RL. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
Mètodes del gradient en la política
Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
Temes avançats: Com tractar el problema del reforç espars
El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
Temes avançats: Aprenentatge de reforç en el marc multi-agent
Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.
Introducció: L'aprenentatge no supervisat profund
Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions
Models autoregressius
Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models
Fluxes normalitzants
Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat
Models de variables latents
Introducció als models basats en variables latents i als autocodificadors variacionals
Xarxes adversàries generatives
Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs
Xarxes de difusió
Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal
Aprenentatge per autosupervisió
Introducció al aprenentatge per autosupervisión pel entrenament de xarxes generadores de característiques, mètodes contrastius i no contrastius, enmascarament

Activitats

Activitat Acte avaluatiu

Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Trobant polítiques òptimes mitjançant la programació dinàmica

Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Desenvolupament del tema corresponent de l'assignatura

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aproximació de funciones en RL

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforç profund

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Mètodes del gradient en la política

Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Temes avançats: Com tractar el problema del reforç espars

El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Temes avançats: Aprenentatge de reforç en el marc multi-agent

Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Control de la part d'aprenentatge per reforçament

Objectius: 3 4 2 1
Setmana: 8 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Introducció: L'aprenentatge no supervisat profund

Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Models autoregressius

Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Fluxes normalitzants

Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Models de variables latents

Introducció als models basats en variables latents i als autocodificadors variacionals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Xarxes adversàries generatives

Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Xarxes de difusió i Aprenentatge per autosupervisió

Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Control del temari d'aprenentatge no supervisat

Objectius: 5 6 7 8
Setmana: 15 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Metodologia docent

Les clases estan dividides en sessions de teoria, problemes i laboratori.

A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.

A les clases de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries especifiques que permetran practicar i reforçar els coneixements de les classes de teoria.

Mètode d'avaluació

L'assignatura comprendrà els següents actes avaluatoris:

- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.

- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.

- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.

Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:

0.4*L + 0.3*P1+0.3*P2

Només es poden presentar a la reavaluació aquelles persones que, havent-se presentat a l'examen final l'hagin suspès. La nota màxima que es pot obtenir a la reavaluació és un 7.

Bibliografia

Bàsic

Reinforcement learning : an introduction - Sutton, Richard S; Barto, Andrew G, The MIT Press, [2020]. ISBN: 9780262039246
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004166329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Grokking deep reinforcement learning - Morales, Miguel, Manning Publications, 2020. ISBN: 9781617295454
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004208939706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Generative deep learning: teaching machines to paint, write, compose, and play - Foster, D, O'Reilly Media, Incorporated, 2023. ISBN: 9781098134143
Hands-on image generation with TensorFlow: a practical guide to generating images and videos using deep learning - Cheong, S.Y, Packt Publishing, 2020. ISBN: 9781838821104

Complementari

Deep reinforcement learning in action - Zai, Alexander; Brown, Brandon, Manning Publications Co, 2020. ISBN: 9781617295430
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004203829706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Generative AI with Python and TensorFlow 2: harness the power of generative models to create images, text, and music - Babcock, J.; Bali, R, Packt Publishing, 2021. ISBN: 9781800208506

Capacitats prèvies

Coneixements bàsics de Deep Learning i de Machine Learning.