Aquest curs cobreix dos àrees importants de l'aprenentatge automàtic: l'aprenentatge no supervisat i l'aprenentatge per reforç. L'aprenentatge no supervisat és un tipus d'aprenentatge automàtic en què l'algorisme aprèn patrons i estructures a partir de dades no etiquetades, mentre que l'aprenentatge per reforç és un tipus d'aprenentatge automàtic en què l'algorisme aprèn a través de recompenses o càstigs.
El curs començarà amb una introducció als conceptes i algorismes fonamentals de l'aprenentatge no supervisat profund, com ara els autocodificadors, les xarxes adversàries o de difusio. Després, el curs passarà a l'aprenentatge per reforç, cobrint conceptes com ara els processos de decisió de Markov, el Q-learning i els mètodes de gradient de política. El curs també explorarà les últimes investigacions en aquests camps, incloent-hi l'aprenentatge per reforç profund i l'aprenentatge profund no supervisat.
Al final del curs, els estudiants tindran una base sòlida en l'aprenentatge no supervisat i per reforç, i seran capaços d'aplicar aquestes tècniques a problemes del món real.
Professorat
Responsable
Javier Béjar Alonso (
)
Mario Martín Muñoz (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Competències Transversals
Transversals
CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.
Bàsiques
CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia
Competències Tècniques
Específiques
CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
Competències Tècniques Generals
Genèriques
CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.
CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
Objectius
Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
Competències relacionades:
CG2,
CT6,
CE18,
Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
Competències relacionades:
CG2,
CE18,
Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
Competències relacionades:
CG4,
CE18,
Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
Competències relacionades:
CG2,
CG4,
CT6,
CE18,
Coneixer els problemes que es poden modelitzar amb algoritmes no supervisats produnds
Competències relacionades:
CG2,
CT6,
CE18,
Entendre les particularitats dels algoritmes no supervisats profunds
Competències relacionades:
CG4,
CT6,
CE18,
Coneixer els algoritmes mes importants i l'estat de l'art del aprenentatge no supervisat profund
Competències relacionades:
CG2,
CT6,
CB5,
CE18,
Saber implementar i aplicar a un problema algoritmes d'aprenentatge profund fent servir el entorn mes actuals
Competències relacionades:
CG2,
CT6,
CB5,
CE18,
Continguts
Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
Trobant polítiques òptimes mitjançant la programació dinàmica
Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
Introducció als enfocaments sense models del món.
Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
Aproximació de funcions en aprenentatge per reforçament
La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
Aprenentatge per reforç profund (DRL)
Introducció de DL a RL. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
Mètodes del gradient en la política
Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
Temes avançats: Com tractar el problema del reforç espars
El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
Temes avançats: Aprenentatge de reforç en el marc multi-agent
Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.
Introducció: L'aprenentatge no supervisat profund
Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions
Models autoregressius
Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models
Fluxes normalitzants
Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat
Models de variables latents
Introducció als models basats en variables latents i als autocodificadors variacionals
Xarxes adversàries generatives
Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs
Xarxes de difusió
Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal
Aprenentatge per autosupervisió
Introducció al aprenentatge per autosupervisión pel entrenament de xarxes generadores de característiques, mètodes contrastius i no contrastius, enmascarament
Activitats
ActivitatActe avaluatiu
Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Trobant polítiques òptimes mitjançant la programació dinàmica
Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)
Desenvolupament del tema corresponent de l'assignatura
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Aproximació de funciones en RL
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Aprenentatge per reforç profund
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Mètodes del gradient en la política
Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Temes avançats: Com tractar el problema del reforç espars
El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Temes avançats: Aprenentatge de reforç en el marc multi-agent
Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.
Les clases estan dividides en sessions de teoria, problemes i laboratori.
A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.
A les clases de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries especifiques que permetran practicar i reforçar els coneixements de les classes de teoria.
Mètode d'avaluació
L'assignatura comprendrà els següents actes avaluatoris:
- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.
- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.
- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.
Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:
0.4*L + 0.3*P1+0.3*P2
Només es poden presentar a la reavaluació aquelles persones que, havent-se presentat a l'examen final l'hagin suspès. La nota màxima que es pot obtenir a la reavaluació és un 7.
Generative deep learning: teaching machines to paint, write, compose, and play -
Foster, D,
O'Reilly Media, Incorporated, 2023. ISBN: 9781098134143
Hands-on image generation with TensorFlow: a practical guide to generating images and videos using deep learning -
Cheong, S.Y,
Packt Publishing, 2020. ISBN: 9781838821104
Generative AI with Python and TensorFlow 2: harness the power of generative models to create images, text, and music -
Babcock, J.; Bali, R, Packt Publishing ,
2021.
ISBN: 9781800208506
Capacitats prèvies
Coneixements bàsics de Deep Learning i de Machine Learning.