Crèdits
6
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
CS
Professorat
Responsable
- Mario Martín Muñoz (mmartin@cs.upc.edu)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Transversals
Bàsiques
Específiques
Genèriques
Objectius
-
Ser conscient dels problemes en el disseny de funcions de reforçament i com solucionar-los
Competències relacionades: CG4, CB5, CE18, -
Aprendre tècniques per accelerar l'aprenentatge per reforçament de manera que sigui viable en aplicacions reals.
Competències relacionades: CG2, CG9, CT6, CB5, -
Entendre la problematica de l'aprenentatge simultani en sistemes multiagents i les tècniques que permeten aquest aprenentatge
Competències relacionades: CG4, CE22, -
Aprendre com incorporar l'aprenentage a partir d'exemples per obtenir polítiques més bones que les que generen els exemples i per obtenir la funció de reforç oculta i darrera d'aquests exemples.
Competències relacionades: CG2, CG4, CE19,
Continguts
-
Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)
La funció de reforç és crucial en RL però no sempre és facil de definir. En aquest tema es veu com obtenir una funció de reforç a partir d'exemples de comportament. -
Aprenent la funció de reforç amb un humà en el Loop (RLHF)
En la definició de funcions de reforç complexes poder no tenim exemples de comportaments per aplicar-hi IRL. En aquest cas veurem com crear la funció de reforç amb el feedback d'humans (RLHF). Aquest mecanisme és la base de l'entrenament per alinear models del llenguatge com ChatGPT i altres. -
Aprenentatge per reforçament ajudat amb l'aprenentatge de models del món.
L'aprenentatge per reforçament és lent. Per reduir el nombre d'interaccions amb l'entorn, una possibilitat és aprendre un model predictiu de l'entorn a partir de les interaccions amb ell i així poder generar experiències simulades de les quals es podria aprendre sense interaccionar tant amb el món real. En aquest tema es veu aquesta aproximació i les seves limitacions. -
Exploració bàsica i avançada en RL: implementant la curiositat
Un element bàsic en RL és l'exploració que permet trobar millors polítiques. Els mètodes bàsics d'exploració consisteixen en prendre accions aleatòries, la qual cosa condueix a ineficiència i alentiment en l'aprenentatge. Hi ha maneres millors d'explorar noves opcions i en aquest tema es descriuen, passant per determinació d'incertesa en el coneixement après fins a la implementació de mètode de curiositat per millorar l'exploració. -
Aprenentage en sistemes Multiagents fent servir RL
En RL es presuposa que l'entorn es markovià i que, per tant, els canvis en l'entorn només es produeixen per accions de l'agent que aprèn. Quan l'agent aprèn en un entorn on altres agents també actuen i aprenen, aquesta condició ja no es compleix i els algorismes de RL han d'adaptar-se. En aquest tema es veuen els mètodes més avançats d'aprenentatge per reforçament en sistemes multiagents, posant especial èmfasi en els problemes cooperatius. -
Competició en sistemes multiagent fent servir RL: AlfaGo i familia
Un cas especial d'interacció en sistemes multiagents és la competició i, en especial, els jocs de suma zero. En aquest escenari, l'aprenentatge per reforçament ha portat al desenvolupament d'habilitats sobre-humanes en alguns casos, remarcablement el cas del joc del Go. En aquest tema veurem les tècniques de self-play i de MonteCarlo Tree Search que permeten desenvolupar aquestes habilitats. -
RL en funcions esparses de reforç: Polítiques condicionades i hindsight
Sovint en RL la funció de reforç és esparsa (poc informativa). Això té com avantatge que les polítiques obtingudes no són esbiaixades, però alenteix l'aprenentatge. En aquest tema s'estudien les polítiques condicionades a l'objectiu i la tècnica de hindsight que s'han demostrat molt efectives per accelerar l'aprenentatge en aquests casos. -
Aprenentatge per reforçament off-line
En algunes aplicacions tenim exemples de comportaments generats per humans o per altres polítiques. Una possibilitat per aprofitar aquestes dades és fer aprenentatge per imitació o aplicar IRL per aprendre d'exemples. Ara bé, la política obtinguda serà com a molt tant bona com la que genera els exemples. Podem obtenir polítiques millors que les que generen els exemples fent servir RL? Off-line RL aprofita la qualitat dels mètodes Off-policy per obtenir polítiques bones no amb les dades que ella mateixa genera sinó amb dades possiblement subòptimes generades per altres polítiques (els exemples) -
Aprenentatge curricular i jeràrquic
En RL és sovint complicat aprendre tasques complexes des de zero. Una aproximació, alineada amb com els humans aprenem, consisteix en definir un currículum o jerarquia de tasques per aprendre de forma inicial abans d'intentar aprendre la tasca complexa per la qual l'agent no està preparat. En aquest tema es veurà com fer curriculum learning i aprenentatge jeràrquic en aquests casos. -
Transfer learning, Meta learning, Lifelong learning i AGI
RL és una aproximació interessant a l'aprenentatge autònom per agents intel·ligents. Malgrat tot, per la seva naturalesa és enfocat a tasques concretes quan és sabut que un agent intel·ligent ha de resoldre diferents tasques. En aquest tema es planteja la interacció entre diferents tasques que s'han d'aprendre respecte a la transferència de coneixement d'una a una altre (Transfer learning), l'aprenentatge de tasques per millorar l'aprenentatge en tasques posteriors (Meta-Learning) i, finalment, respecte al manteniment del coneixement après durant la vida de l'agent (Life-long learning). Veurem com totes aquestes tècniques podrien empoderar l'agent i permetre una autèntica Intel·ligència Artificial General (AGI).
Activitats
Activitat Acte avaluatiu
Repàs ràpid dels fonaments, teoria i algorismes d'aprenentatge per reforçament
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Control primera part del curs
Setmana: 8 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Teoria
2h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h
Teoria
4h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h
Teoria
2h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h
Aprenentatge curricular i jerarquic
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Transfer learning, Meta learning, Lifelong learning
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
RL i AGI
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Metodologia docent
Les classes estan dividides en sessions de teoria, problemes i laboratori.A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.
A les classes de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries específiques que permetran practicar i reforçar els coneixements de les classes de teoria.
Mètode d'avaluació
L'assignatura comprendrà els següents actes avaluatoris:- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.
- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.
- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.
Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:
0.4*L + 0.3*P1+0.3*P2
Bibliografia
Bàsic
-
Deep reinforcement learning in action
- Zai, Alexander; Brown, Brandon,
Manning Publications Co,
2020.
ISBN: 9781617295430
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004203829706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Deep Reinforcement Learning Hands-On: apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more
- Lapam, Maxim,
Packt Publishing,
2020.
ISBN: 9781838820046
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=6034344 -
Multi-Agent Reinforcement Learning Foundations and Modern Approaches
- Albrecht, Stefano V.; Christianos, Filippos; Schäfer, Lukas,
MIT Press,
2024.
ISBN: 9780262049375
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005317955806711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementari
-
Mastering reinforcement learning with Python : build next-generation, self-learning models using reinforcement learning techniques and best practices
- Bilgin, Enes,
Packt Publishing,
[2020].
ISBN: 9781838644147
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004957196306711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Web links
- Pàgina web on trobar les transparències i els materials del laboratori https://sites.google.com/upc.edu/ara