Aquesta assignatura aprofundeix en la temàtica de l'aprenentatge per reforçament (RL) després de veure una introducció general en el curs APRNS. En el temari es fa èmfasi entre altres en tècniques que permeten accelerar el temps d'aprenentatge de polítiques i les tècniques que permeten aplicar-ho en problemes reals. S'explica també com es fa servir RL en casos que van des de l'aprenentatge de politiques superhumanes en jocs (com el Go), a l'aprenentatge de la coordinació de sistemes multi-agent, passant per la seva aplicació en el desenvolupament de models grans del llenguatge (LLMs).
Professorat
Responsable
Mario Martín Muñoz (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Competències Transversals
Transversals
CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.
Bàsiques
CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia
Competències Tècniques
Específiques
CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
CE19 - Utilitzar els sistemes de computació actuals, inclosos sistemes d'alt rendiment, per al procés de grans volums de dades des del coneixement de la seva estructura, funcionament i particularitats.
CE22 - Representar, dissenyar i analitzar sistemes dinàmics. Adquirir conceptes com el seu observabilitat, estabilitat i controlabilitat.
Competències Tècniques Generals
Genèriques
CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.
CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.
Objectius
Ser conscient dels problemes en el disseny de funcions de reforçament i com solucionar-los
Competències relacionades:
CB5,
CE18,
CG4,
Aprendre tècniques per accelerar l'aprenentatge per reforçament de manera que sigui viable en aplicacions reals.
Competències relacionades:
CB5,
CT6,
CG2,
CG9,
Entendre la problematica de l'aprenentatge simultani en sistemes multiagents i les tècniques que permeten aquest aprenentatge
Competències relacionades:
CG4,
CE22,
Aprendre com incorporar l'aprenentage a partir d'exemples per obtenir polítiques més bones que les que generen els exemples i per obtenir la funció de reforç oculta i darrera d'aquests exemples.
Competències relacionades:
CE19,
CG2,
CG4,
Continguts
Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)
La funció de reforç és crucial en RL però no sempre és facil de definir. En aquest tema es veu com obtenir una funció de reforç a partir d'exemples de comportament.
Aprenent la funció de reforç amb un humà en el Loop (RLHF)
En la definició de funcions de reforç complexes poder no tenim exemples de comportaments per aplicar-hi IRL. En aquest cas veurem com crear la funció de reforç amb el feedback d'humans (RLHF). Aquest mecanisme és la base de l'entrenament per alinear models del llenguatge com ChatGPT i altres.
Aprenentatge per reforçament ajudat amb l'aprenentatge de models del món.
L'aprenentatge per reforçament és lent. Per reduir el nombre d'interaccions amb l'entorn, una possibilitat és aprendre un model predictiu de l'entorn a partir de les interaccions amb ell i així poder generar experiències simulades de les quals es podria aprendre sense interaccionar tant amb el món real. En aquest tema es veu aquesta aproximació i les seves limitacions.
Exploració bàsica i avançada en RL: implementant la curiositat
Un element bàsic en RL és l'exploració que permet trobar millors polítiques. Els mètodes bàsics d'exploració consisteixen en prendre accions aleatòries, la qual cosa condueix a ineficiència i alentiment en l'aprenentatge. Hi ha maneres millors d'explorar noves opcions i en aquest tema es descriuen, passant per determinació d'incertesa en el coneixement après fins a la implementació de mètode de curiositat per millorar l'exploració.
Aprenentage en sistemes Multiagents fent servir RL
En RL es presuposa que l'entorn es markovià i que, per tant, els canvis en l'entorn només es produeixen per accions de l'agent que aprèn. Quan l'agent aprèn en un entorn on altres agents també actuen i aprenen, aquesta condició ja no es compleix i els algorismes de RL han d'adaptar-se. En aquest tema es veuen els mètodes més avançats d'aprenentatge per reforçament en sistemes multiagents, posant especial èmfasi en els problemes cooperatius.
Competició en sistemes multiagent fent servir RL: AlfaGo i familia
Un cas especial d'interacció en sistemes multiagents és la competició i, en especial, els jocs de suma zero. En aquest escenari, l'aprenentatge per reforçament ha portat al desenvolupament d'habilitats sobre-humanes en alguns casos, remarcablement el cas del joc del Go. En aquest tema veurem les tècniques de self-play i de MonteCarlo Tree Search que permeten desenvolupar aquestes habilitats.
RL en funcions esparses de reforç: Polítiques condicionades i hindsight
Sovint en RL la funció de reforç és esparsa (poc informativa). Això té com avantatge que les polítiques obtingudes no són esbiaixades, però alenteix l'aprenentatge. En aquest tema s'estudien les polítiques condicionades a l'objectiu i la tècnica de hindsight que s'han demostrat molt efectives per accelerar l'aprenentatge en aquests casos.
Aprenentatge per reforçament off-line
En algunes aplicacions tenim exemples de comportaments generats per humans o per altres polítiques. Una possibilitat per aprofitar aquestes dades és fer aprenentatge per imitació o aplicar IRL per aprendre d'exemples. Ara bé, la política obtinguda serà com a molt tant bona com la que genera els exemples. Podem obtenir polítiques millors que les que generen els exemples fent servir RL? Off-line RL aprofita la qualitat dels mètodes Off-policy per obtenir polítiques bones no amb les dades que ella mateixa genera sinó amb dades possiblement subòptimes generades per altres polítiques (els exemples)
Aprenentatge curricular i jeràrquic
En RL és sovint complicat aprendre tasques complexes des de zero. Una aproximació, alineada amb com els humans aprenem, consisteix en definir un currículum o jerarquia de tasques per aprendre de forma inicial abans d'intentar aprendre la tasca complexa per la qual l'agent no està preparat. En aquest tema es veurà com fer curriculum learning i aprenentatge jeràrquic en aquests casos.
Transfer learning, Meta learning, Lifelong learning i AGI
RL és una aproximació interessant a l'aprenentatge autònom per agents intel·ligents. Malgrat tot, per la seva naturalesa és enfocat a tasques concretes quan és sabut que un agent intel·ligent ha de resoldre diferents tasques. En aquest tema es planteja la interacció entre diferents tasques que s'han d'aprendre respecte a la transferència de coneixement d'una a una altre (Transfer learning), l'aprenentatge de tasques per millorar l'aprenentatge en tasques posteriors (Meta-Learning) i, finalment, respecte al manteniment del coneixement après durant la vida de l'agent (Life-long learning). Veurem com totes aquestes tècniques podrien empoderar l'agent i permetre una autèntica Intel·ligència Artificial General (AGI).
Activitats
ActivitatActe avaluatiu
Repàs ràpid dels fonaments, teoria i algorismes d'aprenentatge per reforçament
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)
Les classes estan dividides en sessions de teoria, problemes i laboratori.
A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.
A les classes de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries específiques que permetran practicar i reforçar els coneixements de les classes de teoria.
Mètode d'avaluació
L'assignatura comprendrà els següents actes avaluatoris:
- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.
- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.
- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.
Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà: