Aprenentatge per Reforçament Avançat

Hores setmanals
Competències
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Web links
Capacitats prèvies

Crèdits

Tipus

Optativa

Requisits

Aquesta assignatura no té requisits, però té capacitats prèvies

Departament

Web

https://sites.google.com/upc.edu/ara

Aquesta assignatura aprofundeix en la temàtica de l'aprenentatge per reforçament (RL) després de veure una introducció general en el curs APRNS. En el temari es fa èmfasi entre altres en tècniques que permeten accelerar el temps d'aprenentatge de polítiques i les tècniques que permeten aplicar-ho en problemes reals. S'explica també com es fa servir RL en casos que van des de l'aprenentatge de politiques superhumanes en jocs (com el Go), a l'aprenentatge de la coordinació de sistemes multi-agent, passant per la seva aplicació en el desenvolupament de models grans del llenguatge (LLMs).

Professorat

Responsable

Mario Martín Muñoz ( )

Hores setmanals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Competències

Competències Transversals

Transversals

CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.

Bàsiques

CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques

Específiques

CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
CE19 - Utilitzar els sistemes de computació actuals, inclosos sistemes d'alt rendiment, per al procés de grans volums de dades des del coneixement de la seva estructura, funcionament i particularitats.
CE22 - Representar, dissenyar i analitzar sistemes dinàmics. Adquirir conceptes com el seu observabilitat, estabilitat i controlabilitat.

Competències Tècniques Generals

Genèriques

CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.
CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.

Objectius

Ser conscient dels problemes en el disseny de funcions de reforçament i com solucionar-los
Competències relacionades: CG4, CB5, CE18,
Aprendre tècniques per accelerar l'aprenentatge per reforçament de manera que sigui viable en aplicacions reals.
Competències relacionades: CG2, CG9, CT6, CB5,
Entendre la problematica de l'aprenentatge simultani en sistemes multiagents i les tècniques que permeten aquest aprenentatge
Competències relacionades: CG4, CE22,
Aprendre com incorporar l'aprenentage a partir d'exemples per obtenir polítiques més bones que les que generen els exemples i per obtenir la funció de reforç oculta i darrera d'aquests exemples.
Competències relacionades: CG2, CG4, CE19,

Continguts

Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)
La funció de reforç és crucial en RL però no sempre és facil de definir. En aquest tema es veu com obtenir una funció de reforç a partir d'exemples de comportament.
Aprenent la funció de reforç amb un humà en el Loop (RLHF)
En la definició de funcions de reforç complexes poder no tenim exemples de comportaments per aplicar-hi IRL. En aquest cas veurem com crear la funció de reforç amb el feedback d'humans (RLHF). Aquest mecanisme és la base de l'entrenament per alinear models del llenguatge com ChatGPT i altres.
Aprenentatge per reforçament ajudat amb l'aprenentatge de models del món.
L'aprenentatge per reforçament és lent. Per reduir el nombre d'interaccions amb l'entorn, una possibilitat és aprendre un model predictiu de l'entorn a partir de les interaccions amb ell i així poder generar experiències simulades de les quals es podria aprendre sense interaccionar tant amb el món real. En aquest tema es veu aquesta aproximació i les seves limitacions.
Exploració bàsica i avançada en RL: implementant la curiositat
Un element bàsic en RL és l'exploració que permet trobar millors polítiques. Els mètodes bàsics d'exploració consisteixen en prendre accions aleatòries, la qual cosa condueix a ineficiència i alentiment en l'aprenentatge. Hi ha maneres millors d'explorar noves opcions i en aquest tema es descriuen, passant per determinació d'incertesa en el coneixement après fins a la implementació de mètode de curiositat per millorar l'exploració.
Aprenentage en sistemes Multiagents fent servir RL
En RL es presuposa que l'entorn es markovià i que, per tant, els canvis en l'entorn només es produeixen per accions de l'agent que aprèn. Quan l'agent aprèn en un entorn on altres agents també actuen i aprenen, aquesta condició ja no es compleix i els algorismes de RL han d'adaptar-se. En aquest tema es veuen els mètodes més avançats d'aprenentatge per reforçament en sistemes multiagents, posant especial èmfasi en els problemes cooperatius.
Competició en sistemes multiagent fent servir RL: AlfaGo i familia
Un cas especial d'interacció en sistemes multiagents és la competició i, en especial, els jocs de suma zero. En aquest escenari, l'aprenentatge per reforçament ha portat al desenvolupament d'habilitats sobre-humanes en alguns casos, remarcablement el cas del joc del Go. En aquest tema veurem les tècniques de self-play i de MonteCarlo Tree Search que permeten desenvolupar aquestes habilitats.
RL en funcions esparses de reforç: Polítiques condicionades i hindsight
Sovint en RL la funció de reforç és esparsa (poc informativa). Això té com avantatge que les polítiques obtingudes no són esbiaixades, però alenteix l'aprenentatge. En aquest tema s'estudien les polítiques condicionades a l'objectiu i la tècnica de hindsight que s'han demostrat molt efectives per accelerar l'aprenentatge en aquests casos.
Aprenentatge per reforçament off-line
En algunes aplicacions tenim exemples de comportaments generats per humans o per altres polítiques. Una possibilitat per aprofitar aquestes dades és fer aprenentatge per imitació o aplicar IRL per aprendre d'exemples. Ara bé, la política obtinguda serà com a molt tant bona com la que genera els exemples. Podem obtenir polítiques millors que les que generen els exemples fent servir RL? Off-line RL aprofita la qualitat dels mètodes Off-policy per obtenir polítiques bones no amb les dades que ella mateixa genera sinó amb dades possiblement subòptimes generades per altres polítiques (els exemples)
Aprenentatge curricular i jeràrquic
En RL és sovint complicat aprendre tasques complexes des de zero. Una aproximació, alineada amb com els humans aprenem, consisteix en definir un currículum o jerarquia de tasques per aprendre de forma inicial abans d'intentar aprendre la tasca complexa per la qual l'agent no està preparat. En aquest tema es veurà com fer curriculum learning i aprenentatge jeràrquic en aquests casos.
Transfer learning, Meta learning, Lifelong learning i AGI
RL és una aproximació interessant a l'aprenentatge autònom per agents intel·ligents. Malgrat tot, per la seva naturalesa és enfocat a tasques concretes quan és sabut que un agent intel·ligent ha de resoldre diferents tasques. En aquest tema es planteja la interacció entre diferents tasques que s'han d'aprendre respecte a la transferència de coneixement d'una a una altre (Transfer learning), l'aprenentatge de tasques per millorar l'aprenentatge en tasques posteriors (Meta-Learning) i, finalment, respecte al manteniment del coneixement après durant la vida de l'agent (Life-long learning). Veurem com totes aquestes tècniques podrien empoderar l'agent i permetre una autèntica Intel·ligència Artificial General (AGI).

Activitats

Activitat Acte avaluatiu

Repàs ràpid dels fonaments, teoria i algorismes d'aprenentatge per reforçament

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)

Objectius: 1
Continguts:

1 . Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenent la funció de reforç amb un humà en el Loop

Objectius: 1
Continguts:

2 . Aprenent la funció de reforç amb un humà en el Loop (RLHF)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforçament off-line

Objectius: 4
Continguts:

8 . Aprenentatge per reforçament off-line

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

RL en funcions esparses de reforç: Conditioned policies and hindsight

Objectius: 2
Continguts:

7 . RL en funcions esparses de reforç: Polítiques condicionades i hindsight

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforçament ajudat amb l'aprenentatge de models

Objectius: 2
Continguts:

3 . Aprenentatge per reforçament ajudat amb l'aprenentatge de models del món.

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Armed bandits

Objectius: 2
Continguts:

4 . Exploració bàsica i avançada en RL: implementant la curiositat

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Control primera part del curs

Setmana: 8 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Exploració avançada en RL: implementant la curiositat

Objectius: 2
Continguts:

4 . Exploració bàsica i avançada en RL: implementant la curiositat

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Aprenentage en sistemes Multiagents fent servir RL

Objectius: 3
Continguts:

5 . Aprenentage en sistemes Multiagents fent servir RL

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Competició en sistemes multiagent fent servir RL: AlfaGo i familia

Objectius: 3
Continguts:

6 . Competició en sistemes multiagent fent servir RL: AlfaGo i familia

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Aprenentatge curricular i jerarquic

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Transfer learning, Meta learning, Lifelong learning

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

RL i AGI

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Control final

Objectius: 1 2 3 4
Setmana: 15 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Metodologia docent

Les classes estan dividides en sessions de teoria, problemes i laboratori.

A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.

A les classes de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries específiques que permetran practicar i reforçar els coneixements de les classes de teoria.

Mètode d'avaluació

L'assignatura comprendrà els següents actes avaluatoris:

- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.

- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.

- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.

Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:

0.4*L + 0.3*P1+0.3*P2

Bibliografia

Bàsica:

Deep reinforcement learning in action - Zai, Alexander; Brown, Brandon, Manning Publications Co, 2020. ISBN: 9781617295430
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004203829706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Deep Reinforcement Learning Hands-On: apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more - Lapam, Maxim, Packt Publishing, 2020. ISBN: 9781838820046
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=6034344
Multi-Agent Reinforcement Learning Foundations and Modern Approaches - Albrecht, Stefano V.; Christianos, Filippos; Schäfer, Lukas, MIT Press, 2024. ISBN: 9780262049375
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005317955806711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Complementaria:

Mastering reinforcement learning with Python : build next-generation, self-learning models using reinforcement learning techniques and best practices - Bilgin, Enes, Packt Publishing , [2020]. ISBN: 9781838644147
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004957196306711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Web links

Pàgina web on trobar les transparències i els materials del laboratori https://sites.google.com/upc.edu/ara

Capacitats prèvies

Coneixements bàsics de Deep Learning i d'Aprenentatge per Reforçament (haver cursat APRNS)

Aprenentatge per Reforçament Avançat

Professorat

Responsable

Hores setmanals

Competències

Competències Transversals

Transversals

Bàsiques

Competències Tècniques

Específiques

Competències Tècniques Generals

Genèriques

Objectius

Continguts

Activitats

Repàs ràpid dels fonaments, teoria i algorismes d'aprenentatge per reforçament

Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)

Aprenent la funció de reforç amb un humà en el Loop

Aprenentatge per reforçament off-line

RL en funcions esparses de reforç: Conditioned policies and hindsight

Aprenentatge per reforçament ajudat amb l'aprenentatge de models

Armed bandits

Control primera part del curs

Exploració avançada en RL: implementant la curiositat

Aprenentage en sistemes Multiagents fent servir RL

Competició en sistemes multiagent fent servir RL: AlfaGo i familia

Aprenentatge curricular i jerarquic

Transfer learning, Meta learning, Lifelong learning

RL i AGI

Control final

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

On som

Contacta amb la FIB

Aprenentatge per Reforçament Avançat

Esteu aquí

Professorat

Responsable

Hores setmanals

Competències

Competències Transversals

Transversals

Bàsiques

Competències Tècniques

Específiques

Competències Tècniques Generals

Genèriques

Objectius

Continguts

Activitats

Repàs ràpid dels fonaments, teoria i algorismes d'aprenentatge per reforçament

Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)

Aprenent la funció de reforç amb un humà en el Loop

Aprenentatge per reforçament off-line

RL en funcions esparses de reforç: Conditioned policies and hindsight

Aprenentatge per reforçament ajudat amb l'aprenentatge de models

Armed bandits

Control primera part del curs

Exploració avançada en RL: implementant la curiositat

Aprenentage en sistemes Multiagents fent servir RL

Competició en sistemes multiagent fent servir RL: AlfaGo i familia

Aprenentatge curricular i jerarquic

Transfer learning, Meta learning, Lifelong learning

RL i AGI

Control final

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

On som

Contacta amb la FIB