Aprenentatge per Reforçament Avançat

Esteu aquí

Crèdits
6
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
Aquesta assignatura aprofundeix en la temàtica de l'aprenentatge per reforçament (RL) després de veure una introducció general en el curs APRNS. En el temari es fa èmfasi entre altres en tècniques que permeten accelerar el temps d'aprenentatge de polítiques i les tècniques que permeten aplicar-ho en problemes reals. S'explica també com es fa servir RL en casos que van des de l'aprenentatge de politiques superhumanes en jocs (com el Go), a l'aprenentatge de la coordinació de sistemes multi-agent, passant per la seva aplicació en el desenvolupament de models grans del llenguatge (LLMs).

Professorat

Responsable

  • Mario Martín Muñoz ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències Transversals

Transversals

  • CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.

Bàsiques

  • CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques

Específiques

  • CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
  • CE19 - Utilitzar els sistemes de computació actuals, inclosos sistemes d'alt rendiment, per al procés de grans volums de dades des del coneixement de la seva estructura, funcionament i particularitats.
  • CE22 - Representar, dissenyar i analitzar sistemes dinàmics. Adquirir conceptes com el seu observabilitat, estabilitat i controlabilitat.

Competències Tècniques Generals

Genèriques

  • CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.
  • CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
  • CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.

Objectius

  1. Ser conscient dels problemes en el disseny de funcions de reforçament i com solucionar-los
    Competències relacionades: CB5, CE18, CG4,
  2. Aprendre tècniques per accelerar l'aprenentatge per reforçament de manera que sigui viable en aplicacions reals.
    Competències relacionades: CB5, CT6, CG2, CG9,
  3. Entendre la problematica de l'aprenentatge simultani en sistemes multiagents i les tècniques que permeten aquest aprenentatge
    Competències relacionades: CG4, CE22,
  4. Aprendre com incorporar l'aprenentage a partir d'exemples per obtenir polítiques més bones que les que generen els exemples i per obtenir la funció de reforç oculta i darrera d'aquests exemples.
    Competències relacionades: CE19, CG2, CG4,

Continguts

  1. Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)
    La funció de reforç és crucial en RL però no sempre és facil de definir. En aquest tema es veu com obtenir una funció de reforç a partir d'exemples de comportament.
  2. Aprenent la funció de reforç amb un humà en el Loop (RLHF)
    En la definició de funcions de reforç complexes poder no tenim exemples de comportaments per aplicar-hi IRL. En aquest cas veurem com crear la funció de reforç amb el feedback d'humans (RLHF). Aquest mecanisme és la base de l'entrenament per alinear models del llenguatge com ChatGPT i altres.
  3. Aprenentatge per reforçament ajudat amb l'aprenentatge de models del món.
    L'aprenentatge per reforçament és lent. Per reduir el nombre d'interaccions amb l'entorn, una possibilitat és aprendre un model predictiu de l'entorn a partir de les interaccions amb ell i així poder generar experiències simulades de les quals es podria aprendre sense interaccionar tant amb el món real. En aquest tema es veu aquesta aproximació i les seves limitacions.
  4. Exploració bàsica i avançada en RL: implementant la curiositat
    Un element bàsic en RL és l'exploració que permet trobar millors polítiques. Els mètodes bàsics d'exploració consisteixen en prendre accions aleatòries, la qual cosa condueix a ineficiència i alentiment en l'aprenentatge. Hi ha maneres millors d'explorar noves opcions i en aquest tema es descriuen, passant per determinació d'incertesa en el coneixement après fins a la implementació de mètode de curiositat per millorar l'exploració.
  5. Aprenentage en sistemes Multiagents fent servir RL
    En RL es presuposa que l'entorn es markovià i que, per tant, els canvis en l'entorn només es produeixen per accions de l'agent que aprèn. Quan l'agent aprèn en un entorn on altres agents també actuen i aprenen, aquesta condició ja no es compleix i els algorismes de RL han d'adaptar-se. En aquest tema es veuen els mètodes més avançats d'aprenentatge per reforçament en sistemes multiagents, posant especial èmfasi en els problemes cooperatius.
  6. Competició en sistemes multiagent fent servir RL: AlfaGo i familia
    Un cas especial d'interacció en sistemes multiagents és la competició i, en especial, els jocs de suma zero. En aquest escenari, l'aprenentatge per reforçament ha portat al desenvolupament d'habilitats sobre-humanes en alguns casos, remarcablement el cas del joc del Go. En aquest tema veurem les tècniques de self-play i de MonteCarlo Tree Search que permeten desenvolupar aquestes habilitats.
  7. RL en funcions esparses de reforç: Polítiques condicionades i hindsight
    Sovint en RL la funció de reforç és esparsa (poc informativa). Això té com avantatge que les polítiques obtingudes no són esbiaixades, però alenteix l'aprenentatge. En aquest tema s'estudien les polítiques condicionades a l'objectiu i la tècnica de hindsight que s'han demostrat molt efectives per accelerar l'aprenentatge en aquests casos.
  8. Aprenentatge per reforçament off-line
    En algunes aplicacions tenim exemples de comportaments generats per humans o per altres polítiques. Una possibilitat per aprofitar aquestes dades és fer aprenentatge per imitació o aplicar IRL per aprendre d'exemples. Ara bé, la política obtinguda serà com a molt tant bona com la que genera els exemples. Podem obtenir polítiques millors que les que generen els exemples fent servir RL? Off-line RL aprofita la qualitat dels mètodes Off-policy per obtenir polítiques bones no amb les dades que ella mateixa genera sinó amb dades possiblement subòptimes generades per altres polítiques (els exemples)
  9. Aprenentatge curricular i jeràrquic
    En RL és sovint complicat aprendre tasques complexes des de zero. Una aproximació, alineada amb com els humans aprenem, consisteix en definir un currículum o jerarquia de tasques per aprendre de forma inicial abans d'intentar aprendre la tasca complexa per la qual l'agent no està preparat. En aquest tema es veurà com fer curriculum learning i aprenentatge jeràrquic en aquests casos.
  10. Transfer learning, Meta learning, Lifelong learning i AGI
    RL és una aproximació interessant a l'aprenentatge autònom per agents intel·ligents. Malgrat tot, per la seva naturalesa és enfocat a tasques concretes quan és sabut que un agent intel·ligent ha de resoldre diferents tasques. En aquest tema es planteja la interacció entre diferents tasques que s'han d'aprendre respecte a la transferència de coneixement d'una a una altre (Transfer learning), l'aprenentatge de tasques per millorar l'aprenentatge en tasques posteriors (Meta-Learning) i, finalment, respecte al manteniment del coneixement après durant la vida de l'agent (Life-long learning). Veurem com totes aquestes tècniques podrien empoderar l'agent i permetre una autèntica Intel·ligència Artificial General (AGI).

Activitats

Activitat Acte avaluatiu


Repàs ràpid dels fonaments, teoria i algorismes d'aprenentatge per reforçament



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Disseny de la funció de reforç: Aprenentatge per reforçament invers (IRL)


Objectius: 1
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Aprenent la funció de reforç amb un humà en el Loop


Objectius: 1
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Aprenentatge per reforçament off-line


Objectius: 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

RL en funcions esparses de reforç: Conditioned policies and hindsight


Objectius: 2
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Aprenentatge per reforçament ajudat amb l'aprenentatge de models


Objectius: 2
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Control primera part del curs



Setmana: 8 (Fora d'horari lectiu)
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Exploració avançada en RL: implementant la curiositat


Objectius: 2
Continguts:
Teoria
2h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Aprenentage en sistemes Multiagents fent servir RL


Objectius: 3
Continguts:
Teoria
4h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Competició en sistemes multiagent fent servir RL: AlfaGo i familia


Objectius: 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Aprenentatge curricular i jerarquic



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Transfer learning, Meta learning, Lifelong learning



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

RL i AGI



Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Control final


Objectius: 1 2 3 4
Setmana: 15 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Metodologia docent

Les classes estan dividides en sessions de teoria, problemes i laboratori.

A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.


A les classes de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries específiques que permetran practicar i reforçar els coneixements de les classes de teoria.

Mètode d'avaluació

L'assignatura comprendrà els següents actes avaluatoris:

- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.

- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.

- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.

Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:

0.4*L + 0.3*P1+0.3*P2

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

Coneixements bàsics de Deep Learning i d'Aprenentatge per Reforçament (haver cursat APRNS)