Sistemes Intel·ligents Distribuïts

Esteu aquí

Crèdits
6
Tipus
  • GIA: Optativa
  • GRAU: Complementària d'especialitat (Computació)
Requisits
  • Prerequisit: IA
Departament
CS
Mail
Hi ha dos objectius en aquest curs: en primer lloc, proveïr els estudiants dels coneixements matemàtics i computacionals suficients per analitzar sistemes distribuïts intel·ligents mitjançant models adequats, i en segon lloc, il·lustrar diverses estratègies de coordinació i mostrar com implementar-les i optimitzar-les. El curs s'estructura en una combinació de classes teòriques i exercicis de laboratori fent servir plataformes reals de hardware i de simulació. Es tracten els següents temes: 1) introducció als concepts claus com per exemple el concepte d'auto-organització i a les eines de software i hardware utilitzats durant el curs, 2) exemples de sistemes intel•ligents distribuïts naturals, artificials i híbrids, 3) conceptes d'aprenentatge automàtic: tècniques mono- i multi-agents, i 4) estratègies de coordinació i control distribuït.

Professorat

Responsable

  • Sergio Álvarez Napagao ( )

Altres

  • Javier Vazquez Salceda ( )
  • Ramon Sangüesa Sole ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències Transversals

Treball en equip

  • G5 [Avaluable] - Ser capaç de treballar com a membre d'un equip, ja sigui com a un membre més, ja sigui realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes d'una manera pragmàtica i amb sentit de la responsabilitat; assumir compromisos tenint en compte els recursos disponibles.
    • G5.3 - Identificar els rols, les habilitats i les carències dels diferents membres del grup. Proposar millores en l'estructura del grup. Interactuar amb eficàcia i professionalitat. Negociar i gestionar conflictes en el grup. Reconèixer i donar suport o assumir el paper de líder en el grup de treball. Avaluar i presentar els resultats del treball de grup. Representar el grup en negociacions amb terceres persones. Capacitat de col·laborar en un entorn multidisciplinar. Conèixer i saber aplicar les tècniques per a promoure la creativitat.

Competències Tècniques de cada especialitat

Especialitat computació

  • CCO2 - Desenvolupar de forma efectiva i eficient els algorismes i el software apropiats per a resoldre problemes complexos de computació.
    • CCO2.1 - Demostrar coneixement dels fonaments, dels paradigmes i de les tècniques pròpies dels sistemes intel·ligents, i analitzar, dissenyar i construir sistemes, serveis i aplicacions informàtiques que utilitzin aquestes tècniques en qualsevol àmbit d'aplicació.
    • CCO2.2 - Capacitat per a adquirir, obtenir, formalitzar i representar el coneixement humà d'una forma computable per a la resolució de problemes mitjançant un sistema informàtic en qualsevol àmbit d'aplicació, particularment en els que estan relacionats amb aspectes de computació, percepció i actuació en ambients o entorns intel·ligents.

Objectius

  1. Conèixer el conceptes bàsics d'Intel.ligencia Artificial Distribuïda
    Competències relacionades: G9.1, CCO2.1, CCO2.2,
  2. Conèixer el paradigma d'agent intel·ligent com a peça clau en la construcció de sistemes multiagent
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  3. Conèixer els models lògics i computacionals que permeten la construcció d'agents orientats a objectius
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  4. Conèixer els models lògics i computacionals que permeten la construcció d'agents dirigits per utilitat
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  5. Conèixer les diferents metodologies, algoritmes i tecnologies per aconseguir entrenar agents mitjançant aprenentatge per reforç
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  6. Aprendre els conceptes bàsics de la teoria de jocs i la seva relació amb els sistemes multiagents
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  7. Aprendre diferents metodologies i algoritmes de cooperació per a agents en un sistema multiagent
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  8. Conèixer diverses metodologies i algoritmes per la competició entre agents en un sistema multiagent
    Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  9. Entendre els aspectes més rellevants del camp del Disseny de Mecanismes
    Competències relacionades: G9.1, CCO2.1,
  10. Conèixer i entendre les implicacions socials i ètiques de la Intel·ligència Artificial aplicada a sistemes capaços de prendre decisions de manera autònoma
    Competències relacionades: G9.1, CCO2.1,

Continguts

  1. Introducció: sistemes distribuïts intel·ligents
    Perspectives sobre la Intel·ligència Artificial.
    Introducció als sistemes computacionals distribuïts.
    Paradigma d'arquitectura cognitiva i visió històrica.
    Introducció als sistemes multiagents.
  2. Agents intel·ligents
    Definició d'agent intel·ligent.
    Racionalitat.
    Racionalitat limitada.
    Definició d'entorn.
    Propietats d'un entorn.
    Arquitectures d'agent intel·ligent: reactiu, deliberatiu guiat per objectius, deliberatiu guiat per utilitat, adaptatiu.
  3. Agents guiats per objectius
    Què és un agent lògic-simbòlic.
    Lògica modal.
    Lògica de mons possibles.
    Lògica modal alètica, doxàstica, epistèmica.
    Raonament pràctic guiat per objectius: l'agent com a sistema intencional.
    Implementació d'un agent guiat per objectius: bucle de control d'agent.
    Gestió del compromís respecte un objectiu (commitments).
    Lògica BDI (Belief-Desire-Intention).
  4. Ontologies
    Representar el món: ontologia i epistemologia.
    El triangle semiòtic.
    Elements d'una ontologia.
    Llenguatges de representació: OWL i RDF.
    Grafs de coneixement.
    Raonament ontològic.
    Lògica descriptiva: ABox, TBox.
  5. Agents guiats per utilitat
    Objectius vs utilitat.
    Definició d'utilitat.
    Hipòtesi de recompensa i senyal de recompensa.
    Definició de problema de decisió secuencial.
    Processos de decisió de Markov (MDPs).
    Trajectories i polítiques: factor de descompte.
    Algoritmes de resolució de MDPs: avaluació de política i iteració de valor.
    Breu introducció a processos de decisió de Markov parcialment observables (POMDPs).
  6. Aprenentatge per reforç
    Multi-armed bandits: exploració vs explotació.
    Com aprendre a decidir: aprenentatge per reforç, categorització i taxonomia
    Model-based Monte Carlo.
    Algorismes d'aprenentatge per diferències temporals: SARSA i Q-Learning.
    Algorismes de gradient de política: REINFORCE.
  7. Sistemes multiagent: Teoria de Jocs
    Per què formalitzar sistemes multiagent: la paradoxa de Braess.
    Definició d'entorns multiagent i sistema multiagent.
    Breu introducció de models computacionals per a sistemes multiagent: MDPs, DCOPs, planificació, sistemes distribuïts, sistemes sociotècnics, teoria de jocs.
    Introducció a la Teoria de Jocs en forma normal: el dilema del presoner.
    Conceptes de solució: estratègia dominant, estratègies minimax i maximin, equilibri de Nash.
    Càlcul de la recompensa esperada.
    Eficiència de l'equilibri: preu de l'anarquia, optimalitat de Pareto.
    Introducció a la coordinació multiagent: competició vs cooperació.
  8. Cooperació
    Què és la cooperació.
    Desafiaments, estructures i modes de cooperació.
    Breu introducció a les teories i models de cooperació.
    Teoria de Coalicions.
    Definició de jocs superaditiu, simple i convex.
    Joc de coalició equitatiu: valor de Shapley.
    Joc de coalició estable: el Nucli.
    Teoria de l'elecció social: paradoxa de Condorcet i propietats deseables.
    Funcions d'elecció social: majoria, pluralitat, Condorcet, Borda, llebre, agenda fixa, dictatorial.
    Introducció a algoritmes de consens: Paxos.
  9. Competició
    Què és competició.
    Teories i models de competició.
    Definició de joc en forma extensiva.
    Reducció de forma extensiva a forma normal.
    Com calcular l'equilibri de Nash: algoritme d'inducció cap enrera.
    Negociació com a mecanisme de competició.
    Definició de problema de regateig i resolució amb inducció cap enrera (subgame perfect equilibria).
    Solució de regateig de Nash.
    Resolució de competició com a joc d'adversari: Minimax, Expectiminimax, arbre de cerca Monte Carlo.
  10. Disseny de mecanismes
    Definició de mecanisme.
    Teoria de la implementació.
    Compatibilitat d'incentius.
    Principi de revelació.
    Disseny de mecanismes vist com un problema d'optimització.
    Exemple de tipus de mecanisme: subastes.
    Mecanismes de mercat.
    Subasta naive, de primer preu i de segon preu (Vickrey-Clarke-Groves).
    Exemple de combinació de subasta i consens.
  11. Aprenentatge per reforç multiagent
    De teoria de jocs a aprenentatge per reforç: jocs estocàstics i jocs estocàstics parcialment observables.
    Com afegir comunicació a un joc estocàstic.
    Definició de problema d'aprenentatge per reforç multiagent.
    Càlcul de la utilitat esperada: política individual vs política conjunta.
    Conceptces de solució: equilibris, optimalitat de Pareto, benestar social, mínim empenediment.
    Procés d'entrenament i garanties i tipus de convergència a una solució: què passa quan una política no és estacionària.
    Metodologies d'entrenament per reducció a un agent: aprenentatge centralitzat, aprenentatge independent, self-play (AlphaZero).
    Algoritmes d'entrenament multiagent: aprenentatge d'accions conjuntes, modelat d'agents.
  12. Models simbòlics de la IA social
    Introducció als sistemes sociotècnics: impacte en la societat dels sistemes distribuïts intel·ligents.
    Models socials de coordinació i organitzacionals: abstraccions socials, normes, rols.
    Organitzacions electròniques: OperA.
    Models normatius: institucions electròniques, HarmonIA.
    Models holístics: OMNI.
  13. Agents i ètica
    Repàs del conceptes d'agent intel·ligent i agent racional.
    Relació entre agència i intel·ligència.
    Problemes socials i ètics de la Intel·ligència Artificial: privacitat, IA responsable.

Activitats

Activitat Acte avaluatiu


Introducció: sistemes distribuïts intel·ligents

Perspectives sobre la Intel·ligència Artificial. Introducció als sistemes computacionals distribuïts. Paradigma d'arquitectura cognitiva i visió històrica. Introducció als sistemes multiagents.
  • Teoria: Perspectives sobre la Intel·ligència Artificial. Introducció als sistemes computacionals distribuïts. Paradigma d'arquitectura cognitiva i visió històrica. Introducció als sistemes multiagents.
Objectius: 1
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Agents intel·ligents

Definició d'agent intel·ligent. Racionalitat. Racionalitat limitada. Definició d'entorn. Propietats d'un entorn. Arquitectures d'agent intel·ligent: reactiu, deliberatiu guiat per objectius, deliberatiu guiat per utilitat, adaptatiu.
  • Teoria: Definició d'agent intel·ligent. Racionalitat. Racionalitat limitada. Definició d'entorn. Propietats d'un entorn. Arquitectures d'agent intel·ligent: reactiu, deliberatiu guiat per objectius, deliberatiu guiat per utilitat, adaptatiu.
Objectius: 2
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Agents guiats per objectius

Què és un agent lògic-simbòlic. Lògica modal. Lògica de mons possibles. Lògica modal alètica, doxàstica, epistèmica. Raonament pràctic guiat per objectius: l'agent com a sistema intencional. Implementació d'un agent guiat per objectius: bucle de control d'agent. Gestió del compromís respecte un objectiu (commitments). Lògica BDI (Belief-Desire-Intention).
  • Teoria: Què és un agent lògic-simbòlic. Lògica modal. Lògica de mons possibles. Lògica modal alètica, doxàstica, epistèmica. Raonament pràctic guiat per objectius: l'agent com a sistema intencional. Implementació d'un agent guiat per objectius: bucle de control d'agent. Gestió del compromís respecte un objectiu (commitments). Lògica BDI (Belief-Desire-Intention).
  • Laboratori: Introducció a Python. Configuració de l'entorn Python. Instal·lació de l'entorn multiagent. Pràctiques amb un llenguatge lògic-simbòlic per agents guiats per objectius. Desenvolupament d'agents guiats per objectius.
Objectius: 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
6h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Anàlisi de l'estat de l'art en arquitectures d'agent

En aquesta activitat, els alumnes, organitzats en grups, hauran d'analitzar un article acadèmic recent en el qual es presenti una arquitectura d'agent novedosa.
Objectius: 1 2
Setmana: 3 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
3h

Ontologies

Representar el món: ontologia i epistemologia. El triangle semiòtic. Elements d'una ontologia. Llenguatges de representació: OWL i RDF. Grafs de coneixement. Raonament ontològic. Lògica descriptiva: ABox, TBox.
  • Teoria: Representar el món: ontologia i epistemologia. El triangle semiòtic. Elements d'una ontologia. Llenguatges de representació: OWL i RDF. Grafs de coneixement. Raonament ontològic. Lògica descriptiva: ABox, TBox.
  • Laboratori: Aprendre a utilitzar Protégé per definir conceptes utilitzant lògica descriptiva: definició per inclusió i per equivalència. Implementació d'altres axiomes de lògica descriptiva. Com fer raonament ontològic: teoria i pràctica.
Objectius: 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Agents guiats per utilitat

Objectius vs utilitat. Definició d'utilitat. Hipòtesi de recompensa i senyal de recompensa. Definició de problema de decisió secuencial. Processos de decisió de Markov (MDPs). Trajectories i polítiques: factor de descompte. Algoritmes de resolució de MDPs: avaluació de política i iteració de valor. Breu introducció a processos de decisió de Markov parcialment observables (POMDPs).
  • Teoria: Objectius vs utilitat. Definició d'utilitat. Hipòtesi de recompensa i senyal de recompensa. Definició de problema de decisió secuencial. Processos de decisió de Markov (MDPs). Trajectories i polítiques: factor de descompte. Algoritmes de resolució de MDPs: avaluació de política i iteració de valor. Breu introducció a processos de decisió de Markov parcialment observables (POMDPs).
  • Laboratori: Exercicis pràctics de resolució de processos de decisió de Markov (MDPs). Com formalitzar un problema com un MDP. Resolució d'un MDP amb avaluació de política i iteració de valor.
Objectius: 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Implementació d'axiomes amb lògica descriptiva

En aquesta activitat, els grups d'alumnes hauran de modificar una ontologia ja existent per aplicar un conjunt d'axiomes de lògica descriptiva, tant en paper com en una eina de disseny d'ontologies (e.g. Protégé).
Objectius: 3
Setmana: 5 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
3h

Aprenentatge per reforç

Multi-armed bandits: exploració vs explotació. Com aprendre a decidir: aprenentatge per reforç, categorització i taxonomia Model-based Monte Carlo. Algorismes d'aprenentatge per diferències temporals: SARSA i Q-Learning. Algorismes de gradient de política: REINFORCE.
  • Teoria: Multi-armed bandits: exploració vs explotació. Com aprendre a decidir: aprenentatge per reforç, categorització i taxonomia Model-based Monte Carlo. Algorismes d'aprenentatge per diferències temporals: SARSA i Q-Learning. Algorismes de gradient de política: REINFORCE.
  • Laboratori: Introducció a la llibreria Gymnasium per simulació i entrenament d'agents. Pràctiques d'aprenentatge per reforç amb un entorn funcional: iteració de valor, estimació directa, Q-Learning, REINFORCE.
Objectius: 4 5
Continguts:
Teoria
2h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Pràctica: agents guiats per objectius

En aquesta pràctica de laboratori, els grups d'alumnes hauran de dissenyar i desenvolupar agents intel·ligents en un entorn complex, usant tècniques i lògiques vistes a les sessions de teoria i laboratori.
Objectius: 1 2 3
Setmana: 6 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
20h

Examen Parcial

L'examen parcial es durà a terme durant les hores de classe estàndard. Les persones que no aprovin el parcial serà avaluada de nou en l'examen final.
Objectius: 1 2 3 4 5
Setmana: 7
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Sistemes multiagent: Teoria de Jocs

Per què formalitzar sistemes multiagent: la paradoxa de Braess. Definició d'entorns multiagent i sistema multiagent. Breu introducció de models computacionals per a sistemes multiagent: MDPs, DCOPs, planificació, sistemes distribuïts, sistemes sociotècnics, teoria de jocs. Introducció a la Teoria de Jocs en forma normal: el dilema del presoner. Conceptes de solució: estratègia dominant, estratègies minimax i maximin, equilibri de Nash. Càlcul de la recompensa esperada. Eficiència de l'equilibri: preu de l'anarquia, optimalitat de Pareto. Introducció a la coordinació multiagent: competició vs cooperació.
  • Teoria: Per què formalitzar sistemes multiagent: la paradoxa de Braess. Definició d'entorns multiagent i sistema multiagent. Breu introducció de models computacionals per a sistemes multiagent: MDPs, DCOPs, planificació, sistemes distribuïts, sistemes sociotècnics, teoria de jocs. Introducció a la Teoria de Jocs en forma normal: el dilema del presoner. Conceptes de solució: estratègia dominant, estratègies minimax i maximin, equilibri de Nash. Càlcul de la recompensa esperada. Eficiència de l'equilibri: preu de l'anarquia, optimalitat de Pareto. Introducció a la coordinació multiagent: competició vs cooperació.
  • Laboratori: Resolució d'exercicis de jocs en forma normal: modelat de problemes, càlcul d'estratègies i equilibris, preu de l'anarquia i Pareto-optimalitat. Algorisme de millors respostes per trobar estratègies dominants i equilibris: teoria i pràctica. Algorisme de cálcul d'equilibris mixtes: teoria i pràctica.
Objectius: 4 6
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Cooperació

Què és la cooperació. Desafiaments, estructures i modes de cooperació. Breu introducció a les teories i models de cooperació. Teoria de Coalicions. Definició de jocs superaditiu, simple i convex. Joc de coalició equitatiu: valor de Shapley. Joc de coalició estable: el Nucli. Teoria de l'elecció social: paradoxa de Condorcet i propietats deseables. Funcions d'elecció social: majoria, pluralitat, Condorcet, Borda, llebre, agenda fixa, dictatorial. Introducció a algoritmes de consens: Paxos.
  • Teoria: Què és la cooperació. Desafiaments, estructures i modes de cooperació. Breu introducció a les teories i models de cooperació. Teoria de Coalicions. Definició de jocs superaditiu, simple i convex. Joc de coalició equitatiu: valor de Shapley. Joc de coalició estable: el Nucli. Teoria de l'elecció social: paradoxa de Condorcet i propietats deseables. Funcions d'elecció social: majoria, pluralitat, Condorcet, Borda, llebre, agenda fixa, dictatorial. Introducció a algoritmes de consens: Paxos.
  • Laboratori: Resolució de problemes de jocs de coalició. Càlcul pràctic del valor de Shapley i el Nucli. Resolució de problemes d'elecció social.
Objectius: 6 7 9
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Competició

Què és competició. Teories i models de competició. Definició de joc en forma extensiva. Reducció de forma extensiva a forma normal. Com calcular l'equilibri de Nash: algoritme d'inducció cap enrera. Negociació com a mecanisme de competició. Definició de problema de regateig i resolució amb inducció cap enrera (subgame perfect equilibria). Solució de regateig de Nash. Resolució de competició com a joc d'adversari: Minimax, Expectiminimax, arbre de cerca Monte Carlo.
  • Teoria: Què és competició. Teories i models de competició. Definició de joc en forma extensiva. Reducció de forma extensiva a forma normal. Com calcular l'equilibri de Nash: algoritme d'inducció cap enrera. Negociació com a mecanisme de competició. Definició de problema de regateig i resolució amb inducció cap enrera (subgame perfect equilibria). Solució de regateig de Nash. Resolució de competició com a joc d'adversari: Minimax, Expectiminimax, arbre de cerca Monte Carlo.
  • Laboratori: Resolució de problemes de competició. Formalització de problemes com a jocs en forma extensiva. Reducció de forma extensiva a forma normal. Formalització i resolució de problemes de regateig. Aplicació d'inducció cap enrera per trobar equilibris de Nash i SPE (subgame perfect equilibria).
Objectius: 6 8
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Pràctica: aprenentatge per reforç

Els grups d'alumnes hauran de realitzar un informe amb un estudi comparatiu del rendiment de diverses tècniques d'aprenentatge per reforç en un entorn proposat.
Objectius: 4 5
Setmana: 10 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
20h

Disseny de mecanismes

Definició de mecanisme. Teoria de la implementació. Compatibilitat d'incentius. Principi de revelació. Disseny de mecanismes vist com un problema d'optimització. Exemple de tipus de mecanisme: subastes. Mecanismes de mercat. Subasta naive, de primer preu i de segon preu (Vickrey-Clarke-Groves). Exemple de combinació de subasta i consens.
  • Teoria: Definició de mecanisme. Teoria de la implementació. Compatibilitat d'incentius. Principi de revelació. Disseny de mecanismes vist com un problema d'optimització. Exemple de tipus de mecanisme: subastes. Mecanismes de mercat. Subasta naive, de primer preu i de segon preu (Vickrey-Clarke-Groves). Exemple de combinació de subasta i consens.
Objectius: 6 7 8 9
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Solució de problemes de teoria de jocs

Els alumnes hauran d'entregar la sol·lució a exercicis de teoria de jocs plantejats al Racó, potencialment incloent: jocs en forma normal, jocs de coalició, jocs en forma extensiva i/o problemes de regateig.
Objectius: 6 7 8
Setmana: 11 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Aprenentatge per reforç multiagent

De teoria de jocs a aprenentatge per reforç: jocs estocàstics i jocs estocàstics parcialment observables. Com afegir comunicació a un joc estocàstic. Definició de problema d'aprenentatge per reforç multiagent. Càlcul de la utilitat esperada: política individual vs política conjunta. Conceptces de solució: equilibris, optimalitat de Pareto, benestar social, mínim empenediment. Procés d'entrenament i garanties i tipus de convergència a una solució: què passa quan una política no és estacionària. Metodologies d'entrenament per reducció a un agent: aprenentatge centralitzat, aprenentatge independent, self-play (AlphaZero). Algoritmes d'entrenament multiagent: aprenentatge d'accions conjuntes, modelat d'agents.
  • Teoria: De teoria de jocs a aprenentatge per reforç: jocs estocàstics i jocs estocàstics parcialment observables. Com afegir comunicació a un joc estocàstic. Definició de problema d'aprenentatge per reforç multiagent. Càlcul de la utilitat esperada: política individual vs política conjunta. Conceptces de solució: equilibris, optimalitat de Pareto, benestar social, mínim empenediment. Procés d'entrenament i garanties i tipus de convergència a una solució: què passa quan una política no és estacionària. Metodologies d'entrenament per reducció a un agent: aprenentatge centralitzat, aprenentatge independent, self-play (AlphaZero). Algoritmes d'entrenament multiagent: aprenentatge d'accions conjuntes, modelat d'agents.
  • Laboratori: Introducció a entorns d'aprenentatge per reforç multiagent. Aprenentatge per reforç en jocs d'adversari: self-play MCTS i AlphaZero. Treball pràctic amb diverses metodologies per entrenar agents en entorns d'interesos mixtos: joint-action learning, agent modelling, gradient de política.
Objectius: 4 5 6
Continguts:
Teoria
2h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Models simbòlics de la IA social

Introducció als sistemes sociotècnics: impacte en la societat dels sistemes distribuïts intel·ligents. Models socials de coordinació i organitzacionals: abstraccions socials, normes, rols. Organitzacions electròniques: OperA. Models normatius: institucions electròniques, HarmonIA. Models holístics: OMNI.
  • Teoria: Introducció als sistemes sociotècnics: impacte en la societat dels sistemes distribuïts intel·ligents. Models socials de coordinació i organitzacionals: abstraccions socials, normes, rols. Organitzacions electròniques: OperA. Models normatius: institucions electròniques, HarmonIA. Models holístics: OMNI.
Objectius: 3 9 10
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Agents i ètica

Repàs del conceptes d'agent intel·ligent i agent racional. Relació entre agència i intel·ligència. Problemes socials i ètics de la Intel·ligència Artificial: privacitat, IA responsable.
  • Teoria: Repàs del conceptes d'agent intel·ligent i agent racional. Relació entre agència i intel·ligència. Problemes socials i ètics de la Intel·ligència Artificial: privacitat, IA responsable.
Objectius: 1 2 10
Continguts:
Teoria
1h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Pràctica: aprenentatge per reforç multiagent

Els grups d'alumnes hauran de realitzar un informe amb un estudi comparatiu del rendiment de diverses tècniques d'aprenentatge per reforç multiagent en un entorn proposat, cooperatiu, competitiu, o una barreja dels dos.
Objectius: 5 6 7 8
Setmana: 15 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
20h

Examen Final

Examen final per a tots els continguts del curs.
Objectius: 1 2 3 4 5 6 7 8 9 10
Setmana: 15 (Fora d'horari lectiu)
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Metodologia docent

La metodologia docente consistirà en l'exposició de la teoria en classes de teoria i l'aplicació dels conceptes en les classes de problemes i laboratori.

L'examen serà únic per a tots els grups de l'assignatura.

Mètode d'avaluació

L'avaluació es basa en un examen final i un examen parcial, l'avaluació de les assignacions del curs, i una qualificació per al treball de laboratori. Els exàmens finals i parcial posaran a prova els coneixements teòrics i de metodologia adquirits pels estudiants durant el curs. La qualificació de les assignacions del curs es basarà en les presentacions dels petits problemes proposats durant el curs. La nota de laboratori es basarà en els informes i treballs pràctics de laboratori duts a terme durant el curs.

Aproximadament a la meitat del curs hi haurà un examen parcial alliberatori, que cobrira la primera meitat del temari (alliberatori només si la qualificació obtinguda és de 5 o més). L'examen final posarà a prova tant la primera com la segona part del curs. La primera meitat és obligatòria per a aquells estudiants que no van aprovar l'examen parcial, i opcional per a la resta. El màxim de les dues notes es convertiran en la qualificació de la primera part.


La qualificació final es calcularà de la següent manera:


Npar = examen de part del grau

NEx1 = 1ª meitat de l'examen final

NEx2 = 2ª meitat de l'examen final

Nota de teoria = [max (Npar, NEx1) + NEx2] / 2

Nota final = Nota de teoria * 0,5 + nota dels exercicis pràctics * 0,2 + nota de laboratori * 0,3 (codi i informe)


Evaluació de les competencies

La evaluación de la competencia en el trabajo en equipo se basa en el trabajo realizado durante los trabajos de prácticas.

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

Els alumnes han d'haver cursat previament l'assignatura Intel.ligència Artificial