Sistemes Intel·ligents Distribuïts

Professorat
Hores setmanals
Competències
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Capacitats prèvies

Crèdits

Tipus

GIA: Optativa
GRAU: Complementària d'especialitat (Computació)

Requisits

Prerequisit: IA

Departament

Web

https://sites.google.com/upc.edu/grau-sid

Mail

Hi ha dos objectius en aquest curs: en primer lloc, proveïr els estudiants dels coneixements matemàtics i computacionals suficients per analitzar sistemes distribuïts intel·ligents mitjançant models adequats, i en segon lloc, il·lustrar diverses estratègies de coordinació i mostrar com implementar-les i optimitzar-les. El curs s'estructura en una combinació de classes teòriques i exercicis de laboratori fent servir plataformes reals de hardware i de simulació. Es tracten els següents temes: 1) introducció als concepts claus com per exemple el concepte d'auto-organització i a les eines de software i hardware utilitzats durant el curs, 2) exemples de sistemes intelligents distribuïts naturals, artificials i híbrids, 3) conceptes d'aprenentatge automàtic: tècniques mono- i multi-agents, i 4) estratègies de coordinació i control distribuït.

Professorat

Responsable

Sergio Álvarez Napagao ( )

Altres

Ander Barrio Campos ( )
Javier Vazquez Salceda ( )
Ramon Sangüesa Sole ( )
Víctor Giménez Ábalos ( )

Hores setmanals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Competències

Competències Transversals

Treball en equip

G5 [Avaluable] - Ser capaç de treballar com a membre d'un equip, ja sigui com a un membre més, ja sigui realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes d'una manera pragmàtica i amb sentit de la responsabilitat; assumir compromisos tenint en compte els recursos disponibles.
- G5.3 - Identificar els rols, les habilitats i les carències dels diferents membres del grup. Proposar millores en l'estructura del grup. Interactuar amb eficàcia i professionalitat. Negociar i gestionar conflictes en el grup. Reconèixer i donar suport o assumir el paper de líder en el grup de treball. Avaluar i presentar els resultats del treball de grup. Representar el grup en negociacions amb terceres persones. Capacitat de col·laborar en un entorn multidisciplinar. Conèixer i saber aplicar les tècniques per a promoure la creativitat.

Competències Tècniques de cada especialitat

Especialitat computació

CCO2 - Desenvolupar de forma efectiva i eficient els algorismes i el software apropiats per a resoldre problemes complexos de computació.
- CCO2.1 - Demostrar coneixement dels fonaments, dels paradigmes i de les tècniques pròpies dels sistemes intel·ligents, i analitzar, dissenyar i construir sistemes, serveis i aplicacions informàtiques que utilitzin aquestes tècniques en qualsevol àmbit d'aplicació.
- CCO2.2 - Capacitat per a adquirir, obtenir, formalitzar i representar el coneixement humà d'una forma computable per a la resolució de problemes mitjançant un sistema informàtic en qualsevol àmbit d'aplicació, particularment en els que estan relacionats amb aspectes de computació, percepció i actuació en ambients o entorns intel·ligents.

Objectius

Conèixer el conceptes bàsics d'Intel.ligencia Artificial Distribuïda
Competències relacionades: G9.1, CCO2.1, CCO2.2,
Conèixer el paradigma d'agent intel·ligent com a peça clau en la construcció de sistemes multiagent
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conèixer els models lògics i computacionals que permeten la construcció d'agents orientats a objectius
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conèixer els models lògics i computacionals que permeten la construcció d'agents dirigits per utilitat
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conèixer les diferents metodologies, algoritmes i tecnologies per aconseguir entrenar agents mitjançant aprenentatge per reforç
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Aprendre els conceptes bàsics de la teoria de jocs i la seva relació amb els sistemes multiagents
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Aprendre diferents metodologies i algoritmes de cooperació per a agents en un sistema multiagent
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conèixer diverses metodologies i algoritmes per la competició entre agents en un sistema multiagent
Competències relacionades: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Entendre els aspectes més rellevants del camp del Disseny de Mecanismes
Competències relacionades: G9.1, CCO2.1,
Conèixer i entendre les implicacions socials i ètiques de la Intel·ligència Artificial aplicada a sistemes capaços de prendre decisions de manera autònoma
Competències relacionades: G9.1, CCO2.1,

Continguts

Introducció: sistemes distribuïts intel·ligents
Perspectives sobre la Intel·ligència Artificial.
Introducció als sistemes computacionals distribuïts.
Paradigma d'arquitectura cognitiva i visió històrica.
Introducció als sistemes multiagents.
Agents intel·ligents
Definició d'agent intel·ligent.
Racionalitat.
Racionalitat limitada.
Definició d'entorn.
Propietats d'un entorn.
Arquitectures d'agent intel·ligent: reactiu, deliberatiu guiat per objectius, deliberatiu guiat per utilitat, adaptatiu.
Agents guiats per objectius
Què és un agent lògic-simbòlic.
Lògica modal.
Lògica de mons possibles.
Lògica modal alètica, doxàstica, epistèmica.
Raonament pràctic guiat per objectius: l'agent com a sistema intencional.
Implementació d'un agent guiat per objectius: bucle de control d'agent.
Gestió del compromís respecte un objectiu (commitments).
Lògica BDI (Belief-Desire-Intention).
Ontologies
Representar el món: ontologia i epistemologia.
El triangle semiòtic.
Elements d'una ontologia.
Llenguatges de representació: OWL i RDF.
Grafs de coneixement.
Raonament ontològic.
Lògica descriptiva: ABox, TBox.
Agents guiats per utilitat
Objectius vs utilitat.
Definició d'utilitat.
Hipòtesi de recompensa i senyal de recompensa.
Definició de problema de decisió secuencial.
Processos de decisió de Markov (MDPs).
Trajectories i polítiques: factor de descompte.
Algoritmes de resolució de MDPs: avaluació de política i iteració de valor.
Breu introducció a processos de decisió de Markov parcialment observables (POMDPs).
Aprenentatge per reforç
Multi-armed bandits: exploració vs explotació.
Com aprendre a decidir: aprenentatge per reforç, categorització i taxonomia
Model-based Monte Carlo.
Algorismes d'aprenentatge per diferències temporals: SARSA i Q-Learning.
Algorismes de gradient de política: REINFORCE.
Sistemes multiagent: Teoria de Jocs
Per què formalitzar sistemes multiagent: la paradoxa de Braess.
Definició d'entorns multiagent i sistema multiagent.
Breu introducció de models computacionals per a sistemes multiagent: MDPs, DCOPs, planificació, sistemes distribuïts, sistemes sociotècnics, teoria de jocs.
Introducció a la Teoria de Jocs en forma normal: el dilema del presoner.
Conceptes de solució: estratègia dominant, estratègies minimax i maximin, equilibri de Nash.
Càlcul de la recompensa esperada.
Eficiència de l'equilibri: preu de l'anarquia, optimalitat de Pareto.
Introducció a la coordinació multiagent: competició vs cooperació.
Cooperació
Què és la cooperació.
Desafiaments, estructures i modes de cooperació.
Breu introducció a les teories i models de cooperació.
Teoria de Coalicions.
Definició de jocs superaditiu, simple i convex.
Joc de coalició equitatiu: valor de Shapley.
Joc de coalició estable: el Nucli.
Teoria de l'elecció social: paradoxa de Condorcet i propietats deseables.
Funcions d'elecció social: majoria, pluralitat, Condorcet, Borda, llebre, agenda fixa, dictatorial.
Introducció a algoritmes de consens: Paxos.
Competició
Què és competició.
Teories i models de competició.
Definició de joc en forma extensiva.
Reducció de forma extensiva a forma normal.
Com calcular l'equilibri de Nash: algoritme d'inducció cap enrera.
Negociació com a mecanisme de competició.
Definició de problema de regateig i resolució amb inducció cap enrera (subgame perfect equilibria).
Solució de regateig de Nash.
Resolució de competició com a joc d'adversari: Minimax, Expectiminimax, arbre de cerca Monte Carlo.
Disseny de mecanismes
Definició de mecanisme.
Teoria de la implementació.
Compatibilitat d'incentius.
Principi de revelació.
Disseny de mecanismes vist com un problema d'optimització.
Exemple de tipus de mecanisme: subastes.
Mecanismes de mercat.
Subasta naive, de primer preu i de segon preu (Vickrey-Clarke-Groves).
Exemple de combinació de subasta i consens.
Aprenentatge per reforç multiagent
De teoria de jocs a aprenentatge per reforç: jocs estocàstics i jocs estocàstics parcialment observables.
Com afegir comunicació a un joc estocàstic.
Definició de problema d'aprenentatge per reforç multiagent.
Càlcul de la utilitat esperada: política individual vs política conjunta.
Conceptces de solució: equilibris, optimalitat de Pareto, benestar social, mínim empenediment.
Procés d'entrenament i garanties i tipus de convergència a una solució: què passa quan una política no és estacionària.
Metodologies d'entrenament per reducció a un agent: aprenentatge centralitzat, aprenentatge independent, self-play (AlphaZero).
Algoritmes d'entrenament multiagent: aprenentatge d'accions conjuntes, modelat d'agents.
Models simbòlics de la IA social
Introducció als sistemes sociotècnics: impacte en la societat dels sistemes distribuïts intel·ligents.
Models socials de coordinació i organitzacionals: abstraccions socials, normes, rols.
Organitzacions electròniques: OperA.
Models normatius: institucions electròniques, HarmonIA.
Models holístics: OMNI.
Agents i ètica
Repàs del conceptes d'agent intel·ligent i agent racional.
Relació entre agència i intel·ligència.
Problemes socials i ètics de la Intel·ligència Artificial: privacitat, IA responsable.

Activitats

Activitat Acte avaluatiu

Introducció: sistemes distribuïts intel·ligents

Perspectives sobre la Intel·ligència Artificial. Introducció als sistemes computacionals distribuïts. Paradigma d'arquitectura cognitiva i visió històrica. Introducció als sistemes multiagents.

Teoria: Perspectives sobre la Intel·ligència Artificial. Introducció als sistemes computacionals distribuïts. Paradigma d'arquitectura cognitiva i visió històrica. Introducció als sistemes multiagents.

Objectius: 1
Continguts:

1 . Introducció: sistemes distribuïts intel·ligents

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Agents intel·ligents

Definició d'agent intel·ligent. Racionalitat. Racionalitat limitada. Definició d'entorn. Propietats d'un entorn. Arquitectures d'agent intel·ligent: reactiu, deliberatiu guiat per objectius, deliberatiu guiat per utilitat, adaptatiu.

Teoria: Definició d'agent intel·ligent. Racionalitat. Racionalitat limitada. Definició d'entorn. Propietats d'un entorn. Arquitectures d'agent intel·ligent: reactiu, deliberatiu guiat per objectius, deliberatiu guiat per utilitat, adaptatiu.

Objectius: 2
Continguts:

2 . Agents intel·ligents

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Agents guiats per objectius

Què és un agent lògic-simbòlic. Lògica modal. Lògica de mons possibles. Lògica modal alètica, doxàstica, epistèmica. Raonament pràctic guiat per objectius: l'agent com a sistema intencional. Implementació d'un agent guiat per objectius: bucle de control d'agent. Gestió del compromís respecte un objectiu (commitments). Lògica BDI (Belief-Desire-Intention).

Teoria: Què és un agent lògic-simbòlic. Lògica modal. Lògica de mons possibles. Lògica modal alètica, doxàstica, epistèmica. Raonament pràctic guiat per objectius: l'agent com a sistema intencional. Implementació d'un agent guiat per objectius: bucle de control d'agent. Gestió del compromís respecte un objectiu (commitments). Lògica BDI (Belief-Desire-Intention).
Laboratori: Introducció a Python. Configuració de l'entorn Python. Instal·lació de l'entorn multiagent. Pràctiques amb un llenguatge lògic-simbòlic per agents guiats per objectius. Desenvolupament d'agents guiats per objectius.

Objectius: 3
Continguts:

3 . Agents guiats per objectius

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Anàlisi de l'estat de l'art en arquitectures d'agent

En aquesta activitat, els alumnes, organitzats en grups, hauran d'analitzar un article acadèmic recent en el qual es presenti una arquitectura d'agent novedosa.
Objectius: 1 2
Setmana: 3 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Ontologies

Representar el món: ontologia i epistemologia. El triangle semiòtic. Elements d'una ontologia. Llenguatges de representació: OWL i RDF. Grafs de coneixement. Raonament ontològic. Lògica descriptiva: ABox, TBox.

Teoria: Representar el món: ontologia i epistemologia. El triangle semiòtic. Elements d'una ontologia. Llenguatges de representació: OWL i RDF. Grafs de coneixement. Raonament ontològic. Lògica descriptiva: ABox, TBox.
Laboratori: Aprendre a utilitzar Protégé per definir conceptes utilitzant lògica descriptiva: definició per inclusió i per equivalència. Implementació d'altres axiomes de lògica descriptiva. Com fer raonament ontològic: teoria i pràctica.

Objectius: 3
Continguts:

4 . Ontologies

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Agents guiats per utilitat

Objectius vs utilitat. Definició d'utilitat. Hipòtesi de recompensa i senyal de recompensa. Definició de problema de decisió secuencial. Processos de decisió de Markov (MDPs). Trajectories i polítiques: factor de descompte. Algoritmes de resolució de MDPs: avaluació de política i iteració de valor. Breu introducció a processos de decisió de Markov parcialment observables (POMDPs).

Teoria: Objectius vs utilitat. Definició d'utilitat. Hipòtesi de recompensa i senyal de recompensa. Definició de problema de decisió secuencial. Processos de decisió de Markov (MDPs). Trajectories i polítiques: factor de descompte. Algoritmes de resolució de MDPs: avaluació de política i iteració de valor. Breu introducció a processos de decisió de Markov parcialment observables (POMDPs).
Laboratori: Exercicis pràctics de resolució de processos de decisió de Markov (MDPs). Com formalitzar un problema com un MDP. Resolució d'un MDP amb avaluació de política i iteració de valor.

Objectius: 4
Continguts:

5 . Agents guiats per utilitat

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Implementació d'axiomes amb lògica descriptiva

En aquesta activitat, els grups d'alumnes hauran de modificar una ontologia ja existent per aplicar un conjunt d'axiomes de lògica descriptiva, tant en paper com en una eina de disseny d'ontologies (e.g. Protégé).
Objectius: 3
Setmana: 5 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforç

Multi-armed bandits: exploració vs explotació. Com aprendre a decidir: aprenentatge per reforç, categorització i taxonomia Model-based Monte Carlo. Algorismes d'aprenentatge per diferències temporals: SARSA i Q-Learning. Algorismes de gradient de política: REINFORCE.

Teoria: Multi-armed bandits: exploració vs explotació. Com aprendre a decidir: aprenentatge per reforç, categorització i taxonomia Model-based Monte Carlo. Algorismes d'aprenentatge per diferències temporals: SARSA i Q-Learning. Algorismes de gradient de política: REINFORCE.
Laboratori: Introducció a la llibreria Gymnasium per simulació i entrenament d'agents. Pràctiques d'aprenentatge per reforç amb un entorn funcional: iteració de valor, estimació directa, Q-Learning, REINFORCE.

Objectius: 4 5
Continguts:

6 . Aprenentatge per reforç

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Pràctica: agents guiats per objectius

En aquesta pràctica de laboratori, els grups d'alumnes hauran de dissenyar i desenvolupar agents intel·ligents en un entorn complex, usant tècniques i lògiques vistes a les sessions de teoria i laboratori.
Objectius: 1 2 3
Setmana: 6 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

0.5h

Aprenentatge dirigit

Aprenentatge autònom

20h

Examen Parcial

L'examen parcial es durà a terme durant les hores de classe estàndard. Les persones que no aprovin el parcial serà avaluada de nou en l'examen final.
Objectius: 1 2 3 4 5
Setmana: 7

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Sistemes multiagent: Teoria de Jocs

Per què formalitzar sistemes multiagent: la paradoxa de Braess. Definició d'entorns multiagent i sistema multiagent. Breu introducció de models computacionals per a sistemes multiagent: MDPs, DCOPs, planificació, sistemes distribuïts, sistemes sociotècnics, teoria de jocs. Introducció a la Teoria de Jocs en forma normal: el dilema del presoner. Conceptes de solució: estratègia dominant, estratègies minimax i maximin, equilibri de Nash. Càlcul de la recompensa esperada. Eficiència de l'equilibri: preu de l'anarquia, optimalitat de Pareto. Introducció a la coordinació multiagent: competició vs cooperació.

Teoria: Per què formalitzar sistemes multiagent: la paradoxa de Braess. Definició d'entorns multiagent i sistema multiagent. Breu introducció de models computacionals per a sistemes multiagent: MDPs, DCOPs, planificació, sistemes distribuïts, sistemes sociotècnics, teoria de jocs. Introducció a la Teoria de Jocs en forma normal: el dilema del presoner. Conceptes de solució: estratègia dominant, estratègies minimax i maximin, equilibri de Nash. Càlcul de la recompensa esperada. Eficiència de l'equilibri: preu de l'anarquia, optimalitat de Pareto. Introducció a la coordinació multiagent: competició vs cooperació.
Laboratori: Resolució d'exercicis de jocs en forma normal: modelat de problemes, càlcul d'estratègies i equilibris, preu de l'anarquia i Pareto-optimalitat. Algorisme de millors respostes per trobar estratègies dominants i equilibris: teoria i pràctica. Algorisme de cálcul d'equilibris mixtes: teoria i pràctica.

Objectius: 4 6
Continguts:

7 . Sistemes multiagent: Teoria de Jocs

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Cooperació

Què és la cooperació. Desafiaments, estructures i modes de cooperació. Breu introducció a les teories i models de cooperació. Teoria de Coalicions. Definició de jocs superaditiu, simple i convex. Joc de coalició equitatiu: valor de Shapley. Joc de coalició estable: el Nucli. Teoria de l'elecció social: paradoxa de Condorcet i propietats deseables. Funcions d'elecció social: majoria, pluralitat, Condorcet, Borda, llebre, agenda fixa, dictatorial. Introducció a algoritmes de consens: Paxos.

Teoria: Què és la cooperació. Desafiaments, estructures i modes de cooperació. Breu introducció a les teories i models de cooperació. Teoria de Coalicions. Definició de jocs superaditiu, simple i convex. Joc de coalició equitatiu: valor de Shapley. Joc de coalició estable: el Nucli. Teoria de l'elecció social: paradoxa de Condorcet i propietats deseables. Funcions d'elecció social: majoria, pluralitat, Condorcet, Borda, llebre, agenda fixa, dictatorial. Introducció a algoritmes de consens: Paxos.
Laboratori: Resolució de problemes de jocs de coalició. Càlcul pràctic del valor de Shapley i el Nucli. Resolució de problemes d'elecció social.

Objectius: 6 7 9
Continguts:

8 . Cooperació

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Competició

Què és competició. Teories i models de competició. Definició de joc en forma extensiva. Reducció de forma extensiva a forma normal. Com calcular l'equilibri de Nash: algoritme d'inducció cap enrera. Negociació com a mecanisme de competició. Definició de problema de regateig i resolució amb inducció cap enrera (subgame perfect equilibria). Solució de regateig de Nash. Resolució de competició com a joc d'adversari: Minimax, Expectiminimax, arbre de cerca Monte Carlo.

Teoria: Què és competició. Teories i models de competició. Definició de joc en forma extensiva. Reducció de forma extensiva a forma normal. Com calcular l'equilibri de Nash: algoritme d'inducció cap enrera. Negociació com a mecanisme de competició. Definició de problema de regateig i resolució amb inducció cap enrera (subgame perfect equilibria). Solució de regateig de Nash. Resolució de competició com a joc d'adversari: Minimax, Expectiminimax, arbre de cerca Monte Carlo.
Laboratori: Resolució de problemes de competició. Formalització de problemes com a jocs en forma extensiva. Reducció de forma extensiva a forma normal. Formalització i resolució de problemes de regateig. Aplicació d'inducció cap enrera per trobar equilibris de Nash i SPE (subgame perfect equilibria).

Objectius: 6 8
Continguts:

9 . Competició

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Pràctica: aprenentatge per reforç

Els grups d'alumnes hauran de realitzar un informe amb un estudi comparatiu del rendiment de diverses tècniques d'aprenentatge per reforç en un entorn proposat.
Objectius: 4 5
Setmana: 10 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

0.5h

Aprenentatge dirigit

Aprenentatge autònom

20h

Disseny de mecanismes

Definició de mecanisme. Teoria de la implementació. Compatibilitat d'incentius. Principi de revelació. Disseny de mecanismes vist com un problema d'optimització. Exemple de tipus de mecanisme: subastes. Mecanismes de mercat. Subasta naive, de primer preu i de segon preu (Vickrey-Clarke-Groves). Exemple de combinació de subasta i consens.

Teoria: Definició de mecanisme. Teoria de la implementació. Compatibilitat d'incentius. Principi de revelació. Disseny de mecanismes vist com un problema d'optimització. Exemple de tipus de mecanisme: subastes. Mecanismes de mercat. Subasta naive, de primer preu i de segon preu (Vickrey-Clarke-Groves). Exemple de combinació de subasta i consens.

Objectius: 6 7 8 9
Continguts:

10 . Disseny de mecanismes

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Solució de problemes de teoria de jocs

Els alumnes hauran d'entregar la sol·lució a exercicis de teoria de jocs plantejats al Racó, potencialment incloent: jocs en forma normal, jocs de coalició, jocs en forma extensiva i/o problemes de regateig.
Objectius: 6 7 8
Setmana: 11 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Aprenentatge per reforç multiagent

De teoria de jocs a aprenentatge per reforç: jocs estocàstics i jocs estocàstics parcialment observables. Com afegir comunicació a un joc estocàstic. Definició de problema d'aprenentatge per reforç multiagent. Càlcul de la utilitat esperada: política individual vs política conjunta. Conceptces de solució: equilibris, optimalitat de Pareto, benestar social, mínim empenediment. Procés d'entrenament i garanties i tipus de convergència a una solució: què passa quan una política no és estacionària. Metodologies d'entrenament per reducció a un agent: aprenentatge centralitzat, aprenentatge independent, self-play (AlphaZero). Algoritmes d'entrenament multiagent: aprenentatge d'accions conjuntes, modelat d'agents.

Teoria: De teoria de jocs a aprenentatge per reforç: jocs estocàstics i jocs estocàstics parcialment observables. Com afegir comunicació a un joc estocàstic. Definició de problema d'aprenentatge per reforç multiagent. Càlcul de la utilitat esperada: política individual vs política conjunta. Conceptces de solució: equilibris, optimalitat de Pareto, benestar social, mínim empenediment. Procés d'entrenament i garanties i tipus de convergència a una solució: què passa quan una política no és estacionària. Metodologies d'entrenament per reducció a un agent: aprenentatge centralitzat, aprenentatge independent, self-play (AlphaZero). Algoritmes d'entrenament multiagent: aprenentatge d'accions conjuntes, modelat d'agents.
Laboratori: Introducció a entorns d'aprenentatge per reforç multiagent. Aprenentatge per reforç en jocs d'adversari: self-play MCTS i AlphaZero. Treball pràctic amb diverses metodologies per entrenar agents en entorns d'interesos mixtos: joint-action learning, agent modelling, gradient de política.

Objectius: 4 5 6
Continguts:

11 . Aprenentatge per reforç multiagent

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Models simbòlics de la IA social

Introducció als sistemes sociotècnics: impacte en la societat dels sistemes distribuïts intel·ligents. Models socials de coordinació i organitzacionals: abstraccions socials, normes, rols. Organitzacions electròniques: OperA. Models normatius: institucions electròniques, HarmonIA. Models holístics: OMNI.

Teoria: Introducció als sistemes sociotècnics: impacte en la societat dels sistemes distribuïts intel·ligents. Models socials de coordinació i organitzacionals: abstraccions socials, normes, rols. Organitzacions electròniques: OperA. Models normatius: institucions electròniques, HarmonIA. Models holístics: OMNI.

Objectius: 3 9 10
Continguts:

12 . Models simbòlics de la IA social

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Agents i ètica

Repàs del conceptes d'agent intel·ligent i agent racional. Relació entre agència i intel·ligència. Problemes socials i ètics de la Intel·ligència Artificial: privacitat, IA responsable.

Teoria: Repàs del conceptes d'agent intel·ligent i agent racional. Relació entre agència i intel·ligència. Problemes socials i ètics de la Intel·ligència Artificial: privacitat, IA responsable.

Objectius: 1 2 10
Continguts:

13 . Agents i ètica

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Pràctica: aprenentatge per reforç multiagent

Els grups d'alumnes hauran de realitzar un informe amb un estudi comparatiu del rendiment de diverses tècniques d'aprenentatge per reforç multiagent en un entorn proposat, cooperatiu, competitiu, o una barreja dels dos.
Objectius: 5 6 7 8
Setmana: 15 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

20h

Examen Final

Examen final per a tots els continguts del curs.
Objectius: 1 2 3 4 5 6 7 8 9 10
Setmana: 15 (Fora d'horari lectiu)

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

10h

Metodologia docent

La metodologia docente consistirà en l'exposició de la teoria en classes de teoria i l'aplicació dels conceptes en les classes de problemes i laboratori.

L'examen serà únic per a tots els grups de l'assignatura.

Mètode d'avaluació

L'avaluació es basa en un examen final i un examen parcial, l'avaluació de les assignacions del curs, i una qualificació per al treball de laboratori. Els exàmens finals i parcial posaran a prova els coneixements teòrics i de metodologia adquirits pels estudiants durant el curs. La qualificació de les assignacions del curs es basarà en les presentacions dels petits problemes proposats durant el curs. La nota de laboratori es basarà en els informes i treballs pràctics de laboratori duts a terme durant el curs.

Aproximadament a la meitat del curs hi haurà un examen parcial alliberatori, que cobrira la primera meitat del temari (alliberatori només si la qualificació obtinguda és de 5 o més). L'examen final posarà a prova tant la primera com la segona part del curs. La primera meitat és obligatòria per a aquells estudiants que no van aprovar l'examen parcial, i opcional per a la resta. El màxim de les dues notes es convertiran en la qualificació de la primera part.

La qualificació final es calcularà de la següent manera:

Npar = examen de part del grau

NEx1 = 1ª meitat de l'examen final

NEx2 = 2ª meitat de l'examen final

Nota de teoria = [max (Npar, NEx1) + NEx2] / 2

Nota final = Nota de teoria * 0,5 + nota dels exercicis pràctics * 0,2 + nota de laboratori * 0,3 (codi i informe)

Evaluació de les competencies

La evaluación de la competencia en el trabajo en equipo se basa en el trabajo realizado durante los trabajos de prácticas.

Bibliografia

Bàsica:

Artificial intelligence: a modern approach - Russell, S.J.; Norvig, P, Pearson, 2022. ISBN: 9781292401133
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005066379806711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Multiagent systems: algorithmic, game-theoretic, and logical foundations - Shoham, Yoav; Leyton-Brown, Kevin, Cambridge University Press, 2009. ISBN: 9780521899437
https://www-cambridge-org.recursos.biblioteca.upc.edu/core/books/multiagent-systems/B11B69E0CB9032D6EC0A254F59922360
Programming multi-agent systems in AgentSpeak using Jason - Bordini, Rafael H; Hübner, Jomi Fred; Wooldridge, Michael J, John Wiley, 2007. ISBN: 9780470029008
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003490179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Reinforcement learning: an introduction - Sutton, Richard S; Barto, Andrew G, MIT Press, 2020. ISBN: 978-0262193986
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004166329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Multi-Agent Reinforcement Learning: Foundations and Modern Approaches - Albrecht, Stefano V.;Christianos, Filippos; Schäfer, Lukas, MIT Press, 2024. ISBN: 9780262049375
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005317955806711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Complementaria:

An introduction to multiagent systems - Wooldridge, Michael J, John Wiley & Sons , 2009. ISBN: 9780470519462
https://discovery.upc.edu/discovery/fulldisplay?docid=alma91003779579706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Algorithmic game theory - Nisan, Noam; Papadimitriou, Christos H, Cambridge University Press , 2007. ISBN: 9780521872829
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003321009706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Game Theory, Alive - Karlin, Anna R.; Peres, Yuval, American Mathematical Society , 2017. ISBN: 1-4704-3667-1
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=4908296
The emotion machine: commensense thinking, artificial intelligence, and the future of the human mind - Minsky, M.L, Simon and Schuster , 2006. ISBN: 0743276639
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003734189706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Concurrent programming: algorithms, principles, and foundations - Raynal, M, Springer , 2013. ISBN: 9783642320262
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004000289706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacitats prèvies

Els alumnes han d'haver cursat previament l'assignatura Intel.ligència Artificial

Sistemes Intel·ligents Distribuïts

Esteu aquí

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Transversals

Treball en equip

Competències Tècniques de cada especialitat

Especialitat computació

Objectius

Continguts

Activitats

Introducció: sistemes distribuïts intel·ligents

Agents intel·ligents

Agents guiats per objectius

Anàlisi de l'estat de l'art en arquitectures d'agent

Ontologies

Agents guiats per utilitat

Implementació d'axiomes amb lògica descriptiva

Aprenentatge per reforç

Pràctica: agents guiats per objectius

Examen Parcial

Sistemes multiagent: Teoria de Jocs

Cooperació

Competició

Pràctica: aprenentatge per reforç

Disseny de mecanismes

Solució de problemes de teoria de jocs

Aprenentatge per reforç multiagent

Models simbòlics de la IA social

Agents i ètica

Pràctica: aprenentatge per reforç multiagent

Examen Final

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

On som

Contacta amb la FIB