Sistemas Inteligentes Distribuidos

Profesorado
Horas semanales
Competencias
Objetivos
Contenidos
Actividades
Metodología docente
Método de evaluación
Bibliografía
Capacidades previas

Créditos

Tipos

GIA: Optativa
GRAU: Complementaria de especialidad (Computación)

Requisitos

Prerrequisito: IA

Departamento

Web

https://sites.google.com/upc.edu/grau-sid

Mail

Hay dos objetivos principales en este curso: en primer lugar, proveer a los estudiantes los conocimientos matemáticos y computacionales suficientes para analizar sistemas distribuidos inteligentes mediante modelos adecuados, y en segundo lugar, ilustrar diversas estrategias de coordinación y mostrar cómo implementarlas y optimizar -las. El curso se estructura en una combinación de clases teóricas y ejercicios de laboratorio utilizando plataformas reales de hardware y de simulación.
Se tratan los siguientes temas:
1) introducción a los concepts claves como por ejemplo el concepto de auto-organización y las herramientas de software y hardware utilizados durante el curso,
2) ejemplos de sistemas inteligentes distribuidos naturales, artificiales e híbridos,
3 ) conceptos de aprendizaje automático: técnicas mono-y multi-agentes, y
4) estrategias de coordinación y control distribuido.

Profesorado

Responsable

Sergio Álvarez Napagao ( )

Otros

Javier Vazquez Salceda ( )
Ramon Sangüesa Sole ( )
Víctor Giménez Ábalos ( )

Horas semanales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Competencias

Competencias Transversales

Trabajo en equipo

G5 [Avaluable] - Ser capaz de trabajar como miembro de un equipo, ya sea como un miembro más, o realizando tareas de dirección con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
- G5.3 - Identificar los papeles, habilitados y carencias de los diferentes miembros del grupo. Proponer mejoras en la estructura del grupo. Interactuar con eficacia y de forma profesional. Negociar y gestionar conflictos en el grupo. Reconocer y dar soporte o asumir el papel de líder en el grupo de trabajo. Evaluar y presentar los resultados del trabajo de grupo. Representar al grupo en negociaciones con terceros. Capacidad de colaborar en un entorno multidisciplinar. Conocer y saber aplicar las técnicas para promover la creatividad.

Competencias Técnicas de cada especialidad

Especialidad de computación

CCO2 - Desarrollar de forma efectiva y eficiente los algoritmos y el software apropiados para resolver problemas complejos de computación.
- CCO2.1 - Demostrar conocimiento de los fundamentos, los paradigmas y las técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen estas técnicas en cualquier ámbito de aplicación.
- CCO2.2 - Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano de una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.

Objetivos

Conocer los conceptos básicos de la Inteligencia Artificial Distribuida
Competencias relacionadas: G9.1, CCO2.1, CCO2.2,
Conocer el paradigma de agente inteligente como pieza clave en la construcción de sistemas multiagente
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conocer los modelos lógicos y computacionales que permiten la construcción de agentes orientados a objetivos
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conocer los modelos lógicos y computacionales que permiten la construcción de agentes dirigidos por utilidad
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conocer las diferentes metodologías, algoritmos y tecnologías para conseguir entrenar agentes mediante aprendizaje por refuerzo
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Aprender los conceptos básicos de la teoría de juegos y su relación con los sistemas multiagentes
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Aprender diferentes metodologías y algoritmos de cooperación para agentes en un sistema multiagente
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Conocer diversas metodologías y algoritmos para la competición entre agentes en un sistema multiagente
Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
Entender los aspectos más relevantes del campo del Diseño de Mecanismos
Competencias relacionadas: G9.1, CCO2.1,
Conocer y entender las implicaciones sociales y éticas de la Inteligencia Artificial aplicada a sistemas capaces de tomar decisiones de forma autónoma
Competencias relacionadas: G9.1, CCO2.1,

Contenidos

Introducción: sistemas distribuidos inteligentes
Perspectivas sobre la Inteligencia Artificial.
Introducción a los sistemas computacionales distribuidos.
Paradigma de arquitectura cognitiva y visión histórica.
Introducción a los sistemas multiagentes.
Agentes inteligentes
Definición de agente inteligente.
Racionalidad.
Racionalidad limitada.
Definición de entorno.
Propiedades de un entorno.
Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
Agentes guiados por objetivos
Qué es un agente lógico-simbólico.
Lógica modal.
Lógica de mundos posibles.
Lógica modal alética, doxástica, epistémica.
Razonamiento práctico guiado por objetivos: el agente como sistema intencional.
Implementación de un agente guiado por objetivos: bucle de control de agente.
Gestión del compromiso respecto a un objetivo (commitments).
Lógica BDI (Belief-Desire-Intention).
Ontologías
Representar al mundo: ontología y epistemología.
El triángulo semiótico.
Elementos de una ontología.
Lenguajes de representación: OWL y RDF.
Grafos de conocimiento.
Razonamiento ontológico.
Lógica descriptiva: ABox, TBox.
Agentes guiados por utilidad
Objetivos vs utilidad.
Definición de utilidad.
Hipótesis de recompensa y señal de recompensa.
Definición de problema de decisión secuencial.
Procesos de decisión de Markov (MDPs).
Trayectorías y políticas: factor de descuento.
Algoritmos de resolución de MDPs: evaluación de política e iteración de valor.
Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
Aprendizaje por refuerzo
Multi-armed bandidos: exploración vs explotación.
Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía.
Modelo-based Monte Carlo.
Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning.
Algoritmos de gradiente de política: REINFORCE.
Sistemas multiagente: Teoría de Juegos
Por qué formalizar sistemas multiagente: la paradoja de Braess.
Definición de entornos multiagente y sistema multiagente.
Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos.
Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero.
Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash.
Cálculo de la recompensa esperada.
Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto.
Introducción a la coordinación multiagente: competición vs cooperación.
Cooperación
Qué es la cooperación.
Desafíos, estructuras y modos de cooperación.
Breve introducción a las teorías y modelos de cooperación.
Teoría de Coaliciones.
Definición de juegos superaditivo, simple y convexo.
Juego de coalición equitativo: valor de Shapley.
Juego de coalición estable: el Núcleo.
Teoría de la elección social: paradoja de Condorcet y propiedades deseables.
Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial.
Introducción a algoritmos de consenso: Paxos.
Competición
Qué es competición.
Teorías y modelos de competición.
Definición de juego en forma extensiva.
Reducción de forma extensiva a forma normal.
Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás.
Negociación como mecanismo de competición.
Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria).
Solución de regateo de Nash.
Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
Diseño de mecanismos
Definición de mecanismo.
Teoría de la implementación.
Compatibilidad de incentivos.
Principio de revelación.
Diseño de mecanismos visto como un problema de optimización.
Ejemplo de tipos de mecanismo: subastas.
Mecanismos de mercado.
Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves).
Ejemplo de combinación de subasta y consenso.
Aprendizaje por refuerzo multiagente
De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables.
Cómo añadir comunicación a un juego estocástico.
Definición de problema de aprendizaje por refuerzo multiagente.
Cálculo de la utilidad esperada: política individual vs política conjunta.
Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento.
Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria.
Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero).
Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
Modelos simbólicos de la IA social
Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes.
Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles.
Organizaciones electrónicas: OperA.
Modelos normativos: instituciones electrónicas, HarmonIA.
Modelos holísticos: OMNI.
Agentes y ética
Repaso de los conceptos de agente inteligente y agente racional.
Relación entre agencia e inteligencia.
Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.

Actividades

Actividad Acto evaluativo

Introducción: sistemas distribuidos inteligentes

Perspectivas sobre la Inteligencia Artificial. Introducción a los sistemas computacionales distribuidos. Paradigma de arquitectura cognitiva y visión histórica. Introducción a los sistemas multiagentes.

Teoría: Perspectivas sobre la Inteligencia Artificial. Introducción a los sistemas computacionales distribuidos. Paradigma de arquitectura cognitiva y visión histórica. Introducción a los sistemas multiagentes.

Objetivos: 1
Contenidos:

1 . Introducción: sistemas distribuidos inteligentes

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Agentes inteligentes

Definición de agente inteligente. Racionalidad. Racionalidad limitada. Definición de entorno. Propiedades de un entorno. Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.

Teoría: Definición de agente inteligente. Racionalidad. Racionalidad limitada. Definición de entorno. Propiedades de un entorno. Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.

Objetivos: 2
Contenidos:

2 . Agentes inteligentes

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Agentes guiados por objetivos

Qué es un agente lógico-simbólico. Lógica modal. Lógica de mundos posibles. Lógica modal alética, doxástica, epistémica. Razonamiento práctico guiado por objetivos: el agente como sistema intencional. Implementación de un agente guiado por objetivos: bucle de control de agente. Gestión del compromiso respecto a un objetivo (commitments). Lógica BDI (Belief-Desire-Intention).

Teoría: Qué es un agente lógico-simbólico. Lógica modal. Lógica de mundos posibles. Lógica modal alética, doxástica, epistémica. Razonamiento práctico guiado por objetivos: el agente como sistema intencional. Implementación de un agente guiado por objetivos: bucle de control de agente. Gestión del compromiso respecto a un objetivo (commitments). Lógica BDI (Belief-Desire-Intention).
Laboratorio: Introducción a Python. Configuración del entorno Python. Instalación del entorno multiagente. Prácticas con un lenguaje lógico-simbólico por agentes guiados por objetivos. Desarrollo de agentes guiados por objetivos.

Objetivos: 3
Contenidos:

3 . Agentes guiados por objetivos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Análisis del estado del arte en arquitecturas de agente

En esta actividad, los alumnos, organizados en grupos, tendrán que analizar un artículo académico reciente en el que se presente una arquitectura de agente novedosa.
Objetivos: 1 2
Semana: 3 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Ontologías

Representar al mundo: ontología y epistemología. El triángulo semiótico. Elementos de una ontología. Lenguajes de representación: OWL y RDF. Grafos de conocimiento. Razonamiento ontológico. Lógica descriptiva: ABox, TBox.

Teoría: Representar al mundo: ontología y epistemología. El triángulo semiótico. Elementos de una ontología. Lenguajes de representación: OWL y RDF. Grafos de conocimiento. Razonamiento ontológico. Lógica descriptiva: ABox, TBox.
Laboratorio: Aprender a utilizar Protégé para definir conceptos utilizando lógica descriptiva: definición por inclusión y por equivalencia. Implementación de otros axiomas de lógica descriptiva. Cómo hacer razonamiento ontológico: teoría y práctica.

Objetivos: 3
Contenidos:

4 . Ontologías

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Agentes guiados por utilidad

Objetivos vs utilidad. Definición de utilidad. Hipótesis de recompensa y señal de recompensa. Definición de problema de decisión secuencial. Procesos de decisión de Markov (MDPs). Trayectorías y políticas: factor de descuento. Algoritmos de resolución de MDPs: evaluación de política e iteración de valor. Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).

Teoría: Objetivos vs utilidad. Definición de utilidad. Hipótesis de recompensa y señal de recompensa. Definición de problema de decisión secuencial. Procesos de decisión de Markov (MDPs). Trayectorías y políticas: factor de descuento. Algoritmos de resolución de MDPs: evaluación de política e iteración de valor. Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
Laboratorio: Ejercicios prácticos de resolución de procesos de decisión de Markov (MDPs). Cómo formalizar un problema como un MDP. Resolución de un MDP con evaluación de política e iteración de valor.

Objetivos: 4
Contenidos:

5 . Agentes guiados por utilidad

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Implementación de axiomas con lógica descriptiva

En esta actividad, los grupos de alumnos tendrán que modificar una ontología ya existente para aplicar un conjunto de axiomas de lógica descriptiva, tanto en papel como en una herramienta de diseño de ontologías (e.g. Protégé).
Objetivos: 3
Semana: 5 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Aprendizaje por refuerzo

Multi-armed bandidos: exploración vs explotación. Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía. Modelo-based Monte Carlo. Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning. Algoritmos de gradiente de política: REINFORCE.

Teoría: Multi-armed bandidos: exploración vs explotación. Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía. Modelo-based Monte Carlo. Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning. Algoritmos de gradiente de política: REINFORCE.
Laboratorio: Introducción a la librería Gymnasium por simulación y entrenamiento de agentes. Prácticas de aprendizaje por refuerzo con un entorno funcional: iteración de valor, estimación directa, Q-Learning, REINFORCE.

Objetivos: 4 5
Contenidos:

6 . Aprendizaje por refuerzo

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Práctica: agentes guiados por objetivos

In this laboratory assignment, the teams of students will design and develop intelligent agents in a complex environment, using techniques and logic seen in the theory and laboratory sessions.
Objetivos: 1 2 3
Semana: 6 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

0.5h

Aprendizaje dirigido

Aprendizaje autónomo

20h

Examen Parcial

El examen parcial se llevará a cabo durante las horas de clase estándar. Las personas que no aprueben el parcial será evaluada de nuevo en el examen final.
Objetivos: 1 2 3 4 5
Semana: 7

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

10h

Sistemas multiagente: Teoría de Juegos

Por qué formalizar sistemas multiagente: la paradoja de Braess. Definición de entornos multiagente y sistema multiagente. Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos. Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero. Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash. Cálculo de la recompensa esperada. Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto. Introducción a la coordinación multiagente: competición vs cooperación.

Teoría: Por qué formalizar sistemas multiagente: la paradoja de Braess. Definición de entornos multiagente y sistema multiagente. Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos. Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero. Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash. Cálculo de la recompensa esperada. Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto. Introducción a la coordinación multiagente: competición vs cooperación.
Laboratorio: Resolución de ejercicios de juegos en forma normal: moldeado de problemas, cálculo de estrategias y equilibrios, precio de la anarquía y Pareto-optimalidad. Algoritmo de mejores respuestas para encontrar estrategias dominantes y equilibrios: teoría y práctica. Algoritmo de cálculo de equilibrios mixtos: teoría y práctica.

Objetivos: 4 6
Contenidos:

7 . Sistemas multiagente: Teoría de Juegos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Cooperación

Qué es la cooperación. Desafíos, estructuras y modos de cooperación. Breve introducción a las teorías y modelos de cooperación. Teoría de Coaliciones. Definición de juegos superaditivo, simple y convexo. Juego de coalición equitativo: valor de Shapley. Juego de coalición estable: el Núcleo. Teoría de la elección social: paradoja de Condorcet y propiedades deseables. Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial. Introducción a algoritmos de consenso: Paxos.

Teoría: Qué es la cooperación. Desafíos, estructuras y modos de cooperación. Breve introducción a las teorías y modelos de cooperación. Teoría de Coaliciones. Definición de juegos superaditivo, simple y convexo. Juego de coalición equitativo: valor de Shapley. Juego de coalición estable: el Núcleo. Teoría de la elección social: paradoja de Condorcet y propiedades deseables. Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial. Introducción a algoritmos de consenso: Paxos.
Laboratorio: Resolución de problemas de juego de coalición. Cálculo práctico del valor de Shapley y el Núcleo. Resolución de problemas de elección social.

Objetivos: 6 7 9
Contenidos:

8 . Cooperación

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Competition

Qué es competición. Teorías y modelos de competición. Definición de juego en forma extensiva. Reducción de forma extensiva a forma normal. Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás. Negociación como mecanismo de competición. Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria). Solución de regateo de Nash. Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.

Teoría: Qué es competición. Teorías y modelos de competición. Definición de juego en forma extensiva. Reducción de forma extensiva a forma normal. Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás. Negociación como mecanismo de competición. Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria). Solución de regateo de Nash. Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
Laboratorio: Resolución de problemas de competición. Formalización de problemas como juegos en forma extensiva. Reducción de forma extensiva a forma normal. Formalización y resolución de problemas de regateo. Aplicación de inducción hacia atrás para encontrar equilibrios de Nash y SPE (subgame perfect equilibria).

Objetivos: 6 8
Contenidos:

9 . Competición

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Práctica: aprendizaje por refuerzo

Los grupos de alumnos deberán realizar un informe con un estudio comparativo del rendimiento de diversas técnicas de aprendizaje por refuerzo en un entorno propuesto.
Objetivos: 4 5
Semana: 10 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

0.5h

Aprendizaje dirigido

Aprendizaje autónomo

20h

Diseño de mecanismos

Definición de mecanismo. Teoría de la implementación. Compatibilidad de incentivos. Principio de revelación. Diseño de mecanismos visto como un problema de optimización. Ejemplo de tipos de mecanismo: subastas. Mecanismos de mercado. Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves). Ejemplo de combinación de subasta y consenso.

Teoría: Definición de mecanismo. Teoría de la implementación. Compatibilidad de incentivos. Principio de revelación. Diseño de mecanismos visto como un problema de optimización. Ejemplo de tipos de mecanismo: subastas. Mecanismos de mercado. Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves). Ejemplo de combinación de subasta y consenso.

Objetivos: 6 7 8 9
Contenidos:

10 . Diseño de mecanismos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Solución de problemas de teoría de juegos

Los alumnos tendrán que entregar la solución a ejercicios de teoría de juegos planteados en el Racó, potencialmente incluyendo: juegos en forma normal, juegos de coalición, juegos en forma extensiva y/o problemas de regateo.
Objetivos: 6 7 8
Semana: 11 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Aprendizaje por refuerzo multiagente

De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables. Cómo añadir comunicación a un juego estocástico. Definición de problema de aprendizaje por refuerzo multiagente. Cálculo de la utilidad esperada: política individual vs política conjunta. Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento. Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria. Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero). Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.

Teoría: De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables. Cómo añadir comunicación a un juego estocástico. Definición de problema de aprendizaje por refuerzo multiagente. Cálculo de la utilidad esperada: política individual vs política conjunta. Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento. Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria. Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero). Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
Laboratorio: Introducción a entornos de aprendizaje por refuerzo multiagente. Aprendizaje por refuerzo en juegos de adversario: self-play MCTS y AlphaZero. Trabajo práctico con diversas metodologías para entrenar a agentes en entornos de intereses mixtos: joint-action learning, agente modelling, gradiente de política.

Objetivos: 4 5 6
Contenidos:

11 . Aprendizaje por refuerzo multiagente

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Modelos simbólicos de la IA social

Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes. Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles. Organizaciones electrónicas: OperA. Modelos normativos: instituciones electrónicas, HarmonIA. Modelos holísticos: OMNI.

Teoría: Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes. Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles. Organizaciones electrónicas: OperA. Modelos normativos: instituciones electrónicas, HarmonIA. Modelos holísticos: OMNI.

Objetivos: 3 9 10
Contenidos:

12 . Modelos simbólicos de la IA social

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Agentes y ética

Repaso de los conceptos de agente inteligente y agente racional. Relación entre agencia e inteligencia. Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.

Teoría: Repaso de los conceptos de agente inteligente y agente racional. Relación entre agencia e inteligencia. Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.

Objetivos: 1 2 10
Contenidos:

13 . Agentes y ética

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Práctica: aprendizaje por refuerzo multiagente

Los grupos de alumnos tendrán que realizar un informe con un estudio comparativo del rendimiento de diversas técnicas de aprendizaje por refuerzo multiagente en un entorno propuesto, cooperativo, competitivo, o una mezcla de los dos.
Objetivos: 5 6 7 8
Semana: 15 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

20h

Examen Final

Examen final para todos los contenidos del curso.
Objetivos: 1 2 3 4 5 6 7 8 9 10
Semana: 15 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

10h

Metodología docente

La metodología docente consistirá en la exposición de la teoría en clases de teoría y la aplicación de los conceptos en las clases de problemas y laboratorio.
El examen será único para todos los grupos de la asignatura.

Método de evaluación

La evaluación consta de un examen final, un examen parcial, problemas hechos durante el curso y una nota de laboratorio. Los exámenes final y parcial estarán enfocados a evaluar los conocimientos teóricos y metodológicos de la asignatura. La nota de problemas se obtendrá mediante la entrega de pequeños problemas propuestos durante el curso. La nota de laboratorio se obtendrá de la evaluación de los informes realizados sobre un conjunto de prácticas de laboratorio que se desarrollarán a lo largo del curso.

A mediados del cuatrimestre habrá un examen parcial que liberará la primera parte del temario (en caso de obtener una nota mínima de 5). El examen final evaluará tanto la primera como la segunda parte del curso. La primera es obligatoria para los estudiantes que no superaron el examen parcial y optativa para los demás. Como nota de la primera parte se cogerá el máximo de las dos notas obtenidas o la única obtenida en el parcial, según sea el caso.

La nota final se calculará de la siguiente manera:

Npar = nota del examen parcial

NEx1 = Nota de la primera parte del examen final

NEx2 = Nota de la segunda parte del examen final

Nota de teoría = [max(Npar, NEx1) + NEx2]/2

Nota final= Nota de teoría * 0.5 + nota de los ejercicios prácticos * 0.2 + nota de laboratorio * 0.3 (código e informe)

Evaluación de competencias

L'avaluació de la competència en el treball en equip es basa en el treball realitzat durant els treballs de pràctiques.

Bibliografía

Básica:

Artificial intelligence: a modern approach - Russell, S.J.; Norvig, P, Pearson, 2022. ISBN: 9781292401133
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005066379806711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Multiagent systems: algorithmic, game-theoretic, and logical foundations - Shoham, Yoav; Leyton-Brown, Kevin, Cambridge University Press, 2009. ISBN: 9780521899437
https://www-cambridge-org.recursos.biblioteca.upc.edu/core/books/multiagent-systems/B11B69E0CB9032D6EC0A254F59922360
Programming multi-agent systems in AgentSpeak using Jason - Bordini, Rafael H; Hübner, Jomi Fred; Wooldridge, Michael J, John Wiley, 2007. ISBN: 9780470029008
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003490179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Reinforcement learning: an introduction - Sutton, Richard S; Barto, Andrew G, MIT Press, 2020. ISBN: 978-0262193986
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004166329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Multi-Agent Reinforcement Learning: Foundations and Modern Approaches - Albrecht, Stefano V.;Christianos, Filippos; Schäfer, Lukas, MIT Press, 2024. ISBN: 9780262049375
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005317955806711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Complementaria:

An introduction to multiagent systems - Wooldridge, Michael J, John Wiley & Sons , 2009. ISBN: 9780470519462
https://discovery.upc.edu/discovery/fulldisplay?docid=alma91003779579706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Algorithmic game theory - Nisan, Noam; Papadimitriou, Christos H, Cambridge University Press , 2007. ISBN: 9780521872829
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003321009706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Game Theory, Alive - Karlin, Anna R.; Peres, Yuval, American Mathematical Society , 2017. ISBN: 1-4704-3667-1
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=4908296
The emotion machine: commensense thinking, artificial intelligence, and the future of the human mind - Minsky, M.L, Simon and Schuster , 2006. ISBN: 0743276639
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003734189706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Concurrent programming: algorithms, principles, and foundations - Raynal, M, Springer , 2013. ISBN: 9783642320262
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004000289706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacidades previas

Los alumnos deben haber cursado previamente la asignatura Inteligencia Artificial (o uno similiar)

Sistemas Inteligentes Distribuidos

Usted está aquí

Profesorado

Responsable

Otros

Horas semanales

Competencias

Competencias Transversales

Trabajo en equipo

Competencias Técnicas de cada especialidad

Especialidad de computación

Objetivos

Contenidos

Actividades

Introducción: sistemas distribuidos inteligentes

Agentes inteligentes

Agentes guiados por objetivos

Análisis del estado del arte en arquitecturas de agente

Ontologías

Agentes guiados por utilidad

Implementación de axiomas con lógica descriptiva

Aprendizaje por refuerzo

Práctica: agentes guiados por objetivos

Examen Parcial

Sistemas multiagente: Teoría de Juegos

Cooperación

Competition

Práctica: aprendizaje por refuerzo

Diseño de mecanismos

Solución de problemas de teoría de juegos

Aprendizaje por refuerzo multiagente

Modelos simbólicos de la IA social

Agentes y ética

Práctica: aprendizaje por refuerzo multiagente

Examen Final

Metodología docente

Método de evaluación

Bibliografía

Básica:

Complementaria:

Capacidades previas

Dónde estamos

Contacta con la FIB