Sistemas Inteligentes Distribuidos

Usted está aquí

Créditos
6
Tipos
Complementaria de especialidad (Computación)
Requisitos
  • Prerrequisito: IA
Departamento
CS
Mail
Hay dos objetivos principales en este curso: en primer lugar, proveer a los estudiantes los conocimientos matemáticos y computacionales suficientes para analizar sistemas distribuidos inteligentes mediante modelos adecuados, y en segundo lugar, ilustrar diversas estrategias de coordinación y mostrar cómo implementarlas y optimizar -las. El curso se estructura en una combinación de clases teóricas y ejercicios de laboratorio utilizando plataformas reales de hardware y de simulación.
Se tratan los siguientes temas:
1) introducción a los concepts claves como por ejemplo el concepto de auto-organización y las herramientas de software y hardware utilizados durante el curso,
2) ejemplos de sistemas inteligentes distribuidos naturales, artificiales e híbridos,
3 ) conceptos de aprendizaje automático: técnicas mono-y multi-agentes, y
4) estrategias de coordinación y control distribuido.

Profesorado

Responsable

  • Sergio Álvarez Napagao ( )

Otros

  • Javier Vazquez Salceda ( )
  • Ramon Sangüesa Sole ( )
  • Ulises Cortés García ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Competencias

Competencias Transversales

Trabajo en equipo

  • G5 [Avaluable] - Ser capaz de trabajar como miembro de un equipo, ya sea como un miembro más, o realizando tareas de dirección con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
    • G5.3 - Identificar los papeles, habilitados y carencias de los diferentes miembros del grupo. Proponer mejoras en la estructura del grupo. Interactuar con eficacia y de forma profesional. Negociar y gestionar conflictos en el grupo. Reconocer y dar soporte o asumir el papel de líder en el grupo de trabajo. Evaluar y presentar los resultados del trabajo de grupo. Representar al grupo en negociaciones con terceros. Capacidad de colaborar en un entorno multidisciplinar. Conocer y saber aplicar las técnicas para promover la creatividad.

Competencias Técnicas de cada especialidad

Especialidad de computación

  • CCO2 - Desarrollar de forma efectiva y eficiente los algoritmos y el software apropiados para resolver problemas complejos de computación.
    • CCO2.1 - Demostrar conocimiento de los fundamentos, los paradigmas y las técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen estas técnicas en cualquier ámbito de aplicación.
    • CCO2.2 - Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano de una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.

Objetivos

  1. Conocer los conceptos básicos de la Inteligencia Artificial Distribuida
    Competencias relacionadas: G9.1, CCO2.1, CCO2.2,
  2. Conocer el paradigma de agente inteligente como pieza clave en la construcción de sistemas multiagente
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  3. Conocer los modelos lógicos y computacionales que permiten la construcción de agentes orientados a objetivos
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  4. Conocer los modelos lógicos y computacionales que permiten la construcción de agentes dirigidos por utilidad
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  5. Conocer las diferentes metodologías, algoritmos y tecnologías para conseguir entrenar agentes mediante aprendizaje por refuerzo
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  6. Aprender los conceptos básicos de la teoría de juegos y su relación con los sistemas multiagentes
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  7. Aprender diferentes metodologías y algoritmos de cooperación para agentes en un sistema multiagente
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  8. Conocer diversas metodologías y algoritmos para la competición entre agentes en un sistema multiagente
    Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
  9. Entender los aspectos más relevantes del campo del Diseño de Mecanismos
    Competencias relacionadas: G9.1, CCO2.1,
  10. Conocer y entender las implicaciones sociales y éticas de la Inteligencia Artificial aplicada a sistemas capaces de tomar decisiones de forma autónoma
    Competencias relacionadas: G9.1, CCO2.1,

Contenidos

  1. Introducción: sistemas distribuidos inteligentes
    Perspectivas sobre la Inteligencia Artificial.
    Introducción a los sistemas computacionales distribuidos.
    Paradigma de arquitectura cognitiva y visión histórica.
    Introducción a los sistemas multiagentes.
  2. Agentes inteligentes
    Definición de agente inteligente.
    Racionalidad.
    Racionalidad limitada.
    Definición de entorno.
    Propiedades de un entorno.
    Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
  3. Agentes guiados por objetivos
    Qué es un agente lógico-simbólico.
    Lógica modal.
    Lógica de mundos posibles.
    Lógica modal alética, doxástica, epistémica.
    Razonamiento práctico guiado por objetivos: el agente como sistema intencional.
    Implementación de un agente guiado por objetivos: bucle de control de agente.
    Gestión del compromiso respecto a un objetivo (commitments).
    Lógica BDI (Belief-Desire-Intention).
  4. Ontologías
    Representar al mundo: ontología y epistemología.
    El triángulo semiótico.
    Elementos de una ontología.
    Lenguajes de representación: OWL y RDF.
    Grafos de conocimiento.
    Razonamiento ontológico.
    Lógica descriptiva: ABox, TBox.
  5. Agentes guiados por utilidad
    Objetivos vs utilidad.
    Definición de utilidad.
    Hipótesis de recompensa y señal de recompensa.
    Definición de problema de decisión secuencial.
    Procesos de decisión de Markov (MDPs).
    Trayectorías y políticas: factor de descuento.
    Algoritmos de resolución de MDPs: evaluación de política e iteración de valor.
    Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
  6. Aprendizaje por refuerzo
    Multi-armed bandidos: exploración vs explotación.
    Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía.
    Modelo-based Monte Carlo.
    Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning.
    Algoritmos de gradiente de política: REINFORCE.
  7. Sistemas multiagente: Teoría de Juegos
    Por qué formalizar sistemas multiagente: la paradoja de Braess.
    Definición de entornos multiagente y sistema multiagente.
    Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos.
    Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero.
    Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash.
    Cálculo de la recompensa esperada.
    Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto.
    Introducción a la coordinación multiagente: competición vs cooperación.
  8. Cooperación
    Qué es la cooperación.
    Desafíos, estructuras y modos de cooperación.
    Breve introducción a las teorías y modelos de cooperación.
    Teoría de Coaliciones.
    Definición de juegos superaditivo, simple y convexo.
    Juego de coalición equitativo: valor de Shapley.
    Juego de coalición estable: el Núcleo.
    Teoría de la elección social: paradoja de Condorcet y propiedades deseables.
    Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial.
    Introducción a algoritmos de consenso: Paxos.
  9. Competición
    Qué es competición.
    Teorías y modelos de competición.
    Definición de juego en forma extensiva.
    Reducción de forma extensiva a forma normal.
    Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás.
    Negociación como mecanismo de competición.
    Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria).
    Solución de regateo de Nash.
    Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
  10. Diseño de mecanismos
    Definición de mecanismo.
    Teoría de la implementación.
    Compatibilidad de incentivos.
    Principio de revelación.
    Diseño de mecanismos visto como un problema de optimización.
    Ejemplo de tipos de mecanismo: subastas.
    Mecanismos de mercado.
    Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves).
    Ejemplo de combinación de subasta y consenso.
  11. Aprendizaje por refuerzo multiagente
    De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables.
    Cómo añadir comunicación a un juego estocástico.
    Definición de problema de aprendizaje por refuerzo multiagente.
    Cálculo de la utilidad esperada: política individual vs política conjunta.
    Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento.
    Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria.
    Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero).
    Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
  12. Modelos simbólicos de la IA social
    Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes.
    Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles.
    Organizaciones electrónicas: OperA.
    Modelos normativos: instituciones electrónicas, HarmonIA.
    Modelos holísticos: OMNI.
  13. Agentes y ética
    Repaso de los conceptos de agente inteligente y agente racional.
    Relación entre agencia e inteligencia.
    Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.

Actividades

Actividad Acto evaluativo


Introducción: sistemas distribuidos inteligentes

Perspectivas sobre la Inteligencia Artificial. Introducción a los sistemas computacionales distribuidos. Paradigma de arquitectura cognitiva y visión histórica. Introducción a los sistemas multiagentes.
  • Teoría: Perspectivas sobre la Inteligencia Artificial. Introducción a los sistemas computacionales distribuidos. Paradigma de arquitectura cognitiva y visión histórica. Introducción a los sistemas multiagentes.
Objetivos: 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Agentes inteligentes

Definición de agente inteligente. Racionalidad. Racionalidad limitada. Definición de entorno. Propiedades de un entorno. Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
  • Teoría: Definición de agente inteligente. Racionalidad. Racionalidad limitada. Definición de entorno. Propiedades de un entorno. Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
Objetivos: 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Agentes guiados por objetivos

Qué es un agente lógico-simbólico. Lógica modal. Lógica de mundos posibles. Lógica modal alética, doxástica, epistémica. Razonamiento práctico guiado por objetivos: el agente como sistema intencional. Implementación de un agente guiado por objetivos: bucle de control de agente. Gestión del compromiso respecto a un objetivo (commitments). Lógica BDI (Belief-Desire-Intention).
  • Teoría: Qué es un agente lógico-simbólico. Lógica modal. Lógica de mundos posibles. Lógica modal alética, doxástica, epistémica. Razonamiento práctico guiado por objetivos: el agente como sistema intencional. Implementación de un agente guiado por objetivos: bucle de control de agente. Gestión del compromiso respecto a un objetivo (commitments). Lógica BDI (Belief-Desire-Intention).
  • Laboratorio: Introducción a Python. Configuración del entorno Python. Instalación del entorno multiagente. Prácticas con un lenguaje lógico-simbólico por agentes guiados por objetivos. Desarrollo de agentes guiados por objetivos.
Objetivos: 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
6h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Análisis del estado del arte en arquitecturas de agente

En esta actividad, los alumnos, organizados en grupos, tendrán que analizar un artículo académico reciente en el que se presente una arquitectura de agente novedosa.
Objetivos: 1 2
Semana: 3 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
3h

Ontologías

Representar al mundo: ontología y epistemología. El triángulo semiótico. Elementos de una ontología. Lenguajes de representación: OWL y RDF. Grafos de conocimiento. Razonamiento ontológico. Lógica descriptiva: ABox, TBox.
  • Teoría: Representar al mundo: ontología y epistemología. El triángulo semiótico. Elementos de una ontología. Lenguajes de representación: OWL y RDF. Grafos de conocimiento. Razonamiento ontológico. Lógica descriptiva: ABox, TBox.
  • Laboratorio: Aprender a utilizar Protégé para definir conceptos utilizando lógica descriptiva: definición por inclusión y por equivalencia. Implementación de otros axiomas de lógica descriptiva. Cómo hacer razonamiento ontológico: teoría y práctica.
Objetivos: 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Agentes guiados por utilidad

Objetivos vs utilidad. Definición de utilidad. Hipótesis de recompensa y señal de recompensa. Definición de problema de decisión secuencial. Procesos de decisión de Markov (MDPs). Trayectorías y políticas: factor de descuento. Algoritmos de resolución de MDPs: evaluación de política e iteración de valor. Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
  • Teoría: Objetivos vs utilidad. Definición de utilidad. Hipótesis de recompensa y señal de recompensa. Definición de problema de decisión secuencial. Procesos de decisión de Markov (MDPs). Trayectorías y políticas: factor de descuento. Algoritmos de resolución de MDPs: evaluación de política e iteración de valor. Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
  • Laboratorio: Ejercicios prácticos de resolución de procesos de decisión de Markov (MDPs). Cómo formalizar un problema como un MDP. Resolución de un MDP con evaluación de política e iteración de valor.
Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Implementación de axiomas con lógica descriptiva

En esta actividad, los grupos de alumnos tendrán que modificar una ontología ya existente para aplicar un conjunto de axiomas de lógica descriptiva, tanto en papel como en una herramienta de diseño de ontologías (e.g. Protégé).
Objetivos: 3
Semana: 5 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
3h

Aprendizaje por refuerzo

Multi-armed bandidos: exploración vs explotación. Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía. Modelo-based Monte Carlo. Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning. Algoritmos de gradiente de política: REINFORCE.
  • Teoría: Multi-armed bandidos: exploración vs explotación. Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía. Modelo-based Monte Carlo. Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning. Algoritmos de gradiente de política: REINFORCE.
  • Laboratorio: Introducción a la librería Gymnasium por simulación y entrenamiento de agentes. Prácticas de aprendizaje por refuerzo con un entorno funcional: iteración de valor, estimación directa, Q-Learning, REINFORCE.
Objetivos: 4 5
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Práctica: agentes guiados por objetivos

In this laboratory assignment, the teams of students will design and develop intelligent agents in a complex environment, using techniques and logic seen in the theory and laboratory sessions.
Objetivos: 1 2 3
Semana: 6 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
20h

Examen Parcial

El examen parcial se llevará a cabo durante las horas de clase estándar. Las personas que no aprueben el parcial será evaluada de nuevo en el examen final.
Objetivos: 1 2 3 4 5
Semana: 7
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h

Sistemas multiagente: Teoría de Juegos

Por qué formalizar sistemas multiagente: la paradoja de Braess. Definición de entornos multiagente y sistema multiagente. Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos. Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero. Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash. Cálculo de la recompensa esperada. Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto. Introducción a la coordinación multiagente: competición vs cooperación.
  • Teoría: Por qué formalizar sistemas multiagente: la paradoja de Braess. Definición de entornos multiagente y sistema multiagente. Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos. Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero. Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash. Cálculo de la recompensa esperada. Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto. Introducción a la coordinación multiagente: competición vs cooperación.
  • Laboratorio: Resolución de ejercicios de juegos en forma normal: moldeado de problemas, cálculo de estrategias y equilibrios, precio de la anarquía y Pareto-optimalidad. Algoritmo de mejores respuestas para encontrar estrategias dominantes y equilibrios: teoría y práctica. Algoritmo de cálculo de equilibrios mixtos: teoría y práctica.
Objetivos: 4 6
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Cooperación

Qué es la cooperación. Desafíos, estructuras y modos de cooperación. Breve introducción a las teorías y modelos de cooperación. Teoría de Coaliciones. Definición de juegos superaditivo, simple y convexo. Juego de coalición equitativo: valor de Shapley. Juego de coalición estable: el Núcleo. Teoría de la elección social: paradoja de Condorcet y propiedades deseables. Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial. Introducción a algoritmos de consenso: Paxos.
  • Teoría: Qué es la cooperación. Desafíos, estructuras y modos de cooperación. Breve introducción a las teorías y modelos de cooperación. Teoría de Coaliciones. Definición de juegos superaditivo, simple y convexo. Juego de coalición equitativo: valor de Shapley. Juego de coalición estable: el Núcleo. Teoría de la elección social: paradoja de Condorcet y propiedades deseables. Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial. Introducción a algoritmos de consenso: Paxos.
  • Laboratorio: Resolución de problemas de juego de coalición. Cálculo práctico del valor de Shapley y el Núcleo. Resolución de problemas de elección social.
Objetivos: 6 7 9
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Competition

Qué es competición. Teorías y modelos de competición. Definición de juego en forma extensiva. Reducción de forma extensiva a forma normal. Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás. Negociación como mecanismo de competición. Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria). Solución de regateo de Nash. Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
  • Teoría: Qué es competición. Teorías y modelos de competición. Definición de juego en forma extensiva. Reducción de forma extensiva a forma normal. Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás. Negociación como mecanismo de competición. Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria). Solución de regateo de Nash. Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
  • Laboratorio: Resolución de problemas de competición. Formalización de problemas como juegos en forma extensiva. Reducción de forma extensiva a forma normal. Formalización y resolución de problemas de regateo. Aplicación de inducción hacia atrás para encontrar equilibrios de Nash y SPE (subgame perfect equilibria).
Objetivos: 6 8
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Práctica: aprendizaje por refuerzo

Los grupos de alumnos deberán realizar un informe con un estudio comparativo del rendimiento de diversas técnicas de aprendizaje por refuerzo en un entorno propuesto.
Objetivos: 4 5
Semana: 10 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
20h

Diseño de mecanismos

Definición de mecanismo. Teoría de la implementación. Compatibilidad de incentivos. Principio de revelación. Diseño de mecanismos visto como un problema de optimización. Ejemplo de tipos de mecanismo: subastas. Mecanismos de mercado. Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves). Ejemplo de combinación de subasta y consenso.
  • Teoría: Definición de mecanismo. Teoría de la implementación. Compatibilidad de incentivos. Principio de revelación. Diseño de mecanismos visto como un problema de optimización. Ejemplo de tipos de mecanismo: subastas. Mecanismos de mercado. Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves). Ejemplo de combinación de subasta y consenso.
Objetivos: 6 7 8 9
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Solución de problemas de teoría de juegos

Los alumnos tendrán que entregar la solución a ejercicios de teoría de juegos planteados en el Racó, potencialmente incluyendo: juegos en forma normal, juegos de coalición, juegos en forma extensiva y/o problemas de regateo.
Objetivos: 6 7 8
Semana: 11 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Aprendizaje por refuerzo multiagente

De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables. Cómo añadir comunicación a un juego estocástico. Definición de problema de aprendizaje por refuerzo multiagente. Cálculo de la utilidad esperada: política individual vs política conjunta. Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento. Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria. Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero). Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
  • Teoría: De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables. Cómo añadir comunicación a un juego estocástico. Definición de problema de aprendizaje por refuerzo multiagente. Cálculo de la utilidad esperada: política individual vs política conjunta. Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento. Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria. Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero). Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
  • Laboratorio: Introducción a entornos de aprendizaje por refuerzo multiagente. Aprendizaje por refuerzo en juegos de adversario: self-play MCTS y AlphaZero. Trabajo práctico con diversas metodologías para entrenar a agentes en entornos de intereses mixtos: joint-action learning, agente modelling, gradiente de política.
Objetivos: 4 5 6
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
8h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Modelos simbólicos de la IA social

Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes. Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles. Organizaciones electrónicas: OperA. Modelos normativos: instituciones electrónicas, HarmonIA. Modelos holísticos: OMNI.
  • Teoría: Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes. Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles. Organizaciones electrónicas: OperA. Modelos normativos: instituciones electrónicas, HarmonIA. Modelos holísticos: OMNI.
Objetivos: 3 9 10
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Agentes y ética

Repaso de los conceptos de agente inteligente y agente racional. Relación entre agencia e inteligencia. Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.
  • Teoría: Repaso de los conceptos de agente inteligente y agente racional. Relación entre agencia e inteligencia. Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.
Objetivos: 1 2 10
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Práctica: aprendizaje por refuerzo multiagente

Los grupos de alumnos tendrán que realizar un informe con un estudio comparativo del rendimiento de diversas técnicas de aprendizaje por refuerzo multiagente en un entorno propuesto, cooperativo, competitivo, o una mezcla de los dos.
Objetivos: 5 6 7 8
Semana: 15 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
20h

Examen Final

Examen final para todos los contenidos del curso.
Objetivos: 1 2 3 4 5 6 7 8 9 10
Semana: 15 (Fuera de horario lectivo)
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h

Metodología docente

La metodología docente consistirá en la exposición de la teoría en clases de teoría y la aplicación de los conceptos en las clases de problemas y laboratorio.
El examen será único para todos los grupos de la asignatura.

Método de evaluación

La evaluación consta de un examen final, un examen parcial, problemas hechos durante el curso y una nota de laboratorio. Los exámenes final y parcial estarán enfocados a evaluar los conocimientos teóricos y metodológicos de la asignatura. La nota de problemas se obtendrá mediante la entrega de pequeños problemas propuestos durante el curso. La nota de laboratorio se obtendrá de la evaluación de los informes realizados sobre un conjunto de prácticas de laboratorio que se desarrollarán a lo largo del curso.

A mediados del cuatrimestre habrá un examen parcial que liberará la primera parte del temario (en caso de obtener una nota mínima de 5). El examen final evaluará tanto la primera como la segunda parte del curso. La primera es obligatoria para los estudiantes que no superaron el examen parcial y optativa para los demás. Como nota de la primera parte se cogerá el máximo de las dos notas obtenidas o la única obtenida en el parcial, según sea el caso.

La nota final se calculará de la siguiente manera:

Npar = nota del examen parcial

NEx1 = Nota de la primera parte del examen final

NEx2 = Nota de la segunda parte del examen final



Nota de teoría = [max(Npar, NEx1) + NEx2]/2



Nota final= Nota de teoría * 0.5 + nota de los ejercicios prácticos * 0.2 + nota de laboratorio * 0.3 (código e informe)


Evaluación de competencias

L'avaluació de la competència en el treball en equip es basa en el treball realitzat durant els treballs de pràctiques.

Bibliografía

Básica:

Complementaria:

Capacidades previas

Los alumnos deben haber cursado previamente la asignatura Inteligencia Artificial (o uno similiar)