Pasar al contenido principal

Sistemas Inteligentes Distribuidos

Créditos
6
Tipos
  • GIA: Optativa
  • GRAU: Complementaria de especialidad (Computación)
Requisitos
Departamento
CS
Mail
salvarez@cs.upc.edu
Hay dos objetivos principales en este curso: en primer lugar, proveer a los estudiantes los conocimientos matemáticos y computacionales suficientes para analizar sistemas distribuidos inteligentes mediante modelos adecuados, y en segundo lugar, ilustrar diversas estrategias de coordinación y mostrar cómo implementarlas y optimizar -las. El curso se estructura en una combinación de clases teóricas y ejercicios de laboratorio utilizando plataformas reales de hardware y de simulación.
Se tratan los siguientes temas:
1) introducción a los concepts claves como por ejemplo el concepto de auto-organización y las herramientas de software y hardware utilizados durante el curso,
2) ejemplos de sistemas inteligentes distribuidos naturales, artificiales e híbridos,
3 ) conceptos de aprendizaje automático: técnicas mono-y multi-agentes, y
4) estrategias de coordinación y control distribuido.

Profesorado

Responsable

  • Sergio Álvarez Napagao (salvarez@cs.upc.edu)

Otros

  • Ander Barrio Campos (ander.barrio@upc.edu)
  • Javier Vazquez Salceda (jvazquez@cs.upc.edu)
  • Ramon Sangüesa Sole (ramon.sanguesa.i@upc.edu)
  • Víctor Giménez Ábalos (victor.gimenez.abalos@upc.edu)

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Competencias

Trabajo en equipo

  • G5 [Avaluable] - Ser capaz de trabajar como miembro de un equipo, ya sea como un miembro más, o realizando tareas de dirección con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
    • G5.3 - Identificar los papeles, habilitados y carencias de los diferentes miembros del grupo. Proponer mejoras en la estructura del grupo. Interactuar con eficacia y de forma profesional. Negociar y gestionar conflictos en el grupo. Reconocer y dar soporte o asumir el papel de líder en el grupo de trabajo. Evaluar y presentar los resultados del trabajo de grupo. Representar al grupo en negociaciones con terceros. Capacidad de colaborar en un entorno multidisciplinar. Conocer y saber aplicar las técnicas para promover la creatividad.
  • Especialidad de computación

  • CCO2 - Desarrollar de forma efectiva y eficiente los algoritmos y el software apropiados para resolver problemas complejos de computación.
    • CCO2.1 - Demostrar conocimiento de los fundamentos, los paradigmas y las técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen estas técnicas en cualquier ámbito de aplicación.
    • CCO2.2 - Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano de una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.
  • Objetivos

    1. Conocer los conceptos básicos de la Inteligencia Artificial Distribuida
      Competencias relacionadas: G9.1, CCO2.1, CCO2.2,
    2. Conocer el paradigma de agente inteligente como pieza clave en la construcción de sistemas multiagente
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    3. Conocer los modelos lógicos y computacionales que permiten la construcción de agentes orientados a objetivos
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    4. Conocer los modelos lógicos y computacionales que permiten la construcción de agentes dirigidos por utilidad
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    5. Conocer las diferentes metodologías, algoritmos y tecnologías para conseguir entrenar agentes mediante aprendizaje por refuerzo
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    6. Aprender los conceptos básicos de la teoría de juegos y su relación con los sistemas multiagentes
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    7. Aprender diferentes metodologías y algoritmos de cooperación para agentes en un sistema multiagente
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    8. Conocer diversas metodologías y algoritmos para la competición entre agentes en un sistema multiagente
      Competencias relacionadas: G7.1, G9.1, G5.3, CCO2.1, CCO2.2,
    9. Entender los aspectos más relevantes del campo del Diseño de Mecanismos
      Competencias relacionadas: G9.1, CCO2.1,
    10. Conocer y entender las implicaciones sociales y éticas de la Inteligencia Artificial aplicada a sistemas capaces de tomar decisiones de forma autónoma
      Competencias relacionadas: G9.1, CCO2.1,

    Contenidos

    1. Introducción: sistemas distribuidos inteligentes
      Perspectivas sobre la Inteligencia Artificial.
      Introducción a los sistemas computacionales distribuidos.
      Paradigma de arquitectura cognitiva y visión histórica.
      Introducción a los sistemas multiagentes.
    2. Agentes inteligentes
      Definición de agente inteligente.
      Racionalidad.
      Racionalidad limitada.
      Definición de entorno.
      Propiedades de un entorno.
      Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
    3. Agentes guiados por objetivos
      Qué es un agente lógico-simbólico.
      Lógica modal.
      Lógica de mundos posibles.
      Lógica modal alética, doxástica, epistémica.
      Razonamiento práctico guiado por objetivos: el agente como sistema intencional.
      Implementación de un agente guiado por objetivos: bucle de control de agente.
      Gestión del compromiso respecto a un objetivo (commitments).
      Lógica BDI (Belief-Desire-Intention).
    4. Ontologías
      Representar al mundo: ontología y epistemología.
      El triángulo semiótico.
      Elementos de una ontología.
      Lenguajes de representación: OWL y RDF.
      Grafos de conocimiento.
      Razonamiento ontológico.
      Lógica descriptiva: ABox, TBox.
    5. Agentes guiados por utilidad
      Objetivos vs utilidad.
      Definición de utilidad.
      Hipótesis de recompensa y señal de recompensa.
      Definición de problema de decisión secuencial.
      Procesos de decisión de Markov (MDPs).
      Trayectorías y políticas: factor de descuento.
      Algoritmos de resolución de MDPs: evaluación de política e iteración de valor.
      Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
    6. Aprendizaje por refuerzo
      Multi-armed bandidos: exploración vs explotación.
      Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía.
      Modelo-based Monte Carlo.
      Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning.
      Algoritmos de gradiente de política: REINFORCE.
    7. Sistemas multiagente: Teoría de Juegos
      Por qué formalizar sistemas multiagente: la paradoja de Braess.
      Definición de entornos multiagente y sistema multiagente.
      Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos.
      Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero.
      Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash.
      Cálculo de la recompensa esperada.
      Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto.
      Introducción a la coordinación multiagente: competición vs cooperación.
    8. Cooperación
      Qué es la cooperación.
      Desafíos, estructuras y modos de cooperación.
      Breve introducción a las teorías y modelos de cooperación.
      Teoría de Coaliciones.
      Definición de juegos superaditivo, simple y convexo.
      Juego de coalición equitativo: valor de Shapley.
      Juego de coalición estable: el Núcleo.
      Teoría de la elección social: paradoja de Condorcet y propiedades deseables.
      Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial.
      Introducción a algoritmos de consenso: Paxos.
    9. Competición
      Qué es competición.
      Teorías y modelos de competición.
      Definición de juego en forma extensiva.
      Reducción de forma extensiva a forma normal.
      Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás.
      Negociación como mecanismo de competición.
      Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria).
      Solución de regateo de Nash.
      Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
    10. Diseño de mecanismos
      Definición de mecanismo.
      Teoría de la implementación.
      Compatibilidad de incentivos.
      Principio de revelación.
      Diseño de mecanismos visto como un problema de optimización.
      Ejemplo de tipos de mecanismo: subastas.
      Mecanismos de mercado.
      Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves).
      Ejemplo de combinación de subasta y consenso.
    11. Aprendizaje por refuerzo multiagente
      De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables.
      Cómo añadir comunicación a un juego estocástico.
      Definición de problema de aprendizaje por refuerzo multiagente.
      Cálculo de la utilidad esperada: política individual vs política conjunta.
      Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento.
      Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria.
      Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero).
      Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
    12. Modelos simbólicos de la IA social
      Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes.
      Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles.
      Organizaciones electrónicas: OperA.
      Modelos normativos: instituciones electrónicas, HarmonIA.
      Modelos holísticos: OMNI.
    13. Agentes y ética
      Repaso de los conceptos de agente inteligente y agente racional.
      Relación entre agencia e inteligencia.
      Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.

    Actividades

    Actividad Acto evaluativo


    Introducción: sistemas distribuidos inteligentes

    Perspectivas sobre la Inteligencia Artificial. Introducción a los sistemas computacionales distribuidos. Paradigma de arquitectura cognitiva y visión histórica. Introducción a los sistemas multiagentes.
    • Teoría: Perspectivas sobre la Inteligencia Artificial. Introducción a los sistemas computacionales distribuidos. Paradigma de arquitectura cognitiva y visión histórica. Introducción a los sistemas multiagentes.
    Objetivos: 1
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Agentes inteligentes

    Definición de agente inteligente. Racionalidad. Racionalidad limitada. Definición de entorno. Propiedades de un entorno. Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
    • Teoría: Definición de agente inteligente. Racionalidad. Racionalidad limitada. Definición de entorno. Propiedades de un entorno. Arquitecturas de agente inteligente: reactivo, deliberativo guiado por objetivos, deliberativo guiado por utilidad, adaptativo.
    Objetivos: 2
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Agentes guiados por objetivos

    Qué es un agente lógico-simbólico. Lógica modal. Lógica de mundos posibles. Lógica modal alética, doxástica, epistémica. Razonamiento práctico guiado por objetivos: el agente como sistema intencional. Implementación de un agente guiado por objetivos: bucle de control de agente. Gestión del compromiso respecto a un objetivo (commitments). Lógica BDI (Belief-Desire-Intention).
    • Teoría: Qué es un agente lógico-simbólico. Lógica modal. Lógica de mundos posibles. Lógica modal alética, doxástica, epistémica. Razonamiento práctico guiado por objetivos: el agente como sistema intencional. Implementación de un agente guiado por objetivos: bucle de control de agente. Gestión del compromiso respecto a un objetivo (commitments). Lógica BDI (Belief-Desire-Intention).
    • Laboratorio: Introducción a Python. Configuración del entorno Python. Instalación del entorno multiagente. Prácticas con un lenguaje lógico-simbólico por agentes guiados por objetivos. Desarrollo de agentes guiados por objetivos.
    Objetivos: 3
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    6h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Análisis del estado del arte en arquitecturas de agente

    En esta actividad, los alumnos, organizados en grupos, tendrán que analizar un artículo académico reciente en el que se presente una arquitectura de agente novedosa.
    Objetivos: 1 2
    Semana: 3 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Ontologías

    Representar al mundo: ontología y epistemología. El triángulo semiótico. Elementos de una ontología. Lenguajes de representación: OWL y RDF. Grafos de conocimiento. Razonamiento ontológico. Lógica descriptiva: ABox, TBox.
    • Teoría: Representar al mundo: ontología y epistemología. El triángulo semiótico. Elementos de una ontología. Lenguajes de representación: OWL y RDF. Grafos de conocimiento. Razonamiento ontológico. Lógica descriptiva: ABox, TBox.
    • Laboratorio: Aprender a utilizar Protégé para definir conceptos utilizando lógica descriptiva: definición por inclusión y por equivalencia. Implementación de otros axiomas de lógica descriptiva. Cómo hacer razonamiento ontológico: teoría y práctica.
    Objetivos: 3
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    2h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Agentes guiados por utilidad

    Objetivos vs utilidad. Definición de utilidad. Hipótesis de recompensa y señal de recompensa. Definición de problema de decisión secuencial. Procesos de decisión de Markov (MDPs). Trayectorías y políticas: factor de descuento. Algoritmos de resolución de MDPs: evaluación de política e iteración de valor. Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
    • Teoría: Objetivos vs utilidad. Definición de utilidad. Hipótesis de recompensa y señal de recompensa. Definición de problema de decisión secuencial. Procesos de decisión de Markov (MDPs). Trayectorías y políticas: factor de descuento. Algoritmos de resolución de MDPs: evaluación de política e iteración de valor. Breve introducción a procesos de decisión de Markov parcialmente observables (POMDPs).
    • Laboratorio: Ejercicios prácticos de resolución de procesos de decisión de Markov (MDPs). Cómo formalizar un problema como un MDP. Resolución de un MDP con evaluación de política e iteración de valor.
    Objetivos: 4
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    2h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Implementación de axiomas con lógica descriptiva

    En esta actividad, los grupos de alumnos tendrán que modificar una ontología ya existente para aplicar un conjunto de axiomas de lógica descriptiva, tanto en papel como en una herramienta de diseño de ontologías (e.g. Protégé).
    Objetivos: 3
    Semana: 5 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Aprendizaje por refuerzo

    Multi-armed bandidos: exploración vs explotación. Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía. Modelo-based Monte Carlo. Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning. Algoritmos de gradiente de política: REINFORCE.
    • Teoría: Multi-armed bandidos: exploración vs explotación. Cómo aprender a decidir: aprendizaje por refuerzo, categorización y taxonomía. Modelo-based Monte Carlo. Algoritmos de aprendizaje por diferencias temporales: SARSA y Q-Learning. Algoritmos de gradiente de política: REINFORCE.
    • Laboratorio: Introducción a la librería Gymnasium por simulación y entrenamiento de agentes. Prácticas de aprendizaje por refuerzo con un entorno funcional: iteración de valor, estimación directa, Q-Learning, REINFORCE.
    Objetivos: 4 5
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    4h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Práctica: agentes guiados por objetivos

    In this laboratory assignment, the teams of students will design and develop intelligent agents in a complex environment, using techniques and logic seen in the theory and laboratory sessions.
    Objetivos: 1 2 3
    Semana: 6 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Examen Parcial

    El examen parcial se llevará a cabo durante las horas de clase estándar. Las personas que no aprueben el parcial será evaluada de nuevo en el examen final.
    Objetivos: 1 2 3 4 5
    Semana: 7
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Sistemas multiagente: Teoría de Juegos

    Por qué formalizar sistemas multiagente: la paradoja de Braess. Definición de entornos multiagente y sistema multiagente. Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos. Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero. Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash. Cálculo de la recompensa esperada. Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto. Introducción a la coordinación multiagente: competición vs cooperación.
    • Teoría: Por qué formalizar sistemas multiagente: la paradoja de Braess. Definición de entornos multiagente y sistema multiagente. Breve introducción de modelos computacionales para sistemas multiagente: MDPs, DCOPs, planificación, sistemas distribuidos, sistemas sociotécnicos, teoría de juegos. Introducción a la Teoría de Juegos en forma normal: el dilema del prisionero. Conceptos de solución: estrategia dominante, estrategias minimax y maximin, equilibrio de Nash. Cálculo de la recompensa esperada. Eficiencia del equilibrio: precio de la anarquía, optimalidad de Pareto. Introducción a la coordinación multiagente: competición vs cooperación.
    • Laboratorio: Resolución de ejercicios de juegos en forma normal: moldeado de problemas, cálculo de estrategias y equilibrios, precio de la anarquía y Pareto-optimalidad. Algoritmo de mejores respuestas para encontrar estrategias dominantes y equilibrios: teoría y práctica. Algoritmo de cálculo de equilibrios mixtos: teoría y práctica.
    Objetivos: 4 6
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    2h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Cooperación

    Qué es la cooperación. Desafíos, estructuras y modos de cooperación. Breve introducción a las teorías y modelos de cooperación. Teoría de Coaliciones. Definición de juegos superaditivo, simple y convexo. Juego de coalición equitativo: valor de Shapley. Juego de coalición estable: el Núcleo. Teoría de la elección social: paradoja de Condorcet y propiedades deseables. Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial. Introducción a algoritmos de consenso: Paxos.
    • Teoría: Qué es la cooperación. Desafíos, estructuras y modos de cooperación. Breve introducción a las teorías y modelos de cooperación. Teoría de Coaliciones. Definición de juegos superaditivo, simple y convexo. Juego de coalición equitativo: valor de Shapley. Juego de coalición estable: el Núcleo. Teoría de la elección social: paradoja de Condorcet y propiedades deseables. Funciones de elección social: mayoría, pluralidad, Condorcet, Borda, liebre, agenda fija, dictatorial. Introducción a algoritmos de consenso: Paxos.
    • Laboratorio: Resolución de problemas de juego de coalición. Cálculo práctico del valor de Shapley y el Núcleo. Resolución de problemas de elección social.
    Objetivos: 6 7 9
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    2h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Competition

    Qué es competición. Teorías y modelos de competición. Definición de juego en forma extensiva. Reducción de forma extensiva a forma normal. Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás. Negociación como mecanismo de competición. Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria). Solución de regateo de Nash. Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
    • Teoría: Qué es competición. Teorías y modelos de competición. Definición de juego en forma extensiva. Reducción de forma extensiva a forma normal. Cómo calcular el equilibrio de Nash: algoritmo de inducción hacia atrás. Negociación como mecanismo de competición. Definición de problema de regateo y resolución con inducción hacia atrás (subgame perfect equilibria). Solución de regateo de Nash. Resolución de competición como juego de adversario: Minimax, Expectiminimax, árbol de búsqueda Monte Carlo.
    • Laboratorio: Resolución de problemas de competición. Formalización de problemas como juegos en forma extensiva. Reducción de forma extensiva a forma normal. Formalización y resolución de problemas de regateo. Aplicación de inducción hacia atrás para encontrar equilibrios de Nash y SPE (subgame perfect equilibria).
    Objetivos: 6 8
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    2h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Práctica: aprendizaje por refuerzo

    Los grupos de alumnos deberán realizar un informe con un estudio comparativo del rendimiento de diversas técnicas de aprendizaje por refuerzo en un entorno propuesto.
    Objetivos: 4 5
    Semana: 10 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Diseño de mecanismos

    Definición de mecanismo. Teoría de la implementación. Compatibilidad de incentivos. Principio de revelación. Diseño de mecanismos visto como un problema de optimización. Ejemplo de tipos de mecanismo: subastas. Mecanismos de mercado. Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves). Ejemplo de combinación de subasta y consenso.
    • Teoría: Definición de mecanismo. Teoría de la implementación. Compatibilidad de incentivos. Principio de revelación. Diseño de mecanismos visto como un problema de optimización. Ejemplo de tipos de mecanismo: subastas. Mecanismos de mercado. Subasta naive, de primer precio y de segundo precio (Vickrey-Clarke-Groves). Ejemplo de combinación de subasta y consenso.
    Objetivos: 6 7 8 9
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Solución de problemas de teoría de juegos

    Los alumnos tendrán que entregar la solución a ejercicios de teoría de juegos planteados en el Racó, potencialmente incluyendo: juegos en forma normal, juegos de coalición, juegos en forma extensiva y/o problemas de regateo.
    Objetivos: 6 7 8
    Semana: 11 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Aprendizaje por refuerzo multiagente

    De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables. Cómo añadir comunicación a un juego estocástico. Definición de problema de aprendizaje por refuerzo multiagente. Cálculo de la utilidad esperada: política individual vs política conjunta. Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento. Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria. Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero). Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
    • Teoría: De teoría de juegos a aprendizaje por refuerzo: juegos estocásticos y juegos estocásticos parcialmente observables. Cómo añadir comunicación a un juego estocástico. Definición de problema de aprendizaje por refuerzo multiagente. Cálculo de la utilidad esperada: política individual vs política conjunta. Conceptos de solución: equilibrios, optimalidad de Pareto, bienestar social, mínimo arrepentimiento. Proceso de entrenamiento y garantías y tipos de convergencia a una solución: qué ocurre cuando una política no es estacionaria. Metodologías de entrenamiento por reducción a un agente: aprendizaje centralizado, aprendizaje independiente, self-play (AlphaZero). Algoritmos de entrenamiento multiagente: aprendizaje de acciones conjuntas, modelado de agentes.
    • Laboratorio: Introducción a entornos de aprendizaje por refuerzo multiagente. Aprendizaje por refuerzo en juegos de adversario: self-play MCTS y AlphaZero. Trabajo práctico con diversas metodologías para entrenar a agentes en entornos de intereses mixtos: joint-action learning, agente modelling, gradiente de política.
    Objetivos: 4 5 6
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    8h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Modelos simbólicos de la IA social

    Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes. Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles. Organizaciones electrónicas: OperA. Modelos normativos: instituciones electrónicas, HarmonIA. Modelos holísticos: OMNI.
    • Teoría: Introducción a los sistemas sociotécnicos: impacto en la sociedad de los sistemas distribuidos inteligentes. Modelos sociales de coordinación y organizacionales: abstracciones sociales, normas, roles. Organizaciones electrónicas: OperA. Modelos normativos: instituciones electrónicas, HarmonIA. Modelos holísticos: OMNI.
    Objetivos: 3 9 10
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Agentes y ética

    Repaso de los conceptos de agente inteligente y agente racional. Relación entre agencia e inteligencia. Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.
    • Teoría: Repaso de los conceptos de agente inteligente y agente racional. Relación entre agencia e inteligencia. Problemas sociales y éticos de la Inteligencia Artificial: privacidad, IA responsable.
    Objetivos: 1 2 10
    Contenidos:
    Teoría
    1h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Práctica: aprendizaje por refuerzo multiagente

    Los grupos de alumnos tendrán que realizar un informe con un estudio comparativo del rendimiento de diversas técnicas de aprendizaje por refuerzo multiagente en un entorno propuesto, cooperativo, competitivo, o una mezcla de los dos.
    Objetivos: 5 6 7 8
    Semana: 15 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Examen Final

    Examen final para todos los contenidos del curso.
    Objetivos: 1 2 3 4 5 6 7 8 9 10
    Semana: 15 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Metodología docente

    La metodología docente consistirá en la exposición de la teoría en clases de teoría y la aplicación de los conceptos en las clases de problemas y laboratorio.
    El examen será único para todos los grupos de la asignatura.

    Método de evaluación

    La evaluación consta de un examen final, un examen parcial, problemas hechos durante el curso y una nota de laboratorio. Los exámenes final y parcial estarán enfocados a evaluar los conocimientos teóricos y metodológicos de la asignatura. La nota de problemas se obtendrá mediante la entrega de pequeños problemas propuestos durante el curso. La nota de laboratorio se obtendrá de la evaluación de los informes realizados sobre un conjunto de prácticas de laboratorio que se desarrollarán a lo largo del curso.

    A mediados del cuatrimestre habrá un examen parcial que liberará la primera parte del temario (en caso de obtener una nota mínima de 5). El examen final evaluará tanto la primera como la segunda parte del curso. La primera es obligatoria para los estudiantes que no superaron el examen parcial y optativa para los demás. Como nota de la primera parte se cogerá el máximo de las dos notas obtenidas o la única obtenida en el parcial, según sea el caso.

    La nota final se calculará de la siguiente manera:

    Npar = nota del examen parcial

    NEx1 = Nota de la primera parte del examen final

    NEx2 = Nota de la segunda parte del examen final



    Nota de teoría = [max(Npar, NEx1) + NEx2]/2



    Nota final= Nota de teoría * 0.5 + nota de los ejercicios prácticos * 0.2 + nota de laboratorio * 0.3 (código e informe)


    Evaluación de competencias

    L'avaluació de la competència en el treball en equip es basa en el treball realitzat durant els treballs de pràctiques.

    Bibliografía

    Básico

    Complementario

    Capacidades previas

    Los alumnos deben haber cursado previamente la asignatura Inteligencia Artificial (o uno similiar)