Aprendizaje por Refuerzo y No Supervisado

Créditos

Tipos

Obligatoria

Requisitos

Esta asignatura no tiene requisitos , pero tiene capacidades previas

Departamento

Web

https://sites.google.com/upc.edu/aprns

Este curso cubre dos áreas importantes del aprendizaje automático: el aprendizaje no supervisado y el aprendizaje por refuerzo. El aprendizaje no supervisado es un tipo de aprendizaje automático en el que el algoritmo aprende patrones y estructuras a partir de datos no etiquetados, mientras que el aprendizaje por refuerzo es un tipo de aprendizaje automático en el que el algoritmo aprende a través de recompensas o castigos.

El curso empezará con una introducción a los conceptos y algoritmos fundamentales del aprendizaje no supervisado, como autocodificadores, redes adversarias o de difusión. Después, el curso pasará al aprendizaje por refuerzo, cubriendo conceptos como los procesos de decisión de Markov, el Q-learning y los métodos de gradiente de política. El curso explorará también las últimas investigaciones en estos campos, incluyendo el aprendizaje por refuerzo profundo y el aprendizaje profundo no supervisado.

Al final del curso, los estudiantes tendrán una sólida base en el aprendizaje no supervisado y por refuerzo, y serán capaces de aplicar estas técnicas a problemas del mundo real.

Profesorado

Responsable

Javier Béjar Alonso (bejar@cs.upc.edu)
Mario Martín Muñoz (mmartin@cs.upc.edu)

Horas semanales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Competencias

Competencias Transversales

Transversales

CT6 [Avaluable] - Aprendizaje autónomo. Detectar deficiencias en el propio conocimiento y superarlas mediante la reflexión crítica y la elección de la mejor actuación para ampliar dicho conocimiento.

Básicas

CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía

Competencias Técnicas

Específicas

CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

Competencias Técnicas Genéricas

Genéricas

CG2 - Utilizar los conocimientos fundamentales y metodologías de trabajo sólidas adquiridos durante los estudios para adaptarse a los nuevos escenarios tecnológicos del futuro.

CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.

Objetivos

Conocer qué tipo de problemas se pueden modelizar como un problema de aprendizaje por refuerzo e identificar las técnicas que se pueden aplicar para resolverlas
Competencias relacionadas: CG2, CT6, CE18,
Comprender la necesidad, los fundamentos y las particularidades del aprendizaje conductual y las diferencias que tiene con el aprendizaje automático supervisado y no supervisado.
Competencias relacionadas: CG2, CE18,
Comprender los algoritmos más importantes y el estado del arte en el área del aprendizaje por refuerzo.
Competencias relacionadas: CG4, CE18,
Saber formalizar computacionalmente un problema del mundo real como aprendizaje para reforzamiento y saber implementar en los entornos más actuales los algoritmos de aprendizaje que los resuelve
Competencias relacionadas: CG2, CG4, CT6, CE18,
Conocer los problemas que se pueden modelizar con algoritmos no supervisados produndos
Competencias relacionadas: CG2, CT6, CE18,
Entender las particularidades de los algoritmos no supervisados profundos
Competencias relacionadas: CG4, CT6, CE18,
Conocer los algoritmos más importantes y el estado del arte del aprendizaje no supervisado profundo
Competencias relacionadas: CG2, CT6, CB5, CE18,
Saber implementar y aplicar a un problema algoritmos de aprendizaje profundo utilizando el entorno más actual
Competencias relacionadas: CG2, CT6, CB5, CE18,

Contenidos

Introducción: Aprendizaje del comportamiento en agentes y descripción de los principales elementos en el aprendizaje de refuerzo
Intuición, motivación y definición del marco del aprendizaje pro refuerzo (RL). Elementos clave en RL.
Encontrando políticas óptimas mediante la programación dinámica
Como aprender un comportamiento con conocimiento completo del modelo del mundo: solución algebraica, evaluación iterada de políticas y evaluación iterada de valores.
Introducción a los enfoques sin modelos del mundo.
Algoritmos básicos para el aprendizaje por refuerzo: Monte-Carlo, Q-learning, Sarsa, TD (lambda). La necesidad de exploración. Diferencias entre los métodos On-policy y Off-policy
Aproximación de funciones en el aprendizaje por refuerzo
La necesidad de la aproximación de funciones y métodos incrementales en RL. El enfoque de Gradient Descent. RL con aproximación de función lineal. La tríada mortal para la aproximación de funciones en RL. Métodos por lotes y redes neuronales para la aproximación de funciones.
Aprendizaje por refuerzo profundo (DRL)
Introducción de DL en RL. Como tratar la mortal tríada con el algoritmo DQN. Aplicación de DQN el caso de los juegos Atari. Evoluciones del algoritmo DQN: Double DQN, Prioritized Experience Replay, aprendizaje en múltiples pasos y funciones de valor distribuidas. Rainbow: el algoritmo de última generación para un espacio de acción discreto.
Métodos del gradiente en la política
Qué hacer en espacios de acción continuos. Cómo las políticas probabilísticas permiten aplicar el método de gradiente directamente en la red de políticas. El algoritmo REINFORCE. Los algoritmos Actor-Critic. Algoritmos de última generación en espacios de acción continuos: DDPG, TD3 y SAC.
Temas avanzados: Como tratar el problema del refuerzo esparso
El problema de la recompensa esparsa. Introducción a técnicas avanzadas de exploración: curiosidad y empoderamiento en RL. Introducción al aprendizaje curricular para facilitar el aprendizaje del objetivo. RL jerárquico para aprender tareas complejas. El aprendizaje de las funciones de valor universales y Hindsight Experience Replay (HER).
Aprendizaje por refuerzo en el marco de múltiples agentes
Aprendizaje de comportamientos en un entorno donde actúan varios agentes. Aprendizaje de conductas cooperativas, Aprendizaje de conductas competitivas y casos mixtos. Algoritmos de última generación. El caso especial de los juegos: el caso AlfaGo y la extensión a Alfa-Zero.
Introducción: El aprendizaje no supervisado profundo
Introducción a la necesidad del aprendizaje no supervisado profundo y sus aplicaciones
Modelos autoregresivos
Introducción al aprendizaje de distribuciones de probabilidad definidas como distribuciones autorregresivas y principales modelos
Flujos normalizantes
Introducción a los flujos normalizados para el aprendizaje de distribuciones de probabilidad
Modelos de variables latentes
Introducción a los modelos basados en variables latentes y a los autocodificadores variacionales
Redes adversarias Generativas
Introducción a las redes adversarias generativas, generación condicionada y sin condicionar, separación de atributos
Redes de difusión
Introducción a modelos basados en difusión de ruido, redes para eliminación de ruido, condicionamiento, generación multimodal
Aprendizaje por auto supervisión
Introducción al aprendizaje por autosupervisión para el entrenamiento de redes generadoras de características, metodos contrastivos y no contrastivos, enmascaramiento

Actividades

Actividad Acto evaluativo

Introducción: Aprendizaje del comportamiento en agentes y descripción de los principales elementos en el aprendizaje de refuerzo

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Encontrando políticas óptimas mediante la programación dinámica

Como aprender un comportamiento con conocimiento completo del modelo del mundo: solución algebraica, evaluación iterada de políticas y evaluación iterada de valores.

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Introducción a los enfoques sin modelos. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Desarrollo del tema correspondiente de la asignatura

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Aproximación de funciones en RL

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Aprendizaje por refuerzo profundo

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Métodos del gradiente en la política

Qué hacer en espacios de acción continuos. Cómo las políticas probabilísticas permiten aplicar el método de gradiente directamente en la red de políticas. El algoritmo REINFORCE. Los algoritmos Actor-Critic. Algoritmos de última generación en espacios de acción continuos: DDPG, TD3 y SAC.

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Temas avanzados: Como tratar el problema del refuerzo esparso

El problema de la recompensa esparsa. Introducción a técnicas avanzadas de exploración: curiosidad y empoderamiento en RL. Introducción al aprendizaje curricular para facilitar el aprendizaje del objetivo. RL jerárquico para aprender tareas complejas. El aprendizaje de las funciones de valor universales y Hindsight Experience Replay (HER).

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Aprendizaje por refuerzo en el marco de múltiples agentes

Aprendizaje de comportamientos en un entorno donde actúan varios agentes. Aprendizaje de conductas cooperativas, Aprendizaje de conductas competitivas y casos mixtos. Algoritmos de última generación. El caso especial de los juegos: el caso AlfaGo y la extensión a Alfa-Zero.

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Control de la parte de aprendizaje por reforzamiento

Objetivos: 3 4 2 1
Semana: 8 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Introducción: El aprendizaje no supervisado profundo

Introducción a la necesidad del aprendizaje no supervisado profundo y sus aplicaciones

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Modelos autoregresivos

Introducción al aprendizaje de distribuciones de probabilidad definidas como distribuciones autorregresivas y principales modelos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Flujos normalizantes

Introducción a los flujos normalizados para el aprendizaje de distribuciones de probabilidad

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Modelos de variables latentes

Introducción a los modelos basados en variables latentes y a los autocodificadores variacionales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Redes adversarias Generativas

Introducción a las redes adversarias generativas, generación condicionada y sin condicionar, separación de atributos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Redes de difusión y Aprendizaje por auto supervisión

Introducción a modelos basados en difusión de ruido, redes para eliminación de ruido, condicionamiento, generación multimodal

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Control del temario de aprendizaje no supervisado

Objetivos: 5 6 7 8
Semana: 15 (Fuera de horario lectivo)

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Metodología docente

Las clases están divididas en sesiones de teoría, problemas y laboratorio.

En las sesiones de teoría se desarrollarán los conocimientos de la asignatura, intercalando la exposición de nuevo material teórico con ejemplos y la interacción con los alumnos para discutir los conceptos.

En las clases de laboratorio se desarrollarán pequeñas prácticas utilizando herramientas y utilizando librerías específicas que permitirán practicar y reforzar los conocimientos de las clases de teoría.

Método de evaluación

La asignatura comprenderá los siguientes actos evaluatorios:

- Informes de las actividades de laboratorio, que será necesario haber entregado dentro de un plazo indicado para cada sesión (orientativamente, 2 semanas). A partir de una media ponderada de las notas de estos informes se calculará una nota de laboratorio, L.

- Un primer examen parcial, realizado a mitad del curso, de la materia vista hasta entonces. Sea P1 la nota obtenida en este examen.

- En el día designado dentro del período de exámenes, un segundo examen parcial de la materia no cubierta por el primer parcial. Sea P2 la nota obtenida en este examen.

Las tres notas L, P1, P2 son entre 0 y 10.

La nota final de la asignatura será:0.4*L +0.3*P1+ 0.3*P2

Solo se pueden presentar a la reevaluación aquellas persones que, habiéndose presentado al examen final lo hayan suspendido. La nota máxima que se puede obtenier en la reevaluación es un 7.

Bibliografía

Básico

Reinforcement learning : an introduction - Sutton, Richard S; Barto, Andrew G, The MIT Press, [2020]. ISBN: 9780262039246
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004166329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Grokking deep reinforcement learning - Morales, Miguel, Manning Publications, 2020. ISBN: 9781617295454
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004208939706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Generative deep learning: teaching machines to paint, write, compose, and play - Foster, D, O'Reilly Media, Incorporated, 2023. ISBN: 9781098134143
Hands-on image generation with TensorFlow: a practical guide to generating images and videos using deep learning - Cheong, S.Y, Packt Publishing, 2020. ISBN: 9781838821104

Complementario

Deep reinforcement learning in action - Zai, Alexander; Brown, Brandon, Manning Publications Co, 2020. ISBN: 9781617295430
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004203829706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Generative AI with Python and TensorFlow 2: harness the power of generative models to create images, text, and music - Babcock, J.; Bali, R, Packt Publishing, 2021. ISBN: 9781800208506

Capacidades previas

Conocimientos basicos de Deep Learning y de Machine Learning.