Este curso ofrece una introducción técnica a los Modelos Masivos de Lenguaje (LLM, del inglés Large Language Models) como componente central de los sistemas conversacionales basados en inteligencia artificial. Se tratan los fundamentos de las arquitecturas basadas en Transformers, el preentrenamiento, el postentrenamiento (tanto supervisado como basado en aprendizaje por refuerzo) y la inferencia, con un énfasis especial en cómo las leyes de escala y los datos influyen en el comportamiento de los modelos. El estudiantado aprenderá cómo se aplican los LLM a tareas de comprensión y generación de lenguaje natural, así como a evaluar su rendimiento.
Más allá de sus capacidades, el curso aborda las limitaciones y riesgos de los LLM, incluyendo las alucinaciones, los sesgos, la falta de robustez, la privacidad y las cuestiones de seguridad. También se introducen brevemente líneas de investigación actuales como la eficiencia, el razonamiento, el uso de herramientas, los sistemas agénticos y las extensiones multimodales. Mediante una combinación de teoría, estudios de caso, lecturas y trabajo práctico en el laboratorio, el estudiantado desarrollará la capacidad de razonar sobre cuándo y cómo desplegar los LLM de manera efectiva y responsable, así como una comprensión de los retos abiertos y de la investigación en curso en este ámbito.
Profesorado
Responsable
-
Lluís Màrquez Villodre (
)
Competencias
Competencias Transversales
Transversales
-
CT4 - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
-
CT5 - Uso solvente de los recursos de información. Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información en el ámbito de especialidad y valorar de forma crítica los resultados de dicha gestión.
Competencias Técnicas
Específicas
-
CE14 - Dominar los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación, incluido la robótica.
-
CE15 - Adquirir, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación,percepción y actuación en ambientes o entornos inteligentes.
-
CE16 - Diseñar y evaluar interfaces persona-máquina que garanticen la accesibilidad y usabilidad de los sistemas, servicios y aplicaciones informáticas.
-
CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
-
CE20 - Elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.
-
CE27 - Diseñar y aplicar técnicas de procesado de la voz, de reconocimiento del lenguaje hablado y comprensión del lenguaje humano, con aplicación en la inteligencia artificial social.
Competencias Técnicas Genéricas
Genéricas
-
CG2 - Utilizar los conocimientos fundamentales y metodologías de trabajo sólidas adquiridos durante los estudios para adaptarse a los nuevos escenarios tecnológicos del futuro.
-
CG3 - Definir, evaluar y seleccionar plataformas hardware y software para el desarrollo y la ejecución de sistemas, servicios y aplicaciones informáticas en el ámbito de la inteligencia artificial.
-
CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
-
CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.
Objetivos
-
Comprender los componentes básicos de los modelos masivos de lenguaje (LLM) modernos, incluyendo: modelos i algoritmos de aprendizaje, procesamiento de datos, y evaluación.
Competencias relacionadas:
CG3,
CT4,
CE14,
CE18,
CE20,
-
Ser consciente de las principales fortalezas y debilidades de los LLM, siendo así crítico sobre lo que se puede esperar de ellos y cómo sacar lo mejor de ellos en cualquier situación.
Competencias relacionadas:
CG2,
CG3,
CT4,
CT5,
CE18,
-
Conocer los principales desafíos, problemas abiertos y direcciones de investigación en torno a los LLM
Competencias relacionadas:
CG2,
CG8,
CG9,
-
Adquirir criterios para conocer qué tipo de modelos/estrategias se pueden utilizar para abordar problemas de Procesamiento del Lenguaje Natural, pudiendo adaptar y utilizar un LLM para su solución.
Competencias relacionadas:
CE27,
CT4,
CE15,
CE16,
-
Desarrollar el pensamiento crítico sobre los LLM, conociendo los riesgos asociados a ellos y tomar conciencia sobre la necesidad de utilizarlos de manera justa y segura.
Competencias relacionadas:
CG8,
CE16,
CE20,
Contenidos
-
Introducción
En la introducción cubriremos los siguientes puntos:
1/ ¿Por qué es importante y necesario este curso? 2/ Muy breve historia del Procesamiento del Lenguaje Natural. 3/ Breve historia de los modelos masivos de lenguaje. 4/ ¿Dónde estamos y hacia dónde vamos?
-
Transformers dentro del Procesamiento del Lenguage Natural
En esta parte, presentaremos el modelo Transformers (self-attention) en el contexto del Procesamiento del Lenguaje Natural y cómo este transformó las aplicaciones de secuencia a secuencia (seq-to-seq):
1/ Representación de palabras: semántica distribucional y word embeddings; 2/ La arquitectura Transformers (self-attention); 3/ Caso de uso: enfoque seq-to-seq con Transformers aplicado a la Traducción Automática.
-
Modelos Masivos de lenguaje autoregresivos
Ésta es la parte central del curso y cubre las etapas principales del aprendizaje de los LLM. Más concretamente, abordaremos:
1/ Tokenización; 2/ Preentrenamiento; 3/ Habilidades emergentes de los LLM: aprendizaje zero-shot y few-shot; 4/ Postentrenamiento para la creación de agentes conversacionales (aprendizaje supervisado ¿supervised fine-tuning¿ y aprendizaje por refuerzo); 5/ Ingeniería de prompts.
-
Limitaciones i riesgos de los LLM
Discutiremos brevemente los siguientes temas relacionados con los riesgos asociados a los LLM: 1/ Alucinaciones; 2/ Sesgo y justicia (fairness); 3/ Seguridad de los LLM; 4/ Huella de los LLM (footprint); 5/ Colapso del modelo; 6/ Los LLM y la Inteligencia Artificial General (AGI)
-
Temas avanzados de LLM
En esta última parte del curso, discutiremos algunos temas avanzados sobre los LLM, incluyendo la Generación Aumentada por Recuperación (RAG) y el entrenamiento de LLM para el razonamiento. Si el tiempo lo permite, dedicaremos la última sesión a tratar también otros temas de vanguardia basados en las preferencias del estudiantado.
Actividades
Actividad
Acto evaluativo
Clases Teóricas
Horas dedicadas a estudiar la materia explicada en clase de teoría y a realizar las lecturas recomendadas.
Objetivos:
1
2
3
4
5
Contenidos:
Clases de Laboratorio
Horas estimadas dedicadas a practicar el material de las clases de laboratorio
Objetivos:
1
2
4
Contenidos:
Práctica en grupo de la asignatura
Horas estimadas dedicadas a realizar la práctica en grupo de la asignatura (incluyendo planificación, implementación y documentación)
Objetivos:
1
2
4
Contenidos:
Práctica individual de la assignatura
Estimated hours dedicated to completing the individual course assignment
Objetivos:
2
5
Contenidos:
Metodología docente
El curso presenta y profundiza en uno de los modelos de aprendizaje automático más importantes hoy en día para crear aplicaciones de inteligencia artificial: los modelos masivos de lenguaje (o Large Language Models, LLM del inglés). La teoría se introduce en clases magistrales donde el profesor expone los conceptos. Estas clases también contarán con un tiempo de discusión con los alumnos sobre lecturas previamente asignadas. Dichos conceptos se ponen en práctica en las clases de laboratorio, donde el alumno aprende a aplicar LLM y a desarrollar soluciones para problemas concretos. Los estudiantes deberán trabajar y entregar un proyecto final de curso que se desarrollará en grupo (2-3 personas) y también un trabajo individual menor de tipo más cualitativo sobre el comportamiento de los LLM.
Método de evaluación
El curso se califica de la siguiente manera:
F = Nota del examen final
PG = Nota del proyecto en grupo
TI = Nota del trabajo individual
Nota final = 40% F + 40% PG + 20% TI
Reevaluación: sólo se pueden presentar a la reevaluación aquellas personas que, habiéndose presentado en el examen final, lo hayan suspendido (no vale un NP). La nota máxima que se puede obtener en la reevaluación es un 7.
Evaluación de las competencias
La evaluación de la competencia de trabajo en equipo se basa en el trabajo realizado durante el proyecto en grupo.
La evaluación de la competencia: "uso solvente de los recursos de información" se basa en el trabajo práctico (tanto el proyecto en grupo como el trabajo individual)
Capacidades previas
Conocimientos generales de aprendizaje automático y redes neuronales, así como de procesamiento del lenguaje natural.