Aprendizaje Estadístico

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
UB;UAB
Este curso ofrece una exploración de la teoría del aprendizaje estadístico y de técnicas avanzadas de análisis de datos. Los estudiantes desarrollarán tanto una comprensión teórica como una experiencia práctica en el manejo de conjuntos de datos complejos de origen biológico y relacionados con la salud.
El programa comienza con los fundamentos del aprendizaje estadístico, abarcando problemas centrales como la clasificación, la regresión y el agrupamiento, así como conceptos esenciales como las funciones de pérdida, la complejidad del modelo, la regularización y las figuras de mérito derivadas de la teoría de detección de señales. Sobre esta base, los estudiantes dominarán métodos de preprocesamiento necesarios para analizar datos reales provenientes de fuentes como la cromatografía acoplada a espectrometría de masas y los microarrays.
Se pone un fuerte énfasis en la reducción de dimensionalidad, incluyendo tanto la selección como la extracción de características, para abordar los desafíos que plantean los datos biológicos de alta dimensión. Los estudiantes trabajarán con un conjunto completo de algoritmos de aprendizaje automático, desde clasificadores básicos y técnicas de agrupamiento hasta métodos avanzados como máquinas de vectores de soporte, árboles de decisión, bosques aleatorios y arquitecturas de redes neuronales.
El curso integra estrategias robustas de validación para asegurar una evaluación e interpretación fiable de los modelos.

Profesorado

Responsable

  • Santiago Marco Colás ( )

Otros

  • Agustín Gutiérrez Gálvez ( )
  • Elitza Nikolaeva Maneva ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Objetivos

  1. Implementar esquemas correctos para la partición de los datos para el entrenamiento, la optimización y la caracterización de modelos predictivos.
    Competencias relacionadas: K2, K3, K4, S3, S4,
  2. Seleccionar el preprocesado de datos adecuado antes de la construcción del modelo
    Competencias relacionadas: K2, K3, K4,
  3. Realizar una reducción de dimensionalidad utilizando métodos de selección y extracción de características.
    Competencias relacionadas: C3, C6, K2, K3, K4, K5, S3, S4,
  4. Evaluar críticamente el rendimiento del modelo utilizando técnicas de validación adecuadas.
    Competencias relacionadas: C3, C6, K2, K3, K4, S3, S8,
  5. Aplicar métodos avanzados de aprendizaje automático y procesamiento de señales a los desafíos de datos de salud y bioinformática del mundo real.
    Competencias relacionadas: C3, C6, K2, K3, K4, K5, S2, S3, S4, S8,
  6. Escribir un informe de laboratorio en un lenguaje formal, bien estructurado y con gráficos de calidad
    Competencias relacionadas: C3,
  7. Defienda oralmente un trabajo en equipo sobre un análisis de aprendizaje automático de un conjunto de datos. Produzca diapositivas de buena calidad y estructure la presentación para transmitir un mensaje claro a la audiencia. Responda preguntas técnicas con competencia.
    Competencias relacionadas: C3, S8,
  8. Comprender la literatura técnica en el área del aprendizaje estadístico para la salud. Identificar conceptos clave e ideas que requieren un análisis más profundo.
    Competencias relacionadas: K2, C6, K3,

Contenidos

  1. Introducció al aprendizaje estadístico: conceptos básicos y ejemplos
    Motivación y conceptos básicos. Ejemplos de aplicación. Herramientas.
  2. Introducción al aprendizaje estadístico (II)
    Figuras de mérito. Clasificadores básicos. Sobreajuste y control de la complejidad. Reducción de la dimensionalidad. Regularización.
  3. Preprocesado de datos: Desde los datos en crudo a características.
    Ejemplos en espectrometría. Reducción de ruido. Corrección de línia de base, detección e integración de picos, transformaciones no-lineales, técnicas de escalado y de normalización.
  4. Reducción de dimensionalidad: extracción de características
    La madición de la dimensionalidad. Análisis de Componentes Principales. Linear Discriminant Analysis.
  5. Reducción de dimensionalidad: Selección de características.
    La importancia de la partición de los datos. Enfoques univariantes. Enfoques multivariantes: filtros, envolventes (wrappers), búsquedas secuenciales, algoritmos genéticos. Rankings de características y eliminación recursiva de características.
  6. Agrupamiento
    K-means, agrupamiento jerárquico. Modelos de mezcla gausianas. Ventanas de Parzen.
  7. Clasificadores básicos
    Teorema de Bayes. Clasificadores discriminantes lineales y cuadráticos. Naive Bayes. Análisis discriminante por mínimos cuadrados parciales (PLS-DA).
  8. Validación de modelos y validación cruzada
    Validación niveles y propósito. Estratificación. Validación interna/externa. Hold-out, Leave-one-out, k-fold, muestreo aleatorio, Bootstrap.
  9. Clasificadores avanzados
    Máquinas de vectores de soporte, árboles de decisión, bosque aleatorio. XGBoost.
  10. Regresión multilineal
    Regresión lineal univariable. Regresion multilineal. El número de condición. Regresion Ridge, LASSO. Selección de subconjuntos.
  11. Regresión avanzada
    Redes neuronales, el perceptrón. El perceptrón multicapa. Técnicas de descenso por gradiente. Aprendizaje profundo (Deep Learning). Regresión de vectores de soporte.

Actividades

Actividad Acto evaluativo



Laboratorio computacional


Objetivos: 1 2 3 4 5 6
Teoría
0h
Problemas
0h
Laboratorio
30h
Aprendizaje dirigido
0h
Aprendizaje autónomo
22.5h

Miniproyecto


Objetivos: 1 2 3 4 5 7
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
30h


examen parcial



Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Metodología docente

La metodología docente combina clases expositivas con laboratorios computacionales. Adicionalmente los estudiantes en grupos tendrán que analizar un conjunto de datos y presentar su análisis oralmente.

Método de evaluación

La evaluación del curso considerará el examen parcial (P), el examen final (F), los informes de laboratorio (LR), los cuestionarios de laboratorio (LQ), el cuestionario de comprensión lectora (RQ), las tareas de cálculo (H) y el Miniproyecto (SP). Se combinarán según la fórmula.
Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En caso de alumnos repetidores, en ningún caso se tendrán en cuenta actividades realizadas en años previos.

Los alumnos que suspendan la asignatura podrán presentarse al examen de reevaluación; en este caso la nota de este examen, E, sustituirá las notas P y F de forma que la nota final será 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ

Bibliografía

Básica:

Capacidades previas

Programación en R. Bioestadística. Algebra