Este curso ofrece una exploración de la teoría del aprendizaje estadístico y de técnicas avanzadas de análisis de datos. Los estudiantes desarrollarán tanto una comprensión teórica como una experiencia práctica en el manejo de conjuntos de datos complejos de origen biológico y relacionados con la salud.
El programa comienza con los fundamentos del aprendizaje estadístico, abarcando problemas centrales como la clasificación, la regresión y el agrupamiento, así como conceptos esenciales como las funciones de pérdida, la complejidad del modelo, la regularización y las figuras de mérito derivadas de la teoría de detección de señales. Sobre esta base, los estudiantes dominarán métodos de preprocesamiento necesarios para analizar datos reales provenientes de fuentes como la cromatografía acoplada a espectrometría de masas y los microarrays.
Se pone un fuerte énfasis en la reducción de dimensionalidad, incluyendo tanto la selección como la extracción de características, para abordar los desafíos que plantean los datos biológicos de alta dimensión. Los estudiantes trabajarán con un conjunto completo de algoritmos de aprendizaje automático, desde clasificadores básicos y técnicas de agrupamiento hasta métodos avanzados como máquinas de vectores de soporte, árboles de decisión, bosques aleatorios y arquitecturas de redes neuronales.
El curso integra estrategias robustas de validación para asegurar una evaluación e interpretación fiable de los modelos.
Profesorado
Responsable
Otros
-
Agustín Gutiérrez Gálvez (
)
-
Elitza Nikolaeva Maneva (
)
Objetivos
-
Implementar esquemas correctos para la partición de los datos para el entrenamiento, la optimización y la caracterización de modelos predictivos.
Competencias relacionadas:
K2,
K3,
K4,
S3,
S4,
-
Seleccionar el preprocesado de datos adecuado antes de la construcción del modelo
Competencias relacionadas:
K2,
K3,
K4,
-
Realizar una reducción de dimensionalidad utilizando métodos de selección y extracción de características.
Competencias relacionadas:
C3,
C6,
K2,
K3,
K4,
K5,
S3,
S4,
-
Evaluar críticamente el rendimiento del modelo utilizando técnicas de validación adecuadas.
Competencias relacionadas:
C3,
C6,
K2,
K3,
K4,
S3,
S8,
-
Aplicar métodos avanzados de aprendizaje automático y procesamiento de señales a los desafíos de datos de salud y bioinformática del mundo real.
Competencias relacionadas:
C3,
C6,
K2,
K3,
K4,
K5,
S2,
S3,
S4,
S8,
-
Escribir un informe de laboratorio en un lenguaje formal, bien estructurado y con gráficos de calidad
Competencias relacionadas:
C3,
-
Defienda oralmente un trabajo en equipo sobre un análisis de aprendizaje automático de un conjunto de datos. Produzca diapositivas de buena calidad y estructure la presentación para transmitir un mensaje claro a la audiencia. Responda preguntas técnicas con competencia.
Competencias relacionadas:
C3,
S8,
-
Comprender la literatura técnica en el área del aprendizaje estadístico para la salud. Identificar conceptos clave e ideas que requieren un análisis más profundo.
Competencias relacionadas:
K2,
C6,
K3,
Contenidos
-
Introducció al aprendizaje estadístico: conceptos básicos y ejemplos
Motivación y conceptos básicos. Ejemplos de aplicación. Herramientas.
-
Introducción al aprendizaje estadístico (II)
Figuras de mérito. Clasificadores básicos. Sobreajuste y control de la complejidad. Reducción de la dimensionalidad. Regularización.
-
Preprocesado de datos: Desde los datos en crudo a características.
Ejemplos en espectrometría. Reducción de ruido. Corrección de línia de base, detección e integración de picos, transformaciones no-lineales, técnicas de escalado y de normalización.
-
Reducción de dimensionalidad: extracción de características
La madición de la dimensionalidad. Análisis de Componentes Principales. Linear Discriminant Analysis.
-
Reducción de dimensionalidad: Selección de características.
La importancia de la partición de los datos. Enfoques univariantes. Enfoques multivariantes: filtros, envolventes (wrappers), búsquedas secuenciales, algoritmos genéticos. Rankings de características y eliminación recursiva de características.
-
Agrupamiento
K-means, agrupamiento jerárquico. Modelos de mezcla gausianas. Ventanas de Parzen.
-
Clasificadores básicos
Teorema de Bayes. Clasificadores discriminantes lineales y cuadráticos. Naive Bayes. Análisis discriminante por mínimos cuadrados parciales (PLS-DA).
-
Validación de modelos y validación cruzada
Validación niveles y propósito. Estratificación. Validación interna/externa. Hold-out, Leave-one-out, k-fold, muestreo aleatorio, Bootstrap.
-
Clasificadores avanzados
Máquinas de vectores de soporte, árboles de decisión, bosque aleatorio. XGBoost.
-
Regresión multilineal
Regresión lineal univariable. Regresion multilineal. El número de condición. Regresion Ridge, LASSO. Selección de subconjuntos.
-
Regresión avanzada
Redes neuronales, el perceptrón. El perceptrón multicapa. Técnicas de descenso por gradiente. Aprendizaje profundo (Deep Learning). Regresión de vectores de soporte.
Actividades
Actividad
Acto evaluativo
Clases de teoria
Contenidos:
Laboratorio computacional
Objetivos:
1
2
3
4
5
6
Aprendizaje autónomo
22.5h
Miniproyecto
Objetivos:
1
2
3
4
5
7
Lectura
Objetivos:
8
Contenidos:
Aprendizaje autónomo
7.5h
Metodología docente
La metodología docente combina clases expositivas con laboratorios computacionales. Adicionalmente los estudiantes en grupos tendrán que analizar un conjunto de datos y presentar su análisis oralmente.
Método de evaluación
La evaluación del curso considerará el examen parcial (P), el examen final (F), los informes de laboratorio (LR), los cuestionarios de laboratorio (LQ), el cuestionario de comprensión lectora (RQ), las tareas de cálculo (H) y el Miniproyecto (SP). Se combinarán según la fórmula.
Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En caso de alumnos repetidores, en ningún caso se tendrán en cuenta actividades realizadas en años previos.
Los alumnos que suspendan la asignatura podrán presentarse al examen de reevaluación; en este caso la nota de este examen, E, sustituirá las notas P y F de forma que la nota final será 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
Bibliografía
Básica:
-
The Elements of statistical learning : data mining, inference, and prediction -
Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer, cop. 2009. ISBN: 9780387848570
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1
-
Pattern recognition and machine learning -
Bishop, Christopher M,
Springer, cop. 2006. ISBN: 9780387310732
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003157379706711&context=L&vid=34CSUC_UPC:VU1
-
Bioinformatics : the machine learning approach -
Baldi, Pierre; Brunak, Soren,
The MIT Press, cop. 2001. ISBN: 9780262025065
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003149339706711&context=L&vid=34CSUC_UPC:VU1
-
Multidimensional scaling -
Cox, Trevor F; Cox, Michael A. A,
Chapman & Hall, cop. 2001. ISBN: 9781584880943
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003165429706711&context=L&vid=34CSUC_UPC:VU1
-
Correspondence analysis in practice -
Greenacre, Michael J,
Academic press, cop. 1993. ISBN: 9780122990526
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000916169706711&context=L&vid=34CSUC_UPC:VU1
-
Chemometrics with R: multivariate data analysis in the natural sciences and life sciences -
Wehrens, Ron,
Springer Science, 2011.
-
Introduction to multivariate statistical analysis in chemometrics -
Varmuza, Kurt; Filzmoser, Peter,
CRC Press, 2016.
-
Data Science and Predictive Analytics: Biomedical and Health Applications using R -
Dinov, Ivo D.,
Springer, 2018.
-
Modern statistics for modern biology -
Holmes, Susan; Huber, Wolfgang,
Cambridge Press, 2025.
-
An Introduction to statistical learning : with applications in R -
James, Gareth,
©2021. ISBN: 9781071614174
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004922348606711&context=L&vid=34CSUC_UPC:VU1
-
An introduction to statistical Learning with applications in Python -
James, Gareth,
Springer,
Capacidades previas
Programación en R. Bioestadística. Algebra