Aprendizaje Estadístico

Profesorado
Horas semanales
Resultados de aprendizaje
Objetivos
Contenidos
Actividades
Metodología docente
Método de evaluación
Bibliografía
Capacidades previas

Créditos

6

Tipos

Obligatoria

Requisitos

Esta asignatura no tiene requisitos, pero tiene capacidades previas

Departamento

UB;UAB

Este curso ofrece una exploración de la teoría del aprendizaje estadístico y de técnicas avanzadas de análisis de datos. Los estudiantes desarrollarán tanto una comprensión teórica como una experiencia práctica en el manejo de conjuntos de datos complejos de origen biológico y relacionados con la salud.
El programa comienza con los fundamentos del aprendizaje estadístico, abarcando problemas centrales como la clasificación, la regresión y el agrupamiento, así como conceptos esenciales como las funciones de pérdida, la complejidad del modelo, la regularización y las figuras de mérito derivadas de la teoría de detección de señales. Sobre esta base, los estudiantes dominarán métodos de preprocesamiento necesarios para analizar datos reales provenientes de fuentes como la cromatografía acoplada a espectrometría de masas y los microarrays.
Se pone un fuerte énfasis en la reducción de dimensionalidad, incluyendo tanto la selección como la extracción de características, para abordar los desafíos que plantean los datos biológicos de alta dimensión. Los estudiantes trabajarán con un conjunto completo de algoritmos de aprendizaje automático, desde clasificadores básicos y técnicas de agrupamiento hasta métodos avanzados como máquinas de vectores de soporte, árboles de decisión, bosques aleatorios y arquitecturas de redes neuronales.
El curso integra estrategias robustas de validación para asegurar una evaluación e interpretación fiable de los modelos.

Profesorado

Responsable

Santiago Marco Colás ( )

Otros

Agustín Gutiérrez Gálvez ( )
Elitza Nikolaeva Maneva ( )

Horas semanales

Teoría

2

Problemas

0

Laboratorio

2

Aprendizaje dirigido

0

Aprendizaje autónomo

6

Resultados de aprendizaje

Conocimientos

K2 - Identificar los métodos estadísticos y computacionales y los modelos matemáticos que permiten resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y la genética de poblaciones.
K3 - Identificar los fundamentos matemáticos, las teorías informáticas, los esquemas algorítmicos y los principios de organización de la información aplicables al modelado de sistemas biológicos y a la resolución eficiente de problemas bioinformáticos mediante el diseño de herramientas computacionales.
K4 - Integrar los conceptos ofrecidos por los lenguajes de programación de mayor uso en el ámbito de las Ciencias de la Vida para modelar y optimizar estructuras de datos y construir algoritmos eficientes, relacionándolos entre sí y con sus casos de aplicación.
K5 - Identificar la naturaleza de las variables biológicas que es preciso analizar, así como los modelos matemáticos, los algoritmos y las pruebas estadísticas adecuadas para desarrollar y evaluar análisis estadísticos y herramientas computacionales.

Habilidades

S2 - Analizar computacionalmente secuencias de ADN, ARN y proteínas, incluyendo análisis comparativos de genomas, usando la computación, las matemáticas y la estadística como herramientas básicas de la bioinformática.
S3 - Resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y la genética de poblaciones mediante la aplicación de métodos estadísticos y computacionales y modelos matemáticos.
S4 - Elaborar herramientas específicas que permitan la resolución de problemas sobre la interpretación de datos biológicos y biomédicos, incluyendo visualizaciones complejas.
S8 - Enfrentarse a la toma de decisiones, y defenderlas con argumentos, en la resolución de problemas de las áreas de biología, así como, dentro de los ámbitos adecuados, las ciencias de la salud, las ciencias de la computación y las ciencias experimentales.

Competencias

C3 - Comunicarse de forma oral y escrita con otras personas, en lengua inglesa, sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones.
C6 - Detectar deficiencias en el propio conocimiento y superarlas mediante la reflexión crítica y la elección de la mejor actuación para ampliar este conocimiento.

Objetivos

Implementar esquemas correctos para la partición de los datos para el entrenamiento, la optimización y la caracterización de modelos predictivos.
Competencias relacionadas: K2, K3, K4, S3, S4,
Seleccionar el preprocesado de datos adecuado antes de la construcción del modelo
Competencias relacionadas: K2, K3, K4,
Realizar una reducción de dimensionalidad utilizando métodos de selección y extracción de características.
Competencias relacionadas: K2, K3, K4, K5, S3, S4, C3, C6,
Evaluar críticamente el rendimiento del modelo utilizando técnicas de validación adecuadas.
Competencias relacionadas: K2, K3, K4, S3, S8, C3, C6,
Aplicar métodos avanzados de aprendizaje automático y procesamiento de señales a los desafíos de datos de salud y bioinformática del mundo real.
Competencias relacionadas: K2, K3, K4, K5, S2, S3, S4, S8, C3, C6,
Escribir un informe de laboratorio en un lenguaje formal, bien estructurado y con gráficos de calidad
Competencias relacionadas: C3,
Defienda oralmente un trabajo en equipo sobre un análisis de aprendizaje automático de un conjunto de datos. Produzca diapositivas de buena calidad y estructure la presentación para transmitir un mensaje claro a la audiencia. Responda preguntas técnicas con competencia.
Competencias relacionadas: S8, C3,
Comprender la literatura técnica en el área del aprendizaje estadístico para la salud. Identificar conceptos clave e ideas que requieren un análisis más profundo.
Competencias relacionadas: K2, K3, C6,

Contenidos

Introducció al aprendizaje estadístico: conceptos básicos y ejemplos
Motivación y conceptos básicos. Ejemplos de aplicación. Herramientas.
Introducción al aprendizaje estadístico (II)
Figuras de mérito. Clasificadores básicos. Sobreajuste y control de la complejidad. Reducción de la dimensionalidad. Regularización.
Preprocesado de datos: Desde los datos en crudo a características.
Ejemplos en espectrometría. Reducción de ruido. Corrección de línia de base, detección e integración de picos, transformaciones no-lineales, técnicas de escalado y de normalización.
Reducción de dimensionalidad: extracción de características
La madición de la dimensionalidad. Análisis de Componentes Principales. Linear Discriminant Analysis.
Reducción de dimensionalidad: Selección de características.
La importancia de la partición de los datos. Enfoques univariantes. Enfoques multivariantes: filtros, envolventes (wrappers), búsquedas secuenciales, algoritmos genéticos. Rankings de características y eliminación recursiva de características.
Agrupamiento
K-means, agrupamiento jerárquico. Modelos de mezcla gausianas. Ventanas de Parzen.
Clasificadores básicos
Teorema de Bayes. Clasificadores discriminantes lineales y cuadráticos. Naive Bayes. Análisis discriminante por mínimos cuadrados parciales (PLS-DA).
Validación de modelos y validación cruzada
Validación niveles y propósito. Estratificación. Validación interna/externa. Hold-out, Leave-one-out, k-fold, muestreo aleatorio, Bootstrap.
Clasificadores avanzados
Máquinas de vectores de soporte, árboles de decisión, bosque aleatorio. XGBoost.
Regresión multilineal
Regresión lineal univariable. Regresion multilineal. El número de condición. Regresion Ridge, LASSO. Selección de subconjuntos.
Regresión avanzada
Redes neuronales, el perceptrón. El perceptrón multicapa. Técnicas de descenso por gradiente. Aprendizaje profundo (Deep Learning). Regresión de vectores de soporte.

Actividades

Actividad Acto evaluativo

Clases de teoria

Contenidos:

1 . Introducció al aprendizaje estadístico: conceptos básicos y ejemplos
2 . Introducción al aprendizaje estadístico (II)
3 . Preprocesado de datos: Desde los datos en crudo a características.
4 . Reducción de dimensionalidad: extracción de características
5 . Reducción de dimensionalidad: Selección de características.
6 . Agrupamiento
7 . Clasificadores básicos
8 . Validación de modelos y validación cruzada
9 . Clasificadores avanzados
10 . Regresión multilineal
11 . Regresión avanzada

Teoría

28h

Problemas

0h

Laboratorio

0h

Aprendizaje dirigido

0h

Aprendizaje autónomo

30h

Laboratorio computacional

Objetivos: 1 2 3 4 5 6

Teoría

0h

Problemas

0h

Laboratorio

30h

Aprendizaje dirigido

0h

Aprendizaje autónomo

22.5h

Miniproyecto

Objetivos: 1 2 3 4 5 7

Teoría

0h

Problemas

0h

Laboratorio

0h

Aprendizaje dirigido

0h

Aprendizaje autónomo

30h

Lectura

Objetivos: 8
Contenidos:

3 . Preprocesado de datos: Desde los datos en crudo a características.
4 . Reducción de dimensionalidad: extracción de características
5 . Reducción de dimensionalidad: Selección de características.
7 . Clasificadores básicos
8 . Validación de modelos y validación cruzada

Teoría

0h

Problemas

0h

Laboratorio

0h

Aprendizaje dirigido

0h

Aprendizaje autónomo

7.5h

examen parcial

Teoría

2h

Problemas

0h

Laboratorio

0h

Aprendizaje dirigido

0h

Aprendizaje autónomo

0h

Metodología docente

La metodología docente combina clases expositivas con laboratorios computacionales. Adicionalmente los estudiantes en grupos tendrán que analizar un conjunto de datos y presentar su análisis oralmente.

Método de evaluación

La evaluación del curso considerará el examen parcial (P), el examen final (F), los informes de laboratorio (LR), los cuestionarios de laboratorio (LQ), el cuestionario de comprensión lectora (RQ), las tareas de cálculo (H) y el Miniproyecto (SP). Se combinarán según la fórmula.
Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En caso de alumnos repetidores, en ningún caso se tendrán en cuenta actividades realizadas en años previos.

Los alumnos que suspendan la asignatura podrán presentarse al examen de reevaluación; en este caso la nota de este examen, E, sustituirá las notas P y F de forma que la nota final será 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ

Bibliografía

Básica:

The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer, cop. 2009. ISBN: 0387952845
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-0-387-84858-7
Pattern recognition and machine learning - Bishop, Christopher M, Springer, cop. 2006. ISBN: 9780387310732
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003157379706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Bioinformatics : the machine learning approach - Baldi, Pierre; Brunak, Soren, The MIT Press, cop. 2001. ISBN: 9780262025065
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003149339706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Multidimensional scaling - Cox, Trevor F; Cox, Michael A. A, Chapman & Hall, cop. 2001. ISBN: 1584880945
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001195129706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Correspondence analysis in practice - Greenacre, Michael J, CRC Press/Taylor, 2017. ISBN: 9781498731782
https://www-taylorfrancis-com.recursos.biblioteca.upc.edu/books/mono/10.1201/9781315369983/correspondence-analysis-practice-michael-greenacre
Chemometrics with R: multivariate data analysis in the natural sciences and life sciences - Wehrens, Ron, Springer Science, 2011. ISBN: 9786613086648
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-3-642-17841-2
Introduction to multivariate statistical analysis in chemometrics - Varmuza, Kurt; Filzmoser, Peter, CRC Press, 2016.
Data Science and Predictive Analytics: Biomedical and Health Applications using R - Dinov, Ivo D, Springer, 2023. ISBN: 9783031174827
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005498239106711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Modern statistics for modern biology - Holmes, Susan; Huber, Wolfgang, Cambridge Press, 2025.
An Introduction to statistical learning : with applications in R - James, Gareth, Springer, ©2021. ISBN: 1071614177
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=6686746
An introduction to statistical Learning : with applications in Python - James, Gareth, Springer, 2023. ISBN: 9783031391897
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005494541006711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacidades previas

Programación en R. Bioestadística. Algebra

Aprendizaje Estadístico

Profesorado

Responsable

Otros

Horas semanales

Resultados de aprendizaje

Resultados de aprendizaje

Conocimientos

Habilidades

Competencias

Objetivos

Contenidos

Actividades

Clases de teoria

Laboratorio computacional

Miniproyecto

Lectura

examen parcial

Metodología docente

Método de evaluación

Bibliografía

Básica:

Capacidades previas

Dónde estamos

Contacta con la FIB

Aprendizaje Estadístico

Usted está aquí

Profesorado

Responsable

Otros

Horas semanales

Resultados de aprendizaje

Resultados de aprendizaje

Conocimientos

Habilidades

Competencias

Objetivos

Contenidos

Actividades

Clases de teoria

Laboratorio computacional

Miniproyecto

Lectura

examen parcial

Metodología docente

Método de evaluación

Bibliografía

Básica:

Capacidades previas

Dónde estamos

Contacta con la FIB