Análisis Multivariante Avanzado

Créditos

Tipos

Optativa

Requisitos

Esta asignatura no tiene requisitos , pero tiene capacidades previas

Departamento

EIO

The course starts covering advanced multivariate statistical methods which have been proved their utility in unsupervised learning: nonparametric multivariate density estimation, clustering basd on density estimation, nonlinear dimensionality reduction (or manifold learning: nonlinear and nonparametric generalizations of principal components, PCA, and multidimensional scaling, MDS).

Then there is a second part at which nonparametric multivariate statistics modelling for supervised learning is explored, with the objective of extending the classical multiple Linear Model (LM) and Generalized Linear Model (GLM) in flexibility and prediction power, without losing interpretability. Here the Additive Model and the Generalized Additive Model (GAM) are introduced.The model selection and validation is emphasized.

The last part of the course will cover the topic of Interpretable Machine Learning (IML). Machine Learning models are increasingly accurate in their predictions. Many times the improvements in predictive efficiency are achieved at the cost of increasing model complexity, which is why we often refer to them as "black boxes". The growth in ubiquity and complexity of machine learning algorithms means that more and more voices are claiming to understand how and why these algorithms make their decisions. In response to this demand, in recent years a whole literature has appeared (known as "Interpretable Machine Learning" or "eXplainable Artificial Intelligence", IML or XAI) whose purpose is to provide transparency and interpretability to automatic algorithms in order to gain the trust of potential users.We will introduce some of the current IML tools, describe how to use them in practice through examples (implemented in R and Python) and show their theoretical foundations. We will see that Multivariate Analysis techniques can help to develop interpretability tools.

A fundamental part of the course is the study of real cases, both by the teacher and by students at the weekly assignments.

Profesorado

Responsable

Pedro Delicado Useros (pedro.delicado@upc.edu)

Horas semanales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

7.1

Competencias

Competencias Transversales

Uso solvente de los recursos de información

CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Lengua extranjera

CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Básicas

CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.

CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.

CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

Competencias Técnicas Genéricas

Genéricas

CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.

Competencias Técnicas

Específicas

CE3 - Aplicar métodos de integración de datos para dar solución a problemas de ciencia de datos en entornos heterogéneos

CE5 - Modelar, diseñar e implementar sistemas complejos de datos, incluyendo la visualización de datos

CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.

CE8 - Extraer información de datos estructurados y no estructurados, teniendo en cuenta la naturaleza multivariante de los mismos.

CE10 - Identificar los métodos de aprendizaje automático y modelización estadística a utilizar para resolver un problema específico de ciencia de datos y aplicarlos de forma rigurosa

CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.

Objetivos

Conocer la estructura de los principales problemas de aprendizaje no supervisado.
Competencias relacionadas: CT4, CT5, CE10,
Aprenda diferentes métodos para la reducción de la dimensionalidad cuando no se cumplen los supuestos estándar en el análisis multivariado clásico
Competencias relacionadas: CB10, CB6, CT4, CT5, CE10, CE3, CE5, CE6, CE8, CG2,
Aprenda a combinar técnicas de reducción de dimensionalidad con algoritmos de predicción
Competencias relacionadas: CB10, CT5, CE10, CE6, CE8, CG2,
Al finalizar el curso el alumno será capaz de proponer, estimar, interpretar y validar versiones no paramétricas de modelos de regresión lineal y modelos lineales generalizados.
Competencias relacionadas: CB10, CT4, CT5, CE10, CE5, CE6, CE8, CG2,
Al finalizar el curso el alumno sabrá adecuadamente cómo elegir los parámetros de suavizado que en los modelos de regresión no paramétricos controlan el equilibrio entre un buen ajuste a la muestra observada y una buena generalización.
Competencias relacionadas: CB10, CT4, CT5, CE10, CE5, CE6, CE8, CG2,
Al finalizar el curso, el alumno será consciente de la necesidad de dotar de interpretabilidad a los algoritmos de aprendizaje automático, conocerá las técnicas de interpretabilidad más habituales, sabrá cómo clasificarlas y qué relaciones existen entre ellas. , y sabrá usarlos en R y/o Python.
Competencias relacionadas: CB7, CT4, CT5, CE13, CE6, CE8, CG2,

Contenidos

Aprendizaje no supervisado mediante análisis multivariado avanzado
a. Introduction to Unsupervised Learning.
b. Density estimation.
c. Clustering
i. Mixture models
ii. DBSCAN
d. Nonlinear dimensionality reduction.
i. Principal curves.
ii. Local Multidimensional Scaling.
iii. ISOMAP.
iv. t-Stochastic Neighbor Embedding.
Modelos de regresión no paramétricos
a. Nonparametric regression model. Local polynomial regression. Linear smoothers. Choosing the smoothing parameter.
b. Generalized nonparametric regression model. Estimation by maximum local likelihood.
c. Spline smoothing. Penalized least squares nonparametric regression. Cubic splines and interpolation. Smoothing splines. B-splines. Fitting generalized nonparametric regression models with splines.
d. Multiple (generalized) nonparametric regression. The curse of dimensionality. Additive Models and Generalized Additive Models.
Aprendizaje automático interpretable
a. Introduction to interpretability in machine learning.
i.Transparent models versus black-box models.
ii. Global methods (relevance of variables) versus local methods (explainability).
b. Interpretability methods for specific models.
i. Random forests.
ii. Neural networks.
c. Model-agnostic interpretability methods.
i. Global methods (Importance of variables through disturbances. Importance based on the Shapley Value. Partial dependency graph. Cumulative local effects graphs.)
ii. Local methods (LIME: Local interpretable model-agnostic explanations. Local importance based on the Shapley Value. SHAP: SHApley Additive ExPlanations. Break down graphics. ICE: Individual conditional expectation, or ceteris paribus chart.)
d. Interpretability in deep image learning.
i. Gradient-based methods (Grad-CAM, Saliency maps).
ii. Perturbation-based methods (LIME for images, SHAP's DeepExplainer).

Actividades

Actividad Acto evaluativo

Aprendizaje no supervisado mediante el análisis multivariante avanzado

Unsupervised Learning through Advanced Multivariate Analysis
Objetivos: 1 2 3
Contenidos:

1 . Aprendizaje no supervisado mediante análisis multivariado avanzado

Teoría

18h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

34.3h

Modelos de regresión no paramétrica

Nonparametric regression models
Objetivos: 4 5
Contenidos:

2 . Modelos de regresión no paramétricos

Teoría

20h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

34.3h

Interpretabilidad en aprendizaje automático

Interpretable Machine Learning
Objetivos: 6
Contenidos:

3 . Aprendizaje automático interpretable

Teoría

16h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

27.3h

Metodología docente

Hay dos sesiones semanales de 2 horas.
Las tres primeras horas se dedican a la exposición de los temas teóricos por parte del profesor.
La última hora se dedica a implementar estos contenidos: Cada alumno tiene su portátil en clase y realiza las tareas propuestas por el profesor.
Cada semana finaliza con una tarea para los alumnos que debe ser entregada en 7 días. El software utilizado será principalmente R.

Método de evaluación

A lo largo del curso se asignarán tareas como deberes. Las notas de los deberes valdrán el 40% de la nota del curso.

Habrá un examen al final del cuatrimestre y se evaluará la asimilación de los conceptos básicos de toda la asignatura. El examen final tendrá una primera parte teórica breve (libros cerrados) y una segunda parte práctica más larga (libros abiertos, a realizar por los alumnos con su propio ordenador portátil, con una estructura similar a los deberes).

Nota del curso = 0.4 * Nota Hwk + 0.6 * Nota del examen

Bibliografía

Básico

The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer, cop. 2009. ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
All of nonparametric statistics - Wasserman, Larry, Springer, cop. 2010. ISBN: 9781441920447
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003728809706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Generalized additive models : an introduction with R - Wood, Simon N, CRC Press/Taylor & Francis Group, [2017]. ISBN: 9781498728331
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004129709706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Explanatory model analysis: explore, explain and examine predictive models - Biecek, P.; Burzykowski, T, Oxford University Press, 2018. ISBN: 9780367135591
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004922848206711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Statistical foundations of data science - Fan, Jianqing; Li, Runze; Zhang, Cun-hui; Zou, Hui, Oxon : CRC Press, 2020. ISBN: 9781466510845
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005054179106711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacidades previas

- Principal Component Analysis, Multidimensional Scaling and Clustering, at the level covered by the mandatory subject "Multivariate Analysis" (1st course of MDS).
- Knowledge of the statistical software R and R-Studio.