Créditos
6
Tipos
Optativa
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
EIO
Then there is a second part at which nonparametric multivariate statistics modelling for supervised learning is explored, with the objective of extending the classical multiple Linear Model (LM) and Generalized Linear Model (GLM) in flexibility and prediction power, without losing interpretability. Here the Additive Model and the Generalized Additive Model (GAM) are introduced.The model selection and validation is emphasized.
The last part of the course will cover the topic of Interpretable Machine Learning (IML). Machine Learning models are increasingly accurate in their predictions. Many times the improvements in predictive efficiency are achieved at the cost of increasing model complexity, which is why we often refer to them as "black boxes". The growth in ubiquity and complexity of machine learning algorithms means that more and more voices are claiming to understand how and why these algorithms make their decisions. In response to this demand, in recent years a whole literature has appeared (known as "Interpretable Machine Learning" or "eXplainable Artificial Intelligence", IML or XAI) whose purpose is to provide transparency and interpretability to automatic algorithms in order to gain the trust of potential users.We will introduce some of the current IML tools, describe how to use them in practice through examples (implemented in R and Python) and show their theoretical foundations. We will see that Multivariate Analysis techniques can help to develop interpretability tools.
A fundamental part of the course is the study of real cases, both by the teacher and by students at the weekly assignments.
Profesorado
Responsable
- Pedro Delicado Useros (pedro.delicado@upc.edu)
Horas semanales
Teoría
4
Problemas
0
Laboratorio
0
Aprendizaje dirigido
0
Aprendizaje autónomo
7.1
Competencias
Uso solvente de los recursos de información
Lengua extranjera
Básicas
Genéricas
Específicas
Objetivos
-
Conocer la estructura de los principales problemas de aprendizaje no supervisado.
Competencias relacionadas: CT4, CT5, CE10, -
Aprenda diferentes métodos para la reducción de la dimensionalidad cuando no se cumplen los supuestos estándar en el análisis multivariado clásico
Competencias relacionadas: CB10, CB6, CT4, CT5, CE10, CE3, CE5, CE6, CE8, CG2, -
Aprenda a combinar técnicas de reducción de dimensionalidad con algoritmos de predicción
Competencias relacionadas: CB10, CT5, CE10, CE6, CE8, CG2, -
Al finalizar el curso el alumno será capaz de proponer, estimar, interpretar y validar versiones no paramétricas de modelos de regresión lineal y modelos lineales generalizados.
Competencias relacionadas: CB10, CT4, CT5, CE10, CE5, CE6, CE8, CG2, -
Al finalizar el curso el alumno sabrá adecuadamente cómo elegir los parámetros de suavizado que en los modelos de regresión no paramétricos controlan el equilibrio entre un buen ajuste a la muestra observada y una buena generalización.
Competencias relacionadas: CB10, CT4, CT5, CE10, CE5, CE6, CE8, CG2, -
Al finalizar el curso, el alumno será consciente de la necesidad de dotar de interpretabilidad a los algoritmos de aprendizaje automático, conocerá las técnicas de interpretabilidad más habituales, sabrá cómo clasificarlas y qué relaciones existen entre ellas. , y sabrá usarlos en R y/o Python.
Competencias relacionadas: CB7, CT4, CT5, CE13, CE6, CE8, CG2,
Contenidos
-
Aprendizaje no supervisado mediante análisis multivariado avanzado
a. Introduction to Unsupervised Learning.
b. Density estimation.
c. Clustering
i. Mixture models
ii. DBSCAN
d. Nonlinear dimensionality reduction.
i. Principal curves.
ii. Local Multidimensional Scaling.
iii. ISOMAP.
iv. t-Stochastic Neighbor Embedding. -
Modelos de regresión no paramétricos
a. Nonparametric regression model. Local polynomial regression. Linear smoothers. Choosing the smoothing parameter.
b. Generalized nonparametric regression model. Estimation by maximum local likelihood.
c. Spline smoothing. Penalized least squares nonparametric regression. Cubic splines and interpolation. Smoothing splines. B-splines. Fitting generalized nonparametric regression models with splines.
d. Multiple (generalized) nonparametric regression. The curse of dimensionality. Additive Models and Generalized Additive Models. -
Aprendizaje automático interpretable
a. Introduction to interpretability in machine learning.
i.Transparent models versus black-box models.
ii. Global methods (relevance of variables) versus local methods (explainability).
b. Interpretability methods for specific models.
i. Random forests.
ii. Neural networks.
c. Model-agnostic interpretability methods.
i. Global methods (Importance of variables through disturbances. Importance based on the Shapley Value. Partial dependency graph. Cumulative local effects graphs.)
ii. Local methods (LIME: Local interpretable model-agnostic explanations. Local importance based on the Shapley Value. SHAP: SHApley Additive ExPlanations. Break down graphics. ICE: Individual conditional expectation, or ceteris paribus chart.)
d. Interpretability in deep image learning.
i. Gradient-based methods (Grad-CAM, Saliency maps).
ii. Perturbation-based methods (LIME for images, SHAP's DeepExplainer).
Actividades
Actividad Acto evaluativo
Teoría
16h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
27.3h
Metodología docente
Hay dos sesiones semanales de 2 horas.Las tres primeras horas se dedican a la exposición de los temas teóricos por parte del profesor.
La última hora se dedica a implementar estos contenidos: Cada alumno tiene su portátil en clase y realiza las tareas propuestas por el profesor.
Cada semana finaliza con una tarea para los alumnos que debe ser entregada en 7 días. El software utilizado será principalmente R.
Método de evaluación
A lo largo del curso se asignarán tareas como deberes. Las notas de los deberes valdrán el 40% de la nota del curso.Habrá un examen al final del cuatrimestre y se evaluará la asimilación de los conceptos básicos de toda la asignatura. El examen final tendrá una primera parte teórica breve (libros cerrados) y una segunda parte práctica más larga (libros abiertos, a realizar por los alumnos con su propio ordenador portátil, con una estructura similar a los deberes).
Nota del curso = 0.4 * Nota Hwk + 0.6 * Nota del examen
Bibliografía
Básico
-
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
All of nonparametric statistics
- Wasserman, Larry,
Springer,
cop. 2010.
ISBN: 9781441920447
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003728809706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Generalized additive models : an introduction with R
- Wood, Simon N,
CRC Press/Taylor & Francis Group,
[2017].
ISBN: 9781498728331
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004129709706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Explanatory model analysis: explore, explain and examine predictive models
- Biecek, P.; Burzykowski, T,
Oxford University Press,
2018.
ISBN: 9780367135591
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004922848206711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Statistical foundations of data science
- Fan, Jianqing; Li, Runze; Zhang, Cun-hui; Zou, Hui,
Oxon : CRC Press,
2020.
ISBN: 9781466510845
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005054179106711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Capacidades previas
- Principal Component Analysis, Multidimensional Scaling and Clustering, at the level covered by the mandatory subject "Multivariate Analysis" (1st course of MDS).- Knowledge of the statistical software R and R-Studio.