Crèdits
6
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
EIO
Then there is a second part at which nonparametric multivariate statistics modelling for supervised learning is explored, with the objective of extending the classical multiple Linear Model (LM) and Generalized Linear Model (GLM) in flexibility and prediction power, without losing interpretability. Here the Additive Model and the Generalized Additive Model (GAM) are introduced.The model selection and validation is emphasized.
The last part of the course will cover the topic of Interpretable Machine Learning (IML). Machine Learning models are increasingly accurate in their predictions. Many times the improvements in predictive efficiency are achieved at the cost of increasing model complexity, which is why we often refer to them as "black boxes". The growth in ubiquity and complexity of machine learning algorithms means that more and more voices are claiming to understand how and why these algorithms make their decisions. In response to this demand, in recent years a whole literature has appeared (known as "Interpretable Machine Learning" or "eXplainable Artificial Intelligence", IML or XAI) whose purpose is to provide transparency and interpretability to automatic algorithms in order to gain the trust of potential users.We will introduce some of the current IML tools, describe how to use them in practice through examples (implemented in R and Python) and show their theoretical foundations. We will see that Multivariate Analysis techniques can help to develop interpretability tools.
A fundamental part of the course is the study of real cases, both by the teacher and by students at the weekly assignments.
Professorat
Responsable
- Pedro Delicado Useros ( pedro.delicado@upc.edu )
Hores setmanals
Teoria
4
Problemes
0
Laboratori
0
Aprenentatge dirigit
0
Aprenentatge autònom
7.1
Competències
Ús solvent dels recursos d'informació
Tercera llengua
Bàsiques
Genèriques
Específiques
Objectius
-
Conéixer l'estructura dels principals problemes d'aprenentatge no supervisat.
Competències relacionades: CT4, CT5, CE10, -
Apreneu diferents mètodes per a la reducció de la dimensionalitat quan no es compleixen els supòsits estàndard de l'anàlisi multivariant clàssic
Competències relacionades: CT4, CT5, CG2, CE3, CE5, CE6, CE8, CE10, CB6, CB10, -
Apreneu a combinar tècniques de reducció de dimensionalitat amb algorismes de predicció
Competències relacionades: CT5, CG2, CE6, CE8, CE10, CB10, -
Al final de l'assignatura l'estudiant serà capaç de proposar, estimar, interpretar i validar versions no paramètriques de models de regressió lineal i models lineals generalitzats.
Competències relacionades: CT4, CT5, CG2, CE5, CE6, CE8, CE10, CB10, -
Al final del curs l'estudiant sabrà triar correctament els paràmetres de suavització que en els models de regressió no paramètrics controlen el compromís entre un bon ajust a la mostra observada i una bona generalització.
Competències relacionades: CT4, CT5, CG2, CE5, CE6, CE8, CE10, CB10, -
Al final del curs, l'estudiant serà conscient de la necessitat de dotar d'interpretabilitat als algorismes d'aprenentatge automàtic, coneixerà les tècniques d'interpretabilitat més habituals, sabrà classificar-les i quines relacions hi ha entre ells. , i sabrà com utilitzar-los en R i/o Python.
Competències relacionades: CT4, CT5, CG2, CE6, CE8, CE13, CB7,
Continguts
-
Aprenentatge no supervisat mitjançant anàlisi multivariada avançada
a. Introduction to Unsupervised Learning.
b. Density estimation.
c. Clustering
i. Mixture models
ii. DBSCAN
d. Nonlinear dimensionality reduction.
i. Principal curves.
ii. Local Multidimensional Scaling.
iii. ISOMAP.
iv. t-Stochastic Neighbor Embedding. -
Models de regressió no paramètrics
a. Nonparametric regression model. Local polynomial regression. Linear smoothers. Choosing the smoothing parameter.
b. Generalized nonparametric regression model. Estimation by maximum local likelihood.
c. Spline smoothing. Penalized least squares nonparametric regression. Cubic splines and interpolation. Smoothing splines. B-splines. Fitting generalized nonparametric regression models with splines.
d. Multiple (generalized) nonparametric regression. The curse of dimensionality. Additive Models and Generalized Additive Models. -
Aprenentatge automàtic interpretable
a. Introduction to interpretability in machine learning.
i.Transparent models versus black-box models.
ii. Global methods (relevance of variables) versus local methods (explainability).
b. Interpretability methods for specific models.
i. Random forests.
ii. Neural networks.
c. Model-agnostic interpretability methods.
i. Global methods (Importance of variables through disturbances. Importance based on the Shapley Value. Partial dependency graph. Cumulative local effects graphs.)
ii. Local methods (LIME: Local interpretable model-agnostic explanations. Local importance based on the Shapley Value. SHAP: SHApley Additive ExPlanations. Break down graphics. ICE: Individual conditional expectation, or ceteris paribus chart.)
d. Interpretability in deep image learning.
i. Gradient-based methods (Grad-CAM, Saliency maps).
ii. Perturbation-based methods (LIME for images, SHAP's DeepExplainer).
Activitats
Activitat Acte avaluatiu
Teoria
16h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
27.3h
Metodologia docent
Hi ha dues sessions setmanals de 2 hores.Les primeres tres hores es dediquen a l'exposició dels temes teòrics per part del professor.
L'última hora es dedica a implementar aquests continguts: Cada alumne té el seu portàtil a classe i realitza les tasques proposades pel professor.
Cada setmana finalitza amb una tasca per als alumnes que s'ha de lliurar en 7 dies. El programari utilitzat serà principalment R.
Mètode d'avaluació
Al llarg del curs s'assignaran tasques com a deures. Les notes dels deures valdran el 40% de la nota del curs.Hi haurà un examen al final del quadrimestre i s'avaluarà l'assimilació dels conceptes bàsics de tota l'assignatura. L'examen final tindrà una primera part teòrica breu (llibres tancats) i una segona part pràctica més llarga (llibres oberts, a realitzar pels alumnes amb el seu propi ordinador portàtil, amb una estructura semblant als deures).
Nota del curs = 0.4 * Nota Hwk + 0.6 * Nota de l'examen
Bibliografia
Bàsic
-
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
All of nonparametric statistics
- Wasserman, Larry,
Springer,
cop. 2010.
ISBN: 9781441920447
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003728809706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Generalized additive models : an introduction with R
- Wood, Simon N,
CRC Press/Taylor & Francis Group,
[2017].
ISBN: 9781498728331
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004129709706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Explanatory model analysis: explore, explain and examine predictive models
- Biecek, P.; Burzykowski, T,
Oxford University Press,
2018.
ISBN: 9780367135591
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004922848206711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Statistical foundations of data science
- Fan, Jianqing; Li, Runze; Zhang, Cun-hui; Zou, Hui,
Oxon : CRC Press,
2020.
ISBN: 9781466510845
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005054179106711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Capacitats prèvies
- Principal Component Analysis, Multidimensional Scaling and Clustering, at the level covered by the mandatory subject "Multivariate Analysis" (1st course of MDS).- Knowledge of the statistical software R and R-Studio.