Anàlisi Multivariant Avançat

Crèdits

Tipus

Optativa

Requisits

Aquesta assignatura no té requisits , però té capacitats prèvies

Departament

EIO

The course starts covering advanced multivariate statistical methods which have been proved their utility in unsupervised learning: nonparametric multivariate density estimation, clustering basd on density estimation, nonlinear dimensionality reduction (or manifold learning: nonlinear and nonparametric generalizations of principal components, PCA, and multidimensional scaling, MDS).

Then there is a second part at which nonparametric multivariate statistics modelling for supervised learning is explored, with the objective of extending the classical multiple Linear Model (LM) and Generalized Linear Model (GLM) in flexibility and prediction power, without losing interpretability. Here the Additive Model and the Generalized Additive Model (GAM) are introduced.The model selection and validation is emphasized.

The last part of the course will cover the topic of Interpretable Machine Learning (IML). Machine Learning models are increasingly accurate in their predictions. Many times the improvements in predictive efficiency are achieved at the cost of increasing model complexity, which is why we often refer to them as "black boxes". The growth in ubiquity and complexity of machine learning algorithms means that more and more voices are claiming to understand how and why these algorithms make their decisions. In response to this demand, in recent years a whole literature has appeared (known as "Interpretable Machine Learning" or "eXplainable Artificial Intelligence", IML or XAI) whose purpose is to provide transparency and interpretability to automatic algorithms in order to gain the trust of potential users.We will introduce some of the current IML tools, describe how to use them in practice through examples (implemented in R and Python) and show their theoretical foundations. We will see that Multivariate Analysis techniques can help to develop interpretability tools.

A fundamental part of the course is the study of real cases, both by the teacher and by students at the weekly assignments.

Professorat

Responsable

Pedro Delicado Useros ( pedro.delicado@upc.edu )

Hores setmanals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

7.1

Competències

Competències Transversals

Ús solvent dels recursos d'informació

CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.

Tercera llengua

CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.

Bàsiques

CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.

CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.

CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.

Competències Tècniques Generals

Genèriques

CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents

Competències Tècniques

Específiques

CE3 - Aplicar mètodes d'integració de dades per donar solució a problemes de ciència de dades en entorns heterogenis

CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades

CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.

CE8 - Extreure informació de dades estructurades i no estructurades, tenint en compte la naturalesa multivariant de les mateixes.

CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa

CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.

Objectius

Conéixer l'estructura dels principals problemes d'aprenentatge no supervisat.
Competències relacionades: CT4, CT5, CE10,
Apreneu diferents mètodes per a la reducció de la dimensionalitat quan no es compleixen els supòsits estàndard de l'anàlisi multivariant clàssic
Competències relacionades: CT4, CT5, CG2, CE3, CE5, CE6, CE8, CE10, CB6, CB10,
Apreneu a combinar tècniques de reducció de dimensionalitat amb algorismes de predicció
Competències relacionades: CT5, CG2, CE6, CE8, CE10, CB10,
Al final de l'assignatura l'estudiant serà capaç de proposar, estimar, interpretar i validar versions no paramètriques de models de regressió lineal i models lineals generalitzats.
Competències relacionades: CT4, CT5, CG2, CE5, CE6, CE8, CE10, CB10,
Al final del curs l'estudiant sabrà triar correctament els paràmetres de suavització que en els models de regressió no paramètrics controlen el compromís entre un bon ajust a la mostra observada i una bona generalització.
Competències relacionades: CT4, CT5, CG2, CE5, CE6, CE8, CE10, CB10,
Al final del curs, l'estudiant serà conscient de la necessitat de dotar d'interpretabilitat als algorismes d'aprenentatge automàtic, coneixerà les tècniques d'interpretabilitat més habituals, sabrà classificar-les i quines relacions hi ha entre ells. , i sabrà com utilitzar-los en R i/o Python.
Competències relacionades: CT4, CT5, CG2, CE6, CE8, CE13, CB7,

Continguts

Aprenentatge no supervisat mitjançant anàlisi multivariada avançada
a. Introduction to Unsupervised Learning.
b. Density estimation.
c. Clustering
i. Mixture models
ii. DBSCAN
d. Nonlinear dimensionality reduction.
i. Principal curves.
ii. Local Multidimensional Scaling.
iii. ISOMAP.
iv. t-Stochastic Neighbor Embedding.
Models de regressió no paramètrics
a. Nonparametric regression model. Local polynomial regression. Linear smoothers. Choosing the smoothing parameter.
b. Generalized nonparametric regression model. Estimation by maximum local likelihood.
c. Spline smoothing. Penalized least squares nonparametric regression. Cubic splines and interpolation. Smoothing splines. B-splines. Fitting generalized nonparametric regression models with splines.
d. Multiple (generalized) nonparametric regression. The curse of dimensionality. Additive Models and Generalized Additive Models.
Aprenentatge automàtic interpretable
a. Introduction to interpretability in machine learning.
i.Transparent models versus black-box models.
ii. Global methods (relevance of variables) versus local methods (explainability).
b. Interpretability methods for specific models.
i. Random forests.
ii. Neural networks.
c. Model-agnostic interpretability methods.
i. Global methods (Importance of variables through disturbances. Importance based on the Shapley Value. Partial dependency graph. Cumulative local effects graphs.)
ii. Local methods (LIME: Local interpretable model-agnostic explanations. Local importance based on the Shapley Value. SHAP: SHApley Additive ExPlanations. Break down graphics. ICE: Individual conditional expectation, or ceteris paribus chart.)
d. Interpretability in deep image learning.
i. Gradient-based methods (Grad-CAM, Saliency maps).
ii. Perturbation-based methods (LIME for images, SHAP's DeepExplainer).

Activitats

Activitat Acte avaluatiu

Aprenentatge no supervisat mitjançant l'anàlisi multivariant avançada

Unsupervised Learning through Advanced Multivariate Analysis
Objectius: 1 2 3
Continguts:

1 . Aprenentatge no supervisat mitjançant anàlisi multivariada avançada

Teoria

18h

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

34.3h

Models de regressió no paramètrica

Nonparametric regression models
Objectius: 4 5
Continguts:

2 . Models de regressió no paramètrics

Teoria

20h

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

34.3h

Interpretabilitat en aprenentatge automàtic

Interpretable Machine Learning
Objectius: 6
Continguts:

3 . Aprenentatge automàtic interpretable

Teoria

16h

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

27.3h

Metodologia docent

Hi ha dues sessions setmanals de 2 hores.
Les primeres tres hores es dediquen a l'exposició dels temes teòrics per part del professor.
L'última hora es dedica a implementar aquests continguts: Cada alumne té el seu portàtil a classe i realitza les tasques proposades pel professor.
Cada setmana finalitza amb una tasca per als alumnes que s'ha de lliurar en 7 dies. El programari utilitzat serà principalment R.

Mètode d'avaluació

Al llarg del curs s'assignaran tasques com a deures. Les notes dels deures valdran el 40% de la nota del curs.

Hi haurà un examen al final del quadrimestre i s'avaluarà l'assimilació dels conceptes bàsics de tota l'assignatura. L'examen final tindrà una primera part teòrica breu (llibres tancats) i una segona part pràctica més llarga (llibres oberts, a realitzar pels alumnes amb el seu propi ordinador portàtil, amb una estructura semblant als deures).

Nota del curs = 0.4 * Nota Hwk + 0.6 * Nota de l'examen

Bibliografia

Bàsic

The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer, cop. 2009. ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
All of nonparametric statistics - Wasserman, Larry, Springer, cop. 2010. ISBN: 9781441920447
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003728809706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Generalized additive models : an introduction with R - Wood, Simon N, CRC Press/Taylor & Francis Group, [2017]. ISBN: 9781498728331
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004129709706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Explanatory model analysis: explore, explain and examine predictive models - Biecek, P.; Burzykowski, T, Oxford University Press, 2018. ISBN: 9780367135591
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004922848206711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Statistical foundations of data science - Fan, Jianqing; Li, Runze; Zhang, Cun-hui; Zou, Hui, Oxon : CRC Press, 2020. ISBN: 9781466510845
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005054179106711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacitats prèvies

- Principal Component Analysis, Multidimensional Scaling and Clustering, at the level covered by the mandatory subject "Multivariate Analysis" (1st course of MDS).
- Knowledge of the statistical software R and R-Studio.