The course starts covering advanced multivariate statistical methods which have been proved their utility in unsupervised learning: nonparametric multivariate density estimation, clustering basd on density estimation, nonlinear dimensionality reduction (or manifold learning: nonlinear and nonparametric generalizations of principal components, PCA, and multidimensional scaling, MDS).
Then there is a second part at which nonparametric multivariate statistics modelling for supervised learning is explored, with the objective of extending the classical multiple Linear Model (LM) and Generalized Linear Model (GLM) in flexibility and prediction power, without losing interpretability. Here the Additive Model and the Generalized Additive Model (GAM) are introduced.The model selection and validation is emphasized.
The last part of the course will cover the topic of Interpretable Machine Learning (IML). Machine Learning models are increasingly accurate in their predictions. Many times the improvements in predictive efficiency are achieved at the cost of increasing model complexity, which is why we often refer to them as "black boxes". The growth in ubiquity and complexity of machine learning algorithms means that more and more voices are claiming to understand how and why these algorithms make their decisions. In response to this demand, in recent years a whole literature has appeared (known as "Interpretable Machine Learning" or "eXplainable Artificial Intelligence", IML or XAI) whose purpose is to provide transparency and interpretability to automatic algorithms in order to gain the trust of potential users.We will introduce some of the current IML tools, describe how to use them in practice through examples (implemented in R and Python) and show their theoretical foundations. We will see that Multivariate Analysis techniques can help to develop interpretability tools.
A fundamental part of the course is the study of real cases, both by the teacher and by students at the weekly assignments.
Professorat
Responsable
Pedro Delicado Useros (
)
Hores setmanals
Teoria
4
Problemes
0
Laboratori
0
Aprenentatge dirigit
0
Aprenentatge autònom
7.1
Competències
Competències Transversals
ús solvent dels recursos d'informació
CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
Tercera llengua
CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
Competències Tècniques Generals
Genèriques
CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
Competències Tècniques
Específiques
CE3 - Aplicar mètodes d'integració de dades per donar solució a problemes de ciència de dades en entorns heterogenis
CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
CE8 - Extreure informació de dades estructurades i no estructurades, tenint en compte la naturalesa multivariant de les mateixes.
CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa
CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
Objectius
Conéixer l'estructura dels principals problemes d'aprenentatge no supervisat.
Competències relacionades:
CT4,
CT5,
CE10,
Apreneu diferents mètodes per a la reducció de la dimensionalitat quan no es compleixen els supòsits estàndard de l'anàlisi multivariant clàssic
Competències relacionades:
CT4,
CT5,
CG2,
CE3,
CE5,
CE6,
CE8,
CE10,
CB6,
CB10,
Apreneu a combinar tècniques de reducció de dimensionalitat amb algorismes de predicció
Competències relacionades:
CT5,
CG2,
CE6,
CE8,
CE10,
CB10,
Al final de l'assignatura l'estudiant serà capaç de proposar, estimar, interpretar i validar versions no paramètriques de models de regressió lineal i models lineals generalitzats.
Competències relacionades:
CT4,
CT5,
CG2,
CE5,
CE6,
CE8,
CE10,
CB10,
Al final del curs l'estudiant sabrà triar correctament els paràmetres de suavització que en els models de regressió no paramètrics controlen el compromís entre un bon ajust a la mostra observada i una bona generalització.
Competències relacionades:
CT4,
CT5,
CG2,
CE5,
CE6,
CE8,
CE10,
CB10,
Al final del curs, l'estudiant serà conscient de la necessitat de dotar d'interpretabilitat als algorismes d'aprenentatge automàtic, coneixerà les tècniques d'interpretabilitat més habituals, sabrà classificar-les i quines relacions hi ha entre ells. , i sabrà com utilitzar-los en R i/o Python.
Competències relacionades:
CT4,
CT5,
CG2,
CE6,
CE8,
CE13,
CB7,
Continguts
Aprenentatge no supervisat mitjançant anàlisi multivariada avançada
a. Introduction to Unsupervised Learning.
b. Density estimation.
c. Clustering
i. Mixture models
ii. DBSCAN
d. Nonlinear dimensionality reduction.
i. Principal curves.
ii. Local Multidimensional Scaling.
iii. ISOMAP.
iv. t-Stochastic Neighbor Embedding.
Models de regressió no paramètrics
a. Nonparametric regression model. Local polynomial regression. Linear smoothers. Choosing the smoothing parameter.
b. Generalized nonparametric regression model. Estimation by maximum local likelihood.
c. Spline smoothing. Penalized least squares nonparametric regression. Cubic splines and interpolation. Smoothing splines. B-splines. Fitting generalized nonparametric regression models with splines.
d. Multiple (generalized) nonparametric regression. The curse of dimensionality. Additive Models and Generalized Additive Models.
Aprenentatge automàtic interpretable
a. Introduction to interpretability in machine learning.
i.Transparent models versus black-box models.
ii. Global methods (relevance of variables) versus local methods (explainability).
b. Interpretability methods for specific models.
i. Random forests.
ii. Neural networks.
c. Model-agnostic interpretability methods.
i. Global methods (Importance of variables through disturbances. Importance based on the Shapley Value. Partial dependency graph. Cumulative local effects graphs.)
ii. Local methods (LIME: Local interpretable model-agnostic explanations. Local importance based on the Shapley Value. SHAP: SHApley Additive ExPlanations. Break down graphics. ICE: Individual conditional expectation, or ceteris paribus chart.)
d. Interpretability in deep image learning.
i. Gradient-based methods (Grad-CAM, Saliency maps).
ii. Perturbation-based methods (LIME for images, SHAP's DeepExplainer).
Activitats
ActivitatActe avaluatiu
Aprenentatge no supervisat mitjançant l'anàlisi multivariant avançada
Unsupervised Learning through Advanced Multivariate Analysis Objectius:123 Continguts:
Hi ha dues sessions setmanals de 2 hores.
Les primeres tres hores es dediquen a l'exposició dels temes teòrics per part del professor.
L'última hora es dedica a implementar aquests continguts: Cada alumne té el seu portàtil a classe i realitza les tasques proposades pel professor.
Cada setmana finalitza amb una tasca per als alumnes que s'ha de lliurar en 7 dies. El programari utilitzat serà principalment R.
Mètode d'avaluació
Al llarg del curs s'assignaran tasques com a deures. Les notes dels deures valdran el 40% de la nota del curs.
Hi haurà un examen al final del quadrimestre i s'avaluarà l'assimilació dels conceptes bàsics de tota l'assignatura. L'examen final tindrà una primera part teòrica breu (llibres tancats) i una segona part pràctica més llarga (llibres oberts, a realitzar pels alumnes amb el seu propi ordinador portàtil, amb una estructura semblant als deures).
Nota del curs = 0.4 * Nota Hwk + 0.6 * Nota de l'examen