Crèdits
6
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
EIO
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0.15
Aprenentatge autònom
7.39
Objectius
-
Descripció multivariant de les dades
Competències relacionades: CG1, CG3, CEC1, CEC2, CTR4, CTR6, -
Visualització de les dades
Competències relacionades: CG3, CTR4, -
Inferencia multivariada
Competències relacionades: CG3, CEC1, CEC2, CTR6, -
Classificació de nous individus
Competències relacionades: CG1, CG3, CEC1, CEC2, CTR6,
Continguts
-
Introducció a l'Anàlisi de Dades Multivariada
Avantatges del tractament multivariant. Exemples de dades multivariades. Mètodes probables i lliures de distribució. Enfocament exploratori versus modelatge. -
Anàlisi de components principals
Anàlisi d'individus. Anàlisi de variables. Representació visual de la informació. Reducció de dimensionalitat. Informació suplementària. -
Anàlisi de Correspondències
L'anàlisi de correspondència, també anomenada mitjana recíproca, és una tècnica de visualització de la ciència de dades útil per esbrinar i mostrar la relació entre categories. Utilitza un gràfic que representa dades, mostrant visualment el resultat de dos o més punts de dades. -
Anàlisi Factorial
Mètode de reducció de dimensions. -
Escalament Multidimensional
Aquest mètode tracta amb dades relatives a distancies entre els elements. Normalment, a partir de dades procedents de distancies o similituds. El mètode posa de manifest una estructura comuna de tots els elements i l'especificitat de cada un d'ells, evidenciant què fa que siguin a prop o distants. -
Clustering Jeràrquic i de Particions
Dos enfocaments per agrupar mètodes utilitzats per classificar les observacions, dins d'un conjunt de dades, en múltiples grups en funció de la seva semblança. -
Clustering basats en models
La agrupació basada en models suposa que les dades van ser generades per un model i intenta recuperar el model original a partir de les dades. A continuació, el model que recuperem de les dades defineix clústers i una assignació de documents als clústers. Un criteri utilitzat habitualment per estimar els paràmetres del model és la màxima versemblança. -
Distribució normal multivariant
Particularitats de la distribució normal en el cas general de plantejaments multivariants, on els punts es distribueixen en varies dimensions. Aquesta temàtica no és fa especificament però sí transversalment a tot els continguts de l'assignatura. -
Anàlisi Discriminant i més enllà
L'anàlisi discriminant (DA) és un mètode de classificació. DA classifica les observacions en grups no superposats, basant-se en les puntuacions d'una o més variables predictores quantitatives. Veurem diferents tècniques que tenen com a base diferents algoritmes de discriminació. -
Arbres de classificació i regressió
Aquest mètode pot predir o classificar. Explica com es poden predir o classificar els valors d'una variable de resultat en funció d'altres valors. Té una estructura gràfica molt útil. -
Regles d'associació
Trobar patrons, associacions, correlacions o estructures causals freqüents entre conjunts d'elements o objectes en bases de dades de transaccions, bases de dades relacionals i altres repositoris d'informació.
Activitats
Activitat Acte avaluatiu
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h
Pràctica Final
Setmana: 18
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Examen de conceptes
Setmana: 14
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Dubtes de la pràctica
Objectius: 2 1 3 4
Continguts:
- 1 . Introducció a l'Anàlisi de Dades Multivariada
- 2 . Anàlisi de components principals
- 3 . Anàlisi de Correspondències
- 4 . Anàlisi Factorial
- 5 . Escalament Multidimensional
- 6 . Clustering Jeràrquic i de Particions
- 7 . Clustering basats en models
- 8 . Distribució normal multivariant
- 9 . Anàlisi Discriminant i més enllà
- 10 . Arbres de classificació i regressió
- 11 . Regles d'associació
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Metodologia docent
El curs té com a objectiu proporcionar les bases estadístiques per a la mineria de dades. L'aprenentatge es realitza mitjançant una combinació d'explicació teòrica i la seva aplicació a un cas real. Les classes desenvoluparan els coneixements científics necessaris, mentre que les classes de laboratori seran la seva aplicació per resoldre problemes de mineria de dades. La implementació de pràctiques afavoreix habilitats genèriques relacionades amb el treball en equip i la presentació de resultats i serveix per integrar diferents coneixements de la matèria. El programari utilitzat serà principalment R i RStudio.Mètode d'avaluació
L'avaluació del curs es basarà en les notes obtingudes en els exercicis pràctics realitzats durant el curs, una nota de teoria i la nota obtinguda en la pràctica final.Cada pràctica donarà lloc a la redacció de la corresponent redacció de l'informe i podrà realitzar-se de forma conjunta, fins a un màxim de quatre alumnes per grup.
Els exercicis realitzats al llarg de el curs tenen com a objectiu consolidar l'aprenentatge de tècniques multivariants..
La pràctica final és que els estudiants demostrin la seva maduresa per resoldre un problema real utilitzant tècniques de visualització multivariant, interpretació d'agrupament i predicció. Els estudiants triaran entre diferents alternatives per resoldre el problema. Aquesta pràctica serà presentada i defensada públicament, en la qual l'alumne haurà de respondre a qualsevol dubte sobre els models teòrics i mètodes utilitzats en la solució. Les pràctiques es realitzen utilitzant el programari R.
Les proves escrites avaluaràn l'assimilació dels conceptes bàsics de l'assignatura. Hi haurà tres proves al llarg del curs, en hores de classe de teoria. Mentre que la presentació de la pràctica es realitzarà durant el període d'exàmens.
Els exercicis realitzats durant el curs tenen una ponderació del 30%, la nota de teoria del 30% i la pràctica final del 40%.
Bibliografia
Bàsic
-
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 9780387848570
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Applied multivariate statistical analysis
- Johnson, Richard A.; Wichern, Dean W,
Pearson Education Limited,
[2014].
ISBN: 9781292024943
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004175889706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Exploratory multivariate analysis by example using R
- Husson, François; Lê, Sébastien; Pagès, Jérôme,
CRC Press, Taylor & Francis Group,
2017.
ISBN: 9781315301860
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001358859706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Discovering knowledge in data : an introduction to data mining
- Larose, D.T.; Larose, C.D,
John Wiley & Sons,
2014.
ISBN: 9781118874059
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001810009706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Multivariate statistical methods : a primer
- Manly, Bryan F. J,
CRC Press, Taylor & Francis Group,
[2017].
ISBN: 9781498728966
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004178359706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementari
-
Análisis de datos multivariantes
- Peña, Daniel,
McGraw-Hill/Interamericana de España, S.L,
[2010].
ISBN: 9788448136109
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002497609706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
An R and S-PLUS companion to multivariate analysis
- Everitt, Brian,
Springer,
2005.
ISBN: 1852338822
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002936809706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Aprender de los datos : el análisis de componentes principales : una aproximación desde el Data Mining
- Aluja Banet, Tomàs; Morineau, Alain,
EUB,
1999.
ISBN: 8483120224
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001877509706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Construction and assessment of classification rules
- Hand, D. J,
Wiley,
cop. 1997.
ISBN: 0471965839
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001900839706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Multivariate descriptive statistical analysis : correspondence analysis and related techniques for large matrices
- Lebart, Ludovic; Morineau, Alain; Warwick, Kenneth M,
John Wiley and Sons,
cop. 1984.
ISBN: 0471867438
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000022249706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Web links
- Homepage of R https://cran.r-project.org/
- Rstudio homepage https://rstudio.com/
Capacitats prèvies
L'assignatura suposa haver efectuat previament un curs basic d'estadística, programació i matemàtiques, en particular tenir adquirits els conceptes següents- Concepte de mitjana, matriu de covariancies i correlacions.
- Concepte de prova de hipòtesis.
- Operacions d'algebra matricial, valors i vectors propis.
- Programació d'algorismes.
- Regressió lineal múltiple