L'objectiu del curs és proporcionar els conceptes estadístics de l'anàlisi de dades multivariants i les seves tècniques bàsiques, que constitueixen un dels pilars fonamentals de la Mineria de Dades.
Professorat
Responsable
Dante Conti (
)
Karina Gibert Oliveras (
)
Sergi Ramirez Mitjans (
)
Altres
Ariel Duarte López (
)
David Rodriguez Segado (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2.2
Aprenentatge dirigit
0
Aprenentatge autònom
7.53
Competències
Competències Transversals
ús solvent dels recursos d'informació
CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
Tercera llengua
CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
Emprenedoria i innovació
CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
Competències Tècniques Generals
Genèriques
CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
CG3 - Definir, dissenyar i implementar sistemes complexos que cobreixin totes les fases en projectes de ciència de dades
Competències Tècniques
Específiques
CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
CE7 - Identificar les limitacions imposades per la qualitat de dades en un problema de ciència de dades i aplicar tècniques per a disminuir el seu impacte
CE8 - Extreure informació de dades estructurades i no estructurades, tenint en compte la naturalesa multivariant de les mateixes.
CE9 - Aplicar mètodes adequats per a l'anàlisi d'altres tipus de formats, com ara processos i grafs, dins l'àmbit de ciència de dades
CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa
CE11 - Analitzar i extreure coneixement d'informació no estructurada mitjançant tècniques de processament de llenguatge natural, mineria de textos i imatges
CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
Classificació de nous individus
Competències relacionades:
CT1,
CG3,
CE6,
CE10,
CB6,
CB7,
Continguts
Introducció a l'Anàlisi de Dades Multivariada
Avantatges del tractament multivariant. Exemples de dades multivariades. Mètodes probables i lliures de distribució. Enfocament exploratori versus modelatge.
Anàlisi de components principals
Anàlisi d'individus. Anàlisi de variables. Representació visual de la informació. Reducció de dimensionalitat. Informació suplementària. Descomposició en valors singulars.
Descomposició en valores singulars
Mètode per explorar i visualitzar files i columnes d'una taula mitjançant descomposició en valors singulars
Anàlisi Factorial
Mètode de reducció de dimensions.
Escalament Multidimensional
Aquest mètode tracta amb dades relatives a distancies entre els elements. Normalment, a partir de dades procedents de distancies o similituds. El mètode posa de manifest una estructura comuna de tots els elements i l'especificitat de cada un d'ells, evidenciant què fa que siguin a prop o distants.
Clustering Jeràrquic i de Particions
Dos enfocaments per agrupar mètodes utilitzats per classificar les observacions, dins d'un conjunt de dades, en múltiples grups en funció de la seva semblança.
Mètodes de profiling automàtic
Els mètodes de profiling ajuden a entendre les característiques comunes dels clusters.
Distribució normal multivariant
Particularitats de la distribució normal en el cas general de plantejaments multivariants, on els punts es distribueixen en varies dimensions.
Anàlisi Discriminant
L'anàlisi discriminant (DA) i Naïve Bayes (NB) són mètodes de classificació. DA classifica les observacions en grups no superposats, basant-se en les puntuacions d'una o més variables predictores quantitatives. NB és un algorisme d'aprenentatge senzill que utilitza la regla de Bayes juntament amb una suposició ferma que els atributs són independents condicionalment, donada la classe.
Arbres de classificació i regressió
Aquest mètode pot predir o classificar. Explica com es poden predir o classificar els valors d'una variable de resultat en funció d'altres valors. Té una estructura gràfica molt útil.
Regles d'associació
Trobar patrons, associacions, correlacions o estructures causals freqüents entre conjunts d'elements o objectes en bases de dades de transaccions, bases de dades relacionals i altres repositoris d'informació.
Activitats
ActivitatActe avaluatiu
Presentació de l'assignatura + Anàlisi Multivariant de Dades
El curs té com a objectiu proporcionar les bases estadístiques per a la mineria de dades. L'aprenentatge es realitza mitjançant una combinació d'explicació teòrica i la seva aplicació a un cas real. Les classes desenvoluparan els coneixements científics necessaris, mentre que les classes de laboratori seran la seva aplicació per resoldre problemes de mineria de dades. La implementació de pràctiques afavoreix habilitats genèriques relacionades amb el treball en equip i la presentació de resultats i serveix per integrar diferents coneixements de la matèria. El programari utilitzat serà principalment R.
Mètode d'avaluació
L'avaluació del curs es basarà en les notes obtingudes en els exercicis pràctics realitzats durant el curs, una nota de teoria i la nota obtinguda en la pràctica final.
Cada pràctica donarà lloc a la redacció de la corresponent redacció de l'informe i podrà realitzar-se de forma conjunta, fins a un màxim de quatre alumnes per grup.
Els exercicis realitzats al llarg de el curs tenen com a objectiu consolidar l'aprenentatge de tècniques multivariants..
La pràctica final és que els estudiants demostrin la seva maduresa per resoldre un problema real utilitzant tècniques de visualització multivariant, interpretació d'agrupament i predicció. Els estudiants triaran entre diferents alternatives per resoldre el problema. Aquesta pràctica serà presentada i defensada públicament, en la qual l'alumne haurà de respondre a qualsevol dubte sobre els models teòrics i mètodes utilitzats en la solució. Les pràctiques es realitzen utilitzant el programari R.
Les proves escrites avaluaràn l'assimilació dels conceptes bàsics de l'assignatura. Hi haurà tres proves al llarg del curs, en hores de classe de teoria. Mentre que la presentació de la pràctica es realitzarà durant el període d'exàmens.
Els exercicis a classe tenen una ponderació del 20%, la nota de teoria del 40% i la pràctica final del 40%.
Bibliografia
Bàsica:
The Elements of statistical learning : data mining, inference, and prediction -
Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer, cop. 2009. ISBN: 9780387848570 http://cataleg.upc.edu/record=b1343839~S1*cat
Applied multivariate statistical analysis -
Johnson, Richard A.; Wichern, Dean W,
Pearson Education Limited, [2014]. ISBN: 9781292024943 http://cataleg.upc.edu/record=b1520493~S1*cat
Exploratory multivariate analysis by example using R -
Husson, François; Lê, Sébastien; Pagès, Jérôme,
CRC Press, Taylor & Francis Group, 2017. ISBN: 9781315301860 http://cataleg.upc.edu/record=b1496325~S1*cat
Aprender de los datos : el análisis de componentes principales : una aproximación desde el Data Mining -
Aluja Banet, Tomàs; Morineau, Alain, EUB ,
1999.
ISBN: 8483120224 http://cataleg.upc.edu/record=b1153963~S1*cat
Multivariate descriptive statistical analysis : correspondence analysis and related techniques for large matrices -
Lebart, Ludovic; Morineau, Alain; Warwick, Kenneth M, John Wiley and Sons ,
cop. 1984.
ISBN: 0471867438 http://cataleg.upc.edu/record=b1004061~S1*cat
L'assignatura suposa haver efectuat previament un curs basic d'estadística, programació i matemàtiques, en particular tenir adquirits els conceptes següents:
- Concepte de mitjana, matriu de covariancies i correlacions.
- Concepte de prova de hipòtesis.
- Operacions d'algebra matricial, valors i vectors propis.
- Programació d'algorismes.
- Regressió lineal múltiple