L'objectiu de l'assignatura és introduir als estudiants en els fonaments dels mètodes d'anàlisi de dades multivariants i proporcionar-li les eines per tractar el preprocessament, la visualització, la reducció de dimensions, la classificació i el modelatge de dades multivariants.
Professorat
Responsable
Nihan Acar Denizli (
)
Altres
Belchin Adriyanov Kostov (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
7.11
Competències
Competències Transversals
ús solvent dels recursos d'informació
CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
Tercera llengua
CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
Emprenedoria i innovació
CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
Competències Tècniques Generals
Genèriques
CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
CG3 - Definir, dissenyar i implementar sistemes complexos que cobreixin totes les fases en projectes de ciència de dades
Competències Tècniques
Específiques
CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
CE7 - Identificar les limitacions imposades per la qualitat de dades en un problema de ciència de dades i aplicar tècniques per a disminuir el seu impacte
CE8 - Extreure informació de dades estructurades i no estructurades, tenint en compte la naturalesa multivariant de les mateixes.
CE9 - Aplicar mètodes adequats per a l'anàlisi d'altres tipus de formats, com ara processos i grafs, dins l'àmbit de ciència de dades
CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa
CE11 - Analitzar i extreure coneixement d'informació no estructurada mitjançant tècniques de processament de llenguatge natural, mineria de textos i imatges
CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
Objectius
Visualització de les dades
Competències relacionades:
CT4,
CT5,
CT1,
CG2,
CE5,
CB8,
Classificació de nous individus
Competències relacionades:
CT1,
CG3,
CE6,
CE10,
CB6,
CB7,
Continguts
Introducció a l'Anàlisi de Dades Multivariada
Preprocessament i visualització de dades multivariants.
Anàlisi de components principals
Anàlisi d'individus. Anàlisi de variables. Representació visual de la informació. Reducció de dimensionalitat. Informació suplementària. Descomposició en valors singulars.
Escalament Multidimensional
Reducció de la dimensió basada en matrius de similitud o distància amb aplicacions.
Anàlisi de Correspondències
Reducció de dimensions de dues variables categòriques i visualització de relacions entre categories.
Anàlisi de Correspondències Multiple
L'anàlisi i visualització de relacions entre categories de més de dues variables categòriques mitjançant reducció de dimensió.
Anàlisi de Cluster
L'ús de mètodes de clustering jeràrquics i no jeràrquics per classificar les observacions en grups basats en dades multivariants.
Mètodes de profiling
Els mètodes de profiling ajuden a entendre les característiques comunes dels clusters.
Distribució normal multivariant
La funció de densitat de probabilitat de distribució normal multivariada i proves d'hipòtesi de mitjana per a dades multivariades.
Anàlisi Discriminant
Classificació d'observacions en grups donats mitjançant l'ús d'anàlisi discriminant lineal, anàlisi discriminant quadràtic i mètodes Naive Bayes.
Regles d'associació
Trobar patrons, associacions, correlacions o estructures causals freqüents entre conjunts d'elements o objectes en bases de dades de transaccions, bases de dades relacionals i altres repositoris d'informació.
Activitats
ActivitatActe avaluatiu
Presentació de l'assignatura + Anàlisi Multivariant de Dades
L'aplicació i interpretació dels mètodes de reducció de dimensió vistos durant la primera part de l'assignatura sobre un cas d'estudi. Objectius:213 Setmana:
8 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
7.5h
Tasca 2
En aquesta tasca l'alumne ha d'aplicar els mètodes de classificació sobre un cas d'estudi i interpretar els resultats. Aquesta tasca es realitza en grups de tres alumnes. Objectius:453 Setmana:
13 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
7.5h
Examen Final
A l'examen final l'alumnat serà responsable de tots els mètodes que hagi vist al llarg del semestre. Hi haurà preguntes tant teòriques com d'interpretació basades en resultats R a l'examen. Objectius:24513 Setmana:
15 (Fora d'horari lectiu)
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h
Projecte Final
El projecte final inclou l'aplicació i interpretació dels mètodes d'anàlisi de dades multivariants sobre un conjunt de dades reals que es podrien seleccionar en funció dels interessos dels estudiants. S'ha de fer en grups de tres alumnes. Objectius:24513 Setmana:
14 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
18h
Metodologia docent
Aquesta assignatura pretén donar una explicació teòrica de diferents mètodes per a l'anàlisi de dades multivariants i les seves aplicacions en conjunts de dades reals. A les classes de teoria s'explicaran els fonaments i l'estructura teòrica dels mètodes mentre que a les sessions de laboratori es farà l'aplicació de mètodes considerats sobre diferents conjunts de dades a R. Els projectes i els deures de l'assignatura es faran en grups que permetin als estudiants col·loborar per construir un treball en equip.
Mètode d'avaluació
Durant el curs els estudiants hauran de lliurar dos deures (tasques) i un treball final que s'haurà de realitzar en grups de tres estudiants. Els primers deures se centren en l'aplicació de mètodes de reducció de dimensió mentre que els segons se centren en mètodes de classificació.En el projecte final de l'assignatura els estudiants hauran de treballar en un conjunt de dades reals que descarreguen o rastregen webs i aplicar els mètodes vistos durant el curs en els conjunts de dades escollits. Els resultats s'han de presentar en un informe escrit en format pdf.
La nota global dels estudiants serà del 15% per la primera tasca, del 15% per la segona, del %40 pel projecte final i del 30% per l'examen final.
L'assignatura suposa haver efectuat previament un curs basic d'estadística, programació i matemàtiques, en particular tenir adquirits els conceptes següents:
- Anàlisi estadística descriptiva.
- Concepte de prova de hipòtesis.
- Operacions d'algebra matricial, valors i vectors propis.
- Programació d'algorismes.
- Regressió lineal múltiple