Preprocessament i models avançats d'anàlisis de dades és la tercera assignatura d'una seqüència on s'han adquirit ja els rudiments de Probabilitat & Estadística que inclou Introducció a l'Estadística (IE, Quadrimestre 2) i els Models estadístics més bàsics (EM, Quadrimestre 3). En aquestes assignatures prèvies, l'estudiant de grau de IA ha pogut aprendre nocions bàsiques d'anàlisi exploratòria i descriptiva de dades, teoria de probabilitat i mostreig, nocions d'inferència estadística i disseny d'experiments i models lineals de regressió simple, respectivament. Mentre que, a Modelització estadística, s'introdueix a l'alumne en models més complexos que inclouen, d'una banda, models de classificació, model lineal general i generalitzat i una introducció a sèries temporals com a algorismes supervisats, i, d'altra banda, models no supervisats que inclouen clustering i tècniuques d'anàlisi multivariant del tipus PCA.
En aquesta assignatura es treballarà la metodologia de preprocessament de dades des d¿una perspectiva de sistematització del procés i abordatge d¿escenaris més complexos, dades composicionals, variables multivaluades, dades multilingües,... i s'estudiaran mètodes més complexos d'imputació de dades mancants o de diagnòstic i tractament d'outliers que permetin portar la dada a la presa de decisions complexes en aplicacions reals. Aquesta assignatura integrarà les tècniques més complexes de preprocessament de dades en un escenari genèric de ciència de dades per connectar les dades depurades a models ja sigui d¿estadística multivariant, com d¿aprenentatge automàtic.
Respecte als mètodes avençats d¿anàlisi de dades, es veuran tècniques d¿anàlisi multivariant noves, com les que permeten escalar el clustering jeràrquic, noves formes de representar les dades (variables semàntiques) o generalitzen la topologia de classes que es poden reconèixer i l¿automatització del postprocessament de dades, que ajuda a interpretar els patron representants en les classes. D¿altra banda, s¿exploraran diferents tècniques d¿estadística multivariant per tractar dades espai-temporals i textuals, així com l¿extracció de topics
Professorat
Responsable
Dante Conti (
)
Altres
Karina Gibert Oliveras (
)
Miquel Umbert Bosch (
)
Sergi Ramirez Mitjans (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Competències Transversals
Transversals
CT3 [Avaluable] - Comunicació eficaç oral i escrita. Comunicar-se de forma oral i escrita amb altres persones sobre els resultats de l'aprenentatge, de l'elaboració del pensament i de la presa de decisions; participar en debats sobre temes de la pròpia especialitat.
CT4 [Avaluable] - Treball en equip. Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, assumint compromisos tenint en compte els recursos disponibles.
CT7 - Tercera llengua. Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i d'acord amb les necessitats que tindran els titulats i titulades.
CT8 [Avaluable] - Perspectiva de gènere. Conèixer i comprendre, des de l'àmbit de la titulació mateixa, les desigualtats per raó de sexe i gènere en la societat, i integrar les diverses necessitats i preferències per raó de sexe i gènere en el disseny de solucions i la resolució de problemes.
Bàsiques
CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
CB3 - Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica.
CB4 - Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia
Competències Tècniques
Específiques
CE09 - Concebre, dissenyar i integrar sistemes d'anàlisi intel·ligent de dades amb aplicació en entorns de producció i de serveis.
CE17 - Desenvolupar i avaluar sistemes interactius i de presentació d'informació complexa i la seva aplicació a la resolució de problemes de disseny d'interacció persona-ordinador i persona-robot.
CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
CE20 - Triar i emprar Tècniques de Modelització estadística i anàlisi de dades, avaluant la calidad dels models, validant-i interpretant.
Competències Tècniques Generals
Genèriques
CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
CG8 - Observar un exercici ètic de la professió en totes les seves facetes, aplicant criteris ètics en el disseny de sistemes, algoritmes, experiments, utilització de dades, d'acord amb els sistemes ètics recomanats pels organismes nacionals i internacionals, amb especial èmfasi en seguretat, robustesa , privacitat, transparència, traçabilitat, prevenció de biaixos (de raça, gènere, religió, territori, etc.) i respecte als drets humans.
CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.
Objectius
Familiaritzar-se amb les eines i tècniques d'anàlisi avançada de dades per a poder tractar dades de manera correcta i interioritzar la dada i la informació obtinguda com a font de suport a processos de presa de decisions.
Competències relacionades:
CG4,
CB3,
CE09,
CE20,
Seleccionar, tractar i adequar les dades rellevants per a fer front a una pregunta específica.
Competències relacionades:
CG4,
CG8,
CT8,
CB4,
CE09,
CE17,
Realitzar preprocessament avançat de les dades
Competències relacionades:
CG4,
CE20,
Obtenir perfils o patrons de bases de dades mixtes a partir de tècniques de clustering avançat i interpretar els resultats amb eines de perfilat i post-processament
Competències relacionades:
CG4,
CB2,
CB4,
CB5,
CE09,
CE20,
Aplicar anàlisi multivariant de dades, especialment a dades categòriques, dades mixtes i dades no estructurades
Competències relacionades:
CG4,
CE20,
Tractar dades semi o no estructurades tipus text per a mineria de text, anàlisi de sentiments i Topic Modelling
Competències relacionades:
CG4,
CE09,
CE18,
CE20,
Analitzar dades del tipus espaitemporal. Modelar dades o problemes amb variables latents.
Competències relacionades:
CG4,
CE20,
Construir els models estadístics correctament a partir de les dades el context del problema de referència i presentar-lo públicament
Competències relacionades:
CG4,
CG8,
CT3,
CB2,
CE09,
CE20,
Desenvolupar treballs pràctics i projectes amb perspectiva de gènere
Competències relacionades:
CG8,
CT8,
Integrar els mecanismes de treball en equip en la realització dels treballs pràctics.
Competències relacionades:
CT4,
Tractar amb destresa les eines informàtiques necessàries per a resoldre els problemes reals plantejats amb les tècniques vistes en classe
Competències relacionades:
CG4,
CE09,
CE20,
Interpretar i contextualitzar els models construïts a partir de dades.
Competències relacionades:
CG4,
CT3,
CT8,
Validar els models obtinguts i fer una interpretació crítica dels resultats des d'un punt de vista tècnic, contextualitzant els resultats en el marc, referència o enteniment del problema tractat
Competències relacionades:
CG4,
CG8,
CE09,
CE20,
Realitzar un informe o reporti final amb les assignacions pràctiques o projecte d'assignatura
Competències relacionades:
CG4,
CG8,
CG9,
CT3,
CT4,
CT7,
CT8,
CE17,
Presentar públicament un informe amb els resultats del projecte o assignació pràctica de l'assignatura
Competències relacionades:
CG4,
CG8,
CT3,
CT4,
CT7,
CT8,
Continguts
Introducció
Data quality;
Importància del Preprocessament de dades;
Introducció a les tècniques avençades d'anàlisi de dades;
Relació Anàlisis Multivariant;
Aprenentatge Automàtic i ciència de dades
Tècniques avençades de Preprocessament
Adquisició i Homogeneïtzació de dades
Selecció de variables (feature Selection
feature weighting i reducció de variables)
Dades Mancants: MICE, MIMMI
Derivació de variables
Transformació de variables
Dades anòmales (outliers)
Mètodes avençats de Clustering
Escalabilitat: Estratègia CURE, Mètriques i distàncies mixtes, Distàncies basades en ontologies, Clustering en dades mixtes, DBSCAN, OPTICS, Classificació de sèries temporals, Interpretació automàtica de les classes:
Validació de perfils (proves inferencials), Post-processament de les classes per interpetar els perfils (CPG, TLP, termòmetres, aTL)
Mètodes multivariants avençats
Anàlisi de correspondència Múltiples: Principis teòrics, representació gràfica dels plans factorials, contribucions als eixos, interpretació de les components principals. Análisi Factorial Múltiple: concepte i aplicacions
Anàlisi de dades - models espaciotemporals
Conceptes bàsics, dades geolocalitzades, distància geodèsica, components dels models espai-temporals i mètodes bàsics
Anàlisi de dades textuals
Mineria de textos i Anàlisi de sentiments, Anàlisi semàntica latent (Latent Semantic Analysis), Model.lització de temes (Topic Modelling)
Model·lització a partir de variables latents
clustering a partir de variables latents, modelització amb variables latents i anàlisi textual amb variables latents
Activitats
ActivitatActe avaluatiu
Treball en equip
Els alumnes s'organitzen en grups i busquen unes dades reals que compleixen certs requisits marcats pel professor Les utilitzen per anar aplicant les tècniques i metodologies que es vegin al llarg del curs. Al final presenten un informe amb els resultats i fan una presentació oral amb els resultats més rellevants de l'estudi. Objectius:123456789101112131415 Continguts:
Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori Objectius:458 Setmana:
7
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Presentació final de la pràctica
Presentació final de la pràctica Objectius:1415 Setmana:
15 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Quiz 3
Setmana:
13
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Quiz 4
Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori
Setmana:
15 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Metodologia docent
Els 7 temes suggerits es desenvoluparan en 12 sessions de classes teòriques (2 hores per setmana) amb les seves respectives pràctiques o laboratori (2 hores per setmana també).
En les classes de teoria es practicarà sempre que sigui possible l'esquema de classe invertida.
Al web de l'assignatura hi haurà el calendari de l'assignatura i els materials a portar preparats abans de cada classe. Es recorrerà a l'esquema de classe magistral puntualment quan el professor necessiti aclarir conceptes complexos que no han quedat clars amb els materials distribuïts prèviament a la classe. La classe de teoria es dedicarà fonamentalment a la presentació de casos i al desenvolupament d'activitats interactives amb els estudiants com la discussió dels casos, el desenvolupament de problemes o la realització de qüestionaris curts puntuals.
Els estudiants realitzaran per grups grans un treball pràctic amb dades que buscaran ells mateixos i que compliran certes característiques fixades pel professorat. Amb aquestes dades cada equip realitzarà les sessions de pràctiques, cada setmana aplicant les tècniques del tema treballat a la sessió de teoria. El professor farà seguiment setmanal de tots els equips de treball en les sessions de laboratori
Al final de curs els equips presentaran els seus resultats en una sessió de posta en comú on es debatrà conjuntament sobre tots els projectes
Mètode d'avaluació
Es proposa el següent sistema d'avaluació:
- (TE)Treball en equip realitzat al llarg del curs (70%), puntuació desglossada de la següent manera
(QT) Qualitat tècnica de la memòria: 20%;
(K) Coneixements ( Knowledge) 10% (discussió amb el professorat en la presentació oral dels treballs en equip);
(T) Qualitat i rendiment de l'equip (Team) de treball. 10%,
(C) Comunicació oral i escrita i ús de la tercera llengua 10%,
(E) Ètica de l'equip de treball i del treball pròpiament dit 10%,
(G) Perspectiva de gènere de l'equip i del treball 10%.
-(Q) 4 Quiz al llarg del curs 20%.
- (A) Assistència i participació en classes i laboratoris. 10%
NotaFinal=TE+0.2*Q+0,1*A on
TE= 0,2*QT+0,1*K+0,1*T+0,1*C+0,1*E+0,1*G
Reavaluació
Només es pot presentar a l'examen de reavaluació qui prèviament s'hagi presentat a l'examen final i l'hagi suspès.
Bibliografia
Bàsica:
A survey on pre-processing techniques: Relevant issues in the context of environmental data Mining -
Gibert, Karina; Sànchez-Marré, Mquel; Izquierdo, Joaquin,
AI communications: the european journal of artificial intelligence, 2016. https://upcommons.upc.edu/handle/2117/123530
Exploratory multivariate analysis by example using R -
Husson, François; Lê, Sébastien; Pagès, Jérôme, CRC Press, Taylor & Francis ,
2017.
ISBN: 9781315301860
Correspondence Analysis in Practice -
Greenacre, Michael, Chapman and Hall/CRC ,
2016.
ISBN: 9781315369983