Preprocessament i Models Avançats d'Anàlisi de Dades

Esteu aquí

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
EIO
Mail
Preprocessament i models avançats d'anàlisis de dades és la tercera assignatura d'una seqüència on s'han adquirit ja els rudiments de Probabilitat & Estadística que inclou Introducció a l'Estadística (IE, Quadrimestre 2) i els Models estadístics més bàsics (EM, Quadrimestre 3). En aquestes assignatures prèvies, l'estudiant de grau de IA ha pogut aprendre nocions bàsiques d'anàlisi exploratòria i descriptiva de dades, teoria de probabilitat i mostreig, nocions d'inferència estadística i disseny d'experiments i models lineals de regressió simple, respectivament. Mentre que, a Modelització estadística, s'introdueix a l'alumne en models més complexos que inclouen, d'una banda, models de classificació, model lineal general i generalitzat i una introducció a sèries temporals com a algorismes supervisats, i, d'altra banda, models no supervisats que inclouen clustering i tècniuques d'anàlisi multivariant del tipus PCA.

En aquesta assignatura es treballarà la metodologia de preprocessament de dades des d¿una perspectiva de sistematització del procés i abordatge d¿escenaris més complexos, dades composicionals, variables multivaluades, dades multilingües,... i s'estudiaran mètodes més complexos d'imputació de dades mancants o de diagnòstic i tractament d'outliers que permetin portar la dada a la presa de decisions complexes en aplicacions reals. Aquesta assignatura integrarà les tècniques més complexes de preprocessament de dades en un escenari genèric de ciència de dades per connectar les dades depurades a models ja sigui d¿estadística multivariant, com d¿aprenentatge automàtic.

Respecte als mètodes avençats d¿anàlisi de dades, es veuran tècniques d¿anàlisi multivariant noves, com les que permeten escalar el clustering jeràrquic, noves formes de representar les dades (variables semàntiques) o generalitzen la topologia de classes que es poden reconèixer i l¿automatització del postprocessament de dades, que ajuda a interpretar els patron representants en les classes. D¿altra banda, s¿exploraran diferents tècniques d¿estadística multivariant per tractar dades espai-temporals i textuals, així com l¿extracció de topics

Professorat

Responsable

  • Karina Gibert Oliveras ( )

Altres

  • Dante Conti ( )
  • Sergi Ramirez Mitjans ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències Transversals

Transversals

  • CT3 [Avaluable] - Comunicació eficaç oral i escrita. Comunicar-se de forma oral i escrita amb altres persones sobre els resultats de l'aprenentatge, de l'elaboració del pensament i de la presa de decisions; participar en debats sobre temes de la pròpia especialitat.
  • CT4 [Avaluable] - Treball en equip. Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, assumint compromisos tenint en compte els recursos disponibles.
  • CT7 - Tercera llengua. Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i d'acord amb les necessitats que tindran els titulats i titulades.
  • CT8 [Avaluable] - Perspectiva de gènere. Conèixer i comprendre, des de l'àmbit de la titulació mateixa, les desigualtats per raó de sexe i gènere en la societat, i integrar les diverses necessitats i preferències per raó de sexe i gènere en el disseny de solucions i la resolució de problemes.

Bàsiques

  • CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
  • CB3 - Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica.
  • CB4 - Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
  • CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques

Específiques

  • CE09 - Concebre, dissenyar i integrar sistemes d'anàlisi intel·ligent de dades amb aplicació en entorns de producció i de serveis.
  • CE17 - Desenvolupar i avaluar sistemes interactius i de presentació d'informació complexa i la seva aplicació a la resolució de problemes de disseny d'interacció persona-ordinador i persona-robot.
  • CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
  • CE20 - Triar i emprar Tècniques de Modelització estadística i anàlisi de dades, avaluant la calidad dels models, validant-i interpretant.

Competències Tècniques Generals

Genèriques

  • CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
  • CG8 - Observar un exercici ètic de la professió en totes les seves facetes, aplicant criteris ètics en el disseny de sistemes, algoritmes, experiments, utilització de dades, d'acord amb els sistemes ètics recomanats pels organismes nacionals i internacionals, amb especial èmfasi en seguretat, robustesa , privacitat, transparència, traçabilitat, prevenció de biaixos (de raça, gènere, religió, territori, etc.) i respecte als drets humans.
  • CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.

Objectius

  1. Familiaritzar-se amb les eines i tècniques d'anàlisi avançada de dades per a poder tractar dades de manera correcta i interioritzar la dada i la informació obtinguda com a font de suport a processos de presa de decisions.
    Competències relacionades: CG4, CB3, CE09, CE20,
  2. Seleccionar, tractar i adequar les dades rellevants per a fer front a una pregunta específica.
    Competències relacionades: CG4, CG8, CT8, CB4, CE09, CE17,
  3. Realitzar preprocessament avançat de les dades
    Competències relacionades: CG4, CE20,
  4. Obtenir perfils o patrons de bases de dades mixtes a partir de tècniques de clustering avançat i interpretar els resultats amb eines de perfilat i post-processament
    Competències relacionades: CG4, CB2, CB4, CB5, CE09, CE20,
  5. Aplicar anàlisi multivariant de dades, especialment a dades categòriques, dades mixtes i dades no estructurades
    Competències relacionades: CG4, CE20,
  6. Tractar dades semi o no estructurades tipus text per a mineria de text, anàlisi de sentiments i Topic Modelling
    Competències relacionades: CG4, CE09, CE18, CE20,
  7. Analitzar dades del tipus espaitemporal. Modelar dades o problemes amb variables latents.
    Competències relacionades: CG4, CE20,
  8. Construir els models estadístics correctament a partir de les dades el context del problema de referència i presentar-lo públicament
    Competències relacionades: CG4, CG8, CT3, CB2, CE09, CE20,
  9. Desenvolupar treballs pràctics i projectes amb perspectiva de gènere
    Competències relacionades: CG8, CT8,
  10. Integrar els mecanismes de treball en equip en la realització dels treballs pràctics.
    Competències relacionades: CT4,
  11. Tractar amb destresa les eines informàtiques necessàries per a resoldre els problemes reals plantejats amb les tècniques vistes en classe
    Competències relacionades: CG4, CE09, CE20,
  12. Interpretar i contextualitzar els models construïts a partir de dades.
    Competències relacionades: CG4, CT3, CT8,
  13. Validar els models obtinguts i fer una interpretació crítica dels resultats des d'un punt de vista tècnic, contextualitzant els resultats en el marc, referència o enteniment del problema tractat
    Competències relacionades: CG4, CG8, CE09, CE20,
  14. Realitzar un informe o reporti final amb les assignacions pràctiques o projecte d'assignatura
    Competències relacionades: CG4, CG8, CG9, CT3, CT4, CT7, CT8, CE17,
  15. Presentar públicament un informe amb els resultats del projecte o assignació pràctica de l'assignatura
    Competències relacionades: CG4, CG8, CT3, CT4, CT7, CT8,

Continguts

  1. Introducció
    Data quality;
    Importància del Preprocessament de dades;
    Introducció a les tècniques avençades d'anàlisi de dades;
    Relació Anàlisis Multivariant;
    Aprenentatge Automàtic i ciència de dades
  2. Tècniques avençades de Preprocessament
    Adquisició i Homogeneïtzació de dades
    Selecció de variables (feature Selection
    feature weighting i reducció de variables)
    Dades Mancants: MICE, MIMMI
    Derivació de variables
    Transformació de variables
    Dades anòmales (outliers)
  3. Mètodes avençats de Clustering
    Escalabilitat: Estratègia CURE, Mètriques i distàncies mixtes, Distàncies basades en ontologies, Clustering en dades mixtes, DBSCAN, OPTICS, Classificació de sèries temporals, Interpretació automàtica de les classes:
    Validació de perfils (proves inferencials), Post-processament de les classes per interpetar els perfils (CPG, TLP, termòmetres, aTL)
  4. Mètodes multivariants avençats
    Anàlisi de correspondència Múltiples: Principis teòrics, representació gràfica dels plans factorials, contribucions als eixos, interpretació de les components principals. Análisi Factorial Múltiple: concepte i aplicacions
  5. Anàlisi de dades - models espaciotemporals
    Conceptes bàsics, dades geolocalitzades, distància geodèsica, components dels models espai-temporals i mètodes bàsics
  6. Anàlisi de dades textuals
    Mineria de textos i Anàlisi de sentiments, Anàlisi semàntica latent (Latent Semantic Analysis), Model.lització de temes (Topic Modelling)
  7. Model·lització a partir de variables latents
    clustering a partir de variables latents, modelització amb variables latents i anàlisi textual amb variables latents

Activitats

Activitat Acte avaluatiu


Treball en equip

Els alumnes s'organitzen en grups i busquen unes dades reals que compleixen certs requisits marcats pel professor Les utilitzen per anar aplicant les tècniques i metodologies que es vegin al llarg del curs. Al final presenten un informe amb els resultats i fan una presentació oral amb els resultats més rellevants de l'estudi.
Objectius: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Continguts:
Teoria
0h
Problemes
0h
Laboratori
28h
Aprenentatge dirigit
0h
Aprenentatge autònom
50h

Presentació inicial de la pràctica

Presentació inicial de la pràctica
Objectius: 2 3 4 5 6 9 14 15
Continguts:
Teoria
0h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Quiz 1

Quiz 1
Objectius: 2 3
Setmana: 3
Tipus: examen de teoria
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Teoria
30h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
30h

Quiz 2

Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori
Objectius: 4 5 8
Setmana: 7
Tipus: examen de teoria
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Presentació final de la pràctica

Presentació final de la pràctica
Objectius: 14 15
Setmana: 15 (Fora d'horari lectiu)
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Quiz 3



Setmana: 13
Tipus: examen de teoria
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Quiz 4

Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori

Setmana: 15 (Fora d'horari lectiu)
Tipus: examen de teoria
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Metodologia docent

Els 7 temes suggerits es desenvoluparan en 12 sessions de classes teòriques (2 hores per setmana) amb les seves respectives pràctiques o laboratori (2 hores per setmana també).
En les classes de teoria es practicarà sempre que sigui possible l'esquema de classe invertida.
Al web de l'assignatura hi haurà el calendari de l'assignatura i els materials a portar preparats abans de cada classe. Es recorrerà a l'esquema de classe magistral puntualment quan el professor necessiti aclarir conceptes complexos que no han quedat clars amb els materials distribuïts prèviament a la classe. La classe de teoria es dedicarà fonamentalment a la presentació de casos i al desenvolupament d'activitats interactives amb els estudiants com la discussió dels casos, el desenvolupament de problemes o la realització de qüestionaris curts puntuals.
Els estudiants realitzaran per grups grans un treball pràctic amb dades que buscaran ells mateixos i que compliran certes característiques fixades pel professorat. Amb aquestes dades cada equip realitzarà les sessions de pràctiques, cada setmana aplicant les tècniques del tema treballat a la sessió de teoria. El professor farà seguiment setmanal de tots els equips de treball en les sessions de laboratori

Al final de curs els equips presentaran els seus resultats en una sessió de posta en comú on es debatrà conjuntament sobre tots els projectes

Mètode d'avaluació

Es proposa el següent sistema d'avaluació:
- (TE)Treball en equip realitzat al llarg del curs (70%), puntuació desglossada de la següent manera
(QT) Qualitat tècnica de la memòria: 20%;
(K) Coneixements ( Knowledge) 10% (discussió amb el professorat en la presentació oral dels treballs en equip);
(T) Qualitat i rendiment de l'equip (Team) de treball. 10%,
(C) Comunicació oral i escrita i ús de la tercera llengua 10%,
(E) Ètica de l'equip de treball i del treball pròpiament dit 10%,
(G) Perspectiva de gènere de l'equip i del treball 10%.
-(Q) 4 Quiz al llarg del curs 20%.
- (A) Assistència i participació en classes i laboratoris. 10%



NotaFinal=TE+0.2*Q+0,1*A on

TE= 0,2*QT+0,1*K+0,1*T+0,1*C+0,1*E+0,1*G


Reavaluació

Només es pot presentar a l'examen de reavaluació qui prèviament s'hagi presentat a l'examen final i l'hagi suspès.

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

Les assignatures de Model·lització Estadística i Probabilitat i Estadística