Vés al contingut

Preprocessament i Models Avançats d'Anàlisi de Dades

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
EIO
Mail
dante.conti@upc.edu
Preprocessament i models avançats d'anàlisis de dades és la tercera assignatura d'una seqüència on s'han adquirit ja els rudiments de Probabilitat & Estadística que inclou Introducció a l'Estadística (IE, Quadrimestre 2) i els Models estadístics més bàsics (EM, Quadrimestre 3). En aquestes assignatures prèvies, l'estudiant de grau de IA ha pogut aprendre nocions bàsiques d'anàlisi exploratòria i descriptiva de dades, teoria de probabilitat i mostreig, nocions d'inferència estadística i disseny d'experiments i models lineals de regressió simple, respectivament. Mentre que, a Modelització estadística, s'introdueix a l'alumne en models més complexos que inclouen, d'una banda, models de classificació, model lineal general i generalitzat i una introducció a sèries temporals com a algorismes supervisats, i, d'altra banda, models no supervisats que inclouen clustering i tècniuques d'anàlisi multivariant del tipus PCA.

En aquesta assignatura es treballarà la metodologia de preprocessament de dades des d¿una perspectiva de sistematització del procés i abordatge d¿escenaris més complexos, dades composicionals, variables multivaluades, dades multilingües,... i s'estudiaran mètodes més complexos d'imputació de dades mancants o de diagnòstic i tractament d'outliers que permetin portar la dada a la presa de decisions complexes en aplicacions reals. Aquesta assignatura integrarà les tècniques més complexes de preprocessament de dades en un escenari genèric de ciència de dades per connectar les dades depurades a models ja sigui d¿estadística multivariant, com d¿aprenentatge automàtic.

Respecte als mètodes avençats d¿anàlisi de dades, es veuran tècniques d¿anàlisi multivariant noves, com les que permeten escalar el clustering jeràrquic, noves formes de representar les dades (variables semàntiques) o generalitzen la topologia de classes que es poden reconèixer i l¿automatització del postprocessament de dades, que ajuda a interpretar els patron representants en les classes. D¿altra banda, s¿exploraran diferents tècniques d¿estadística multivariant per tractar dades espai-temporals i textuals, així com l¿extracció de topics

Professorat

Responsable

  • Dante Conti (dante.conti@upc.edu)

Altres

  • Sergi Ramirez Mitjans (sergi.ramirez@upc.edu)

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Transversals

  • CT3 [Avaluable] - Comunicació eficaç oral i escrita. Comunicar-se de forma oral i escrita amb altres persones sobre els resultats de l'aprenentatge, de l'elaboració del pensament i de la presa de decisions; participar en debats sobre temes de la pròpia especialitat.
  • CT4 [Avaluable] - Treball en equip. Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, assumint compromisos tenint en compte els recursos disponibles.
  • CT8 [Avaluable] - Perspectiva de gènere. Conèixer i comprendre, des de l'àmbit de la titulació mateixa, les desigualtats per raó de sexe i gènere en la societat, i integrar les diverses necessitats i preferències per raó de sexe i gènere en el disseny de solucions i la resolució de problemes.
  • Bàsiques

  • CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
  • CB3 - Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica.
  • CB4 - Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
  • CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia
  • Específiques

  • CE09 - Concebre, dissenyar i integrar sistemes d'anàlisi intel·ligent de dades amb aplicació en entorns de producció i de serveis.
  • CE17 - Desenvolupar i avaluar sistemes interactius i de presentació d'informació complexa i la seva aplicació a la resolució de problemes de disseny d'interacció persona-ordinador i persona-robot.
  • CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
  • CE20 - Triar i emprar Tècniques de Modelització estadística i anàlisi de dades, avaluant la calidad dels models, validant-i interpretant.
  • Genèriques

  • CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
  • CG8 - Observar un exercici ètic de la professió en totes les seves facetes, aplicant criteris ètics en el disseny de sistemes, algoritmes, experiments, utilització de dades, d'acord amb els sistemes ètics recomanats pels organismes nacionals i internacionals, amb especial èmfasi en seguretat, robustesa , privacitat, transparència, traçabilitat, prevenció de biaixos (de raça, gènere, religió, territori, etc.) i respecte als drets humans.
  • CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.
  • Objectius

    1. Familiaritzar-se amb les eines i tècniques d'anàlisi avançada de dades per a poder tractar dades de manera correcta i interioritzar la dada i la informació obtinguda com a font de suport a processos de presa de decisions.
      Competències relacionades: CG4, CB3, CE09, CE20,
    2. Seleccionar, tractar i adequar les dades rellevants per a fer front a una pregunta específica.
      Competències relacionades: CG4, CG8, CT8, CB4, CE09, CE17,
    3. Realitzar preprocessament avançat de les dades
      Competències relacionades: CG4, CE20,
    4. Obtenir perfils o patrons de bases de dades mixtes a partir de tècniques de clustering avançat i interpretar els resultats amb eines de perfilat i post-processament
      Competències relacionades: CG4, CB2, CB4, CB5, CE09, CE20,
    5. Aplicar anàlisi multivariant de dades, especialment a dades categòriques, dades mixtes i dades no estructurades
      Competències relacionades: CG4, CE20,
    6. Tractar dades semi o no estructurades tipus text per a mineria de text, anàlisi de sentiments i Topic Modelling
      Competències relacionades: CG4, CE09, CE18, CE20,
    7. Analitzar dades del tipus espaitemporal. Modelar dades o problemes amb variables latents.
      Competències relacionades: CG4, CE20,
    8. Construir els models estadístics correctament a partir de les dades el context del problema de referència i presentar-lo públicament
      Competències relacionades: CG4, CG8, CT3, CB2, CE09, CE20,
    9. Desenvolupar treballs pràctics i projectes amb perspectiva de gènere
      Competències relacionades: CG8, CT8,
    10. Integrar els mecanismes de treball en equip en la realització dels treballs pràctics.
      Competències relacionades: CT4,
    11. Tractar amb destresa les eines informàtiques necessàries per a resoldre els problemes reals plantejats amb les tècniques vistes en classe
      Competències relacionades: CG4, CE09, CE20,
    12. Interpretar i contextualitzar els models construïts a partir de dades.
      Competències relacionades: CG4, CT3, CT8,
    13. Validar els models obtinguts i fer una interpretació crítica dels resultats des d'un punt de vista tècnic, contextualitzant els resultats en el marc, referència o enteniment del problema tractat
      Competències relacionades: CG4, CG8, CE09, CE20,
    14. Realitzar un informe o reporti final amb les assignacions pràctiques o projecte d'assignatura
      Competències relacionades: CG4, CG8, CG9, CT3, CT4, CT8, CE17,
    15. Presentar públicament un informe amb els resultats del projecte o assignació pràctica de l'assignatura
      Competències relacionades: CG4, CG8, CT3, CT4, CT8,

    Continguts

    1. Introducció
      Data quality;
      Importància del Preprocessament de dades;
      Introducció a les tècniques avençades d'anàlisi de dades;
      Relació Anàlisis Multivariant;
      Aprenentatge Automàtic i ciència de dades
    2. Tècniques avençades de Preprocessament
      Adquisició i Homogeneïtzació de dades
      Selecció de variables (feature Selection
      feature weighting i reducció de variables)
      Dades Mancants: MICE, MIMMI
      Derivació de variables
      Transformació de variables
      Dades anòmales (outliers)
    3. Mètodes avançats de Clustering
      Escalabilitat: Estratègia CURE, Mètriques i distàncies mixtes, Clustering en dades mixtes, DBSCAN, OPTICS, Classificació de sèries temporals, Interpretació automàtica de les classes:
      Validació de perfils (proves inferencials), Post-processament de les classes per interpetar els perfils (CPG, TLP, termòmetres, aTL)
    4. Mètodes multivariants Avençats
      Anàlisi de correspondència Múltiples: Principis teòrics, representació gràfica dels plans factorials, contribucions als eixos, interpretació de les components principals. Análisi Factorial Múltiple: concepte i aplicacions i FMAD
    5. Anàlisi de dades - models espai-Temporals
      Conceptes bàsics, dades geolocalitzades, visualització, distàncies en anàlisis espai-temporals, components dels models espai-temporals i mètodes bàsics (Kriging)
    6. Anàlisi de dades textuals
      Mineria de textos i Anàlisi de sentiments, Anàlisi semàntica latent (Latent Semantic Analysis), Model.lització de temes (Topic Modelling)
    7. Model·lització a partir de variables latents
      Clustering a partir de variables latents, modelització amb variables latents i anàlisi textual amb variables latents

    Activitats

    Activitat Acte avaluatiu


    Treball en equip

    Els alumnes s'organitzen en grups i busquen unes dades reals que compleixen certs requisits marcats pel professor Les utilitzen per anar aplicant les tècniques i metodologies que es vegin al llarg del curs. Al final presenten un informe amb els resultats i fan una presentació oral amb els resultats més rellevants de l'estudi.
    Objectius: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
    Continguts:
    Teoria
    0h
    Problemes
    0h
    Laboratori
    11h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    28h

    Presentació inicial de la pràctica

    Presentació inicial de la pràctica
    Objectius: 2 3 4 5 6 9 14 15
    Continguts:
    Teoria
    0h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    10h

    Quiz 1

    Quiz 1
    Objectius: 1 2 3
    Setmana: 3
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Teoria
    30h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    30h

    Quiz 2

    Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori
    Objectius: 4 5 8
    Setmana: 6
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Presentació final de la pràctica

    Presentació final de la pràctica
    Objectius: 14 15
    Setmana: 14
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Quiz 3

    Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori
    Objectius: 1 5 8 12 13
    Setmana: 11
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Quiz 4

    Durant el curs es realitzaran proves de resposta curta per fixar peces d'aprenentatge. Es farà al final de certes classes de laboratori
    Objectius: 1 6 7 8 12 13
    Setmana: 14
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Examen Final

    Examen Final
    Objectius: 1 2 3 4 5 6 7 8 11 12 13
    Setmana: 15 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Aplicació pràctica temari assignatura

    Execució de scripts pràctics en R sobre els conceptes vistos en teoria.

    Teoria
    0h
    Problemes
    0h
    Laboratori
    13h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    Els 7 temes suggerits es desenvoluparan en 12 sessions de classes teòriques (2 hores per setmana) amb les seves respectives pràctiques o laboratori (2 hores per setmana també).
    En les classes de teoria es practicarà sempre que sigui possible l'esquema de classe invertida.
    Al web de l'assignatura hi haurà el calendari de l'assignatura i els materials a portar preparats abans de cada classe. Es recorrerà a l'esquema de classe magistral puntualment quan el professor necessiti aclarir conceptes complexos que no han quedat clars amb els materials distribuïts prèviament a la classe. La classe de teoria es dedicarà fonamentalment a la presentació de casos i al desenvolupament d'activitats interactives amb els estudiants com la discussió dels casos, el desenvolupament de problemes o la realització de qüestionaris curts puntuals.
    Els estudiants realitzaran per grups grans un treball pràctic amb dades que buscaran ells mateixos i que compliran certes característiques fixades pel professorat. Amb aquestes dades cada equip realitzarà les sessions de pràctiques, cada setmana aplicant les tècniques del tema treballat a la sessió de teoria. El professor farà seguiment setmanal de tots els equips de treball en les sessions de laboratori

    Al final de curs els equips presentaran els seus resultats en una sessió de posta en comú on es debatrà conjuntament sobre tots els projectes

    Mètode d'avaluació

    Avaluació Ordinària:
    ---------------------
    (Q) Qüestionaris. 20%
    (P) Projecte. 40%
    (EF) Examen Final. 40%

    Nota Final Ordinària = 0,2 * Q + 0,4 * P + 0,4 * EF

    Q: Consta de 4 proves de 5-10 preguntes individuals i presencials amb el mateix pes sobre la nota final.

    Q = (Q1 + Q2 + Q3 + Q4)/4

    P. Projecte en grup on es valoraran les competències següents:
    - (P1) Recol·lecció de dades, anàlisi i interpretació de resultats (30%);
    - (P2) Transmissió de resultats (20%)
    - (P3) Comunicació oral i escrita (20%)
    - (P4) Treball en equip (10%)
    - (P5) Perspectiva de gènere (10%)
    - (P6) Autonomia (10%)

    P = 0,2 * P1 + 0,2 * P2 + 0,2 * P3 +0,1 * P4 + 0,1 * P5 + 0,1 * P6

    Haurà d'obtenir una nota mínima d'un 3,5 a les proves individuals i presencials, és a dir, 1/3*Q+2/3*EF>3,5 per aprovar l'assignatura. Daltra banda, la realització del projecte serà obligatòria per poder aprovar durant l'avaluació ordinària.

    Reeavaluació
    ---------------------------------
    (EE) Examen Final Extraordinari

    Nota Extraordinària = Mínim {7, Màxim {EE, 0,2 * Q + 0,4 * P + 0,4 * EE}}

    En aquesta convocatòria només es podrán presentar aquelles persones que s'han presentat a l'examen i l'han suspès. Per tant, quedan excloses aquelles persones que no s'han presentat a la Avaluació Ordinaria (NP a la avaluació ordinària).

    No hi haurà nota mínima per aprovar. La màxima nota en aquesta convocatòria és un 7.

    Bibliografia

    Bàsic

    Complementari

    Capacitats prèvies

    Les assignatures de Model·lització Estadística (ME) i Probabilitat i Estadística (IE)