Vés al contingut

Anàlisi Multivariant

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
EIO
Web
https://www.fib.upc.edu/en/studies/masters/master-data-science/curriculum/syllabus/MVA-MDS
L'objectiu de l'assignatura és introduir als estudiants en els fonaments dels mètodes d'anàlisi de dades multivariants i proporcionar-li les eines per tractar el preprocessament, la visualització, la reducció de dimensions, la classificació i el modelatge de dades multivariants.

Professorat

Responsable

Altres

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
7.11

Competències

Ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
  • Tercera llengua

  • CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
  • Emprenedoria i innovació

  • CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.
  • Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
  • CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
  • Genèriques

  • CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
  • CG3 - Definir, dissenyar i implementar sistemes complexos que cobreixin totes les fases en projectes de ciència de dades
  • Específiques

  • CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
  • CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
  • CE7 - Identificar les limitacions imposades per la qualitat de dades en un problema de ciència de dades i aplicar tècniques per a disminuir el seu impacte
  • CE8 - Extreure informació de dades estructurades i no estructurades, tenint en compte la naturalesa multivariant de les mateixes.
  • CE9 - Aplicar mètodes adequats per a l'anàlisi d'altres tipus de formats, com ara processos i grafs, dins l'àmbit de ciència de dades
  • CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa
  • CE11 - Analitzar i extreure coneixement d'informació no estructurada mitjançant tècniques de processament de llenguatge natural, mineria de textos i imatges
  • CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
  • CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
  • Objectius

    1. Visualització de les dades
      Competències relacionades: CT4, CT5, CT1, CG2, CE5, CB8,
    2. Descripció multivariant de les dades
      Competències relacionades: CT4, CE7, CE8, CE12, CE13, CB7, CB9, CB10,
    3. Mètodes de reducció de dimensions
      Competències relacionades: CT4, CT5, CG2, CE5, CE6, CE11, CE8, CE10, CB6, CB8, CB9, CB10,
    4. Inferencia multivariada
      Competències relacionades: CT1, CG2, CG3, CE6, CE11, CE8, CE9, CE10, CB6, CB7, CB9,
    5. Classificació de nous individus
      Competències relacionades: CT1, CG3, CE6, CE10, CB6, CB7,

    Continguts

    1. Introducció a l'Anàlisi de Dades Multivariada
      Preprocessament i visualització de dades multivariants.
    2. Anàlisi de components principals
      Anàlisi d'individus. Anàlisi de variables. Representació visual de la informació. Reducció de dimensionalitat. Informació suplementària. Descomposició en valors singulars.
    3. Escalament Multidimensional
      Reducció de la dimensió basada en matrius de similitud o distància amb aplicacions.
    4. Anàlisi de Correspondències
      Reducció de dimensions de dues variables categòriques i visualització de relacions entre categories.
    5. Anàlisi de Correspondències Multiple
      L'anàlisi i visualització de relacions entre categories de més de dues variables categòriques mitjançant reducció de dimensió.
    6. Anàlisi de Cluster
      L'ús de mètodes de clustering jeràrquics i no jeràrquics per classificar les observacions en grups basats en dades multivariants.
    7. Mètodes de profiling
      Els mètodes de profiling ajuden a entendre les característiques comunes dels clusters.
    8. Distribució normal multivariant
      La funció de densitat de probabilitat de distribució normal multivariada i proves d'hipòtesi de mitjana per a dades multivariades.
    9. Anàlisi Discriminant
      Classificació d'observacions en grups donats mitjançant l'ús d'anàlisi discriminant lineal, anàlisi discriminant quadràtic i mètodes Naive Bayes.
    10. Regles d'associació
      Trobar patrons, associacions, correlacions o estructures causals freqüents entre conjunts d'elements o objectes en bases de dades de transaccions, bases de dades relacionals i altres repositoris d'informació.

    Activitats

    Activitat Acte avaluatiu


    Presentació de l'assignatura + Anàlisi Multivariant de Dades


    Objectius: 2 1
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    5.5h

    Analisi de Components Principals


    Objectius: 2 1 3
    Teoria
    4h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    5.5h

    Escalament Multidimensional


    Objectius: 2 1 3
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    5.5h

    Anàlisi de Correspondencies i Anàlisi Correspondencies Multiple


    Objectius: 2 1 3
    Teoria
    4h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    10h

    Anàlisi de Cluster and Profiling


    Objectius: 2 5 3
    Teoria
    4h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    10h

    Distribució normal multivariada i hipòtesis tests de mitjana per a dades multivariades


    Objectius: 2 4
    Teoria
    4h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    5.5h

    Anàlisi Discriminant


    Objectius: 4 5 1
    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    5.5h

    Regles d'associació


    Objectius: 2 4
    Teoria
    2h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    5.5h

    Sessió de Dubtes



    Teoria
    2h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Practiques


    Objectius: 2 1 3
    Teoria
    0h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Tasca 1

    L'aplicació i interpretació dels mètodes de reducció de dimensió vistos durant la primera part de l'assignatura sobre un cas d'estudi.
    Objectius: 2 1 3
    Setmana: 8 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Tasca 2

    En aquesta tasca l'alumne ha d'aplicar els mètodes de classificació sobre un cas d'estudi i interpretar els resultats. Aquesta tasca es realitza en grups de tres alumnes.
    Objectius: 4 5 3
    Setmana: 13 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Examen Final

    A l'examen final l'alumnat serà responsable de tots els mètodes que hagi vist al llarg del semestre. Hi haurà preguntes tant teòriques com d'interpretació basades en resultats R a l'examen.
    Objectius: 2 4 5 1 3
    Setmana: 15 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Projecte Final

    El projecte final inclou l'aplicació i interpretació dels mètodes d'anàlisi de dades multivariants sobre un conjunt de dades reals que es podrien seleccionar en funció dels interessos dels estudiants. S'ha de fer en grups de tres alumnes.
    Objectius: 2 4 5 1 3
    Setmana: 14 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    Aquesta assignatura pretén donar una explicació teòrica de diferents mètodes per a l'anàlisi de dades multivariants i les seves aplicacions en conjunts de dades reals. A les classes de teoria s'explicaran els fonaments i l'estructura teòrica dels mètodes mentre que a les sessions de laboratori es farà l'aplicació de mètodes considerats sobre diferents conjunts de dades a R. Els projectes i els deures de l'assignatura es faran en grups que permetin als estudiants col·loborar per construir un treball en equip.

    Mètode d'avaluació

    Durant el curs els estudiants hauran de lliurar dos deures (tasques) i un treball final que s'haurà de realitzar en grups de tres estudiants. Els primers deures se centren en l'aplicació de mètodes de reducció de dimensió mentre que els segons se centren en mètodes de classificació.En el projecte final de l'assignatura els estudiants hauran de treballar en un conjunt de dades reals que descarreguen o rastregen webs i aplicar els mètodes vistos durant el curs en els conjunts de dades escollits. Els resultats s'han de presentar en un informe escrit en format pdf.

    La nota global dels estudiants serà del 15% per la primera tasca, del 15% per la segona, del %40 pel projecte final i del 30% per l'examen final.

    Bibliografia

    Bàsic

    Complementari

    Web links

    Capacitats prèvies

    L'assignatura suposa haver efectuat previament un curs basic d'estadística, programació i matemàtiques, en particular tenir adquirits els conceptes següents:
    - Anàlisi estadística descriptiva.
    - Concepte de prova de hipòtesis.
    - Operacions d'algebra matricial, valors i vectors propis.
    - Programació d'algorismes.
    - Regressió lineal múltiple