Inferència Estadística i Modelització

Esteu aquí

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
EIO
La inferència estadística i el modelatge són indispensables per analitzar les dades afectades per l'atzar i, per tant, són essencials per als científics de dades. En aquest curs, aprendreu aquests conceptes clau mitjançant un estudi de casos motivador sobre la previsió electoral.

Aquest curs us mostrarà com es poden aplicar inferències i models per desenvolupar enfocaments estadístics que facin de les enquestes una eina eficaç i us mostrarem com fer-ho amb R. Aprendreu conceptes necessaris per definir estimacions i marges d'errors i aprendreu com podeu utilitzar-les per fer prediccions relativament bé i també proporcionar una estimació de la precisió de les previsions.

Aquest curs adreça els coneixements i les habilitats bàsiques necessàries per iniciar el procés de la Ciència de Dades, de forma rigorosa, emprant eines de la inferència estadística tradicional i adaptades al nou context de dades massives sobre qualsevol tipologia de dades. Això inclou accedir a les dades, depurar-les i preparar-les per dur a terme l'anàlisi de les dades exploratòria i modelització (estadística o aprenentatge automàtic).

De forma rellevant, aquesta matèria fa especial èmfasi en els conceptes fonamentals i les diferents etapes del procés analític subjacent en qualsevol projecte de Ciència de Dades.

Professors

Responsable

  • Lidia Montero Mercadé ( )

Altres

  • Josep Franquet Fàbregas

Hores setmanals

Teoria
1.9
Problemes
0
Laboratori
1.9
Aprenentatge dirigit
0
Aprenentatge autònom
6.8535

Competències

Competències Transversals

ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.

Tercera llengua

  • CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..

Competències Tècniques Generals

Genèriques

  • CG1 - Identificar i aplicar els mètodes i processos de gestió de dades més adequats per gestionar el cicle de vida de les dades, incloent-hi dades estructurades i no estructurades
  • CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents

Competències Tècniques

Específiques

  • CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
  • CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa

Objectius

  1. Saber realitzar processos de inferència basats en les dades i de forma paramètrica tradicional per la presa de decisions.
    Competències relacionades: CT5, CE6, CB6, CB9,
  2. Saber fer un informe sobre la qualitat de les dades i pre-processat
    Competències relacionades: CT4, CT5, CG2, CB6,
  3. Determinació de les característiques significatives adreçades a targets numèrics i categòrics en grups d'individus
    Competències relacionades: CT4, CT5, CG2,
  4. Estimació dels paràmetres i interpretació dels models lineals de resposta normal
    Competències relacionades: CT4, CT5, CG1, CG2, CE10, CB6,
  5. Validació dels models de resposta normal. Identificació de dades inusuals i influents. Anàlisi dels residus
    Competències relacionades: CT4, CT5, CG1, CG2, CE10, CB6,
  6. Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta normal
    Competències relacionades: CT5, CG2, CE6, CB6,
  7. Estimació dels paràmetres i interpretació dels models lineals de resposta binària
    Competències relacionades: CT5, CE6, CB9,
  8. Validació dels models de resposta binària. Identificació de dades inusuals i influents. Tipologia dels residus
    Competències relacionades: CT4, CT5, CG1, CG2, CE6, CB6,
  9. Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta binària
    Competències relacionades: CG1, CE6, CB9,
  10. Estimació dels paràmetres i interpretació dels models lineals de resposta politòmica nominal i ordinal
    Competències relacionades: CT5, CG1, CE10, CB6,
  11. Validació dels models de resposta politòmica nominal i ordinal. Identificació de dades inusuals i influents.
    Competències relacionades: CT5, CG2, CE10, CB6,
  12. Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta politòmica nominal i ordinal
    Competències relacionades: CT5, CG1, CG2, CE6, CE10,
  13. Estimació dels paràmetres i interpretació dels models lineals per comptatges
    Competències relacionades: CT5, CG1, CG2, CE10, CB9,
  14. Validació dels models de per comptatges. Identificació de dades inusuals i influents. Tipologia dels residus. Diagnosi sobredispersió. Models probabilístics paramètrics
    Competències relacionades: CT5, CG1, CE6, CB6,
  15. Inferència d'hipòtesis sobre paràmetres simples i múltiples en models per comptatges
    Competències relacionades: CT5, CE6,
  16. Saber fer un disseny d'experiments factorial i factorial fraccional
    Competències relacionades: CT5, CG1, CE6, CB6, CB9,

Continguts

  1. Inferència clàssica versus fisheriana
    Inferència clàssica. Funció de versemblança. Propietats de MLE. Prova de la ràtio de versemblança.
    Procediments inferencials paramètrics vs no paramètrics.
    Ús de dades històriques per a la prova d'hipòtesis. Relació amb la inferència fisheriana.
  2. Qualitat de les dades
    Outliers univariants i multivariants.
    Dades mancants. Procediments d'imputació: deterministes, estocàstics.
  3. Models lineals normals
    Descripció del model lineal normal. Estimació per mínims quadrats. Comparació de models. Deessa de l'estar en forma. Diagnòstic: dades influents i valors atípics. Ús de variables explicatives categòriques. Selecció de models. Predicció.
    Estimació de la xarxa neuronal de models de regressió lineal.
  4. Models lineals generalitzats
    Enunciat dels models lineals generalitzats. Models per a dades de resposta binària. Models per a dades de recompte. Problemes de sobredispersió. Dades de resposta multinomial. Comparació de models. Diagnòstic: dades influents i valors atípics. Comparació i selecció de models.
  5. Disseny d'experiments
    Dissenys experimentals factorials i factorials fraccionals.
    Modernes tècniques d'anàlisi de dades per al disseny experimental

Activitats

Activitat Acte avaluatiu


Inferència clàssica versus fisheriana

Saber diferenciar les condicions d'aplicabilitat dels diferents mètodes d'inferència i saber escollir la més adequada al procés de Ciència de Dades entre mans. Realitzar processos d'inferència per generar conclusions sobre les poblacions. Utilitzeu els valors p, els intervals de confiança i les proves per permutacions per a la presa de decisions i la interpretació de l'anàlisi en un problema de Ciència de Dades recurrents o puntuals.
Objectius: 1
Continguts:
Teoria
4h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
12h

Qualitat de les dades

Problemes en la qualitat de les dades: Es tracta de veure en el Cas d'Estudi els problemes que presenten o poden presentar les dades: Inconsistencies, redundància. Dades mancants. Outliers. Com es fa un Informe de qualitat de les dades. En que consisteix l'estandardització de les dades.
Objectius: 2
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
3h

Determinació de las característiques significatives adreçades a targets numèrics i categòrics en grups d'individus

Aplicació de la inferència estadística per determinar les relacions entre las variables presents en una BBDD i una variable de resposta (numèrica o categòrica)
Objectius: 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Estimació dels paràmetres i interpretació dels models lineals de resposta normal

Perspectiva del modelatge per tècniques de regressió lineal : components estadístiques implicades. Rols: variables de resposta/explicatives. Estimació per mínims quadrats. Propietats dels estimadors. Processos inferencials involucrats.
Objectius: 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Validació dels models de resposta normal. Identificació de dades inusuals i influents. Anàlisi dels residus

Elements que intervenen en la validació del modelatge per regressió. Valors influents i/o atípics
Objectius: 5
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta normal

Inferència sobre els estimadors dels paràmetres en models lineals de resposta normal. Intervals de confiança, regions de confiança. Contrastos de hipòtesis simples, múltiples, combinacions lineals. Inferència sobre les prediccions i càlculs d'intervals de confiança.
Objectius: 6
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h

Estimació dels paràmetres i interpretació dels models lineals de resposta binària

Estimació màxim versemblant. Rol de la funció d'enllaç. Funció d'enllaç emprades. Propietats dels estimadors. Processos inferencials involucrats.
Objectius: 7
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h

Validació dels models de resposta binària. Identificació de dades inusuals i influents. Tipologia dels residus


Objectius: 8
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h

Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta binària

Inferència sobre estimadors de paràmetres en models lineals d'una resposta binària. Intervals de confiança. Contrastos d'hipòtesis múltiples i simples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança.
Objectius: 9
Continguts:
Teoria
1h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Estimació dels paràmetres i interpretació dels models lineals de resposta politòmica nominal i ordinal

Estimació de màxima versemblança. Modelatge nominal versus ordinal. Funcions d'enllaç utilitzades. Propietats dels estimadors. Processos inferencials implicats.
Objectius: 10
Continguts:
Teoria
1h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h

Validació dels models de resposta politòmica nominal i ordinal. Identificació de dades inusuals i influents

Residus de la deviança, Pearson. Residus estudentitzats. Indicadors de dades inusuals i influents, mitjançant l'extensió dels indicadors emprats en la regressió normal.
Objectius: 11
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta politòmica nominal i ordinal

Inferència sobre estimadors de paràmetres en models lineals de resposta politòmica. Intervals de confiança. Contrastos d'hipòtesis simples, múltiples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança.
Objectius: 12
Continguts:
Teoria
1h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Estimació dels paràmetres i interpretació dels models lineals per comptatges

Estimació de màxima versemblança. Modelatge Poisson, binomial negatiu. Sobredispersió. Funcions d'enllaç utilitzades. Processos inferencials involucrats.
Objectius: 13
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Validació dels models de per comptatges. Identificació de dades inusuals i influents. Tipologia dels residus. Diagnosi sobredispersió. Models probabilístics paramètrics

Indicadors de dades poc habituals i influents. Comprovació de sobredispersió. Com superar la sobredispersió.
Objectius: 14
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Inferència d'hipòtesis sobre paràmetres simples i múltiples en models per comptatges

Inferència sobre estimadors de paràmetres en models lineals per comptatges. Intervals de confiança. Contrastos d'hipòtesis simples, múltiples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança.
Objectius: 15
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h

Teoria i pràctica del disseny d'experiments factorial i factorial fraccional


Objectius: 16
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Examen Parcial


Objectius: 1 2 3 4 5 6
Setmana: 7
Tipus: examen de laboratori
Teoria
0h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Examen Final


Objectius: 7 8 9 10 11 12 13 14 15 16
Setmana: 14
Tipus: examen final
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Pràctica de Models Lineals


Objectius: 2 3 4 5 6
Setmana: 12
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
20h

Pràctica de Models Lineals Generalitzats


Objectius: 7 8 9 10 11 12 13 14 15
Setmana: 14
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
20h

Metodologia docent

L'aprenentatge de l'assignatura consta de tres fases diferenciades:
1. Adquisició dels coneixements especifics mitjançant l'estudi de la bibliografia i del material proporcionat pels professors.
2. L'adquisició de les destreses en les tècniques especifiques d'anàlisi de dades, selecció del procès de modelatge estadístic i validació del model i
3. Integració dels coneixements, destreses i competencies (específiques i transversals) mitjançant la resolució de casos d'estudi reals.

En les classes de Teoria s'exposen els fonaments de les metodologies i tècniques propies de l'assignatura. Les classes de laboratori serveixen per aprendre la utilització de les tècniques específiques per a la resolució de problemes, utilitzant les eines informàtiques adients, en aquest sentit els alumnes hauran primer de repetir un problema solucionat pels professors i després solucionar-ne un de similar al primer. Mentre que el Casos d'Estudi, resolt en grups i en hores basicament d'autoprenentatge, serveixen per posar en pràctica els coneixements, destreses i competencies en la resolució de casos reals.

Mètode d'avaluació

L'avaluació de l'assignatura integra les tres fases d'aprenentatge descrites: coneixements, destreses i competencies.

Els coneixements s'avaluen mitjançant dos examens realitzats a la meitat (T1, pes 1/3) i durant la setmana d'exàmens del curs (T2, pes 2/3). En cas de suspendre l'examen parcial, l'alumne podrà repetir-lo com a extensió de l'examen final (nota T).

Les destreses s'avaluaràn a partir de l'entrega de 2 practiques, tantmateix com les competències transversals. Cadascun dels blocs 1, 2 i 3 per la primera pràctica (P1) i 4 i 5 per la segona (P2) comportaràn una pràctica que l'alumne haurà de realitzar individualment o en grups de 2. El promig de les notes dona la nota P.

La Nota Final (NF) es calcula:

Examen Parcial (T1, 1/3) i Examen Final (T2, 2/3).
Pràctia 1 (P1) i Pràctica 2 (P2)
P: Nota de Pràctiques P=(P1+P2)/2.
T: Nota Teoria = Max(T2,(T1+2T2)/3).
NF: Nota Final = 0.6T + 0.4P.

Bibliografia

Bàsica:

Complementaria:

  • The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer , cop. 2009. ISBN: 0387848576
    http://cataleg.upc.edu/record=b1343839~S1*cat
  • Probability and statistics with reliability, queuing and computer science applications - Trivedi, K.S,, John Wiley and Sons , 2016. ISBN: 1119285429
    http://cataleg.upc.edu/record=b1201882~S1*cat
  • Mathematical Statistics with Applications - Mendenhall, W.; Wackerly, D.; Scheaffer, R., Duxbury Press , 2007. ISBN: 0495110817

Web links

Capacitats prèvies

Els estudiants han de tenir coneixements suficients d'àlgebra i anàlisi matemàtica per assimilar els conceptes relacionats amb l'àlgebra de conjunts, sèries numèriques, funcions de variables reals d'una o més dimensions, derivació i integració. Els alumnes han d'haver cursat un curs de probabilitat i estadística

Addenda

Continguts

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT. THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION

Metodologia docent

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT, tret de la possibilitat de fer les sessions de teoria i laboratori de manera no presencial si la situació epidemiològica així ho requereix. THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION. Depending on Health Authorities guidelines, face to face classes could be moved to online format.

Mètode d'avaluació

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION.

Pla de contingència

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION.