Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
EIO
Aquest curs us mostrarà com es poden aplicar inferències i models per desenvolupar enfocaments estadístics que facin de les enquestes una eina eficaç i us mostrarem com fer-ho amb R. Aprendreu conceptes necessaris per definir estimacions i marges d'errors i aprendreu com podeu utilitzar-les per fer prediccions relativament bé i també proporcionar una estimació de la precisió de les previsions.
Aquest curs adreça els coneixements i les habilitats bàsiques necessàries per iniciar el procés de la Ciència de Dades, de forma rigorosa, emprant eines de la inferència estadística tradicional i adaptades al nou context de dades massives sobre qualsevol tipologia de dades. Això inclou accedir a les dades, depurar-les i preparar-les per dur a terme l'anàlisi de les dades exploratòria i modelització (estadística o aprenentatge automàtic).
De forma rellevant, aquesta matèria fa especial èmfasi en els conceptes fonamentals i les diferents etapes del procés analític subjacent en qualsevol projecte de Ciència de Dades.
Professorat
Responsable
- Lidia Montero Mercadé ( lidia.montero@upc.edu )
Altres
- Josep Franquet Fàbregas ( josep.franquet@upc.edu )
Hores setmanals
Teoria
1.8
Problemes
0
Laboratori
1.8
Aprenentatge dirigit
0
Aprenentatge autònom
6.4
Competències
Ús solvent dels recursos d'informació
Tercera llengua
Bàsiques
Genèriques
Específiques
Objectius
-
Saber realitzar processos de inferència basats en les dades i de forma paramètrica tradicional per la presa de decisions.
Competències relacionades: CT5, CE6, CB6, CB9, -
Saber fer un informe sobre la qualitat de les dades i pre-processat
Competències relacionades: CT4, CT5, CG2, CB6, -
Determinació de les característiques significatives adreçades a targets numèrics i categòrics en grups d'individus
Competències relacionades: CT4, CT5, CG2, -
Estimació dels paràmetres i interpretació dels models lineals de resposta normal
Competències relacionades: CT4, CT5, CG1, CG2, CE10, CB6, -
Validació dels models de resposta normal. Identificació de dades inusuals i influents. Anàlisi dels residus
Competències relacionades: CT4, CT5, CG1, CG2, CE10, CB6, -
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta normal
Competències relacionades: CT5, CG2, CE6, CB6, -
Estimació dels paràmetres i interpretació dels models lineals de resposta binària
Competències relacionades: CT5, CE6, CB9, -
Validació dels models de resposta binària. Identificació de dades inusuals i influents. Tipologia dels residus
Competències relacionades: CT4, CT5, CG1, CG2, CE6, CB6, -
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta binària
Competències relacionades: CG1, CE6, CB9, -
Estimació dels paràmetres i interpretació dels models lineals de resposta politòmica nominal i ordinal
Competències relacionades: CT5, CG1, CE10, CB6, -
Validació dels models de resposta politòmica nominal i ordinal. Identificació de dades inusuals i influents.
Competències relacionades: CT5, CG2, CE10, CB6, -
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta politòmica nominal i ordinal
Competències relacionades: CT5, CG1, CG2, CE6, CE10, -
Estimació dels paràmetres i interpretació dels models lineals per comptatges
Competències relacionades: CT5, CG1, CG2, CE10, CB9, -
Validació dels models de per comptatges. Identificació de dades inusuals i influents. Tipologia dels residus. Diagnosi sobredispersió. Models probabilístics paramètrics
Competències relacionades: CT5, CG1, CE6, CB6, -
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models per comptatges
Competències relacionades: CT5, CE6, -
Saber fer un disseny d'experiments factorial i factorial fraccional
Competències relacionades: CT5, CG1, CE6, CB6, CB9,
Continguts
-
Inferència clàssica versus fisheriana
Inferència clàssica. Funció de versemblança. Propietats de MLE. Prova de la ràtio de versemblança.
Procediments inferencials paramètrics vs no paramètrics.
Ús de dades històriques per a la prova d'hipòtesis. Relació amb la inferència fisheriana. -
Qualitat de les dades
Outliers univariants i multivariants.
Dades mancants. Procediments d'imputació: deterministes, estocàstics. -
Models lineals normals
Descripció del model lineal normal. Estimació per mínims quadrats. Comparació de models. Deessa de l'estar en forma. Diagnòstic: dades influents i valors atípics. Ús de variables explicatives categòriques. Selecció de models. Predicció.
Estimació de la xarxa neuronal de models de regressió lineal. -
Models lineals generalitzats
Enunciat dels models lineals generalitzats. Models per a dades de resposta binària. Models per a dades de recompte. Problemes de sobredispersió. Dades de resposta multinomial. Comparació de models. Diagnòstic: dades influents i valors atípics. Comparació i selecció de models. -
Disseny d'experiments
Dissenys experimentals factorials i factorials fraccionals.
Modernes tècniques d'anàlisi de dades per al disseny experimental
Activitats
Activitat Acte avaluatiu
Inferència clàssica versus fisheriana
Saber diferenciar les condicions d'aplicabilitat dels diferents mètodes d'inferència i saber escollir la més adequada al procés de Ciència de Dades entre mans. Realitzar processos d'inferència per generar conclusions sobre les poblacions. Utilitzeu els valors p, els intervals de confiança i les proves per permutacions per a la presa de decisions i la interpretació de l'anàlisi en un problema de Ciència de Dades recurrents o puntuals.Objectius: 1
Continguts:
Teoria
4h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
12h
Qualitat de les dades
Problemes en la qualitat de les dades: Es tracta de veure en el Cas d'Estudi els problemes que presenten o poden presentar les dades: Inconsistencies, redundància. Dades mancants. Outliers. Com es fa un Informe de qualitat de les dades. En que consisteix l'estandardització de les dades.Objectius: 2
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
3h
Determinació de las característiques significatives adreçades a targets numèrics i categòrics en grups d'individus
Aplicació de la inferència estadística per determinar les relacions entre las variables presents en una BBDD i una variable de resposta (numèrica o categòrica)Objectius: 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Estimació dels paràmetres i interpretació dels models lineals de resposta normal
Perspectiva del modelatge per tècniques de regressió lineal : components estadístiques implicades. Rols: variables de resposta/explicatives. Estimació per mínims quadrats. Propietats dels estimadors. Processos inferencials involucrats.Objectius: 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Validació dels models de resposta normal. Identificació de dades inusuals i influents. Anàlisi dels residus
Elements que intervenen en la validació del modelatge per regressió. Valors influents i/o atípicsObjectius: 5
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta normal
Inferència sobre els estimadors dels paràmetres en models lineals de resposta normal. Intervals de confiança, regions de confiança. Contrastos de hipòtesis simples, múltiples, combinacions lineals. Inferència sobre les prediccions i càlculs d'intervals de confiança.Objectius: 6
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h
Estimació dels paràmetres i interpretació dels models lineals de resposta binària
Estimació màxim versemblant. Rol de la funció d'enllaç. Funció d'enllaç emprades. Propietats dels estimadors. Processos inferencials involucrats.Objectius: 7
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h
Validació dels models de resposta binària. Identificació de dades inusuals i influents. Tipologia dels residus
Objectius: 8
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta binària
Inferència sobre estimadors de paràmetres en models lineals d'una resposta binària. Intervals de confiança. Contrastos d'hipòtesis múltiples i simples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança.Objectius: 9
Continguts:
Teoria
1h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Estimació dels paràmetres i interpretació dels models lineals de resposta politòmica nominal i ordinal
Estimació de màxima versemblança. Modelatge nominal versus ordinal. Funcions d'enllaç utilitzades. Propietats dels estimadors. Processos inferencials implicats.Objectius: 10
Continguts:
Teoria
1h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h
Validació dels models de resposta politòmica nominal i ordinal. Identificació de dades inusuals i influents
Residus de la deviança, Pearson. Residus estudentitzats. Indicadors de dades inusuals i influents, mitjançant l'extensió dels indicadors emprats en la regressió normal.Objectius: 11
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta politòmica nominal i ordinal
Inferència sobre estimadors de paràmetres en models lineals de resposta politòmica. Intervals de confiança. Contrastos d'hipòtesis simples, múltiples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança.Objectius: 12
Continguts:
Teoria
1h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Estimació dels paràmetres i interpretació dels models lineals per comptatges
Estimació de màxima versemblança. Modelatge Poisson, binomial negatiu. Sobredispersió. Funcions d'enllaç utilitzades. Processos inferencials involucrats.Objectius: 13
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Validació dels models de per comptatges. Identificació de dades inusuals i influents. Tipologia dels residus. Diagnosi sobredispersió. Models probabilístics paramètrics
Indicadors de dades poc habituals i influents. Comprovació de sobredispersió. Com superar la sobredispersió.Objectius: 14
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models per comptatges
Inferència sobre estimadors de paràmetres en models lineals per comptatges. Intervals de confiança. Contrastos d'hipòtesis simples, múltiples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança.Objectius: 15
Continguts:
Teoria
0.5h
Problemes
0h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
1h
Teoria i pràctica del disseny d'experiments factorial i factorial fraccional
Objectius: 16
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Metodologia docent
L'aprenentatge de l'assignatura consta de tres fases diferenciades:1. Adquisició dels coneixements especifics mitjançant l'estudi de la bibliografia i del material proporcionat pels professors.
2. L'adquisició de les destreses en les tècniques especifiques d'anàlisi de dades, selecció del procès de modelatge estadístic i validació del model i
3. Integració dels coneixements, destreses i competencies (específiques i transversals) mitjançant la resolució de casos d'estudi reals.
En les classes de Teoria s'exposen els fonaments de les metodologies i tècniques propies de l'assignatura. Les classes de laboratori serveixen per aprendre la utilització de les tècniques específiques per a la resolució de problemes, utilitzant les eines informàtiques adients, en aquest sentit els alumnes hauran primer de repetir un problema solucionat pels professors i després solucionar-ne un de similar al primer. Mentre que el Casos d'Estudi, resolt en grups i en hores basicament d'autoprenentatge, serveixen per posar en pràctica els coneixements, destreses i competencies en la resolució de casos reals.
Mètode d'avaluació
L'avaluació de l'assignatura integra les tres fases d'aprenentatge descrites: coneixements, destreses i competencies.Els coneixements s'avaluen mitjançant dos examens realitzats a la meitat (T1, pes 1/3) i durant la setmana d'exàmens del curs (T2, pes 2/3). En cas de suspendre l'examen parcial, l'alumne podrà repetir-lo com a extensió de l'examen final (nota T).
Les destreses s'avaluaràn a partir del desenvolupament de 2 pràctiques, tantmateix com les competències transversals. Els blocs 1, 2 i 3 per la primera pràctica (P1) i 4 i 5 per la segona (P2) que l'alumne haurà de realitzar en grups de màxim 3 persones. Cada pràctica s'avaluarà individualment mitjançant un qüestionari. El promig de les notes dona la nota P.
La Nota Final (NF) es calcula:
Examen Parcial (T1, 1/3) i Examen Final (T2, 2/3).
Pràctica 1 (P1) i Pràctica 2 (P2)
P: Nota de Pràctiques P=(P1+P2)/2.
T: Nota Teoria = Max(T2,(T1+2T2)/3).
NF: Nota Final = 0.5T + 0.5P si T > 3.5 sinó NF = T
Bibliografia
Bàsic
-
Applied regression analysis and generalized linear models
- Fox, John,
SAGE,
2016.
ISBN: 9781452205663
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004150669706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
An R companion to applied regression
- Fox, J.; Weisberg, S,
SAGE Publications, Inc,
2019.
ISBN: 9781544336473
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004175439706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Ggplot2: elegant graphics for data analysis
- Wickham, H,
Springer,
2016.
ISBN: 9783319242774
http://cataleg.upc.edu/record=99100487437720671~S1*cat -
Design and Analysis of Experiments
- Montgomery, D,
Wiley,
2020.
ISBN: 9781119722106
http://cataleg.upc.edu/record=99100491634860671~S1*cat -
Statistics for experimenters : design, innovation, and discovery
- Box, George E. P; Hunter, J. Stuart; Hunter, William Gordon,
John Wiley & Sons,
2005.
ISBN: 9780471718130
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002902039706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementari
-
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Probability and statistics with reliability, queuing and computer science applications
- Trivedi, K.S,,
John Wiley and Sons,
2016.
ISBN: 1119285429
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002351769706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Mathematical Statistics with applications
- Mendenhall, W.; Wackerly, D.; Scheaffer, R,
Thomson Brooks/Cole,
2008.
ISBN: 9780495110811
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004874536506711&context=L&vid=34CSUC_UPC:VU1&lang=ca