La inferència estadística i el modelatge són indispensables per analitzar les dades afectades per l'atzar i, per tant, són essencials per als científics de dades. En aquest curs, aprendreu aquests conceptes clau mitjançant un estudi de casos motivador sobre la previsió electoral.
Aquest curs us mostrarà com es poden aplicar inferències i models per desenvolupar enfocaments estadístics que facin de les enquestes una eina eficaç i us mostrarem com fer-ho amb R. Aprendreu conceptes necessaris per definir estimacions i marges d'errors i aprendreu com podeu utilitzar-les per fer prediccions relativament bé i també proporcionar una estimació de la precisió de les previsions.
Aquest curs adreça els coneixements i les habilitats bàsiques necessàries per iniciar el procés de la Ciència de Dades, de forma rigorosa, emprant eines de la inferència estadística tradicional i adaptades al nou context de dades massives sobre qualsevol tipologia de dades. Això inclou accedir a les dades, depurar-les i preparar-les per dur a terme l'anàlisi de les dades exploratòria i modelització (estadística o aprenentatge automàtic).
De forma rellevant, aquesta matèria fa especial èmfasi en els conceptes fonamentals i les diferents etapes del procés analític subjacent en qualsevol projecte de Ciència de Dades.
Professorat
Responsable
Lidia Montero Mercadé (
)
Altres
Josep Franquet Fàbregas (
)
Hores setmanals
Teoria
1.8
Problemes
0
Laboratori
1.8
Aprenentatge dirigit
0
Aprenentatge autònom
6.4
Competències
Competències Transversals
ús solvent dels recursos d'informació
CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
Tercera llengua
CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
Competències Tècniques Generals
Genèriques
CG1 - Identificar i aplicar els mètodes i processos de gestió de dades més adequats per gestionar el cicle de vida de les dades, incloent-hi dades estructurades i no estructurades
CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
Competències Tècniques
Específiques
CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa
Objectius
Saber realitzar processos de inferència basats en les dades i de forma paramètrica tradicional per la presa de decisions.
Competències relacionades:
CT5,
CE6,
CB6,
CB9,
Saber fer un informe sobre la qualitat de les dades i pre-processat
Competències relacionades:
CT4,
CT5,
CG2,
CB6,
Determinació de les característiques significatives adreçades a targets numèrics i categòrics en grups d'individus
Competències relacionades:
CT4,
CT5,
CG2,
Estimació dels paràmetres i interpretació dels models lineals de resposta normal
Competències relacionades:
CT4,
CT5,
CG1,
CG2,
CE10,
CB6,
Validació dels models de resposta normal. Identificació de dades inusuals i influents. Anàlisi dels residus
Competències relacionades:
CT4,
CT5,
CG1,
CG2,
CE10,
CB6,
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta normal
Competències relacionades:
CT5,
CG2,
CE6,
CB6,
Estimació dels paràmetres i interpretació dels models lineals de resposta binària
Competències relacionades:
CT5,
CE6,
CB9,
Validació dels models de resposta binària. Identificació de dades inusuals i influents. Tipologia dels residus
Competències relacionades:
CT4,
CT5,
CG1,
CG2,
CE6,
CB6,
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta binària
Competències relacionades:
CG1,
CE6,
CB9,
Estimació dels paràmetres i interpretació dels models lineals de resposta politòmica nominal i ordinal
Competències relacionades:
CT5,
CG1,
CE10,
CB6,
Validació dels models de resposta politòmica nominal i ordinal. Identificació de dades inusuals i influents.
Competències relacionades:
CT5,
CG2,
CE10,
CB6,
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta politòmica nominal i ordinal
Competències relacionades:
CT5,
CG1,
CG2,
CE6,
CE10,
Estimació dels paràmetres i interpretació dels models lineals per comptatges
Competències relacionades:
CT5,
CG1,
CG2,
CE10,
CB9,
Validació dels models de per comptatges. Identificació de dades inusuals i influents. Tipologia dels residus. Diagnosi sobredispersió. Models probabilístics paramètrics
Competències relacionades:
CT5,
CG1,
CE6,
CB6,
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models per comptatges
Competències relacionades:
CT5,
CE6,
Saber fer un disseny d'experiments factorial i factorial fraccional
Competències relacionades:
CT5,
CG1,
CE6,
CB6,
CB9,
Continguts
Inferència clàssica versus fisheriana
Inferència clàssica. Funció de versemblança. Propietats de MLE. Prova de la ràtio de versemblança.
Procediments inferencials paramètrics vs no paramètrics.
Ús de dades històriques per a la prova d'hipòtesis. Relació amb la inferència fisheriana.
Qualitat de les dades
Outliers univariants i multivariants.
Dades mancants. Procediments d'imputació: deterministes, estocàstics.
Models lineals normals
Descripció del model lineal normal. Estimació per mínims quadrats. Comparació de models. Deessa de l'estar en forma. Diagnòstic: dades influents i valors atípics. Ús de variables explicatives categòriques. Selecció de models. Predicció.
Estimació de la xarxa neuronal de models de regressió lineal.
Models lineals generalitzats
Enunciat dels models lineals generalitzats. Models per a dades de resposta binària. Models per a dades de recompte. Problemes de sobredispersió. Dades de resposta multinomial. Comparació de models. Diagnòstic: dades influents i valors atípics. Comparació i selecció de models.
Disseny d'experiments
Dissenys experimentals factorials i factorials fraccionals.
Modernes tècniques d'anàlisi de dades per al disseny experimental
Activitats
ActivitatActe avaluatiu
Inferència clàssica versus fisheriana
Saber diferenciar les condicions d'aplicabilitat dels diferents mètodes d'inferència i saber escollir la més adequada al procés de Ciència de Dades entre mans.
Realitzar processos d'inferència per generar conclusions sobre les poblacions. Utilitzeu els valors p, els intervals de confiança i les proves per permutacions per a la presa de decisions i la interpretació de l'anàlisi en un problema de Ciència de Dades recurrents o puntuals. Objectius:1 Continguts:
Problemes en la qualitat de les dades: Es tracta de veure en el Cas d'Estudi els problemes que presenten o poden presentar les dades: Inconsistencies, redundància. Dades mancants. Outliers. Com es fa un Informe de qualitat de les dades. En que consisteix l'estandardització de les dades. Objectius:2 Continguts:
Determinació de las característiques significatives adreçades a targets numèrics i categòrics en grups d'individus
Aplicació de la inferència estadística per determinar les relacions entre las variables presents en una BBDD i una variable de resposta (numèrica o categòrica) Objectius:3 Continguts:
Estimació dels paràmetres i interpretació dels models lineals de resposta normal
Perspectiva del modelatge per tècniques de regressió lineal : components estadístiques implicades. Rols: variables de resposta/explicatives. Estimació per mínims quadrats. Propietats dels estimadors. Processos inferencials involucrats. Objectius:4 Continguts:
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta normal
Inferència sobre els estimadors dels paràmetres en models lineals de resposta normal. Intervals de confiança, regions de confiança. Contrastos de hipòtesis simples, múltiples, combinacions lineals. Inferència sobre les prediccions i càlculs d'intervals de confiança. Objectius:6 Continguts:
Estimació dels paràmetres i interpretació dels models lineals de resposta binària
Estimació màxim versemblant. Rol de la funció d'enllaç. Funció d'enllaç emprades. Propietats dels estimadors. Processos inferencials involucrats. Objectius:7 Continguts:
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta binària
Inferència sobre estimadors de paràmetres en models lineals d'una resposta binària. Intervals de confiança. Contrastos d'hipòtesis múltiples i simples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança. Objectius:9 Continguts:
Validació dels models de resposta politòmica nominal i ordinal. Identificació de dades inusuals i influents
Residus de la deviança, Pearson. Residus estudentitzats. Indicadors de dades inusuals i influents, mitjançant l'extensió dels indicadors emprats en la regressió normal. Objectius:11 Continguts:
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models de resposta politòmica nominal i ordinal
Inferència sobre estimadors de paràmetres en models lineals de resposta politòmica. Intervals de confiança. Contrastos d'hipòtesis simples, múltiples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança. Objectius:12 Continguts:
Validació dels models de per comptatges. Identificació de dades inusuals i influents. Tipologia dels residus. Diagnosi sobredispersió. Models probabilístics paramètrics
Indicadors de dades poc habituals i influents. Comprovació de sobredispersió. Com superar la sobredispersió. Objectius:14 Continguts:
Inferència d'hipòtesis sobre paràmetres simples i múltiples en models per comptatges
Inferència sobre estimadors de paràmetres en models lineals per comptatges. Intervals de confiança. Contrastos d'hipòtesis simples, múltiples, combinacions lineals. Inferència sobre prediccions i càlculs d'intervals de confiança. Objectius:15 Continguts:
L'aprenentatge de l'assignatura consta de tres fases diferenciades:
1. Adquisició dels coneixements especifics mitjançant l'estudi de la bibliografia i del material proporcionat pels professors.
2. L'adquisició de les destreses en les tècniques especifiques d'anàlisi de dades, selecció del procès de modelatge estadístic i validació del model i
3. Integració dels coneixements, destreses i competencies (específiques i transversals) mitjançant la resolució de casos d'estudi reals.
En les classes de Teoria s'exposen els fonaments de les metodologies i tècniques propies de l'assignatura. Les classes de laboratori serveixen per aprendre la utilització de les tècniques específiques per a la resolució de problemes, utilitzant les eines informàtiques adients, en aquest sentit els alumnes hauran primer de repetir un problema solucionat pels professors i després solucionar-ne un de similar al primer. Mentre que el Casos d'Estudi, resolt en grups i en hores basicament d'autoprenentatge, serveixen per posar en pràctica els coneixements, destreses i competencies en la resolució de casos reals.
Mètode d'avaluació
L'avaluació de l'assignatura integra les tres fases d'aprenentatge descrites: coneixements, destreses i competencies.
Els coneixements s'avaluen mitjançant dos examens realitzats a la meitat (T1, pes 1/3) i durant la setmana d'exàmens del curs (T2, pes 2/3). En cas de suspendre l'examen parcial, l'alumne podrà repetir-lo com a extensió de l'examen final (nota T).
Les destreses s'avaluaràn a partir de l'entrega de 2 practiques, tantmateix com les competències transversals. Cadascun dels blocs 1, 2 i 3 per la primera pràctica (P1) i 4 i 5 per la segona (P2) comportaràn una pràctica que l'alumne haurà de realitzar individualment o en grups de 2. El promig de les notes dona la nota P.
La Nota Final (NF) es calcula:
Examen Parcial (T1, 1/3) i Examen Final (T2, 2/3).
Pràctia 1 (P1) i Pràctica 2 (P2)
P: Nota de Pràctiques P=(P1+P2)/2.
T: Nota Teoria = Max(T2,(T1+2T2)/3).
NF: Nota Final = 0.6T + 0.4P.
Els estudiants han de tenir coneixements suficients d'àlgebra i anàlisi matemàtica per assimilar els conceptes relacionats amb l'àlgebra de conjunts, sèries numèriques, funcions de variables reals d'una o més dimensions, derivació i integració. Els alumnes han d'haver cursat un curs de probabilitat i estadística