Inferencia Estadística y Modelización

Profesorado
Horas semanales
Competencias
Objetivos
Contenidos
Actividades
Metodología docente
Método de evaluación
Bibliografía
Web links
Capacidades previas

Créditos

Tipos

Obligatoria

Requisitos

Esta asignatura no tiene requisitos, pero tiene capacidades previas

Departamento

EIO

La inferencia estadística y el modelado son indispensables para analizar datos afectados por el azar y, por lo tanto, esenciales para los científicos de datos. En este curso, aprenderá estos conceptos clave a través de un estudio de caso motivador sobre pronóstico de elecciones.

Este curso le mostrará cómo se pueden aplicar la inferencia y el modelado para desarrollar los enfoques estadísticos que hacen de las encuestas una herramienta eficaz y le mostraremos cómo hacerlo utilizando R. Aprenderá los conceptos necesarios para definir estimaciones y márgenes de error y aprenderá cómo puede utilizarlos para hacer predicciones relativamente bien y también proporcionar una estimación de la precisión de su pronóstico.

Una vez que aprenda esto, podrá comprender dos conceptos que son omnipresentes en la ciencia de datos: intervalos de confianza y valores p.

Esta asignatura provee de los conocimientos y las habilidades básicas necesarias para iniciar el proceso de la Ciencia de Datos, de forma rigurosa, utilizando herramientas de la inferencia estadística tradicional y adaptadas al nuevo contexto de datos masivos sobre cualquier tipología de datos. Esto incluye acceder a los datos, depurarlos y prepararlos para llevar a cabo el análisis de los datos exploratoria y modelización (estadística o aprendizaje automático). De forma relevante, esta materia hace especial énfasis en los conceptos fundamentales y las diferentes etapas del proceso analítico subyacente en cualquier proyecto de Ciencia de Datos.

Profesorado

Responsable

Lidia Montero Mercadé ( )

Otros

Josep Franquet Fàbregas ( )

Horas semanales

Teoría

1.8

Problemas

Laboratorio

1.8

Aprendizaje dirigido

Aprendizaje autónomo

6.4

Competencias

Competencias Transversales

Uso solvente de los recursos de información

CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Lengua extranjera

CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Básicas

CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Competencias Técnicas Genéricas

Genéricas

CG1 - Identificar y aplicar los métodos y procesos de gestión de datos más adecuados para gestionar el ciclo de vida de los datos, incluyendo datos estructurados y no estructurados
CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.

Competencias Técnicas

Específicas

CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.
CE10 - Identificar los métodos de aprendizaje automático y modelización estadística a utilizar para resolver un problema específico de ciencia de datos y aplicarlos de forma rigurosa

Objetivos

Saber realizar procesos de inferencia basados en los datos y de forma paramétrica tradicional para la toma de decisiones.
Competencias relacionadas: CT5, CE6, CB6, CB9,
Saber hacer un informe sobre la calidad de los datos y pre-procesado
Competencias relacionadas: CT4, CT5, CG2, CB6,
Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos
Competencias relacionadas: CT4, CT5, CG2,
Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal
Competencias relacionadas: CT4, CT5, CG1, CG2, CE10, CB6,
Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos
Competencias relacionadas: CT4, CT5, CG1, CG2, CE10, CB6,
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal
Competencias relacionadas: CT5, CG2, CE6, CB6,
Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria
Competencias relacionadas: CT5, CE6, CB9,
Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos
Competencias relacionadas: CT4, CT5, CG1, CG2, CE6, CB6,
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria
Competencias relacionadas: CG1, CE6, CB9,
Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal
Competencias relacionadas: CT5, CG1, CE10, CB6,
Validación de los modelos de respuesta politómica nominal y ordinal. Identificación de datos inusuales e influyentes.
Competencias relacionadas: CT5, CG2, CE10, CB6,
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal
Competencias relacionadas: CT5, CG1, CG2, CE6, CE10,
Estimación de los parámetros e interpretación de los modelos lineales para contajes
Competencias relacionadas: CT5, CG1, CG2, CE10, CB9,
Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos
Competencias relacionadas: CT5, CG1, CE6, CB6,
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para contajes
Competencias relacionadas: CT5, CE6,
Saber hacer un diseño de experimentos factorial y factorial fraccional
Competencias relacionadas: CT5, CG1, CE6, CB6, CB9,

Contenidos

Inferencia clásica versus fisheriana
Inferencia clásica. Función de verosimilitud. Propiedades de MLE. Prueba de razón de verosimilitud.
Procedimientos inferenciales paramétricos vs no paramétricos.
Usar datos históricos para probar hipótesis. Vínculos con la inferencia de Fisher y el bootstrapping.
Calidad de los datos
Outliers univariados y multivariados.
Datos perdidos. Procedimientos de imputación: deterministas, estocásticos.
Modelos lineales normales
Descripción del modelo lineal normal. Estimación por mínimos cuadrados. Comparación de modelos. Bondad de ajuste. Diagnóstico: datos influyentes y valores atípicos. Uso de variables explicativas categóricas. Selección de modelo. Predicción.
Estimación de redes neuronales de modelos de regresión lineal.
Modelos lineales generalizados
Definición de los modelos lineales generalizados. Modelos para datos de respuesta binaria. Modelos para contar datos. Problemas de sobredispersión. Datos de respuesta multinomial. Comparación de modelos. Diagnóstico: datos influyentes y valores atípicos. Comparación y selección de modelos.
Diseño de experimentos
Diseños experimentales factoriales y factoriales fraccionales.
Técnicas modernas de análisis de datos para diseño experimental

Actividades

Actividad Acto evaluativo

Inferencia clásica versus fisheriana

Saber diferenciar las condiciones de aplicabilidad de los distintos métodos de inferencia y saber escoger la más adecuada al proceso de Ciencia de Datos entre manos. Realizar procesos de inferencia para generar conclusiones sobre las poblaciones. Usar los valores p, los intervalos de confianza y las pruebas por permutaciones para la toma de decisiones y la interpretación de los análisis en un problema de Ciencia de Datos recurrente o puntual.
Objetivos: 1
Contenidos:

1 . Inferencia clásica versus fisheriana

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

12h

Calidad de los datos

Problemas en la calidad de los datos: Se trata de ver en el Caso de Estudio los problemas que presentan o pueden presentar los datos: inconsistencia, redundancia. Datos faltantes. Outliers. Cómo se hace un Informe de calidad de los datos. En que consiste la estandarización de los datos.
Objetivos: 2
Contenidos:

2 . Calidad de los datos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos

Aplicación de la inferencia estadística para determinar las relaciones entre las variables presentes en una BBDD y una variable de respuesta (numérica o categórica)
Objetivos: 3
Contenidos:

1 . Inferencia clásica versus fisheriana

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal

Perspectiva del modelado por técnicas de regresión lineal: componentes estadísticas implicadas. Roles: variables de respuesta / explicativas. Estimación por mínimos cuadrados. Propiedades de los estimadores. Procesos inferenciales involucrados.
Objetivos: 4
Contenidos:

3 . Modelos lineales normales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos

Elementos que intervienen en la validación del modelado por regresión. Valores influyentes y / o atípicos
Objetivos: 5
Contenidos:

3 . Modelos lineales normales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal

Inferencia sobre los estimadores de los parámetros en modelos lineales de respuesta normal. Intervalos de confianza, regiones de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre las predicciones y cálculos de intervalos de confianza.
Objetivos: 6
Contenidos:

3 . Modelos lineales normales

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria

Estimación máximo verosímil. Rol de la función de enlace. Función de enlace empleadas. Propiedades de los estimadores. Procesos inferenciales involucrados.
Objetivos: 7
Contenidos:

4 . Modelos lineales generalizados

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos

Objetivos: 8
Contenidos:

4 . Modelos lineales generalizados

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria

Inferencia sobre estimadores de parámetros en modelos lineales de una respuesta binaria. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.
Objetivos: 9
Contenidos:

4 . Modelos lineales generalizados

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal

Estimación de máxima verosimilitud. Modelado nominal versus ordinal. Funciones de enlace utilizadas. Propiedades de los estimadores. Procesos inferenciales involucrados.
Objetivos: 10
Contenidos:

4 . Modelos lineales generalizados

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Validation of nominal and ordinal polytomous response models. Identification of unusual and influential data

Residuos de la deviança, Pearson. Residuos estudentitzats. Indicadores de datos inusuales e influyentes, mediante la extensión de los indicadores empleados en la regresión normal.
Objetivos: 11
Contenidos:

4 . Modelos lineales generalizados

Teoría

0.5h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal

Inferencia sobre estimadores de parámetros en modelos lineales de respuesta politómica. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.
Objetivos: 12
Contenidos:

4 . Modelos lineales generalizados

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Estimación de los parámetros e interpretación de los modelos lineales para conteos

Estimación de máxima verosimilitud. Modelado Poisson, binomial negativo. Sobredispersión. Funciones de enlace utilizadas. Procesos inferenciales involucrados.
Objetivos: 13
Contenidos:

4 . Modelos lineales generalizados

Teoría

0.5h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos

Indicadores de datos inusuales e influyentes. Comprobación de sobredispersión. Cómo superar la dispersión excesiva.
Objetivos: 14
Contenidos:

4 . Modelos lineales generalizados

Teoría

0.5h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para conteos

Inferencia sobre estimadores de parámetros en modelos lineales para conteos. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.
Objetivos: 15
Contenidos:

4 . Modelos lineales generalizados

Teoría

0.5h

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Teoría y práctica del diseño de experimentos factorial y factorial fraccional

Objetivos: 16
Contenidos:

5 . Diseño de experimentos

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Examen Parcial

Objetivos: 1 2 3 4 5 6
Semana: 7

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Examen Final

Objetivos: 7 8 9 10 11 12 13 14 15 16
Semana: 14

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

Práctica de Modelos Lineales

Objetivos: 2 3 4 5 6
Semana: 12

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

20h

Práctica de Modelos Lineales Generalizados

Objetivos: 7 8 9 10 11 12 13 14 15
Semana: 14

Teoría

Problemas

Laboratorio

Aprendizaje dirigido

Aprendizaje autónomo

20h

Metodología docente

El aprendizaje de la asignatura consta de tres fases diferenciadas:
1. Adquisición de los conocimientos específicos mediante el estudio de la bibliografía y del material proporcionado por los profesores.
2. La adquisición de las destrezas en las técnicas específicas de análisis de datos, selección del proceso de modelado estadístico y validación del modelo y
3. Integración de los conocimientos, destrezas y competencias (específicas y transversales) mediante la resolución de casos de estudio reales.

En las clases de Teoría exponen los fundamentos de las metodologías y técnicas propias de la asignatura. Las clases de laboratorio sirven para aprender la utilización de las técnicas específicas para la resolución de problemas, utilizando las herramientas informáticas adecuadas, en este sentido los alumnos deberán primero de repetir un problema solucionado por los profesores y luego solucionar uno similar al primer . Mientras que el Casos de Estudio, resuelto en grupos y en horas básicamente de autoaprendizaje, sirven para poner en práctica los conocimientos, destrezas y competencias en la resolución de casos reales.

Método de evaluación

La evaluación de la asignatura integra las tres fases de aprendizaje descritas: conocimientos, destrezas y competencias.

Los conocimientos se evalúan mediante dos exámenes realizados a la mitad (T1, peso 1/3) y en la semana de exámenes finales del curso (T2, peso 2/3). En caso de suspender el examen parcial, el alumno podrá repetirlo como extensión del examen final. (Nota T).

Las destrezas se evalúan a partir de la entrega de 2 prácticas, Así mismo como las competencias transversales. Los bloques 1, 2 y 3 para la primera práctica (P1) y 4 y 5 para la segunda (P2). Cada práctica se debe realizar individualmente o en grupos de máximo 3 personas. Cada práctica se evaluará individualmente por medio de un cuestionario. El promedio de las notas da la nota P.

La Nota Final (NF) se calcula:

Examen Parcial (T1, 1/3) y Examen Final (T2, 2/3).
PRACT 1 (P1) y Práctica 2 (P2)
P: Nota de Prácticas P = (P1 + P2) / 2.
T: Nota Teoría = Max (T2, (T1 + 2T2) / 3).
NF: Nota Final = 0.5T + 0.5P si T > 3.5 sinó NF = T

Bibliografía

Básica:

Applied regression analysis and generalized linear models - Fox, John, SAGE, 2016. ISBN: 9781452205663
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004150669706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
An R companion to applied regression - Fox, J.; Weisberg, S, SAGE Publications, Inc, 2019. ISBN: 9781544336473
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004175439706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Ggplot2: elegant graphics for data analysis - Wickham, H, Springer, 2016. ISBN: 9783319242774
http://cataleg.upc.edu/record=99100487437720671~S1*cat
Design and Analysis of Experiments - Montgomery, D, Wiley, 2020. ISBN: 9781119722106
http://cataleg.upc.edu/record=99100491634860671~S1*cat
Statistics for experimenters : design, innovation, and discovery - Box, George E. P; Hunter, J. Stuart; Hunter, William Gordon, John Wiley & Sons, 2005. ISBN: 9780471718130
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002902039706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Complementaria:

The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer , cop. 2009. ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Probability and statistics with reliability, queuing and computer science applications - Trivedi, K.S,, John Wiley and Sons , 2016. ISBN: 1119285429
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002351769706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Mathematical Statistics with applications - Mendenhall, W.; Wackerly, D.; Scheaffer, R, Thomson Brooks/Cole , 2008. ISBN: 9780495110811
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004874536506711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Web links

Capacidades previas

Los estudiantes deben tener conocimientos suficientes de álgebra y análisis matemático para asimilar los conceptos relacionados con el álgebra de conjuntos, series numéricas, funciones de variables reales de una o más dimensiones, derivación e integración. Los alumnos deben haber cursado un curso de probabilidad y estadística

Inferencia Estadística y Modelización

Usted está aquí

Profesorado

Responsable

Otros

Horas semanales

Competencias

Competencias Transversales

Uso solvente de los recursos de información

Lengua extranjera

Básicas

Competencias Técnicas Genéricas

Genéricas

Competencias Técnicas

Específicas

Objetivos

Contenidos

Actividades

Inferencia clásica versus fisheriana

Calidad de los datos

Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos

Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal

Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal

Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria

Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria

Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal

Validation of nominal and ordinal polytomous response models. Identification of unusual and influential data

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal

Estimación de los parámetros e interpretación de los modelos lineales para conteos

Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para conteos

Teoría y práctica del diseño de experimentos factorial y factorial fraccional

Examen Parcial

Examen Final

Práctica de Modelos Lineales

Práctica de Modelos Lineales Generalizados

Metodología docente

Método de evaluación

Bibliografía

Básica:

Complementaria:

Web links

Capacidades previas

Dónde estamos

Contacta con la FIB