Inferencia Estadística y Modelización

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
La inferencia estadística y el modelado son indispensables para analizar datos afectados por el azar y, por lo tanto, esenciales para los científicos de datos. En este curso, aprenderá estos conceptos clave a través de un estudio de caso motivador sobre pronóstico de elecciones.

Este curso le mostrará cómo se pueden aplicar la inferencia y el modelado para desarrollar los enfoques estadísticos que hacen de las encuestas una herramienta eficaz y le mostraremos cómo hacerlo utilizando R. Aprenderá los conceptos necesarios para definir estimaciones y márgenes de error y aprenderá cómo puede utilizarlos para hacer predicciones relativamente bien y también proporcionar una estimación de la precisión de su pronóstico.

Una vez que aprenda esto, podrá comprender dos conceptos que son omnipresentes en la ciencia de datos: intervalos de confianza y valores p.

Esta asignatura provee de los conocimientos y las habilidades básicas necesarias para iniciar el proceso de la Ciencia de Datos, de forma rigurosa, utilizando herramientas de la inferencia estadística tradicional y adaptadas al nuevo contexto de datos masivos sobre cualquier tipología de datos. Esto incluye acceder a los datos, depurarlos y prepararlos para llevar a cabo el análisis de los datos exploratoria y modelización (estadística o aprendizaje automático). De forma relevante, esta materia hace especial énfasis en los conceptos fundamentales y las diferentes etapas del proceso analítico subyacente en cualquier proyecto de Ciencia de Datos.

Profesores

Responsable

  • Lidia Montero Mercadé ( )

Otros

  • Josep Franquet Fàbregas

Horas semanales

Teoría
1.9
Problemas
0
Laboratorio
1.9
Aprendizaje dirigido
0
Aprendizaje autónomo
6.8535

Competencias

Competencias Transversales

Uso solvente de los recursos de información

  • CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Lengua extranjera

  • CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Identificar y aplicar los métodos y procesos de gestión de datos más adecuados para gestionar el ciclo de vida de los datos, incluyendo datos estructurados y no estructurados
  • CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.

Competencias Técnicas

Específicas

  • CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.
  • CE10 - Identificar los métodos de aprendizaje automático y modelización estadística a utilizar para resolver un problema específico de ciencia de datos y aplicarlos de forma rigurosa

Objetivos

  1. Saber realizar procesos de inferencia basados en los datos y de forma paramétrica tradicional para la toma de decisiones.
    Competencias relacionadas: CT5, CE6, CB6, CB9,
  2. Saber hacer un informe sobre la calidad de los datos y pre-procesado
    Competencias relacionadas: CT4, CT5, CG2, CB6,
  3. Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos
    Competencias relacionadas: CT4, CT5, CG2,
  4. Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal
    Competencias relacionadas: CT4, CT5, CG1, CG2, CE10, CB6,
  5. Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos
    Competencias relacionadas: CT4, CT5, CG1, CG2, CE10, CB6,
  6. Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal
    Competencias relacionadas: CT5, CG2, CE6, CB6,
  7. Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria
    Competencias relacionadas: CT5, CE6, CB9,
  8. Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos
    Competencias relacionadas: CT4, CT5, CG1, CG2, CE6, CB6,
  9. Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria
    Competencias relacionadas: CG1, CE6, CB9,
  10. Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal
    Competencias relacionadas: CT5, CG1, CE10, CB6,
  11. Validación de los modelos de respuesta politómica nominal y ordinal. Identificación de datos inusuales e influyentes.
    Competencias relacionadas: CT5, CG2, CE10, CB6,
  12. Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal
    Competencias relacionadas: CT5, CG1, CG2, CE6, CE10,
  13. Estimación de los parámetros e interpretación de los modelos lineales para contajes
    Competencias relacionadas: CT5, CG1, CG2, CE10, CB9,
  14. Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos
    Competencias relacionadas: CT5, CG1, CE6, CB6,
  15. Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para contajes
    Competencias relacionadas: CT5, CE6,
  16. Saber hacer un diseño de experimentos factorial y factorial fraccional
    Competencias relacionadas: CT5, CG1, CE6, CB6, CB9,

Contenidos

  1. Inferencia clásica versus fisheriana
    Inferencia clásica. Función de verosimilitud. Propiedades de MLE. Prueba de razón de verosimilitud.
    Procedimientos inferenciales paramétricos vs no paramétricos.
    Usar datos históricos para probar hipótesis. Vínculos con la inferencia de Fisher y el bootstrapping.
  2. Calidad de los datos
    Outliers univariados y multivariados.
    Datos perdidos. Procedimientos de imputación: deterministas, estocásticos.
  3. Modelos lineales normales
    Descripción del modelo lineal normal. Estimación por mínimos cuadrados. Comparación de modelos. Bondad de ajuste. Diagnóstico: datos influyentes y valores atípicos. Uso de variables explicativas categóricas. Selección de modelo. Predicción.
    Estimación de redes neuronales de modelos de regresión lineal.
  4. Modelos lineales generalizados
    Definición de los modelos lineales generalizados. Modelos para datos de respuesta binaria. Modelos para contar datos. Problemas de sobredispersión. Datos de respuesta multinomial. Comparación de modelos. Diagnóstico: datos influyentes y valores atípicos. Comparación y selección de modelos.
  5. Diseño de experimentos
    Diseños experimentales factoriales y factoriales fraccionales.
    Técnicas modernas de análisis de datos para diseño experimental

Actividades

Actividad Acto evaluativo


Inferencia clásica versus fisheriana

Saber diferenciar las condiciones de aplicabilidad de los distintos métodos de inferencia y saber escoger la más adecuada al proceso de Ciencia de Datos entre manos. Realizar procesos de inferencia para generar conclusiones sobre las poblaciones. Usar los valores p, los intervalos de confianza y las pruebas por permutaciones para la toma de decisiones y la interpretación de los análisis en un problema de Ciencia de Datos recurrente o puntual.
Objetivos: 1
Contenidos:
Teoría
4h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
12h

Calidad de los datos

Problemas en la calidad de los datos: Se trata de ver en el Caso de Estudio los problemas que presentan o pueden presentar los datos: inconsistencia, redundancia. Datos faltantes. Outliers. Cómo se hace un Informe de calidad de los datos. En que consiste la estandarización de los datos.
Objetivos: 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
3h

Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos

Aplicación de la inferencia estadística para determinar las relaciones entre las variables presentes en una BBDD y una variable de respuesta (numérica o categórica)
Objetivos: 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal

Perspectiva del modelado por técnicas de regresión lineal: componentes estadísticas implicadas. Roles: variables de respuesta / explicativas. Estimación por mínimos cuadrados. Propiedades de los estimadores. Procesos inferenciales involucrados.
Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos

Elementos que intervienen en la validación del modelado por regresión. Valores influyentes y / o atípicos
Objetivos: 5
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal

Inferencia sobre los estimadores de los parámetros en modelos lineales de respuesta normal. Intervalos de confianza, regiones de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre las predicciones y cálculos de intervalos de confianza.
Objetivos: 6
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h

Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria

Estimación máximo verosímil. Rol de la función de enlace. Función de enlace empleadas. Propiedades de los estimadores. Procesos inferenciales involucrados.
Objetivos: 7
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h

Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos


Objetivos: 8
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria

Inferencia sobre estimadores de parámetros en modelos lineales de una respuesta binaria. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.
Objetivos: 9
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal

Estimación de máxima verosimilitud. Modelado nominal versus ordinal. Funciones de enlace utilizadas. Propiedades de los estimadores. Procesos inferenciales involucrados.
Objetivos: 10
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h

Validation of nominal and ordinal polytomous response models. Identification of unusual and influential data

Residuos de la deviança, Pearson. Residuos estudentitzats. Indicadores de datos inusuales e influyentes, mediante la extensión de los indicadores empleados en la regresión normal.
Objetivos: 11
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal

Inferencia sobre estimadores de parámetros en modelos lineales de respuesta politómica. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.
Objetivos: 12
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Estimación de los parámetros e interpretación de los modelos lineales para conteos

Estimación de máxima verosimilitud. Modelado Poisson, binomial negativo. Sobredispersión. Funciones de enlace utilizadas. Procesos inferenciales involucrados.
Objetivos: 13
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos

Indicadores de datos inusuales e influyentes. Comprobación de sobredispersión. Cómo superar la dispersión excesiva.
Objetivos: 14
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para conteos

Inferencia sobre estimadores de parámetros en modelos lineales para conteos. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.
Objetivos: 15
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h

Teoría y práctica del diseño de experimentos factorial y factorial fraccional


Objetivos: 16
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Examen Parcial


Objetivos: 1 2 3 4 5 6
Semana: 7
Tipo: examen de laboratorio
Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Examen Final


Objetivos: 7 8 9 10 11 12 13 14 15 16
Semana: 14
Tipo: examen final
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
8h

Práctica de Modelos Lineales


Objetivos: 2 3 4 5 6
Semana: 12
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
20h

Práctica de Modelos Lineales Generalizados


Objetivos: 7 8 9 10 11 12 13 14 15
Semana: 14
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
20h

Metodología docente

El aprendizaje de la asignatura consta de tres fases diferenciadas:
1. Adquisición de los conocimientos específicos mediante el estudio de la bibliografía y del material proporcionado por los profesores.
2. La adquisición de las destrezas en las técnicas específicas de análisis de datos, selección del proceso de modelado estadístico y validación del modelo y
3. Integración de los conocimientos, destrezas y competencias (específicas y transversales) mediante la resolución de casos de estudio reales.

En las clases de Teoría exponen los fundamentos de las metodologías y técnicas propias de la asignatura. Las clases de laboratorio sirven para aprender la utilización de las técnicas específicas para la resolución de problemas, utilizando las herramientas informáticas adecuadas, en este sentido los alumnos deberán primero de repetir un problema solucionado por los profesores y luego solucionar uno similar al primer . Mientras que el Casos de Estudio, resuelto en grupos y en horas básicamente de autoaprendizaje, sirven para poner en práctica los conocimientos, destrezas y competencias en la resolución de casos reales.

Método de evaluación

La evaluación de la asignatura integra las tres fases de aprendizaje descritas: conocimientos, destrezas y competencias.

Los conocimientos se evalúan mediante dos exámenes realizados a la mitad (T1, peso 1/3) y en la semana de exámenes finales del curso (T2, peso 2/3). En caso de suspender el examen parcial, el alumno podrá repetirlo como extensión del examen final. (Nota T).

Las destrezas se evalúan a partir de la entrega de 2 prácticas, Así mismo como las competencias transversales. Cada uno de los bloques 1, 2 y 3 para la primera práctica (P1) y 4 y 5 para la segunda (P2) comportarán una práctica que el alumno deberá realizar individualmente o en grupos de 2. El promedio de las notas da la nota P.

La Nota Final (NF) se calcula:

Examen Parcial (T1, 1/3) y Examen Final (T2, 2/3).
PRACT 1 (P1) y Práctica 2 (P2)
P: Nota de Prácticas P = (P1 + P2) / 2.
T: Nota Teoría = Max (T2, (T1 + 2T2) / 3).
NF: Nota Final = 0.6T + 0.4P.

Bibliografía

Básica:

Complementaria:

  • The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer , cop. 2009. ISBN: 0387848576
    http://cataleg.upc.edu/record=b1343839~S1*cat
  • Probability and statistics with reliability, queuing and computer science applications - Trivedi, K.S,, John Wiley and Sons , 2016. ISBN: 1119285429
    http://cataleg.upc.edu/record=b1201882~S1*cat
  • Mathematical Statistics with Applications - Mendenhall, W.; Wackerly, D.; Scheaffer, R., Duxbury Press , 2007. ISBN: 0495110817

Web links

Capacidades previas

Los estudiantes deben tener conocimientos suficientes de álgebra y análisis matemático para asimilar los conceptos relacionados con el álgebra de conjuntos, series numéricas, funciones de variables reales de una o más dimensiones, derivación e integración. Los alumnos deben haber cursado un curso de probabilidad y estadística

Adenda

Contenidos

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT. THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION

Metodología docente

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT, tret de la possibilitat de fer les sessions de teoria i laboratori de manera no presencial si la situació epidemiològica així ho requereix. THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION. Depending on Health Authorities guidelines, face to face classes could be moved to online format.

Método de evaluación

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION.

Plan de contingencia

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT THERE ARE NOT ANY CHANGES WITH RESPECT TO THE ALREADY PUBLISHED INFORMATION.