Modelización estadística es la segunda de una secuencia de 4 asignaturas del grado dedicadas a la estadística y los datos. Como continuación de la asignatura precedente introductoria en el ámbito de la probabilidad y estadística, esta asignatura aporta formación en los principales modelos estadísticos que permiten extraer conocimiento de los datos. Las técnicas de modelización estadística constituyen uno de los pilares fundamentales del ámbito del apoyo a la toma de decisiones, y el análisis inteligente de datos. En este curso se verán los principales modelos multivariantes predictivos (modelo lineal general), y descriptivos (análisis multivariante y clustering), así como nociones de diseño de experimentos que serán útiles en la configuración de los conjuntos de datos de entrenamiento y validación de los modelos, no sólo por esta asignatura, sino también por las de aprendizaje automático que también se ven en el grado. Se incluye en el programa de la asignatura herramientas de modelización dinámica por datos con carácter temporal. Las herramientas vistas en esta asignatura complementarán las vistas a aprendizaje automático y serán input imprescindible para las asignaturas de la materia análisis inteligente de datos y sistemas intel. ligentes de apoyo a la toma de decisiones.
Profesorado
Responsable
-
Jordi Cortés Martínez (
)
Otros
-
Dante Conti (
)
-
Karina Gibert Oliveras (
)
Competencias
Competencias Transversales
Transversales
-
CT3 [Avaluable] - Comunicación eficaz oral y escrita. Comunicarse de forma oral y escrita con otras personas sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones; participar en debates sobre temas de la propia especialidad.
-
CT4 [Avaluable] - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
-
CT8 [Avaluable] - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.
Básicas
-
CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
-
CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
Competencias Técnicas
Específicas
-
CE01 - Resolver los problemas matemáticos que puedan plantearse en el ámbito de la inteligencia artificial. Aplicar los conocimientos sobre: álgebra, cálculo diferencial e integral y métodos numéricos; estadística y optimización.
-
CE09 - Concebir, diseñar e integrar sistemas de análisis inteligente de datos con aplicación en entornos de producción y de servicios.
-
CE20 - Elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.
Competencias Técnicas Genéricas
Genéricas
-
CG2 - Utilizar los conocimientos fundamentales y metodologías de trabajo sólidas adquiridos durante los estudios para adaptarse a los nuevos escenarios tecnológicos del futuro.
-
CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
-
CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
Objetivos
-
Diseñar juegos de pruebas y entrenamiento solventes y orientados a objetivos
Competencias relacionadas:
CG8,
CT8,
CB3,
CE09,
-
Identificar qué modelo predictivo es adecuado para un problema concreto y datos concretos
Competencias relacionadas:
CG4,
CE01,
CE09,
CE20,
-
Construir e interpretar modelos válidos por la evolución temporal de una variable numérica
Competencias relacionadas:
CG4,
CT3,
CT4,
CE01,
CE09,
CE20,
-
Identificar clases en un conjunto de datos y saberlos validar e interpretar conceptualmente
Competencias relacionadas:
CG2,
CG4,
CT3,
CT4,
CE01,
CE09,
CE20,
-
Caracterizar las relaciones multivariantes en un conjunto de datos con técnicas de análisis factorial
Competencias relacionadas:
CG4,
CT3,
CT4,
CE01,
CE09,
CE20,
-
Poder realizar el análisis básico no supervisado de una base de datos textual con técnicas básicas de topic modelling y análisis multivariante por datos textuales
Competencias relacionadas:
CG4,
CT3,
CT4,
CE01,
CE09,
CE20,
-
Saber construir y validar el modelo adecuado para una nueva situación real
Competencias relacionadas:
CG2,
CG4,
CT3,
CT4,
CE01,
CE09,
CE20,
-
Saber integrar los contenidos de los distintos temas de este curso y los previos en una solución global por un problema complejo
Competencias relacionadas:
CG2,
CE01,
CE09,
CE20,
-
Saber planificar a largo plazo la modelización de un problema real complejo y resolverlo a lo largo del curso en equipo
Competencias relacionadas:
CT3,
CT4,
CB4,
Contenidos
-
Modelos lineales generalizados
Introducción a los conceptos de modelos lineales generalizados. Modelos logísticos
-
Series temporales
Introducción a los procesos estocásticos. Serie cronológica vs Serie temporal Metodología Box-JenkinsPrincipales modelos de series temporales: MA, AR , ARIMA, SARIMA (concepto y estudio de casos)
-
Análisis factorial
Métodos de reducción de dimensionalidad
-
Clustering
Introducción. Principal modelos de clasificación. Distancias.
-
Profiling
Descripción de las clasificaciones a partir del estudio de significatividad de variables
-
Diseño de experimentos
Diseños 2k completos y fraccionales. Análisis de sensibilidad y explicabilidad de los modelos. Identificación de principales efectos e interacciones. Diseño de conjuntos de datos de entrenamiento por aprendizaje automático. Diseño de juegos de test por validación de modelos de datos
Actividades
Actividad
Acto evaluativo
Trabajo en equipo
Los alumnos se organizan en grupos y buscan unos datos reales que cumplen ciertos requisitos marcados por el profesor. Los utilizan para ir aplicando las técnicas y metodologías que se vean a lo largo del curso. Al final presentan un informe con los resultados y realizan una presentación oral con los resultados más relevantes del estudio
Objetivos:
1
2
3
4
5
6
7
8
9
Contenidos:
Aprendizaje autónomo
27.5h
Clases de teoría del temario de la asignatura
Clases de teoría del temario de la asignatura
Objetivos:
2
3
4
5
6
7
Contenidos:
Aplicación práctica temario asignatura
Ejecución de scripts prácticos en R sobre los conceptos vistos en teoría.
Quiz 1
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos:
2
Semana:
4
Aprendizaje autónomo
0.5h
Quiz 2
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos:
2
3
Semana:
7
Aprendizaje autónomo
0.5h
Presentación inicial de la práctica
Presentación inicial de la práctica
Objetivos:
1
2
3
4
5
6
7
8
9
Contenidos:
Quiz 3
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos:
2
3
Semana:
8
Aprendizaje autónomo
0.5h
Quiz 4
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos:
4
Semana:
11
Aprendizaje autónomo
0.5h
Quiz 5
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos:
1
Semana:
13
Aprendizaje autónomo
0.5h
Presentación final práctica
Presentación final práctica
Objetivos:
2
3
4
5
6
7
8
9
Semana:
14
Examen Final
Examen Final
Objetivos:
1
2
3
4
5
6
7
8
9
Semana:
15 (Fuera de horario lectivo)
Metodología docente
La asignatura consta de dos horas de teoría y dos de laboratorio por semana
En la web de la asignatura estará el calendario de la asignatura y los materiales para preparar cada clase. La clase de teoría se dedicará fundamentalmente a explicar conceptos y la presentación de casos y al desarrollo de actividades interactivas con los estudiantes como la discusión de los casos, el desarrollo de problemas.
Los estudiantes realizarán por grupos de 4 personas un trabajo práctico con datos que buscarán ellos mismos y que cumplirán ciertas características fijadas por el profesorado. Con estos datos cada equipo realizará las sesiones de prácticas, cada semana, aplicando las técnicas del tema trabajado en la sesión de teoría. El profesor realizará seguimiento semanal de todos los equipos de trabajo en las sesiones de laboratorio.
A mediados y finales de curso los equipos presentarán sus resultados en una sesión de puesta en común donde se debatirá conjuntamente sobre todos los proyectos.
Método de evaluación
Evaluación Ordinaria:
---------------------
(Q) Cuestionarios. 20%
(P) Proyecto. 40%
(EF) Examen Final. 40%
Nota Final Ordinaria = 0,2 * Q + 0,4 * P + 0,4 * EF
P. Consta de 5 preguntas individuales y presenciales con el mismo peso sobre la nota final.
Q = (Q1 + Q2 + Q3 + Q4 + Q5)/5
P. Proyecto en grupo donde se valorarán las siguientes competencias: (P1) Recolección de datos, análisis e interpretación de resultados (37,5%); (P2) Transmisión de resultados (25%); (P3) Comunicación oral y escrita (12,5%); (P4) Trabajo en equipo (12,5%); (P5) Perspectiva de género (12,5%)
P = 0,375 * P1 + 0,25 * P2 + 0,125 * P3 + 0,125 * P4 + 0,125 * P5
Deberá obtener una nota mínima de un 3,5 en las pruebas individuales y presenciales, es decir,
1/3 * Q + 2/3 * EF > 3,5 para aprobar la asignatura. Por otra parte, la realización del proyecto será obligatoria para poder aprobar durante la evaluación ordinaria.
Evaluación Extraordinaria:
---------------------------------
(EF) Examen Final Extraordinario
Nota Extraordinaria = Mínimo{5, Máximo{EE, 0,2 * Q + 0,4 * P + 0,4 * EE}}
En esta convocatoria no hi habrá nota mínima para aprobar. La máxima nota en esta convocatoria es un 5.
Bibliografía
Básica:
-
Practical statistics for data scientists: 50+ essential concepts using R and Python -
Bruce, Peter; Bruce, Andrew; Gedeck, Peter,
O'Reilly, [2020]. ISBN: 9781492072942
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004946307706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Data analysis and graphics using R : an example-based approach -
Maindonald, J. H; Braun, John,
Cambridge University, 2010. ISBN: 9780521762939
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003210549706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Forecasting: principles and practice -
Hyndman, R.J.; Athanasopoulos, G,
O Texts, 2021. ISBN: 9780987507136
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005164678006711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Practical time series analysis: prediction with statistics and machine learning -
Nielsen, Aileen,
O'Reilly Media, Inc, 2019. ISBN: 9781492041658
Capacidades previas
Introducción a la Estadística
Teoria de la probabilidad
Inferencia estadística
modelos estadisticos simples
visualizacion de datos
programación básica
Conocimientos básicos de R
álgebra