El objetivo de la asignatura de Análisis de Datos es proporcionar la filosofía y las principales metodologías para la extracción de la información contenida en los datos. Comprende desde la preparación de los datos, el análisis exploratorio, la visualización de la información, la modelización de los patrones de comportamiento y su implementación en sistemas informáticos.
Profesorado
Responsable
-
Jan Graffelman (
)
-
Jose Antonio Sánchez Espigares (
)
Otros
Competencias
Competencias Técnicas
Competencias técnicas
-
CE1 - Utilizar con destreza los conceptos y métodos matemáticos que subyacen los problemas de la ciencia y la ingeniería de los datos.
-
CE2 - Ser capaz de programar soluciones a problemas de ingeniería: Diseñar soluciones algorítmicas eficientes a un problema computacional dado, implementarlas en forma de Programa robusto, estructurado y mantenible, y comprobar la validez de la solución.
-
CE3 - Analizar fenómenos complejos mediante la probabilidad y estadística, y plantear modelos de estos tipos en situaciones concretas. Formular y resolver problemas de optimización matemática.
-
CE4 - Utilizar los sistemas de computación actuales, incluidos sistemas de alto rendimiento, para el proceso de grandes volúmenes de datos desde el conocimiento de su estructura, funcionamiento y particularidades.
-
CE8 - Capacidad de elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.
Competencias Transversales
Transversales
-
CT3 - Comunicación eficaz oral y escrita. Comunicarse de forma oral y escrita con otras personas sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones; participar en debates sobre temas de la propia especialidad.
-
CT4 - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
-
CT5 [Avaluable] - Uso solvente de los recursos de información. Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información en el ámbito de especialidad y valorar de forma crítica los resultados de dicha gestión.
-
CT6 - Aprendizaje autónomo. Detectar deficiencias en el propio conocimiento y superarlas mediante la reflexión crítica y la elección de la mejor actuación para ampliar dicho conocimiento.
-
CT7 [Avaluable] - Tercera lengua. Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.
Básicas
-
CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
-
CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
Competencias Técnicas Genéricas
Genéricas
-
CG1 - Concebir sistemas computacionales que integren datos de procedencias y formas muy diversas, creen con ellos modelos matemáticos, razonen sobre dichos modelos y actúen en consecuencia, aprendiendo de la experiencia.
-
CG2 - Elegir y aplicar los métodos y técnicas más adecuados a un problema definido por datos que representen un reto por su volumen, velocidad, variedad o heterogeneidad, incluidos métodos informáticos, matemáticos, estadísticos y de procesado de la señal.
-
CG3 - Trabajar en equipos y proyectos multidisciplinares relacionados con el procesado y explotación de datos complejos, interactuando fluidamente con ingenieros y profesionales de otras disciplinas.
-
CG4 - Identificar oportunidades para aplicaciones innovadoras orientadas a datos en entornos tecnológicos en continua evolución.
Objetivos
-
Exploración Multivariante de Datos
Competencias relacionadas:
CE1,
CE2,
CE3,
CE4,
CE8,
CT3,
CT5,
CT6,
CT7,
CG1,
CG3,
CG4,
CB2,
CB4,
Subcompetences:
- Clustering. Profiling.
- Preproceso de los datos. Outliers, datos faltantes. Transformaciones
- ACP, DVS, Análisis Factorial. Escalamiento Multidimensional.
- Análisis de Correspondencies Simples. Análisis de Correspondencies Multiples.
-
Anàlisis discriminante paramétrico
Competencias relacionadas:
CE1,
CE3,
CE8,
CT3,
CT4,
CT5,
CT6,
CT7,
CG2,
CG3,
Subcompetences:
- Análisis Discriminante Lineal, Discriminación de Fisher. Análisi Discriminante Cuadrático.
- Distribución normal multivariante. Distribuciones muestrales
-
Modeltzación multivariante
Competencias relacionadas:
CE1,
CE3,
CE8,
CT4,
CT6,
CT7,
CG1,
CG2,
CG4,
CB2,
Subcompetences:
- Regresión multivariante
- Análisis Canónico de correlaciones
- Principal Component Regression, Partial Least Squares Regression
-
Series Temporales
Competencias relacionadas:
CE1,
CE3,
CE8,
CT6,
Subcompetences:
- Outliers, efectos de calendario, análisis de Intervención
- Modelos univariantes de series temporales
- Aplicaciones del Filtro de Kalman.
Contenidos
-
Preproceso de los datos
Anomalias, datos faltantes y transformaciones
-
Análisis de componentes principales
Descripción multivariante de una tabla de variables continuas. Regresión con componentes principales
-
Análisis factorial
La descomposición en valores singulares, biplots, el análisis factorial
-
Escalamiento multidimensional (MDS)
Medidas de distancia. Escalamiento multidimensional métrico. Algoritmos.
-
Análisis de conglomerados
Técnicas de agrupación jeráricicas. Métodos de agglomeración. Criterio de Ward. Dendrograma
-
Análisis de correspondencias
Tablas de contingencia. Perfiles fila y perfiles columna. Independencia y estadístico chi-cuadraso. Análisis de correspondencias simples. Biplot
-
Análisis discriminante
Distribución normal multivariante. Función discriminante lineal de Fisher
-
Modelos univariantes de series temporales
Alisado exponencial, modelos ARIMA
-
Análisis de intervención
Anomalias, efectos de temporada, análisis de intervención
Actividades
Actividad
Acto evaluativo
Preproceso de los datos
Práctica de preproceso de los datos
Objetivos:
1
Contenidos:
Análisis de componentes principales
Análisis de datos con el método de componentes principales
Objetivos:
1
Contenidos:
Análisis factorial
Análisis de datos con el método
Objetivos:
1
Contenidos:
Escalamiento multidimensional
Análisis de matrices de distancias con el método
Objetivos:
1
Contenidos:
Clustering
Aplicación del método a datos cuantitativos
Análisis de Correspondencias
Aplicación del método con tablas cruzadas
Objetivos:
2
Contenidos:
Análisis Discriminante
Aplicación del método a juegos de datos empíricos
Objetivos:
2
Contenidos:
Modelos univariados de series temporales
Ajustar modelos a series temporales con ordenador
Objetivos:
4
Contenidos:
Análisis de intervención
Aplicación del análisis de intervención con datos reales.
Objetivos:
4
Contenidos:
Práctica sobre el análisis exploratorio de datos
Los estudiants realizan un análisis exploratoria, y entregan un informe con los resultados
Objetivos:
1
2
3
4
Semana:
8 (Fuera de horario lectivo)
Proyecto
Los estudiantes realizan, en grupos de dos, un estudio completo de unos datos, utilizando las técnicas estudiadas en este curso, y entregan un informe con los resultados
Objetivos:
1
2
3
4
Semana:
15 (Fuera de horario lectivo)
Examen de conceptos
Hay dos examenes sobre los conceptos básicos relacionados con las técnicas estudiadas al largo de la assignatura.
Objetivos:
1
2
3
4
Semana:
14
Aprendizaje autónomo
14.5h
Metodología docente
El aprendizaje se concreta mediante una combinación de la exposición teórica (classe magistral) y su aplicación a casos reales. Durante las classes de teoría se desarrolla el conocimiento científico teórico.
En las classes de laboratorio, y las entregas semanales, se verà la aplicación de la teoría para la resolución de problemas. En el laboratoria y con el proyecto se trabajan las competencias transversales vinculadas al trabajo en equipo y presentación de resultados. Tanto los laboratorios como el proyecto sirven para integrar los diferentes conocimientos de la assignatura.
Para adquirir habilidad de análisis con ordinador se utilia el entorno estadístico R.
Método de evaluación
La avaluación de la assignatura se basa en una ponderación de distintos elementos: las notas obtenidas para los ejercicios que se entregan cada semana (25%), la nota del examen parcial para la primera mitad de la assignatura (25%), la nota del examen final que cubre la segunda mitad de la assignatura (25%) y la nota obtenida del proyecto (25%).
Cada ejercicio semanal comporta resolver un cuestionario. Estos ejercicios tienen el objetivo de consolidar el conocimiento de las técnicas expuestas durante las classes de teoria. Los ejercicios implican cálculos con datos en el entorno estadístico R.
El proyecto de la assignatura se realiza en equipos de dos estudiantes, y cada equipo demostrará su capacidad para resolver un problema real con las técnicas aprendidas durante la assignatura. Los resultados del proyecto se presentan mediante un informe escrito.
Los dos examenes se harán dentro los horarios marcados por la facultad, y avaluan el conocimiento obtenido de los conceptos básicos de la materia.
Para la re-avaluación, el estudiante puede re-examinarse para el examen parcial de la primera mitad (25%), o bien re-examinarse para el examen parcial de la segunda mitad (25%), o bien para ambos examenes parciales (50%). Por lo tanto, la reavaluación de la assignatura representa como máximo 50% de la nota final.
Bibliografía
Básica:
-
Multivariate statistical methods: a primer -
Manly, B.F.J.; Navarro, J.A,
CRC Press, Taylor & Francis Group, 2017. ISBN: 9781498728966
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004178359706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Applied multivariate statistical analysis -
Johnson, R.A.; Wichern, D.W,
Pearson, 2014. ISBN: 9781292024943
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004175889706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Análisis de datos multivariantes -
Peña, D,
McGraw-Hill, cop. 2002. ISBN: 9788448136109
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002497609706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Nuevos métodos de análisis multivariante -
Cuadras, C.M,
CMC Ediciones, 2012.
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000916409706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Time series analysis and its applications: with R examples -
Shumway, R.H.; Stoffer, D.S,
Springer, 2017. ISBN: 9783319524511
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004156569706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Course slides for Multivariate Analysis (in English) -
Graffelman, Jan,
Complementaria:
-
Multivariate analysis -
Mardia, K.V; Kent, J.T; Bibby, J.M, Academic Press ,
1979.
ISBN: 0124712509
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000218529706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
An introduction to multivariate statistical analysis -
Anderson, T.W, Wiley ,
2003.
ISBN: 0471360910
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002604589706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Aprender de los datos: el análisis de componentes principales: una aproximación desde el Data Mining -
Aluja, T.; Morineau, A, EUB ,
1999.
ISBN: 8483120224
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001877509706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Time series analysis: forecasting and control -
Box, G.E.P.; Jenkins, G.M.; Reinsel, G.C.; Ljung, G.M, Wiley ,
2016.
ISBN: 9781118675021
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004156549706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Análisis de series temporales -
Peña, D, Alianza ,
2010.
ISBN: 9788420669458
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004087859706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Time series: theory and methods -
Brockwell, P.J.; Davis, R.A, Springer-Verlag ,
1991.
ISBN: 9781441903198
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000762229706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Capacidades previas
Conocimiento de conceptos básicos estadísticos, estadística descriptiva, pruebas de hipótesis. Familiaridad con el programa estadístico R.