Tipos
Obligatoria de especialidad (Ciencia de los Datos)
El objetivo de la asignatura es proveer los conceptos estadísticos del análisis multivariante de datos y sus técnicas básicas, el cual constituye uno de los pilares fundamentales de la Minería de Datos
Horas semanales
Aprendizaje dirigido
0.15
Aprendizaje autónomo
7.39
Objetivos
-
Descripción multivariante de los datos
Competencias relacionadas:
CG1,
CG3,
CEC1,
CEC2,
CTR4,
CTR6,
-
Visualización de los datos
Competencias relacionadas:
CG3,
CTR4,
-
Inferencia multivariada
Competencias relacionadas:
CG3,
CEC1,
CEC2,
CTR6,
-
Clasificación de nuevos individuos
Competencias relacionadas:
CG1,
CG3,
CEC1,
CEC2,
CTR6,
Contenidos
-
Introducción al Análisis de Datos Multivariado
Ventajas del tratamiento multivariante. Ejemplos de datos multivariados. Métodos probables y libres de distribución. Enfoque exploratorio versus modelado.
-
Análisis de Componentes Principales
Análisis de individuos. Análisis de variables. Representación visual de la información. Reducción de dimensionalidad. Información suplementaria.
-
Análisis de Correspondencias
El análisis de correspondencia, también llamado promedio recíproco, es una técnica de visualización de ciencia de datos útil para descubrir y mostrar la relación entre categorías. Utiliza un gráfico que traza datos, mostrando visualmente el resultado de dos o más puntos de datos.
-
Análisis Factorial
Método de reducción de dimensiones.
-
Escalamiento Multidimensional
Este método trata con datos relativos a distancias entre los elementos. Normalmente, a partir de datos procedentes de distancias o similitudes. El método pone de manifiesto una estructura común de todos los elementos y la especificidad de cada uno de ellos, evidenciando que hace que sean cerca o distantes.
-
Clustering Jerárquico y de Particiones
Dos enfoques para agrupar métodos utilizados para clasificar las observaciones, dentro de un conjunto de datos, en múltiples grupos en función de su semejanza.
-
Clustering basado en modelos
La agrupación en clústeres basada en modelos asume que los datos fueron generados por un modelo e intenta recuperar el modelo original a partir de los datos. El modelo que recuperamos de los datos luego define los clústeres y una asignación de documentos a los clústeres. Un criterio comúnmente utilizado para estimar los parámetros del modelo es la máxima verosimilitud.
-
Distribución normal multivariante
Particularidades de la distribución normal en el caso general de planteamientos multivariantes, donde los puntos se distribuyen en varias dimensiones. Esta temática no se hace específicamente pero sí transversalmente a todos los contenidos de la asignatura.
-
Análisis Discriminante y más allá
El análisis discriminante (DA) es un métodos de clasificación. DA clasifica las observaciones en grupos no superpuestos, basándose en las puntuaciones de una o más variables predictoras cuantitativas. Veremos diferentes técnicas que tienen como base distintos algoritmos de discriminación
-
Árboles de clasificación y regresión
Este método puede predecir o clasificar. Explica cómo se pueden predecir o clasificar los valores de una variable de resultado en función de otros valores. Tiene una estructura gráfica muy útil.
-
Reglas de asociación
Encontrar patrones, asociaciones, correlaciones o estructuras causales frecuentes entre conjuntos de elementos u objetos en bases de datos de transacciones, bases de datos relacionales y otros repositorios de información.
Actividades
Actividad
Acto evaluativo
Presentación de la asignatura + Análisis Multivariante de datos
Objetivos:
2
1
Contenidos:
Análisis de Componentes Principales
Objetivos:
2
1
Contenidos:
Análisis de Correspondencias
Objetivos:
2
1
Contenidos:
Clustering basado en modelos
Objetivos:
2
1
Contenidos:
Análisis Factorial
Objetivos:
2
1
Contenidos:
Análisis Factorial
Objetivos:
2
4
Contenidos:
Escalamiento Multidimensional
Objetivos:
2
1
Contenidos:
Análisis Discriminante
Objetivos:
3
4
Contenidos:
Árboles de Clasificación y Regresión
Objetivos:
2
3
4
Contenidos:
Clustering Jerárquico y de Particiones
Objetivos:
2
4
Contenidos:
Distribución normal multivariante
Objetivos:
2
4
Contenidos:
Reglas de asociación
Objetivos:
4
Contenidos:
Práctica Final
Semana:
18
Aprendizaje dirigido
1.9h
Examen de conceptos
Semana:
14
Aprendizaje autónomo
13.1h
Resumen y ejercicios prácticos. 1a parte
Objetivos:
2
1
3
4
Contenidos:
Resumen y ejercicios prácticos. 2a parte
Objetivos:
2
1
3
4
Contenidos:
Dudas de la pràctica
Objetivos:
2
1
3
4
Contenidos:
Metodología docente
El curso tiene como objetivo proporcionar las bases estadísticas para la minería de datos. El aprendizaje se realiza mediante una combinación de explicación teórica y su aplicación a un caso real. Las clases desarrollarán los conocimientos científicos necesarios, mientras que las clases de laboratorio serán su aplicación para resolver problemas de minería de datos. La implementación de prácticas favorece habilidades genéricas relacionadas con el trabajo en equipo y la presentación de resultados y sirve para integrar diferentes conocimientos de la materia. El software utilizado será principalmente Ry RStudio.
Método de evaluación
La evaluación del curso se basará en las notas obtenidas del trabajo práctico realizados durante el curso, una nota de teoría y la nota obtenida en la práctica final.
Cada práctica dará lugar a la redacción de la correspondiente redacción del informe y podrá realizarse de forma conjunta, hasta un máximo de cuatro alumnos por grupo .
Los ejercicios realizados a lo largo del curso tienen como objetivo consolidar el aprendizaje de técnicas multivariantes.
La práctica final es que los estudiantes demuestren su madurez para resolver un problema real utilizando técnicas de visualización multivariante, interpretación de agrupamiento y predicción. Los estudiantes elegirán entre diferentes alternativas para resolver el problema. Esta práctica será presentada y defendida públicamente, en la que el alumno deberá responder a cualquier duda sobre los modelos teóricos y métodos utilizados en la solución. Las prácticas se realizan utilizando el software R.
Las pruebas escritas evaluarán la asimilación de los conceptos básicos de la asignatura. Habrá tres pruebas a lo largo del curso, en horas de clase de teoría. Mientras que la presentación de la práctica final se realizará durante el período de exámenes.
Los ejercicios realizados durante el curso tienen una ponderación del 30%, la nota de teoría del 30% y la práctica final del 40%.
Bibliografía
Básica:
-
The Elements of statistical learning : data mining, inference, and prediction -
Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer, cop. 2009. ISBN: 9780387848570
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Applied multivariate statistical analysis -
Johnson, Richard A.; Wichern, Dean W,
Pearson Education Limited, [2014]. ISBN: 9781292024943
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004175889706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Exploratory multivariate analysis by example using R -
Husson, François; Lê, Sébastien; Pagès, Jérôme,
CRC Press, Taylor & Francis Group, 2017. ISBN: 9781315301860
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001358859706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Discovering knowledge in data : an introduction to data mining -
Larose, D.T.; Larose, C.D,
John Wiley & Sons, 2014. ISBN: 9781118874059
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001810009706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Multivariate statistical methods : a primer -
Manly, Bryan F. J,
CRC Press, Taylor & Francis Group, [2017]. ISBN: 9781498728966
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004178359706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementaria:
-
Análisis de datos multivariantes -
Peña, Daniel, McGraw-Hill/Interamericana de España, S.L ,
[2010].
ISBN: 9788448136109
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002497609706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
An R and S-PLUS companion to multivariate analysis -
Everitt, Brian, Springer ,
2005.
ISBN: 1852338822
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002936809706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Aprender de los datos : el análisis de componentes principales : una aproximación desde el Data Mining -
Aluja Banet, Tomàs; Morineau, Alain, EUB ,
1999.
ISBN: 8483120224
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001877509706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Construction and assessment of classification rules -
Hand, D. J, Wiley ,
cop. 1997.
ISBN: 0471965839
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001900839706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Multivariate descriptive statistical analysis : correspondence analysis and related techniques for large matrices -
Lebart, Ludovic; Morineau, Alain; Warwick, Kenneth M, John Wiley and Sons ,
cop. 1984.
ISBN: 0471867438
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000022249706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Capacidades previas
La asignatura supone haber efectuado previamente un curso básico de estadística, programación y matemáticas, en particular tener adquiridos los conceptos:
-Concepto de media, matriz de covarianza y correlacions.
-Concepto de prueba de hipòtesis.
-Operaciones de algebra matricial, valores y vectores propis.
-Programación de algoritmos.
-Regresión lineal múltiple