El objetivo de la asignatura es proveer los conceptos estadísticos del análisis multivariante de datos y sus técnicas básicas, el cual constituye uno de los pilares fundamentales de la Minería de Datos
Profesorado
Responsable
-
Dante Conti (
)
-
Karina Gibert Oliveras (
)
Otros
-
Ariel Duarte López (
)
-
David Rodriguez Segado (
)
-
Sergi Ramirez Mitjans (
)
Horas semanales
Aprendizaje autónomo
7.53
Competencias
Competencias Transversales
Uso solvente de los recursos de información
-
CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.
Lengua extranjera
-
CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.
Espíritu emprendedor e innovador
-
CT1 - Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio. Conocer y entender los mecanismos en que se basa la investigación científica, así como los mecanismos e instrumentos de transferencia de resultados entre los diferentes agentes socioeconómicos implicados en los procesos de I+D+i.
Básicas
-
CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
-
CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
-
CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
-
CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
-
CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
Competencias Técnicas Genéricas
Genéricas
-
CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.
-
CG3 - Definir, diseñar e implementar sistemas complejos que cubran todas las fases en proyectos de ciencia de datos
Competencias Técnicas
Específicas
-
CE5 - Modelar, diseñar e implementar sistemas complejos de datos, incluyendo la visualización de datos
-
CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.
-
CE7 - Identificar las limitaciones impuestas por la calidad de datos en un problema de ciencia de datos y aplicar técnicas para disminuir su impacto
-
CE8 - Extraer información de datos estructurados y no estructurados, teniendo en cuenta la naturaleza multivariante de los mismos.
-
CE9 - Aplicar métodos adecuados para el análisis de otro tipo de formatos, tales como procesos y grafos, dentro del ámbito de ciencia de datos
-
CE10 - Identificar los métodos de aprendizaje automático y modelización estadística a utilizar para resolver un problema específico de ciencia de datos y aplicarlos de forma rigurosa
-
CE11 - Analizar y extraer conocimiento de información no estructurada mediante técnicas de procesamiento de lenguaje natural, minería de textos e imágenes
-
CE12 - Aplicar la ciencia de datos en proyectos multidisciplinares para resolver problemas en dominios nuevos o poco conocidos y que sean económicamente viables, socialmente aceptables, y de acuerdo con la legalidad vigente
-
CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.
Objetivos
-
Descripción multivariante de los datos
Competencias relacionadas:
CT4,
CE7,
CE8,
CE12,
CE13,
CB7,
CB9,
CB10,
-
Visualización de los datos
Competencias relacionadas:
CT4,
CT5,
CT1,
CG2,
CE5,
CB8,
-
Inferencia multivariada
Competencias relacionadas:
CT1,
CG2,
CG3,
CE6,
CE11,
CE9,
CE10,
CB6,
CB7,
CB9,
-
Clasificación de nuevos individuos
Competencias relacionadas:
CT1,
CG3,
CE6,
CE10,
CB6,
CB7,
Contenidos
-
Introducción al Análisis de Datos Multivariado
Ventajas del tratamiento multivariante. Ejemplos de datos multivariados. Métodos probables y libres de distribución. Enfoque exploratorio versus modelado.
-
Análisis de Componentes Principales
Análisis de individuos. Análisis de variables. Representación visual de la información. Reducción de dimensionalidad. Información suplementaria. Descomposición en valores singulares.
-
Descomposición en valores singulares
Método para explorar y visualizar filas y columnas de una tabla mediante descomposición en valores singulares.
-
Análisis Factorial
Método de reducción de dimensiones.
-
Escalamiento Multidimensional
Este método trata con datos relativos a distancias entre los elementos. Normalmente, a partir de datos procedentes de distancias o similitudes. El método pone de manifiesto una estructura común de todos los elementos y la especificidad de cada uno de ellos, evidenciando que hace que sean cerca o distantes.
-
Clustering Jerárquico y de Particiones
Dos enfoques para agrupar métodos utilizados para clasificar las observaciones, dentro de un conjunto de datos, en múltiples grupos en función de su semejanza.
-
Métodos de profiling automático
Los métodos de profiling ayudan a entender las características comunes de los clusters
-
Distribución normal multivariante
Particularidades de la distribución normal en el caso general de planteamientos multivariantes, donde los puntos se distribuyen en varias dimensiones.
-
Análisis Discriminante
El análisis discriminante (DA) y Naïve Bayes (NB) son métodos de clasificación. DA clasifica las observaciones en grupos no superpuestos, basándose en las puntuaciones de una o más variables predictoras cuantitativas. NB es un algoritmo de aprendizaje sencillo que utiliza la regla de Bayes junto con una suposición firme que los atributos son independientes condicionalmente, dada la clase.
-
Árboles de clasificación y regresión
Este método puede predecir o clasificar. Explica cómo se pueden predecir o clasificar los valores de una variable de resultado en función de otros valores. Tiene una estructura gráfica muy útil.
-
Reglas de asociación
Encontrar patrones, asociaciones, correlaciones o estructuras causales frecuentes entre conjuntos de elementos u objetos en bases de datos de transacciones, bases de datos relacionales y otros repositorios de información.
Actividades
Actividad
Acto evaluativo
Presentación de la asignatura + Análisis Multivariante de datos
Objetivos:
1
2
Contenidos:
Análisis de Componentes Principales
Objetivos:
1
2
Contenidos:
Descomposición en valores singulares
Objetivos:
1
2
Contenidos:
Métodos de profiling automático
Objetivos:
1
2
Contenidos:
Análisis Factorial
Objetivos:
1
2
Contenidos:
Análisis Factorial
Objetivos:
4
2
Contenidos:
Escalamiento Multidimensional
Objetivos:
1
2
Contenidos:
Análisis Discriminante
Objetivos:
3
4
Contenidos:
Árboles de Clasificación y Regresión
Objetivos:
3
4
2
Contenidos:
Clustering Jerárquico y de Particiones
Objetivos:
4
2
Contenidos:
Distribución normal multivariante
Objetivos:
4
2
Contenidos:
Reglas de asociación
Objetivos:
4
Práctica Final
Semana:
18
Tipo:
examen de laboratorio
Examen de conceptos
Semana:
14
Tipo:
examen de teoría
Aprendizaje autónomo
13.1h
Resumen y ejercicios prácticos. 1a parte
Objetivos:
1
3
4
2
Contenidos:
Resumen y ejercicios prácticos. 2a parte
Objetivos:
1
3
4
2
Contenidos:
Dudas de la pràctica
Objetivos:
1
3
4
2
Contenidos:
Metodología docente
El curso tiene como objetivo proporcionar las bases estadísticas para la minería de datos. El aprendizaje se realiza mediante una combinación de explicación teórica y su aplicación a un caso real. Las clases desarrollarán los conocimientos científicos necesarios, mientras que las clases de laboratorio serán su aplicación para resolver problemas de minería de datos. La implementación de prácticas favorece habilidades genéricas relacionadas con el trabajo en equipo y la presentación de resultados y sirve para integrar diferentes conocimientos de la materia. El software utilizado será principalmente R.
Método de evaluación
La evaluación del curso se basará en las notas obtenidas del trabajo práctico realizados durante el curso, una nota de teoría y la nota obtenida en la práctica final.
Cada práctica dará lugar a la redacción de la correspondiente redacción del informe y podrá realizarse de forma conjunta, hasta un máximo de cuatro alumnos por grupo .
Los ejercicios realizados a lo largo del curso tienen como objetivo consolidar el aprendizaje de técnicas multivariantes.
La práctica final es que los estudiantes demuestren su madurez para resolver un problema real utilizando técnicas de visualización multivariante, interpretación de agrupamiento y predicción. Los estudiantes elegirán entre diferentes alternativas para resolver el problema. Esta práctica será presentada y defendida públicamente, en la que el alumno deberá responder a cualquier duda sobre los modelos teóricos y métodos utilizados en la solución. Las prácticas se realizan utilizando el software R.
Las pruebas escritas evaluarán la asimilación de los conceptos básicos de la asignatura. Habrá tres pruebas a lo largo del curso, en horas de clase de teoría. Mientras que la presentación de la práctica final se realizará durante el período de exámenes.
Los ejercicios realizados durante el curso tienen una ponderación del 20%, la nota de teoría del 40% y la práctica final del 40%.
Bibliografía
Básica:
-
The Elements of statistical learning : data mining, inference, and prediction -
Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer, cop. 2009. ISBN: 9780387848570
http://cataleg.upc.edu/record=b1343839~S1*cat
-
Applied multivariate statistical analysis -
Johnson, Richard A.; Wichern, Dean W,
Pearson Education Limited, [2014]. ISBN: 9781292024943
http://cataleg.upc.edu/record=b1520493~S1*cat
-
Exploratory multivariate analysis by example using R -
Husson, François; Lê, Sébastien; Pagès, Jérôme,
CRC Press, Taylor & Francis Group, 2017. ISBN: 9781315301860
http://cataleg.upc.edu/record=b1496325~S1*cat
-
Discovering knowledge in data : an introduction to data mining -
Larose, Daniel T,
John Wiley & Sons,, 2014. ISBN: 9781118874059
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001810009706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Multivariate statistical methods : a primer -
Manly, Bryan F. J,
CRC Press, Taylor & Francis Group, [2017]. ISBN: 9781498728966
http://cataleg.upc.edu/record=b1521931~S1*cat
Complementaria:
-
Análisis de datos multivariantes -
Peña, Daniel, McGraw-Hill/Interamericana de España, S.L ,
[2010].
ISBN: 9788448136109
http://cataleg.upc.edu/record=b1222351~S1*cat
-
An R and S-PLUS companion to multivariate analysis -
Everitt, Brian, Springer ,
2005.
ISBN: 1852338822
http://cataleg.upc.edu/record=b1275865~S1*cat
-
Aprender de los datos : el análisis de componentes principales : una aproximación desde el Data Mining -
Aluja Banet, Tomàs; Morineau, Alain, EUB ,
1999.
ISBN: 8483120224
http://cataleg.upc.edu/record=b1153963~S1*cat
-
Construction and assessment of classification rules -
Hand, D. J, Wiley ,
cop. 1997.
ISBN: 0471965839
http://cataleg.upc.edu/record=b1156230~S1*cat
-
Multivariate descriptive statistical analysis : correspondence analysis and related techniques for large matrices -
Lebart, Ludovic; Morineau, Alain; Warwick, Kenneth M, John Wiley and Sons ,
cop. 1984.
ISBN: 0471867438
http://cataleg.upc.edu/record=b1004061~S1*cat
Capacidades previas
La asignatura supone haber efectuado previamente un curso básico de estadística, programación y matemáticas, en particular tener adquiridos los conceptos:
-Concepto de media, matriz de covarianza y correlacions.
-Concepto de prueba de hipòtesis.
-Operaciones de algebra matricial, valores y vectores propis.
-Programación de algoritmos.
-Regresión lineal múltiple.