Análisis Multivariante

Créditos
6
Tipos
Obligatoria de especialidad (Ciencia de los Datos)
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
El objetivo de la asignatura es proveer los conceptos estadísticos del análisis multivariante de datos y sus técnicas básicas, el cual constituye uno de los pilares fundamentales de la Minería de Datos

Profesores

Responsable

  • Karina Gibert Oliveras ( )
  • Tomas Aluja Banet ( )

Otros

  • Belchin Adriyanov Kostov ( )
  • Lidia Montero Mercadé ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0.15
Aprendizaje autónomo
7.39

Competencias

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CG3 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Competencias Transversales

Uso solvente de los recursos de información

  • CTR4 - Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información del ámbito de la ingeniería informática y valorar de forma crítica los resultados de esta gestión.

Razonamiento

  • CTR6 - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.

Competencias Técnicas de cada especialidad

Específicas comunes

  • CEC1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CEC2 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Objetivos

  1. Visual representation of the data
    Competencias relacionadas: CG3, CTR4,
  2. Multivariate description of data
    Competencias relacionadas: CG1, CG3, CEC1, CEC2, CTR4, CTR6,
  3. Multivariate inference
    Competencias relacionadas: CG3, CEC1, CEC2, CTR6,
  4. Classification of new individuals
    Competencias relacionadas: CG1, CG3, CEC1, CEC2, CTR6,

Contenidos

  1. Multivariate Data Analysis
    Advantages of the multivariate treatment. Examples of multivariate data. Probabilistic and distribution free methods. Exploratory versus modeling approach.
  2. Principal Component Analysis
    Analysis of individuals. Analysis of variables. Visual representation of the information. Dimensionality reduction. Supplementary information
  3. Singular Value Decomposition. Biplots
    Simultaneous representation of the rows and columns of a data table.
  4. Factor Analysis
    Latents constructs. Measurement model.
  5. Multidimensional Scaling
    Visualisation of link matrices
  6. Correspondence Analysis
    Analysis of frequency data
  7. Multiple Correspondence Analysis
    Analysis of categorical data
  8. Hierarchical clustering
    Synthesis of the represented information. Consolidation of the partition
  9. Multivariate normal distribution
    Definition and properties
  10. Sampling distibutions of the normal multivariate distribution
    Inferences respect to the covariance matrix. Inferences respect to the centroid of the distribution. Whishart distribution. T2 of Hotelling, Wilks lambda.
  11. Discriminant Analysis
    With the assumption of multivariate normal distribution. Linear discriminant analysis. Quadratic discriminant analysis.
  12. Naive Bayes
    Simplifying the linear discriminant analysis
  13. Discriminant analysis without probabilistic assumptions
    K nearest neighbor classifier
  14. Decision trees
    Classification and regression trees
  15. Association rules
    Apriori algorithm

Actividades

Actividad Acto evaluativo


Analisis Multivariante de datos


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h

Análisis de Componentes Principales


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
7h

Descomposición en Valores Singulares. Biplots


Objetivos: 1 2
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial


Objetivos: 1 2
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Escalamiento Multidimensional


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Correspondencias


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Correspondencias Múltiples


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clasificación Jerárquica


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Distribución Normal Multivariante


Objetivos: 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Distribuciones muestrales


Objetivos: 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Pruebas estadísticas multivariantes


Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

T2 de Hotelling


Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clasificación por árbol de dedisión


Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Reglas de asociación


Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Prácticas sobre Análisis Exploratorio de Datos



Semana: 7
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
9h

Práctica Final



Semana: 18
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
8h

Examen de conceptos



Semana: 14
Tipo: examen de teoría
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h

Metodología docente

El objetivo de la asignatura es dar los fundamentos estadísticos subyacentes a la Minería de Datos. El aprendizaje se hará mediante la combinación de la explicación teórica y su aplicación a casos reales. En las clases de teoría se desarrollarán los conocimientos científicos necesarios, mientras que en las clases de laboratorio se verá su aplicación para la resolución de problemas de Minería de Datos. Estos problemas constituirán las prácticas de la asignatura, que se desarrollarán en parte durante las clases de laboratorio. La realización de las prácticas fomenta las competencias transversales ligadas al trabajo en equipo y presentación de resultados y sirven para integrar los diferentes conocimientos de la asignatura. El software a utilizar será fundamentalmente el R.

Método de evaluación

La evaluación de la asignatura se realizará a partir de la nota obtenida en los ejercicios prácticos realizados durante el curso, la nota de un examen y la nota obtenida en la pràctica final.
Cada práctica comportará la redacción del correspondiente informe escrito y podrá ser efectuada conjuntamente, hasta un máximo de dos alumnos por grupo.
Los ejercicios efectuados a lo largo del curso tienen como finalidad consolidar el aprendizaje de las técnicas multivariantes.
La práctica final trata de que el alumno muestre su madurez para resolver un problema real, utilizando las técnicas de visualización multivariante, "clustering", interpretación de la partición obtenida y predicción. El alumno escogerá el problema a resolver entre diferentes alternativas. Esta práctica deberá ser presentada y defendida públicamente y el estudiante deberá responder las eventuales preguntas teóricas sobre los modelos y métodos usados ​​en su solución. Las prácticas se realizarán mediante el software R.
La prueba escrita se realizará el último día de clase y evaluará la asimilación de los conceptos básicos de la asignatura. Mientras que la presentación de la segunda practica se hará durante el periodo de exámenes.

Los ejercicios se ponderarán con un 30%, el examen en un 40% respectivamente y la práctica final con un 30%.

Bibliografía

Básica:

  • Aprender de los Datos: El Análsis de Componentes Principales - Aluja Banet, Tomas y Morineau, Alain, EUB, 1999. ISBN: 84-8312-022-4
  • The Elements of statistical learning : data mining - Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer, 2001. ISBN: 0-387--95284-5
  • Applied Multivariate Statistical Analysis - Johnson, Richard A.; Wichern, Dean W. , Prentice Hall, 1998. ISBN: 0-13-834194-X
  • Multivariate Descriptive Statistical Analysis - Lebart, Ludovic; Morineau, Alain; Warwick, Kenneth, Wiley, 1984. ISBN: 0471867438
  • Construction and Assessment of Classification Rules - Hand, David J., Wleyy, 1997. ISBN: 0471965839
  • Exploratory Multivariate Analysis by Example Using R - HUSSON Fançois, LE Sébastien, PAGES Jérôme , CRC Press, 2011.

Complementaria:

  • Análsis de datos multivariantes - Peña, Daniel, McGraw Hill , 2002. ISBN: 84-481-3610-1
  • An R and S-PLUS Companion to Multivariate Analysis - Everitt, Brian, Springer , 2004. ISBN: 1852339292
  • Statistique exploratoire multidimensionnelle - Lebart, Ludovic; Morineau, Alain; Piron, Marie, Dunod , 1997. ISBN: 2100040014

Web links

Capacidades previas

La asignatura supone haber efectuado previamente un curso básico de estadística, programación y matemáticas, en particular tener adquiridos los conceptos:
-Concepto de media, matriz de covarianza y correlacions.
-Concepto de prueba de hipòtesis.
-Operaciones de algebra matricial, valores y vectores propis.
-Programación de algoritmos.
-Regresión lineal múltiple