Análisis Multivariante

Créditos
6
Tipos
Obligatoria de especialidad (Ciencia de los Datos)
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
El objetivo de la asignatura es proveer los conceptos estadísticos del análisis multivariante de datos y sus técnicas básicas, el cual constituye uno de los pilares fundamentales de la Minería de Datos

Profesores

Responsable

  • Daniel Fernández Martínez ( )

Otros

  • Belchin Adriyanov Kostov ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0.15
Aprendizaje autónomo
7.39

Competencias

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CG3 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Competencias Transversales

Uso solvente de los recursos de información

  • CTR4 - Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información del ámbito de la ingeniería informática y valorar de forma crítica los resultados de esta gestión.

Razonamiento

  • CTR6 - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.

Competencias Técnicas de cada especialidad

Específicas comunes

  • CEC1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CEC2 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Objetivos

  1. Visualización de los datos
    Competencias relacionadas: CG3, CTR4,
  2. Descripción multivariante de los datos
    Competencias relacionadas: CG1, CG3, CEC1, CEC2, CTR4, CTR6,
  3. Inferencia multivariada
    Competencias relacionadas: CG3, CEC1, CEC2, CTR6,
  4. Clasificación de nuevos individuos
    Competencias relacionadas: CG1, CG3, CEC1, CEC2, CTR6,

Contenidos

  1. Introducción al Análisis de Datos Multivariado
    Ventajas del tratamiento multivariante. Ejemplos de datos multivariados. Métodos probables y libres de distribución. Enfoque exploratorio versus modelado.
  2. Análisis de Componentes Principales
    Análisis de individuos. Análisis de variables. Representación visual de la información. Reducción de dimensionalidad. Información suplementaria.
  3. Análisis de Correspondencias
    Método para explorar y visualizar filas y columnas de una tabla de contingencia.
  4. Análisis de Correspondencias Múltiples
    Método para explorar y visualizar conjuntos de datos con variables categóricas. Normalmente, conjuntos de datos obtenidos de una encuesta o de un cuestionario.
  5. Análisis Factorial
    Método de reducción de dimensiones. Muy común en la minería de texto. Se detallarán ejemplos de cómo utilizarlo para datos textuales.
  6. Reglas de asociación
    Encontrar patrones, asociaciones, correlaciones o estructuras causales frecuentes entre conjuntos de elementos u objetos en bases de datos de transacciones, bases de datos relacionales y otros repositorios de información.
  7. Análisis Factorial Múltiple
    Este método trata del conjunto de datos donde las variables se organizan en grupos. Normalmente, a partir de datos procedentes de diferentes fuentes de variables. El método pone de manifiesto una estructura común de todos los grupos y la especificidad de cada grupo. Permite comparar los resultados de varios PCA o MCA en un marco de referencia único. Los grupos de variables pueden ser continuos, categóricos o pueden ser una tabla de contingencia.
  8. Análisis Discriminante y Naïve Bayes
    El análisis discriminante (DA) y Naïve Bayes (NB) son métodos de clasificación. DA clasifica las observaciones en grupos no superpuestos, basándose en las puntuaciones de una o más variables predictoras cuantitativas. NB es un algoritmo de aprendizaje sencillo que utiliza la regla de Bayes junto con una suposición firme que los atributos son independientes condicionalmente, dada la clase.
  9. Árboles de Clasificación y Regresión
    Este método puede predecir o clasificar. Explica cómo se pueden predecir o clasificar los valores de una variable de resultado en función de otros valores. Tiene una estructura gráfica muy útil.
  10. Clustering Jerárquico y de Particiones
    Dos enfoques para agrupar métodos utilizados para clasificar las observaciones, dentro de un conjunto de datos, en múltiples grupos en función de su semejanza.
  11. Clustering basado en modelos
    A la familia de este algoritmos, se utilizan determinados modelos para clusters y se intenta optimizar el ajuste entre los datos y los modelos. En el enfoque basado en modelos basados en el clúster, los datos se ven provenientes de una mezcla de distribuciones de probabilidades, cada una de las cuales representa un clúster diferente.

Actividades

Actividad Acto evaluativo


Presentación de la asignatura + Análisis Multivariante de datos


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Componentes Principales


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Correspondencias


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Correspondencias Múltiples


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Reglas de asociación


Objetivos: 1 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial Múltiple


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Discriminante y Naïve Bayes


Objetivos: 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Árboles de Clasificación y Regresión


Objetivos: 1 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clustering Jerárquico y de Particiones


Objetivos: 1 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clustering basado en modelos


Objetivos: 1 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Reglas de asociación


Objetivos: 4
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Práctica Final



Semana: 18
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
13h

Examen de conceptos



Semana: 14
Tipo: examen de teoría
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
13h

Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h


Metodología docente

El curso tiene como objetivo proporcionar las bases estadísticas para la minería de datos. El aprendizaje se realiza mediante una combinación de explicación teórica y su aplicación a un caso real. Las clases desarrollarán los conocimientos científicos necesarios, mientras que las clases de laboratorio serán su aplicación para resolver problemas de minería de datos. La implementación de prácticas favorece habilidades genéricas relacionadas con el trabajo en equipo y la presentación de resultados y sirve para integrar diferentes conocimientos de la materia. El software utilizado será principalmente R.

Método de evaluación

La evaluación del curso se basará en las notas obtenidas en los ejercicios prácticos realizados durante el curso, una nota de examen y la nota obtenida en la práctica final.
Cada práctica dará lugar a la redacción de la correspondiente redacción del informe y podrá realizarse de forma conjunta, hasta un máximo de tres alumnos por grupo.
Los ejercicios realizados a lo largo del curso tienen como objetivo consolidar el aprendizaje de técnicas multivariantes.
La práctica final es que los estudiantes demuestren su madurez para resolver un problema real utilizando técnicas de visualización multivariante, interpretación de agrupamiento y predicción. Los estudiantes elegirán entre diferentes alternativas para resolver el problema. Esta práctica será presentada y defendida públicamente, en la que el alumno deberá responder a cualquier duda sobre los modelos teóricos y métodos utilizados en la solución. Las prácticas se realizan utilizando el software R.
La prueba escrita se realizará el último día de clase y evaluará la asimilación de los conceptos básicos de la asignatura. Mientras que la presentación de la segunda práctica se realizará durante el período de exámenes.

Los ejercicios en clase tienen una ponderación del 30%, el examen del 30% y la práctica final del 40%.

Bibliografía

Básica:

Complementaria:

Web links

Capacidades previas

La asignatura supone haber efectuado previamente un curso básico de estadística, programación y matemáticas, en particular tener adquiridos los conceptos:
-Concepto de media, matriz de covarianza y correlacions.
-Concepto de prueba de hipòtesis.
-Operaciones de algebra matricial, valores y vectores propis.
-Programación de algoritmos.
-Regresión lineal múltiple

Adenda

Contenidos

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT NO CHANGES REGARDING THE INFORMATION PUBLISHED IN THE TEACHING GUIDE

Metodología docente

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT NO CHANGES REGARDING THE INFORMATION PUBLISHED IN THE TEACHING GUIDE

Método de evaluación

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT NO CHANGES REGARDING THE INFORMATION PUBLISHED IN THE TEACHING GUIDE

Plan de contingencia

FER LES CLASSES PER VIDEOCONFERENCIA DO THE CLASSES BY VIDEOCONFERENCE