Análisis Multivariante

Créditos
6
Tipos
Obligatoria de especialidad (Ciencia de los Datos)
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
El objetivo de la asignatura es proveer los conceptos estadísticos del análisis multivariante de datos y sus técnicas básicas, el cual constituye uno de los pilares fundamentales de la Minería de Datos

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0.15
Aprendizaje autónomo
7.39

Competencias

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CG3 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Competencias Transversales

Uso solvente de los recursos de información

  • CTR4 - Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información del ámbito de la ingeniería informática y valorar de forma crítica los resultados de esta gestión.

Razonamiento

  • CTR6 - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.

Competencias Técnicas de cada especialidad

Específicas comunes

  • CEC1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CEC2 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Objetivos

  1. Descripción multivariante de los datos
    Competencias relacionadas: CG1, CG3, CEC1, CEC2, CTR4, CTR6,
  2. Visualización de los datos
    Competencias relacionadas: CG3, CTR4,
  3. Inferencia multivariada
    Competencias relacionadas: CG3, CEC1, CEC2, CTR6,
  4. Clasificación de nuevos individuos
    Competencias relacionadas: CG1, CG3, CEC1, CEC2, CTR6,

Contenidos

  1. Introducción al Análisis de Datos Multivariado
    Ventajas del tratamiento multivariante. Ejemplos de datos multivariados. Métodos probables y libres de distribución. Enfoque exploratorio versus modelado.
  2. Análisis de Componentes Principales
    Análisis de individuos. Análisis de variables. Representación visual de la información. Reducción de dimensionalidad. Información suplementaria.
  3. Análisis de Correspondencias
    El análisis de correspondencia, también llamado promedio recíproco, es una técnica de visualización de ciencia de datos útil para descubrir y mostrar la relación entre categorías. Utiliza un gráfico que traza datos, mostrando visualmente el resultado de dos o más puntos de datos.
  4. Análisis Factorial
    Método de reducción de dimensiones.
  5. Escalamiento Multidimensional
    Este método trata con datos relativos a distancias entre los elementos. Normalmente, a partir de datos procedentes de distancias o similitudes. El método pone de manifiesto una estructura común de todos los elementos y la especificidad de cada uno de ellos, evidenciando que hace que sean cerca o distantes.
  6. Clustering Jerárquico y de Particiones
    Dos enfoques para agrupar métodos utilizados para clasificar las observaciones, dentro de un conjunto de datos, en múltiples grupos en función de su semejanza.
  7. Clustering basado en modelos
    La agrupación en clústeres basada en modelos asume que los datos fueron generados por un modelo e intenta recuperar el modelo original a partir de los datos. El modelo que recuperamos de los datos luego define los clústeres y una asignación de documentos a los clústeres. Un criterio comúnmente utilizado para estimar los parámetros del modelo es la máxima verosimilitud.
  8. Distribución normal multivariante
    Particularidades de la distribución normal en el caso general de planteamientos multivariantes, donde los puntos se distribuyen en varias dimensiones. Esta temática no se hace específicamente pero sí transversalmente a todos los contenidos de la asignatura.
  9. Análisis Discriminante y más allá
    El análisis discriminante (DA) es un métodos de clasificación. DA clasifica las observaciones en grupos no superpuestos, basándose en las puntuaciones de una o más variables predictoras cuantitativas. Veremos diferentes técnicas que tienen como base distintos algoritmos de discriminación
  10. Árboles de clasificación y regresión
    Este método puede predecir o clasificar. Explica cómo se pueden predecir o clasificar los valores de una variable de resultado en función de otros valores. Tiene una estructura gráfica muy útil.
  11. Reglas de asociación
    Encontrar patrones, asociaciones, correlaciones o estructuras causales frecuentes entre conjuntos de elementos u objetos en bases de datos de transacciones, bases de datos relacionales y otros repositorios de información.

Actividades

Actividad Acto evaluativo


Presentación de la asignatura + Análisis Multivariante de datos


Objetivos: 2 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Componentes Principales


Objetivos: 2 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Correspondencias


Objetivos: 2 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clustering basado en modelos


Objetivos: 2 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial


Objetivos: 2 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial


Objetivos: 2 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Escalamiento Multidimensional


Objetivos: 2 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Discriminante


Objetivos: 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Árboles de Clasificación y Regresión


Objetivos: 2 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clustering Jerárquico y de Particiones


Objetivos: 2 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Distribución normal multivariante


Objetivos: 2 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Reglas de asociación


Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Práctica Final



Semana: 18
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
13h

Examen de conceptos



Semana: 14
Tipo: examen de teoría
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
13h

Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h


Metodología docente

El curso tiene como objetivo proporcionar las bases estadísticas para la minería de datos. El aprendizaje se realiza mediante una combinación de explicación teórica y su aplicación a un caso real. Las clases desarrollarán los conocimientos científicos necesarios, mientras que las clases de laboratorio serán su aplicación para resolver problemas de minería de datos. La implementación de prácticas favorece habilidades genéricas relacionadas con el trabajo en equipo y la presentación de resultados y sirve para integrar diferentes conocimientos de la materia. El software utilizado será principalmente Ry RStudio.

Método de evaluación

La evaluación del curso se basará en las notas obtenidas del trabajo práctico realizados durante el curso, una nota de teoría y la nota obtenida en la práctica final.
Cada práctica dará lugar a la redacción de la correspondiente redacción del informe y podrá realizarse de forma conjunta, hasta un máximo de cuatro alumnos por grupo .
Los ejercicios realizados a lo largo del curso tienen como objetivo consolidar el aprendizaje de técnicas multivariantes.
La práctica final es que los estudiantes demuestren su madurez para resolver un problema real utilizando técnicas de visualización multivariante, interpretación de agrupamiento y predicción. Los estudiantes elegirán entre diferentes alternativas para resolver el problema. Esta práctica será presentada y defendida públicamente, en la que el alumno deberá responder a cualquier duda sobre los modelos teóricos y métodos utilizados en la solución. Las prácticas se realizan utilizando el software R.
Las pruebas escritas evaluarán la asimilación de los conceptos básicos de la asignatura. Habrá tres pruebas a lo largo del curso, en horas de clase de teoría. Mientras que la presentación de la práctica final se realizará durante el período de exámenes.

Los ejercicios realizados durante el curso tienen una ponderación del 30%, la nota de teoría del 30% y la práctica final del 40%.

Bibliografía

Básica:

Complementaria:

Web links

Capacidades previas

La asignatura supone haber efectuado previamente un curso básico de estadística, programación y matemáticas, en particular tener adquiridos los conceptos:
-Concepto de media, matriz de covarianza y correlacions.
-Concepto de prueba de hipòtesis.
-Operaciones de algebra matricial, valores y vectores propis.
-Programación de algoritmos.
-Regresión lineal múltiple