Análisis Multivariante

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
El objetivo de la asignatura es proveer los conceptos estadísticos del análisis multivariante de datos y sus técnicas básicas, el cual constituye uno de los pilares fundamentales de la Minería de Datos

Profesorado

Responsable

  • Dante Conti ( )
  • Karina Gibert Oliveras ( )

Otros

  • Ariel Duarte López ( )
  • David Rodriguez Segado ( )
  • Sergi Ramirez Mitjans ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2.2
Aprendizaje dirigido
0
Aprendizaje autónomo
7.53

Competencias

Competencias Transversales

Uso solvente de los recursos de información

  • CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Lengua extranjera

  • CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Espíritu emprendedor e innovador

  • CT1 - Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio. Conocer y entender los mecanismos en que se basa la investigación científica, así como los mecanismos e instrumentos de transferencia de resultados entre los diferentes agentes socioeconómicos implicados en los procesos de I+D+i.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
  • CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

Competencias Técnicas Genéricas

Genéricas

  • CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.
  • CG3 - Definir, diseñar e implementar sistemas complejos que cubran todas las fases en proyectos de ciencia de datos

Competencias Técnicas

Específicas

  • CE5 - Modelar, diseñar e implementar sistemas complejos de datos, incluyendo la visualización de datos
  • CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.
  • CE7 - Identificar las limitaciones impuestas por la calidad de datos en un problema de ciencia de datos y aplicar técnicas para disminuir su impacto
  • CE8 - Extraer información de datos estructurados y no estructurados, teniendo en cuenta la naturaleza multivariante de los mismos.
  • CE9 - Aplicar métodos adecuados para el análisis de otro tipo de formatos, tales como procesos y grafos, dentro del ámbito de ciencia de datos
  • CE10 - Identificar los métodos de aprendizaje automático y modelización estadística a utilizar para resolver un problema específico de ciencia de datos y aplicarlos de forma rigurosa
  • CE11 - Analizar y extraer conocimiento de información no estructurada mediante técnicas de procesamiento de lenguaje natural, minería de textos e imágenes
  • CE12 - Aplicar la ciencia de datos en proyectos multidisciplinares para resolver problemas en dominios nuevos o poco conocidos y que sean económicamente viables, socialmente aceptables, y de acuerdo con la legalidad vigente
  • CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.

Objetivos

  1. Descripción multivariante de los datos
    Competencias relacionadas: CT4, CE7, CE8, CE12, CE13, CB7, CB9, CB10,
  2. Visualización de los datos
    Competencias relacionadas: CT4, CT5, CT1, CG2, CE5, CB8,
  3. Inferencia multivariada
    Competencias relacionadas: CT1, CG2, CG3, CE6, CE11, CE9, CE10, CB6, CB7, CB9,
  4. Clasificación de nuevos individuos
    Competencias relacionadas: CT1, CG3, CE6, CE10, CB6, CB7,

Contenidos

  1. Introducción al Análisis de Datos Multivariado
    Ventajas del tratamiento multivariante. Ejemplos de datos multivariados. Métodos probables y libres de distribución. Enfoque exploratorio versus modelado.
  2. Análisis de Componentes Principales
    Análisis de individuos. Análisis de variables. Representación visual de la información. Reducción de dimensionalidad. Información suplementaria. Descomposición en valores singulares.
  3. Descomposición en valores singulares
    Método para explorar y visualizar filas y columnas de una tabla mediante descomposición en valores singulares.
  4. Análisis Factorial
    Método de reducción de dimensiones.
  5. Escalamiento Multidimensional
    Este método trata con datos relativos a distancias entre los elementos. Normalmente, a partir de datos procedentes de distancias o similitudes. El método pone de manifiesto una estructura común de todos los elementos y la especificidad de cada uno de ellos, evidenciando que hace que sean cerca o distantes.
  6. Clustering Jerárquico y de Particiones
    Dos enfoques para agrupar métodos utilizados para clasificar las observaciones, dentro de un conjunto de datos, en múltiples grupos en función de su semejanza.
  7. Métodos de profiling automático
    Los métodos de profiling ayudan a entender las características comunes de los clusters
  8. Distribución normal multivariante
    Particularidades de la distribución normal en el caso general de planteamientos multivariantes, donde los puntos se distribuyen en varias dimensiones.
  9. Análisis Discriminante
    El análisis discriminante (DA) y Naïve Bayes (NB) son métodos de clasificación. DA clasifica las observaciones en grupos no superpuestos, basándose en las puntuaciones de una o más variables predictoras cuantitativas. NB es un algoritmo de aprendizaje sencillo que utiliza la regla de Bayes junto con una suposición firme que los atributos son independientes condicionalmente, dada la clase.
  10. Árboles de clasificación y regresión
    Este método puede predecir o clasificar. Explica cómo se pueden predecir o clasificar los valores de una variable de resultado en función de otros valores. Tiene una estructura gráfica muy útil.
  11. Reglas de asociación
    Encontrar patrones, asociaciones, correlaciones o estructuras causales frecuentes entre conjuntos de elementos u objetos en bases de datos de transacciones, bases de datos relacionales y otros repositorios de información.

Actividades

Actividad Acto evaluativo


Presentación de la asignatura + Análisis Multivariante de datos


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis de Componentes Principales


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Descomposición en valores singulares


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Métodos de profiling automático


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Factorial


Objetivos: 4 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Escalamiento Multidimensional


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Análisis Discriminante


Objetivos: 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Árboles de Clasificación y Regresión


Objetivos: 3 4 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Clustering Jerárquico y de Particiones


Objetivos: 4 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Distribución normal multivariante


Objetivos: 4 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Reglas de asociación


Objetivos: 4
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Práctica Final



Semana: 18
Tipo: examen de laboratorio
Teoría
0h
Problemas
0h
Laboratorio
1.9h
Aprendizaje dirigido
0h
Aprendizaje autónomo
13h

Examen de conceptos



Semana: 14
Tipo: examen de teoría
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
13.1h

Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h

Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
5h


Metodología docente

El curso tiene como objetivo proporcionar las bases estadísticas para la minería de datos. El aprendizaje se realiza mediante una combinación de explicación teórica y su aplicación a un caso real. Las clases desarrollarán los conocimientos científicos necesarios, mientras que las clases de laboratorio serán su aplicación para resolver problemas de minería de datos. La implementación de prácticas favorece habilidades genéricas relacionadas con el trabajo en equipo y la presentación de resultados y sirve para integrar diferentes conocimientos de la materia. El software utilizado será principalmente R.

Método de evaluación

La evaluación del curso se basará en las notas obtenidas del trabajo práctico realizados durante el curso, una nota de teoría y la nota obtenida en la práctica final.
Cada práctica dará lugar a la redacción de la correspondiente redacción del informe y podrá realizarse de forma conjunta, hasta un máximo de cuatro alumnos por grupo .
Los ejercicios realizados a lo largo del curso tienen como objetivo consolidar el aprendizaje de técnicas multivariantes.
La práctica final es que los estudiantes demuestren su madurez para resolver un problema real utilizando técnicas de visualización multivariante, interpretación de agrupamiento y predicción. Los estudiantes elegirán entre diferentes alternativas para resolver el problema. Esta práctica será presentada y defendida públicamente, en la que el alumno deberá responder a cualquier duda sobre los modelos teóricos y métodos utilizados en la solución. Las prácticas se realizan utilizando el software R.
Las pruebas escritas evaluarán la asimilación de los conceptos básicos de la asignatura. Habrá tres pruebas a lo largo del curso, en horas de clase de teoría. Mientras que la presentación de la práctica final se realizará durante el período de exámenes.

Los ejercicios realizados durante el curso tienen una ponderación del 20%, la nota de teoría del 40% y la práctica final del 40%.

Bibliografía

Básica:

Complementaria:

Web links

Capacidades previas

La asignatura supone haber efectuado previamente un curso básico de estadística, programación y matemáticas, en particular tener adquiridos los conceptos:
-Concepto de media, matriz de covarianza y correlacions.
-Concepto de prueba de hipòtesis.
-Operaciones de algebra matricial, valores y vectores propis.
-Programación de algoritmos.
-Regresión lineal múltiple.