Preprocesamiento y Modelos Avanzados de Análisis de Datos

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
Mail
Preprocesamiento y modelos avanzados de análisis de datos es la tercera asignatura de una secuencia en la que se han adquirido ya los rudimentos de Probabilidad & Estadística que incluye Introducción a la Estadística (IE, Cuatrimestre 2) y los Modelos estadísticos más básicos (EM , Cuatrimestre 3). En estas asignaturas previas, el estudiante de grado de IA ha podido aprender nociones básicas de análisis exploratorio y descriptivo de datos, teoría de probabilidad y muestreo, nociones de inferencia estadística y diseño de experimentos y modelos lineales de regresión simple, respectivamente . Mientras que, en Modelización estadística, se introduce al alumno en modelos más complejos que incluyen, por un lado, modelos de clasificación, modelo lineal general y generalizado y una introducción a series temporales como algoritmos supervisados, y, de por otro lado, modelos no supervisados ¿¿que incluyen clustering y técnicas de análisis multivariante del tipo PCA.

En esta asignatura se trabajará la metodología de preprocesamiento de datos desde una perspectiva de sistematización del proceso y abordaje de escenarios más complejos, datos composicionales, variables multivaluadas, datos multilingües,... y se estudiarán métodos más complejos de imputación de datos carentes o de diagnóstico y tratamiento de outliers que permitan llevar el dato a la toma de decisiones complejas en aplicaciones reales. Esta asignatura integrará las técnicas más complejas de preprocesamiento de datos en un escenario genérico de ciencia de datos para conectar los datos depurados a modelos ya sea de estadística multivariante, como de aprendizaje automático.

Respecto a los métodos avanzados de análisis de datos, se verán técnicas de análisis multivariante nuevas, como las que permiten escalar el clustering jerárquico, nuevas formas de representar los datos (variables semánticas) o generalizan la topología de clases que se pueden reconocer y automatización del postprocesamiento de datos, que ayuda a interpretar a los patrones representantes en las clases. Por otra parte, se explorarán diferentes técnicas de estadística multivariante para tratar datos espacio-temporales y textuales, así como la extracción de tópicos.

Profesorado

Responsable

  • Dante Conti ( )

Otros

  • Sergi Ramirez Mitjans ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Competencias

Competencias Transversales

Transversales

  • CT3 [Avaluable] - Comunicación eficaz oral y escrita. Comunicarse de forma oral y escrita con otras personas sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones; participar en debates sobre temas de la propia especialidad.
  • CT4 [Avaluable] - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
  • CT8 [Avaluable] - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.

Básicas

  • CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
  • CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
  • CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía

Competencias Técnicas

Específicas

  • CE09 - Concebir, diseñar e integrar sistemas de análisis inteligente de datos con aplicación en entornos de producción y de servicios.
  • CE17 - Desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona-computadora y persona-robot.
  • CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
  • CE20 - Elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.

Competencias Técnicas Genéricas

Genéricas

  • CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
  • CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
  • CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.

Objetivos

  1. Familiarizarse con las herramientas y técnicas de análisis avanzado de datos para poder tratar datos de forma correcta e interiorizar el dato y la información obtenida como fuente de soporte a procesos de toma de decisiones.
    Competencias relacionadas: CG4, CB3, CE09, CE20,
  2. Seleccionar, tratar y adecuar los datos relevantes para hacer frente a una pregunta específica.
    Competencias relacionadas: CG4, CG8, CT8, CB4, CE09, CE17,
  3. Realizar preprocesamiento avanzado de los datos
    Competencias relacionadas: CG4, CE20,
  4. Obtener perfiles o patrones de bases de datos mixtas a partir de técnicas de clustering avanzado e interpretar los resultados con herramientas de perfilado y postprocesamiento
    Competencias relacionadas: CG4, CB2, CB4, CB5, CE09, CE20,
  5. Aplicar análisis multivariante de datos, especialmente a datos categóricos, datos mixtos y datos no estructurados
    Competencias relacionadas: CG4, CE20,
  6. Tratar datos semi o no estructurados tipo texto para minería de texto, análisis de sentimientos y Topic Modelling
    Competencias relacionadas: CG4, CE09, CE18, CE20,
  7. Analizar datos del tipo espacio-temporal. Modelar datos o problemas con variables latentes.
    Competencias relacionadas: CG4, CE20,
  8. Construir los modelos estadísticos correctamente a partir de los datos el contexto del problema de referencia y presentarlo públicamente.
    Competencias relacionadas: CG4, CG8, CT3, CB2, CE09, CE20,
  9. Desarrollar trabajos prácticos y proyectos con perspectiva de género
    Competencias relacionadas: CG8, CT8,
  10. Integrar los mecanismos de trabajo en equipo en la realización de trabajos prácticos.
    Competencias relacionadas: CT4,
  11. Tratar con destreza las herramientas informáticas necesarias para resolver los problemas reales planteados con las técnicas vistas en clase
    Competencias relacionadas: CG4, CE09, CE20,
  12. Interpretar y contextualizar los modelos construidos a partir de datos
    Competencias relacionadas: CG4, CT3, CT8,
  13. Validar los modelos obtenidos y realizar una interpretación crítica de los resultados desde un punto de vista técnico, contextualizando los resultados en el marco, referencia o entendimiento del problema tratado
    Competencias relacionadas: CG4, CG8, CE09, CE20,
  14. Realizar un informe o reporte final con las asignaciones prácticas o proyecto de asignatura
    Competencias relacionadas: CG4, CG8, CG9, CT3, CT4, CT8, CE17,
  15. Presentar públicamente un informe con los resultados del proyecto o asignación práctica de la asignatura
    Competencias relacionadas: CG4, CG8, CT3, CT4, CT8,

Contenidos

  1. Introducción
    Data quality, Importancia del Preprocesamiento de datos, Introducción a las técnicas avanzadas de análisis de datos, Relación Análisis Multivariante, Aprendizaje Automático y ciencia de datos
  2. Preprocesamiento
    Adquisición y Homogeneización de datos, Selección de variables (feature Selection, feature weighting y reducción de variables), Datos perdidos: MICE, MIMMI, Derivació de variables, Transformació de variables, Dades anòmales (outliers)
  3. Métodos avanzados de Clustering
    Escalabilidad: Estrategia CURE, Métricas y distancias mixtas, Clustering en datos mixtos, DBSCAN, OPTICS, Classificación de series temporales
  4. Análisis Factoriales
    ACM y FMAD
  5. Análisis de datos - modelos espacio-temporales
    Conceptos básicos, datos geolocalizados, visualización, distancias en análisis espacio-temporales, componentes de los modelos espacio-temporales y métodos básicos (Kriging)
  6. Text mining
    Análisis de sentimientos, Análisis semántico latente, Topic Modelling
  7. Modelización a partir de variables latentes
    Modelización a partir de variables latentes

Actividades

Actividad Acto evaluativo


Trabajo en equipo

Los alumnos se organizan en grupos y buscan unos datos reales que cumplen ciertos requisitos marcados por el profesor. Los utilizan para ir aplicando las técnicas y metodologías que se vean a lo largo del curso. Al final presentan un informe con los resultados y realizan una presentación oral con los resultados más relevantes del estudio.
Objetivos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
11h
Aprendizaje dirigido
0h
Aprendizaje autónomo
28h

Presentación inicial de la práctica

Presentación inicial de la práctica
Objetivos: 2 3 4 5 6 9 14 15
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h

Quiz 1

Quiz 1
Objetivos: 1 2 3
Semana: 3
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h

Clases de teoría del temario de la asignatura

Clases de teoría del temario de la asignatura
Objetivos: 2 3 4 5 6 7 8
Contenidos:
Teoría
30h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
30h

Quiz 2

Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos: 4 5 8
Semana: 6
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h

Presentación final de la práctica

Presentación final de la práctica
Objetivos: 14 15
Semana: 14
Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h

Quiz 3

Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos: 1 5 8 12 13
Semana: 11
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h

Quiz 4

Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos: 1 6 7 8 12 13
Semana: 14
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h

Examen Final

Examen Final
Objetivos: 1 2 3 4 5 6 7 8 11 12 13
Semana: 15 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h

Aplicación práctica temario asignatura

Ejecución de scripts prácticos en R sobre los conceptos vistos en teoría.

Teoría
0h
Problemas
0h
Laboratorio
13h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Metodología docente

Los 7 temas sugeridos se desarrollarán en 12 sesiones de clase teóricas (2 horas por semana) con sus respectivas prácticas o laboratorio (2 horas por semana también). Las 3 sesiones que carece de las 15 sesiones por cuatrimestre establecidas en la FIB, se usarán para evaluaciones teóricas (quiz o similar) y evaluaciones prácticas (defensa de trabajos prácticos a mitad del cuatrimestre y final del cuatrimestre), recordando además que existe un par de semanas donde no hay dictado de clases por ser semana de exámenes parciales y/o exámenes finales, durante las cuales se pueden ofrecer asesorías, apoyos y orientación a los estudiantes como refuerzo o preparación para sus evaluaciones.

Método de evaluación

Evaluación Ordinaria:
---------------------
(Q) Cuestionarios. 20%
(P) Proyecto. 40%
(EF) Examen Final. 40%

Nota Final Ordinaria = 0,2 * Q + 0,4 * P + 0,4 * EF

Q: Consta de 4 pruebas de 5-10 preguntas individuales y presenciales con el mismo peso sobre la nota final.

Q = (Q1 + Q2 + Q3 + Q4)/4

P. Proyecto en grupo donde se valorarán las siguientes competencias:
- (P1) Recolección de datos, análisis e interpretación de resultados (30%);
- (P2) Transmisión de resultados (20%)
- (P3) Comunicación oral y escrita (20%)
- (P4) Trabajo en equipo (10%)
- (P5) Perspectiva de género (10%)
- (P6) Autonomia (10%)

P = 0,2 * P1 + 0,2 * P2 + 0,2 * P3 +0,1 * P4 + 0,1 * P5 + 0,1 * P6

Deberá obtener una nota mínima de un 3,5 en las pruebas individuales y presenciales, es decir, 1/3 * Q + 2/3 * EF > 3,5 para aprobar la asignatura. Por otra parte, la realización del proyecto será obligatoria para poder aprobar durante la evaluación ordinaria.

Reevaluación:
---------------------------------
(EE) Examen Final Extraordinario

Nota Extraordinaria = Mínimo{7, Máximo{EE, 0,2 * Q + 0,4 * P + 0,4 * EE}}

En esta convocatoria sólo se podrán presentar aquellas personas que se han presentado al examen y lo han suspendido. Por tanto, quedan excluidas aquellas personas que no se han presentado a la Evaluación Ordinaria (NP en la Evaluación Ordinaria).

No habrá nota mínima por aprobar. La máxima nota en esta convocatoria es 7.

Bibliografía

Básica:

Complementaria:

Capacidades previas

Las asignaturas de Modelización Estadística (ME) y Probabilidad y Estadística (IE)