Preprocesamiento y Modelos Avanzados de Análisis de Datos

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
Mail
Preprocesamiento y modelos avanzados de análisis de datos es la tercera asignatura de una secuencia en la que se han adquirido ya los rudimentos de Probabilidad & Estadística que incluye Introducción a la Estadística (IE, Cuatrimestre 2) y los Modelos estadísticos más básicos (EM , Cuatrimestre 3). En estas asignaturas previas, el estudiante de grado de IA ha podido aprender nociones básicas de análisis exploratorio y descriptivo de datos, teoría de probabilidad y muestreo, nociones de inferencia estadística y diseño de experimentos y modelos lineales de regresión simple, respectivamente . Mientras que, en Modelización estadística, se introduce al alumno en modelos más complejos que incluyen, por un lado, modelos de clasificación, modelo lineal general y generalizado y una introducción a series temporales como algoritmos supervisados, y, de por otro lado, modelos no supervisados ¿¿que incluyen clustering y técnicas de análisis multivariante del tipo PCA.

En esta asignatura se trabajará la metodología de preprocesamiento de datos desde una perspectiva de sistematización del proceso y abordaje de escenarios más complejos, datos composicionales, variables multivaluadas, datos multilingües,... y se estudiarán métodos más complejos de imputación de datos carentes o de diagnóstico y tratamiento de outliers que permitan llevar el dato a la toma de decisiones complejas en aplicaciones reales. Esta asignatura integrará las técnicas más complejas de preprocesamiento de datos en un escenario genérico de ciencia de datos para conectar los datos depurados a modelos ya sea de estadística multivariante, como de aprendizaje automático.

Respecto a los métodos avanzados de análisis de datos, se verán técnicas de análisis multivariante nuevas, como las que permiten escalar el clustering jerárquico, nuevas formas de representar los datos (variables semánticas) o generalizan la topología de clases que se pueden reconocer y automatización del postprocesamiento de datos, que ayuda a interpretar a los patrones representantes en las clases. Por otra parte, se explorarán diferentes técnicas de estadística multivariante para tratar datos espacio-temporales y textuales, así como la extracción de tópicos.

Profesorado

Responsable

  • Karina Gibert Oliveras ( )

Otros

  • Dante Conti ( )
  • Miquel Umbert Bosch ( )
  • Sergi Ramirez Mitjans ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Competencias

Competencias Transversales

Transversales

  • CT3 [Avaluable] - Comunicación eficaz oral y escrita. Comunicarse de forma oral y escrita con otras personas sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones; participar en debates sobre temas de la propia especialidad.
  • CT4 [Avaluable] - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
  • CT7 - Tercera lengua. Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.
  • CT8 [Avaluable] - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.

Básicas

  • CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
  • CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
  • CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía

Competencias Técnicas

Específicas

  • CE09 - Concebir, diseñar e integrar sistemas de análisis inteligente de datos con aplicación en entornos de producción y de servicios.
  • CE17 - Desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona-computadora y persona-robot.
  • CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
  • CE20 - Elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.

Competencias Técnicas Genéricas

Genéricas

  • CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
  • CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
  • CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.

Objetivos

  1. Familiarizarse con las herramientas y técnicas de análisis avanzado de datos para poder tratar datos de forma correcta e interiorizar el dato y la información obtenida como fuente de soporte a procesos de toma de decisiones.
    Competencias relacionadas: CG4, CB3, CE09, CE20,
  2. Seleccionar, tratar y adecuar los datos relevantes para hacer frente a una pregunta específica.
    Competencias relacionadas: CG4, CG8, CT8, CB4, CE09, CE17,
  3. Realizar preprocesamiento avanzado de los datos
    Competencias relacionadas: CG4, CE20,
  4. Obtener perfiles o patrones de bases de datos mixtas a partir de técnicas de clustering avanzado e interpretar los resultados con herramientas de perfilado y postprocesamiento
    Competencias relacionadas: CG4, CB2, CB4, CB5, CE09, CE20,
  5. Aplicar análisis multivariante de datos, especialmente a datos categóricos, datos mixtos y datos no estructurados
    Competencias relacionadas: CG4, CE20,
  6. Tratar datos semi o no estructurados tipo texto para minería de texto, análisis de sentimientos y Topic Modelling
    Competencias relacionadas: CG4, CE09, CE18, CE20,
  7. Analizar datos del tipo espacio-temporal. Modelar datos o problemas con variables latentes.
    Competencias relacionadas: CG4, CE20,
  8. Construir los modelos estadísticos correctamente a partir de los datos el contexto del problema de referencia y presentarlo públicamente.
    Competencias relacionadas: CG4, CG8, CT3, CB2, CE09, CE20,
  9. Desarrollar trabajos prácticos y proyectos con perspectiva de género
    Competencias relacionadas: CG8, CT8,
  10. Integrar los mecanismos de trabajo en equipo en la realización de trabajos prácticos.
    Competencias relacionadas: CT4,
  11. Tratar con destreza las herramientas informáticas necesarias para resolver los problemas reales planteados con las técnicas vistas en clase
    Competencias relacionadas: CG4, CE09, CE20,
  12. Interpretar y contextualizar los modelos construidos a partir de datos
    Competencias relacionadas: CG4, CT3, CT8,
  13. Validar los modelos obtenidos y realizar una interpretación crítica de los resultados desde un punto de vista técnico, contextualizando los resultados en el marco, referencia o entendimiento del problema tratado
    Competencias relacionadas: CG4, CG8, CE09, CE20,
  14. Realizar un informe o reporte final con las asignaciones prácticas o proyecto de asignatura
    Competencias relacionadas: CG4, CG8, CG9, CT3, CT4, CT7, CT8, CE17,
  15. Presentar públicamente un informe con los resultados del proyecto o asignación práctica de la asignatura
    Competencias relacionadas: CG4, CG8, CT3, CT4, CT7, CT8,

Contenidos

  1. Introducción
    Data quality, Importancia del Preprocesamiento de datos, Introducción a las técnicas avanzadas de análisis de datos, Relación Análisis Multivariante, Aprendizaje Automático y ciencia de datos
  2. Preprocesamiento
    Adquisición y Homogeneización de datos, Selección de variables (feature Selection, feature weighting y reducción de variables), Datos perdidos: MICE, MIMMI, Derivació de variables, Transformació de variables, Dades anòmales (outliers)
  3. Métodos avanzados de Clustering
    Escalabilidad: Estrategia CURE, Métricas y distancias mixtas, Distancias basadas en ontologías, Clustering en datos mixtos, DBSCAN, OPTICS, Classificación de series temporales
  4. Análisis de correspondencia Múltiples y análisis factorial múltiple
    ACM
  5. Análisis de datos - modelos espaciotemporales
    Conceptes bàsics, dades geolocalitzades, distància geodèsica, components dels models espai-temporals i mètodes bàsics
  6. Text mining
    Análisis de sentimientos, Análisis semántico latente, Topic Modelling
  7. Modelización a partir de variables latentes
    Modelización a partir de variables latentes

Actividades

Actividad Acto evaluativo


Trabajo en equipo

Los alumnos se organizan en grupos y buscan unos datos reales que cumplen ciertos requisitos marcados por el profesor. Los utilizan para ir aplicando las técnicas y metodologías que se vean a lo largo del curso. Al final presentan un informe con los resultados y realizan una presentación oral con los resultados más relevantes del estudio.
Objetivos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
28h
Aprendizaje dirigido
0h
Aprendizaje autónomo
50h

Presentación inicial de la práctica

Presentación inicial de la práctica
Objetivos: 2 3 4 5 6 9 14 15
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Quiz 1

Quiz 1
Objetivos: 2 3
Semana: 3
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Teoría
30h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
30h

Quiz 2

Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
Objetivos: 4 5 8
Semana: 7
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Presentación final de la práctica

Presentación final de la práctica
Objetivos: 14 15
Semana: 15 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Quiz 3



Semana: 13
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Quiz 4

Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio

Semana: 15 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Metodología docente

Los 12 temas sugeridos se desarrollarán en 12 sesiones de clase teóricas (2 horas por semana) con sus respectivas prácticas o laboratorio (2 horas por semana también). Las 3 sesiones que carece de las 15 sesiones por cuatrimestre establecidas en la FIB, se usarán para evaluaciones teóricas (quiz o similar) y evaluaciones prácticas (defensa de trabajos prácticos a mitad del cuatrimestre y final del cuatrimestre), recordando además que existe un par de semanas donde no hay dictado de clases por ser semana de exámenes parciales y/o exámenes finales, durante las cuales se pueden ofrecer asesorías, apoyos y orientación a los estudiantes como refuerzo o preparación para sus evaluaciones.

Método de evaluación

Propone el siguiente sistema de evaluación:
- Treball en equip realitzat al llarg del curs 20%.
- Prova oral de control de coneixements 10% (discusión entre el profesor y la presentación oral dels treballs en equip).
- Qualitat i rendiment de l'equip de treball. 10%.
- Comunicación oral y escrita 10%.
- Etica de l'equip de treball i del treball propiment dit 10%
- Perspectiva de género de l'equip i del treball 10%.
- Asistencia y participación en clases y laboratorios. 10%
- 4 Quiz al llarg del curs 20%.

Reevaluación

Sólo se pueden presentar en el examen de reevaluación quienes previamente se hayan presentado al examen final y lo hayan suspendido.

Bibliografía

Básica:

Complementaria:

Web links

Capacidades previas

Las asignaturas de Modelización Estadística y Probabilidad y Estadística