Pasar al contenido principal

Preprocesamiento y Modelos Avanzados de Análisis de Datos

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos , pero tiene capacidades previas
Departamento
EIO
Mail
dante.conti@upc.edu
Preprocesamiento y modelos avanzados de análisis de datos es la tercera asignatura de una secuencia en la que se han adquirido ya los rudimentos de Probabilidad & Estadística que incluye Introducción a la Estadística (IE, Cuatrimestre 2) y los Modelos estadísticos más básicos (EM , Cuatrimestre 3). En estas asignaturas previas, el estudiante de grado de IA ha podido aprender nociones básicas de análisis exploratorio y descriptivo de datos, teoría de probabilidad y muestreo, nociones de inferencia estadística y diseño de experimentos y modelos lineales de regresión simple, respectivamente . Mientras que, en Modelización estadística, se introduce al alumno en modelos más complejos que incluyen, por un lado, modelos de clasificación, modelo lineal general y generalizado y una introducción a series temporales como algoritmos supervisados, y, de por otro lado, modelos no supervisados ¿¿que incluyen clustering y técnicas de análisis multivariante del tipo PCA.

En esta asignatura se trabajará la metodología de preprocesamiento de datos desde una perspectiva de sistematización del proceso y abordaje de escenarios más complejos, datos composicionales, variables multivaluadas, datos multilingües,... y se estudiarán métodos más complejos de imputación de datos carentes o de diagnóstico y tratamiento de outliers que permitan llevar el dato a la toma de decisiones complejas en aplicaciones reales. Esta asignatura integrará las técnicas más complejas de preprocesamiento de datos en un escenario genérico de ciencia de datos para conectar los datos depurados a modelos ya sea de estadística multivariante, como de aprendizaje automático.

Respecto a los métodos avanzados de análisis de datos, se verán técnicas de análisis multivariante nuevas, como las que permiten escalar el clustering jerárquico, nuevas formas de representar los datos (variables semánticas) o generalizan la topología de clases que se pueden reconocer y automatización del postprocesamiento de datos, que ayuda a interpretar a los patrones representantes en las clases. Por otra parte, se explorarán diferentes técnicas de estadística multivariante para tratar datos espacio-temporales y textuales, así como la extracción de tópicos.

Profesorado

Responsable

  • Dante Conti (dante.conti@upc.edu)

Otros

  • Sergi Ramirez Mitjans (sergi.ramirez@upc.edu)

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Competencias

Transversales

  • CT3 [Avaluable] - Comunicación eficaz oral y escrita. Comunicarse de forma oral y escrita con otras personas sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones; participar en debates sobre temas de la propia especialidad.
  • CT4 [Avaluable] - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
  • CT8 [Avaluable] - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.
  • Básicas

  • CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
  • CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
  • CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía
  • Específicas

  • CE09 - Concebir, diseñar e integrar sistemas de análisis inteligente de datos con aplicación en entornos de producción y de servicios.
  • CE17 - Desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona-computadora y persona-robot.
  • CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
  • CE20 - Elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.
  • Genéricas

  • CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
  • CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
  • CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.
  • Objetivos

    1. Familiarizarse con las herramientas y técnicas de análisis avanzado de datos para poder tratar datos de forma correcta e interiorizar el dato y la información obtenida como fuente de soporte a procesos de toma de decisiones.
      Competencias relacionadas: CG4, CB3, CE09, CE20,
    2. Seleccionar, tratar y adecuar los datos relevantes para hacer frente a una pregunta específica.
      Competencias relacionadas: CG4, CG8, CT8, CB4, CE09, CE17,
    3. Realizar preprocesamiento avanzado de los datos
      Competencias relacionadas: CG4, CE20,
    4. Obtener perfiles o patrones de bases de datos mixtas a partir de técnicas de clustering avanzado e interpretar los resultados con herramientas de perfilado y postprocesamiento
      Competencias relacionadas: CG4, CB2, CB4, CB5, CE09, CE20,
    5. Aplicar análisis multivariante de datos, especialmente a datos categóricos, datos mixtos y datos no estructurados
      Competencias relacionadas: CG4, CE20,
    6. Tratar datos semi o no estructurados tipo texto para minería de texto, análisis de sentimientos y Topic Modelling
      Competencias relacionadas: CG4, CE09, CE18, CE20,
    7. Analizar datos del tipo espacio-temporal. Modelar datos o problemas con variables latentes.
      Competencias relacionadas: CG4, CE20,
    8. Construir los modelos estadísticos correctamente a partir de los datos el contexto del problema de referencia y presentarlo públicamente.
      Competencias relacionadas: CG4, CG8, CT3, CB2, CE09, CE20,
    9. Desarrollar trabajos prácticos y proyectos con perspectiva de género
      Competencias relacionadas: CG8, CT8,
    10. Integrar los mecanismos de trabajo en equipo en la realización de trabajos prácticos.
      Competencias relacionadas: CT4,
    11. Tratar con destreza las herramientas informáticas necesarias para resolver los problemas reales planteados con las técnicas vistas en clase
      Competencias relacionadas: CG4, CE09, CE20,
    12. Interpretar y contextualizar los modelos construidos a partir de datos
      Competencias relacionadas: CG4, CT3, CT8,
    13. Validar los modelos obtenidos y realizar una interpretación crítica de los resultados desde un punto de vista técnico, contextualizando los resultados en el marco, referencia o entendimiento del problema tratado
      Competencias relacionadas: CG4, CG8, CE09, CE20,
    14. Realizar un informe o reporte final con las asignaciones prácticas o proyecto de asignatura
      Competencias relacionadas: CG4, CG8, CG9, CT3, CT4, CT8, CE17,
    15. Presentar públicamente un informe con los resultados del proyecto o asignación práctica de la asignatura
      Competencias relacionadas: CG4, CG8, CT3, CT4, CT8,

    Contenidos

    1. Introducción
      Data quality, Importancia del Preprocesamiento de datos, Introducción a las técnicas avanzadas de análisis de datos, Relación Análisis Multivariante, Aprendizaje Automático y ciencia de datos
    2. Preprocesamiento
      Adquisición y Homogeneización de datos, Selección de variables (feature Selection, feature weighting y reducción de variables), Datos perdidos: MICE, MIMMI, Derivació de variables, Transformació de variables, Dades anòmales (outliers)
    3. Métodos avanzados de Clustering
      Escalabilidad: Estrategia CURE, Métricas y distancias mixtas, Clustering en datos mixtos, DBSCAN, OPTICS, Classificación de series temporales
    4. Análisis Factoriales
      ACM y FMAD
    5. Análisis de datos - modelos espacio-temporales
      Conceptos básicos, datos geolocalizados, visualización, distancias en análisis espacio-temporales, componentes de los modelos espacio-temporales y métodos básicos (Kriging)
    6. Text mining
      Análisis de sentimientos, Análisis semántico latente, Topic Modelling
    7. Modelización a partir de variables latentes
      Modelización a partir de variables latentes

    Actividades

    Actividad Acto evaluativo


    Trabajo en equipo

    Los alumnos se organizan en grupos y buscan unos datos reales que cumplen ciertos requisitos marcados por el profesor. Los utilizan para ir aplicando las técnicas y metodologías que se vean a lo largo del curso. Al final presentan un informe con los resultados y realizan una presentación oral con los resultados más relevantes del estudio.
    Objetivos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
    Contenidos:
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    11h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    28h

    Presentación inicial de la práctica

    Presentación inicial de la práctica
    Objetivos: 2 3 4 5 6 9 14 15
    Contenidos:
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    2h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    10h

    Quiz 1

    Quiz 1
    Objetivos: 1 2 3
    Semana: 3
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Clases de teoría del temario de la asignatura

    Clases de teoría del temario de la asignatura
    Objetivos: 2 3 4 5 6 7 8
    Contenidos:
    Teoría
    30h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    30h

    Quiz 2

    Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
    Objetivos: 4 5 8
    Semana: 6
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Presentación final de la práctica

    Presentación final de la práctica
    Objetivos: 14 15
    Semana: 14
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Quiz 3

    Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
    Objetivos: 1 5 8 12 13
    Semana: 11
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Quiz 4

    Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio
    Objetivos: 1 6 7 8 12 13
    Semana: 14
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Examen Final

    Examen Final
    Objetivos: 1 2 3 4 5 6 7 8 11 12 13
    Semana: 15 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Aplicación práctica temario asignatura

    Ejecución de scripts prácticos en R sobre los conceptos vistos en teoría.

    Teoría
    0h
    Problemas
    0h
    Laboratorio
    13h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Metodología docente

    Los 7 temas sugeridos se desarrollarán en 12 sesiones de clase teóricas (2 horas por semana) con sus respectivas prácticas o laboratorio (2 horas por semana también). Las 3 sesiones que carece de las 15 sesiones por cuatrimestre establecidas en la FIB, se usarán para evaluaciones teóricas (quiz o similar) y evaluaciones prácticas (defensa de trabajos prácticos a mitad del cuatrimestre y final del cuatrimestre), recordando además que existe un par de semanas donde no hay dictado de clases por ser semana de exámenes parciales y/o exámenes finales, durante las cuales se pueden ofrecer asesorías, apoyos y orientación a los estudiantes como refuerzo o preparación para sus evaluaciones.

    Método de evaluación

    Evaluación Ordinaria:
    ---------------------
    (Q) Cuestionarios. 20%
    (P) Proyecto. 40%
    (EF) Examen Final. 40%

    Nota Final Ordinaria = 0,2 * Q + 0,4 * P + 0,4 * EF

    Q: Consta de 4 pruebas de 5-10 preguntas individuales y presenciales con el mismo peso sobre la nota final.

    Q = (Q1 + Q2 + Q3 + Q4)/4

    P. Proyecto en grupo donde se valorarán las siguientes competencias:
    - (P1) Recolección de datos, análisis e interpretación de resultados (30%);
    - (P2) Transmisión de resultados (20%)
    - (P3) Comunicación oral y escrita (20%)
    - (P4) Trabajo en equipo (10%)
    - (P5) Perspectiva de género (10%)
    - (P6) Autonomia (10%)

    P = 0,2 * P1 + 0,2 * P2 + 0,2 * P3 +0,1 * P4 + 0,1 * P5 + 0,1 * P6

    Deberá obtener una nota mínima de un 3,5 en las pruebas individuales y presenciales, es decir, 1/3 * Q + 2/3 * EF > 3,5 para aprobar la asignatura. Por otra parte, la realización del proyecto será obligatoria para poder aprobar durante la evaluación ordinaria.

    Reevaluación:
    ---------------------------------
    (EE) Examen Final Extraordinario

    Nota Extraordinaria = Mínimo{7, Máximo{EE, 0,2 * Q + 0,4 * P + 0,4 * EE}}

    En esta convocatoria sólo se podrán presentar aquellas personas que se han presentado al examen y lo han suspendido. Por tanto, quedan excluidas aquellas personas que no se han presentado a la Evaluación Ordinaria (NP en la Evaluación Ordinaria).

    No habrá nota mínima por aprobar. La máxima nota en esta convocatoria es 7.

    Bibliografía

    Básico

    Complementario

    Capacidades previas

    Las asignaturas de Modelización Estadística (ME) y Probabilidad y Estadística (IE)