Preprocesamiento y modelos avanzados de análisis de datos es la tercera asignatura de una secuencia en la que se han adquirido ya los rudimentos de Probabilidad & Estadística que incluye Introducción a la Estadística (IE, Cuatrimestre 2) y los Modelos estadísticos más básicos (EM , Cuatrimestre 3). En estas asignaturas previas, el estudiante de grado de IA ha podido aprender nociones básicas de análisis exploratorio y descriptivo de datos, teoría de probabilidad y muestreo, nociones de inferencia estadística y diseño de experimentos y modelos lineales de regresión simple, respectivamente . Mientras que, en Modelización estadística, se introduce al alumno en modelos más complejos que incluyen, por un lado, modelos de clasificación, modelo lineal general y generalizado y una introducción a series temporales como algoritmos supervisados, y, de por otro lado, modelos no supervisados ¿¿que incluyen clustering y técnicas de análisis multivariante del tipo PCA.
En esta asignatura se trabajará la metodología de preprocesamiento de datos desde una perspectiva de sistematización del proceso y abordaje de escenarios más complejos, datos composicionales, variables multivaluadas, datos multilingües,... y se estudiarán métodos más complejos de imputación de datos carentes o de diagnóstico y tratamiento de outliers que permitan llevar el dato a la toma de decisiones complejas en aplicaciones reales. Esta asignatura integrará las técnicas más complejas de preprocesamiento de datos en un escenario genérico de ciencia de datos para conectar los datos depurados a modelos ya sea de estadística multivariante, como de aprendizaje automático.
Respecto a los métodos avanzados de análisis de datos, se verán técnicas de análisis multivariante nuevas, como las que permiten escalar el clustering jerárquico, nuevas formas de representar los datos (variables semánticas) o generalizan la topología de clases que se pueden reconocer y automatización del postprocesamiento de datos, que ayuda a interpretar a los patrones representantes en las clases. Por otra parte, se explorarán diferentes técnicas de estadística multivariante para tratar datos espacio-temporales y textuales, así como la extracción de tópicos.
Profesorado
Responsable
Dante Conti (
)
Otros
Sergi Ramirez Mitjans (
)
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6
Competencias
Competencias Transversales
Transversales
CT3 [Avaluable] - Comunicación eficaz oral y escrita. Comunicarse de forma oral y escrita con otras personas sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones; participar en debates sobre temas de la propia especialidad.
CT4 [Avaluable] - Trabajo en equipo. Ser capaz de trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
CT8 [Avaluable] - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.
Básicas
CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía
Competencias Técnicas
Específicas
CE09 - Concebir, diseñar e integrar sistemas de análisis inteligente de datos con aplicación en entornos de producción y de servicios.
CE17 - Desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona-computadora y persona-robot.
CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
CE20 - Elegir y emplear técnicas de modelización estadística y análisis de datos, evaluando la calidad de los modelos, validándolos e interpretándolos.
Competencias Técnicas Genéricas
Genéricas
CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.
Objetivos
Familiarizarse con las herramientas y técnicas de análisis avanzado de datos para poder tratar datos de forma correcta e interiorizar el dato y la información obtenida como fuente de soporte a procesos de toma de decisiones.
Competencias relacionadas:
CG4,
CB3,
CE09,
CE20,
Seleccionar, tratar y adecuar los datos relevantes para hacer frente a una pregunta específica.
Competencias relacionadas:
CG4,
CG8,
CT8,
CB4,
CE09,
CE17,
Realizar preprocesamiento avanzado de los datos
Competencias relacionadas:
CG4,
CE20,
Obtener perfiles o patrones de bases de datos mixtas a partir de técnicas de clustering avanzado e interpretar los resultados con herramientas de perfilado y postprocesamiento
Competencias relacionadas:
CG4,
CB2,
CB4,
CB5,
CE09,
CE20,
Aplicar análisis multivariante de datos, especialmente a datos categóricos, datos mixtos y datos no estructurados
Competencias relacionadas:
CG4,
CE20,
Tratar datos semi o no estructurados tipo texto para minería de texto, análisis de sentimientos y Topic Modelling
Competencias relacionadas:
CG4,
CE09,
CE18,
CE20,
Analizar datos del tipo espacio-temporal. Modelar datos o problemas con variables latentes.
Competencias relacionadas:
CG4,
CE20,
Construir los modelos estadísticos correctamente a partir de los datos el contexto del problema de referencia y presentarlo públicamente.
Competencias relacionadas:
CG4,
CG8,
CT3,
CB2,
CE09,
CE20,
Desarrollar trabajos prácticos y proyectos con perspectiva de género
Competencias relacionadas:
CG8,
CT8,
Integrar los mecanismos de trabajo en equipo en la realización de trabajos prácticos.
Competencias relacionadas:
CT4,
Tratar con destreza las herramientas informáticas necesarias para resolver los problemas reales planteados con las técnicas vistas en clase
Competencias relacionadas:
CG4,
CE09,
CE20,
Interpretar y contextualizar los modelos construidos a partir de datos
Competencias relacionadas:
CG4,
CT3,
CT8,
Validar los modelos obtenidos y realizar una interpretación crítica de los resultados desde un punto de vista técnico, contextualizando los resultados en el marco, referencia o entendimiento del problema tratado
Competencias relacionadas:
CG4,
CG8,
CE09,
CE20,
Realizar un informe o reporte final con las asignaciones prácticas o proyecto de asignatura
Competencias relacionadas:
CG4,
CG8,
CG9,
CT3,
CT4,
CT8,
CE17,
Presentar públicamente un informe con los resultados del proyecto o asignación práctica de la asignatura
Competencias relacionadas:
CG4,
CG8,
CT3,
CT4,
CT8,
Contenidos
Introducción
Data quality, Importancia del Preprocesamiento de datos, Introducción a las técnicas avanzadas de análisis de datos, Relación Análisis Multivariante, Aprendizaje Automático y ciencia de datos
Preprocesamiento
Adquisición y Homogeneización de datos, Selección de variables (feature Selection, feature weighting y reducción de variables), Datos perdidos: MICE, MIMMI, Derivació de variables, Transformació de variables, Dades anòmales (outliers)
Métodos avanzados de Clustering
Escalabilidad: Estrategia CURE, Métricas y distancias mixtas, Clustering en datos mixtos, DBSCAN, OPTICS, Classificación de series temporales
Análisis Factoriales
ACM y FMAD
Análisis de datos - modelos espacio-temporales
Conceptos básicos, datos geolocalizados, visualización, distancias en análisis espacio-temporales, componentes de los modelos espacio-temporales y métodos básicos (Kriging)
Text mining
Análisis de sentimientos, Análisis semántico latente, Topic Modelling
Modelización a partir de variables latentes
Modelización a partir de variables latentes
Actividades
ActividadActo evaluativo
Trabajo en equipo
Los alumnos se organizan en grupos y buscan unos datos reales que cumplen ciertos requisitos marcados por el profesor. Los utilizan para ir aplicando las técnicas y metodologías que se vean a lo largo del curso. Al final presentan un informe con los resultados y realizan una presentación oral con los resultados más relevantes del estudio. Objetivos:123456789101112131415 Contenidos:
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio Objetivos:458 Semana:
6
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h
Presentación final de la práctica
Presentación final de la práctica Objetivos:1415 Semana:
14
Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h
Quiz 3
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio Objetivos:1581213 Semana:
11
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h
Quiz 4
Durante el curso se realizarán pruebas de respuesta corta para fijar prendas de aprendizaje. Se realizará al final de ciertas clases de laboratorio Objetivos:16781213 Semana:
14
Teoría
0h
Problemas
0h
Laboratorio
0.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0.5h
Examen Final
Examen Final Objetivos:12345678111213 Semana:
15 (Fuera de horario lectivo)
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h
Aplicación práctica temario asignatura
Ejecución de scripts prácticos en R sobre los conceptos vistos en teoría.
Teoría
0h
Problemas
0h
Laboratorio
13h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h
Metodología docente
Los 7 temas sugeridos se desarrollarán en 12 sesiones de clase teóricas (2 horas por semana) con sus respectivas prácticas o laboratorio (2 horas por semana también). Las 3 sesiones que carece de las 15 sesiones por cuatrimestre establecidas en la FIB, se usarán para evaluaciones teóricas (quiz o similar) y evaluaciones prácticas (defensa de trabajos prácticos a mitad del cuatrimestre y final del cuatrimestre), recordando además que existe un par de semanas donde no hay dictado de clases por ser semana de exámenes parciales y/o exámenes finales, durante las cuales se pueden ofrecer asesorías, apoyos y orientación a los estudiantes como refuerzo o preparación para sus evaluaciones.
Nota Final Ordinaria = 0,2 * Q + 0,4 * P + 0,4 * EF
Q: Consta de 4 pruebas de 5-10 preguntas individuales y presenciales con el mismo peso sobre la nota final.
Q = (Q1 + Q2 + Q3 + Q4)/4
P. Proyecto en grupo donde se valorarán las siguientes competencias:
- (P1) Recolección de datos, análisis e interpretación de resultados (30%);
- (P2) Transmisión de resultados (20%)
- (P3) Comunicación oral y escrita (20%)
- (P4) Trabajo en equipo (10%)
- (P5) Perspectiva de género (10%)
- (P6) Autonomia (10%)
Deberá obtener una nota mínima de un 3,5 en las pruebas individuales y presenciales, es decir, 1/3 * Q + 2/3 * EF > 3,5 para aprobar la asignatura. Por otra parte, la realización del proyecto será obligatoria para poder aprobar durante la evaluación ordinaria.
Reevaluación:
---------------------------------
(EE) Examen Final Extraordinario
Nota Extraordinaria = Mínimo{7, Máximo{EE, 0,2 * Q + 0,4 * P + 0,4 * EE}}
En esta convocatoria sólo se podrán presentar aquellas personas que se han presentado al examen y lo han suspendido. Por tanto, quedan excluidas aquellas personas que no se han presentado a la Evaluación Ordinaria (NP en la Evaluación Ordinaria).
No habrá nota mínima por aprobar. La máxima nota en esta convocatoria es 7.
Bibliografía
Básica:
A survey on pre-processing techniques: Relevant issues in the context of environmental data Mining -
Gibert, Karina; Sànchez-Marré, Mquel; Izquierdo, Joaquin,
AI communications: the european journal of artificial intelligence, 2016. https://upcommons.upc.edu/handle/2117/123530
Exploratory multivariate analysis by example using R -
Husson, François; Lê, Sébastien; Pagès, Jérôme, CRC Press, Taylor & Francis ,
2017.
ISBN: 9781315301860
Correspondence Analysis in Practice -
Greenacre, Michael, Chapman and Hall/CRC ,
2016.
ISBN: 9781315369983
Capacidades previas
Las asignaturas de Modelización Estadística (ME) y Probabilidad y Estadística (IE)