Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
EIO
Mail
dante.conti@upc.edu
En esta asignatura se trabajará la metodología de preprocesamiento de datos desde una perspectiva de sistematización del proceso y abordaje de escenarios más complejos, datos composicionales, variables multivaluadas, datos multilingües,... y se estudiarán métodos más complejos de imputación de datos carentes o de diagnóstico y tratamiento de outliers que permitan llevar el dato a la toma de decisiones complejas en aplicaciones reales. Esta asignatura integrará las técnicas más complejas de preprocesamiento de datos en un escenario genérico de ciencia de datos para conectar los datos depurados a modelos ya sea de estadística multivariante, como de aprendizaje automático.
Respecto a los métodos avanzados de análisis de datos, se verán técnicas de análisis multivariante nuevas, como las que permiten escalar el clustering jerárquico, nuevas formas de representar los datos (variables semánticas) o generalizan la topología de clases que se pueden reconocer y automatización del postprocesamiento de datos, que ayuda a interpretar a los patrones representantes en las clases. Por otra parte, se explorarán diferentes técnicas de estadística multivariante para tratar datos espacio-temporales y textuales, así como la extracción de tópicos.
Profesorado
Responsable
- Dante Conti (dante.conti@upc.edu)
Otros
- Sergi Ramirez Mitjans (sergi.ramirez@upc.edu)
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6
Competencias
Transversales
Básicas
Específicas
Genéricas
Objetivos
-
Familiarizarse con las herramientas y técnicas de análisis avanzado de datos para poder tratar datos de forma correcta e interiorizar el dato y la información obtenida como fuente de soporte a procesos de toma de decisiones.
Competencias relacionadas: CG4, CB3, CE09, CE20, -
Seleccionar, tratar y adecuar los datos relevantes para hacer frente a una pregunta específica.
Competencias relacionadas: CG4, CG8, CT8, CB4, CE09, CE17, -
Realizar preprocesamiento avanzado de los datos
Competencias relacionadas: CG4, CE20, -
Obtener perfiles o patrones de bases de datos mixtas a partir de técnicas de clustering avanzado e interpretar los resultados con herramientas de perfilado y postprocesamiento
Competencias relacionadas: CG4, CB2, CB4, CB5, CE09, CE20, -
Aplicar análisis multivariante de datos, especialmente a datos categóricos, datos mixtos y datos no estructurados
Competencias relacionadas: CG4, CE20, -
Tratar datos semi o no estructurados tipo texto para minería de texto, análisis de sentimientos y Topic Modelling
Competencias relacionadas: CG4, CE09, CE18, CE20, -
Analizar datos del tipo espacio-temporal. Modelar datos o problemas con variables latentes.
Competencias relacionadas: CG4, CE20, -
Construir los modelos estadísticos correctamente a partir de los datos el contexto del problema de referencia y presentarlo públicamente.
Competencias relacionadas: CG4, CG8, CT3, CB2, CE09, CE20, -
Desarrollar trabajos prácticos y proyectos con perspectiva de género
Competencias relacionadas: CG8, CT8, -
Integrar los mecanismos de trabajo en equipo en la realización de trabajos prácticos.
Competencias relacionadas: CT4, -
Tratar con destreza las herramientas informáticas necesarias para resolver los problemas reales planteados con las técnicas vistas en clase
Competencias relacionadas: CG4, CE09, CE20, -
Interpretar y contextualizar los modelos construidos a partir de datos
Competencias relacionadas: CG4, CT3, CT8, -
Validar los modelos obtenidos y realizar una interpretación crítica de los resultados desde un punto de vista técnico, contextualizando los resultados en el marco, referencia o entendimiento del problema tratado
Competencias relacionadas: CG4, CG8, CE09, CE20, -
Realizar un informe o reporte final con las asignaciones prácticas o proyecto de asignatura
Competencias relacionadas: CG4, CG8, CG9, CT3, CT4, CT8, CE17, -
Presentar públicamente un informe con los resultados del proyecto o asignación práctica de la asignatura
Competencias relacionadas: CG4, CG8, CT3, CT4, CT8,
Contenidos
-
Introducción
Data quality, Importancia del Preprocesamiento de datos, Introducción a las técnicas avanzadas de análisis de datos, Relación Análisis Multivariante, Aprendizaje Automático y ciencia de datos -
Preprocesamiento
Adquisición y Homogeneización de datos, Selección de variables (feature Selection, feature weighting y reducción de variables), Datos perdidos: MICE, MIMMI, Derivació de variables, Transformació de variables, Dades anòmales (outliers) -
Métodos avanzados de Clustering
Escalabilidad: Estrategia CURE, Métricas y distancias mixtas, Clustering en datos mixtos, DBSCAN, OPTICS, Classificación de series temporales -
Análisis Factoriales
ACM y FMAD -
Análisis de datos - modelos espacio-temporales
Conceptos básicos, datos geolocalizados, visualización, distancias en análisis espacio-temporales, componentes de los modelos espacio-temporales y métodos básicos (Kriging) -
Text mining
Análisis de sentimientos, Análisis semántico latente, Topic Modelling -
Modelización a partir de variables latentes
Modelización a partir de variables latentes
Actividades
Actividad Acto evaluativo
Trabajo en equipo
Los alumnos se organizan en grupos y buscan unos datos reales que cumplen ciertos requisitos marcados por el profesor. Los utilizan para ir aplicando las técnicas y metodologías que se vean a lo largo del curso. Al final presentan un informe con los resultados y realizan una presentación oral con los resultados más relevantes del estudio.Objetivos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
11h
Aprendizaje dirigido
0h
Aprendizaje autónomo
28h
Aplicación práctica temario asignatura
Ejecución de scripts prácticos en R sobre los conceptos vistos en teoría.
Teoría
0h
Problemas
0h
Laboratorio
13h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h
Metodología docente
Los 7 temas sugeridos se desarrollarán en 12 sesiones de clase teóricas (2 horas por semana) con sus respectivas prácticas o laboratorio (2 horas por semana también). Las 3 sesiones que carece de las 15 sesiones por cuatrimestre establecidas en la FIB, se usarán para evaluaciones teóricas (quiz o similar) y evaluaciones prácticas (defensa de trabajos prácticos a mitad del cuatrimestre y final del cuatrimestre), recordando además que existe un par de semanas donde no hay dictado de clases por ser semana de exámenes parciales y/o exámenes finales, durante las cuales se pueden ofrecer asesorías, apoyos y orientación a los estudiantes como refuerzo o preparación para sus evaluaciones.Método de evaluación
Evaluación Ordinaria:---------------------
(Q) Cuestionarios. 20%
(P) Proyecto. 40%
(EF) Examen Final. 40%
Nota Final Ordinaria = 0,2 * Q + 0,4 * P + 0,4 * EF
Q: Consta de 4 pruebas de 5-10 preguntas individuales y presenciales con el mismo peso sobre la nota final.
Q = (Q1 + Q2 + Q3 + Q4)/4
P. Proyecto en grupo donde se valorarán las siguientes competencias:
- (P1) Recolección de datos, análisis e interpretación de resultados (30%);
- (P2) Transmisión de resultados (20%)
- (P3) Comunicación oral y escrita (20%)
- (P4) Trabajo en equipo (10%)
- (P5) Perspectiva de género (10%)
- (P6) Autonomia (10%)
P = 0,2 * P1 + 0,2 * P2 + 0,2 * P3 +0,1 * P4 + 0,1 * P5 + 0,1 * P6
Deberá obtener una nota mínima de un 3,5 en las pruebas individuales y presenciales, es decir, 1/3 * Q + 2/3 * EF > 3,5 para aprobar la asignatura. Por otra parte, la realización del proyecto será obligatoria para poder aprobar durante la evaluación ordinaria.
Reevaluación:
---------------------------------
(EE) Examen Final Extraordinario
Nota Extraordinaria = Mínimo{7, Máximo{EE, 0,2 * Q + 0,4 * P + 0,4 * EE}}
En esta convocatoria sólo se podrán presentar aquellas personas que se han presentado al examen y lo han suspendido. Por tanto, quedan excluidas aquellas personas que no se han presentado a la Evaluación Ordinaria (NP en la Evaluación Ordinaria).
No habrá nota mínima por aprobar. La máxima nota en esta convocatoria es 7.
Bibliografía
Básico
-
A survey on pre-processing techniques: Relevant issues in the context of environmental data Mining
- Gibert, Karina; Sànchez-Marré, Mquel; Izquierdo, Joaquin,
AI communications: the european journal of artificial intelligence,
2016.
https://upcommons.upc.edu/handle/2117/123530 -
Preprocessing and Artificial Intelligence for Increasing Explainability in Mental Health
- Angerri, X., & Gibert, K,
International Journal on Artificial Intelligence Tools,
https://www.worldscientific.com/doi/abs/10.1142/S0218213023400110 -
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Exploratory multivariate analysis by example using R
- Husson, François; Lê, Sébastien; Pagès, Jérôme,
CRC Press, Taylor & Francis Group,
2017.
ISBN: 9781315301860
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=4856173 -
Applied multivariate statistical analysis
- Johnson, Richard A; Wichern, Dean W,
Pearson,
[2014].
ISBN: 9781292024943
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=5174865 -
Statistics: the art and science of learning from data
- Agresti, Alan; Franklin, Christine,
Pearson Education,
2018.
ISBN: 9781292164779
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004951010406711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Practical statistics for data scientists: 50+ essential concepts using R and Python
- Bruce, Peter; Bruce, Andrew; Gedeck, Peter,
O'Reilly,
[2020].
ISBN: 9781492072942
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004946307706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementario
-
Análisis de datos multivariantes
- Peña, Daniel,
McGraw-Hill,
cop. 2002.
ISBN: 9788448136109
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002497609706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Exploratory multivariate analysis by example using R
- Husson, François; Lê, Sébastien; Pagès, Jérôme,
CRC Press, Taylor & Francis,
2017.
ISBN: 9781315301860
-
Correspondence Analysis in Practice
- Greenacre, Michael,
Chapman and Hall/CRC,
2016.
ISBN: 9781315369983