Requisitos
- Prerrequisito:
PE
- Prerrequisito:
PRO2
La filosofía de la Minería de Datos es la conversión de datos en conocimiento para la toma de decisiones y como tal constituye la fase central del proceso de extracción de conocimiento a partir de bases de datos (KDD, Knowledge Discovery in Databases). La Minería de Datos es un punto de encuentro de diferentes disciplinas: la estadística, el aprendizaje automático (Machine Learning), las técnicas de bases de datos y los sistemas para la toma de decisiones. Permite afrontar muchos problemas actuales en cuanto al tratamiento de la información.
La asignatura introduce las técnicas más establecidas para la resolución de tres tipos de problemas fundamentales: análisis de datos binarios ("transacciones"), análisis de datos científicos (por ejemplo, de genómica) y análisis de datos de empresas, los cuales configuran buena parte de los problemas que trata la disciplina. Como objetivo paralelo está la utilización de R, un potente entorno de programación libre.
De por qué un estudiante del grado puede estar interesado en esta asignatura: La Minería de Datos es la disciplina que se ocupa de procesar grandes cantidades de datos provenientes de sistemas de información complejos de las grandes organizaciones, con el fin de extraer de ellos conocimiento relevante, nuevo, comprensible y útil para la toma de decisiones en toda clase de contextos, desde el comercio electrónico, hasta las redes sociales, pasando por la monitorización de sistemas ambientales, las targetas de fidelización de clientes, el consumo en general, la salud pública, banca, finanzas o producción industrial.
Es un área paraguas donde es necesario combinar técnicas y metodologías de diversas áreas informáticas (como el diseño de data warehouses, el machine learning, la modelización estadística, el análisis multivariante de datos, la visualización, la computación intensiva, la ingeniería del software) para dar respuesta a la complejidad del área.
Actualmente está claro que el valor de las organizaciones está íntimamente ligado a la información que se puede extraer de los datos de que ésta dispone, y que todavía escasea el perfil professional adecuado para hacerlo. La minería de datos es precisamente la ciencia que transforma los datos en valor para las organizaciones, y adquirir competencias en este ámbito es un excelente complemento para el profesional de la informática sea cual sea su área de especialización.
Para los estudiantes de sistemas de información esta asignatura aporta capacidades para completar el proceso de datos: a menudo un excelente diseño dels istema de información de la organización no se aprovecha lo bastante por falta de un buen servicio de explotación de la misma con la minería de datos adecuada. Por otro lado, conocer qué se puede tener que extraer de los datos es un importante referente a considerar en el diseño de la propia estructura de datos. A los estudiantes de ingeniería del software, les aportará criterio para poder identificar y estandarizar servicios de minería de datos a incluir en los grandes aplicativos informáticos que den soporte a la organización, decidiendo y planificando qué consumo de datos se provee.
Para los estudiantes del área de tecnologías de la información resulta interesante el vínculo entre la monitorización en tiempo real de sistemas fijos o móbiles, y las técnicas de data mining para reducir la señal a indicadores relevantes, para detectar los eventos de la señal a comunicar o para extraer la información importante de forma incremental (data stream mining). La extracción de conocimiento sobre datos distribuidos o almacenados en la nube es un área de extrema proyección en el futuro inmediato.
Para estudiantes de computación, presenta retos muy interesantes relativos al desarrollo de nuevos algoritmos de extracción de información más eficientes y/o escalables para atacar conjuntos de datos muy masivos o incluso otras estructuras no tan clásicas como grafos (social nets mining) o documentos (web mining)
Profesorado
Responsable
-
Caroline König (
)
-
Karina Gibert Oliveras (
)
Otros
-
Manuel Gijon Agudo (
)
-
Mario Martín Muñoz (
)
-
Marta Arias Vicente (
)
-
Sergi Ramirez Mitjans (
)
-
Xavier Angerri Torredeflot (
)
Competencias
Competencias Técnicas de cada especialidad
Especialidad sistemas de información
-
CSI2 - Integrar soluciones de Tecnologías de la Información y las Comunicaciones y procesos empresariales para satisfacer las necesidades de información de las organizaciones, permitiéndoles llegar a sus objetivos de forma efectiva
-
CSI2.2
- Concebir, desplegar, organizar y gestionar sistemas y servicios informáticos, en contextos empresariales o institucionales, para mejorar sus procesos de negocio, responsabilizarse y liderar su puesta en marcha, y su mejora continua; y valorar su impacto económico y social.
-
CSI2.3
- Demostrar conocimiento y capacidad de aplicación de los sistemas de extracción y de gestión del conocimiento.
-
CSI2.6
- Demostrar conocimiento y capacidad de aplicación de los sistemas de ayuda a la toma de decisiones y de bussines intelligence.
Competencias Transversales
Razonamiento
-
G9 [Avaluable] - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.
-
G9.3
- Capacidad crítica, capacidad de evaluación.
Lengua extranjera
-
G3 [Avaluable] - Conocer el idioma inglés con un nivel adecuado de forma oral y por escrito, y con consonancia con las necesidades que tendrán los graduados y graduadas en ingeniería informática. Capacidad de trabajar en un grupo multidisciplinar y en un entorno multilingüe, y de comunicar, tanto por escrito como de forma oral, conocimientos, procedimientos, resultados e ideas relacionadas con la profesión de ingeniero técnico en informática.
-
G3.2
- Estudiar con materiales escritos en inglés. Redactar un informe o trabajo de tipo técnico en inglés. Participar en una reunión técnica llevada a cabo en inglés.
Objetivos
-
Conocer la tipología de los principales problemas de la Minería de Datos
Competencias relacionadas:
CSI2.3,
CSI2.6,
CSI2.2,
-
Evaluación de la calidad de los datos y la necesidad de su preprocesado
Competencias relacionadas:
CSI2.3,
CSI2.6,
CSI2.2,
-
Identificar las técnicas estadísticas y/o de aprendizaje automático más apropiadas al problema a resolver
Competencias relacionadas:
G9.3,
CSI2.3,
CSI2.6,
CSI2.2,
-
Implementar algoritmos sencillos de aprendizaje
Competencias relacionadas:
G9.3,
CSI2.3,
CSI2.6,
CSI2.2,
-
Evaluación de los resultados obtenidos
Competencias relacionadas:
G9.3,
CSI2.3,
CSI2.6,
CSI2.2,
-
Presentación de los resultados en un entorno profesional para la toma de decisiones
Competencias relacionadas:
G9.3,
CSI2.3,
CSI2.6,
G3.2,
CSI2.2,
Contenidos
-
Introducción a la Minería de Datos.
Modelización estadística y tipos de problemas: análisis de datos binarios ("transacciones"), análisis de datos científicos y análisis de datos de empresas
-
Visualización y reducción de la dimensionalidad
Métodos de selección y extracción de variables. Visualización de datos multivariantes.
-
Clustering
Métodos de partición directa, jerárquicos y maximización de la esperanza
-
Métodos Predictivos
Regressió lineal múltiple i generalitzada. Regressió Logística. Xarxes Neuronals
-
Árboles de Decisión
Árboles de regresión y clasificación (CART).
-
Protocolos de validación y remuestreo de datos
Holdout, validación cruzada y bootstrap
-
Generación de reglas de asociación
Algoritmos A-priori y Eclat.
-
Métodos bayesianos
Teoria de la decisión bayesiana. Análisis Discriminante LDA, QDA. Naïve Bayes
-
Discriminación no paramétrica
Vecinos más cercanos
-
Métodos de contracción y selección de variables en regresión
Regressión lineal regularizada. Métodos LASSO y Elastic Net
-
Análisis formal de conceptos
Mètodo formar para encontrar patrones en datos
-
Preprocesamiento de datos
a
-
Bagging i ensemble methods
Bagging i ensemble methods
Actividades
Actividad
Acto evaluativo
Desarrollo del Tema 1
Objetivos:
1
Contenidos:
Desarrollo del tema 2
Objetivos:
2
Contenidos:
Desarrollo del tema 3
Objetivos:
2
Contenidos:
Desarrollo del Tema 4
Objetivos:
2
Contenidos:
Desarrollo del tema 5
Objetivos:
2
Desarrollo del Tema 6
Objetivos:
2
Contenidos:
Desarrollo del Tema 7
Objetivos:
2
Contenidos:
Desarrollo del Tema 8
Objetivos:
2
Desarrollo del Tema 9
Objetivos:
2
Contenidos:
Desarrollo del Tema 10
Objetivos:
5
Contenidos:
Practica 1
Objetivos:
2
5
4
3
Semana:
13
Practica 2
Objetivos:
5
4
3
6
Semana:
15
Metodología docente
El aprendizaje se hará siguiendo la metodología de los casos, a partir del análisis de conjuntos de datos complejos provenientes de problemas reales. A partir de estos problemas se desarrollarán los conocimientos científicos necesarios en clase de teoría y su aplicación en las clases de laboratorio, de tal manera que la programación y/o integración de funciones de minería de datos reforzará la asimilación de los diferentes conceptos explicados. Para ello, se utilizará el entorno de programación libre R.
Las clases de laboratorio se dedicarán a resolver problemas relacionados con los conocimientos proporcionados en las clases de teoría y a la resolución por parte de los alumnos (de forma autónoma) de un problema similar. Este problema puede incluir la resolución de preguntas muy breves de carácter conceptual y será entregado para su evaluación. Por último, los alumnos deberán realizar dos prácticas completas, una de modelización estadística y otra para resolver problemas de tipo "científico", "transacciones" o "marketing" (uno a elegir). Esta última práctica será presentada de forma oral ante el conjunto de la clase.
Método de evaluación
La evaluación de la asignatura se realizará a partir de la nota obtenida en las ejercicios desarrollados durante las sesiones de laboratorio.
Por otra parte se realizarán dos prácticas, una realizada a partir de un problema de modelización estadística, y la otra práctica sobre uno de los otros tipos de problemas tratados en la asignatura. Por cada práctica el alumno presentará el correspondiente informe. Y por último, al finalizar el curso, el alumno deberá hacer la presentación oral de la segunda práctica.
El alumno deberá demostrar en estos informes y presentación haber adquirido los elementos de razonamiento e inglés de la asignatura. Estos se evaluarán mediante la correspondiente rúbrica.
La nota global de laboratorio es el promedio de las evaluaciones de los ejercicios desarrollados a partir de las sesiones de laboratorio.
La nota final se obtendrá así:
Labo = nota global de laboratorio
PR1 = nota de la primera práctica
PR2 = nota de la segunda práctica
Nota final = 0.2 * Labo + 0.4 * PR1 + 0.4 * PR2
En las dos prácticas, y respecto a su 40%, el 35% corresponde a la corrección técnica y el 5% corresponde a la competencia transversal 'razonamiento', de modo que se obtiene un peso global del 10% de esta competencia transversal en la nota final.
Bibliografía
Básica:
-
Construction and assessment of classification rules -
Hand, D.J,
Wiley, 1997. ISBN: 978-0-471-96583-1
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001900839706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
The elements of statistical learning: data mining, inference, and prediction -
Hastie, T.; Tibshirani, R.; Friedman, J,
Springer, 2009. ISBN: 9780387848570
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Introducción a la minería de datos -
Hernández Orallo, J.; Ramírez Quintana, M.J.; Ferri Ramírez, C,
Pearson, 2004. ISBN: 9788420540917
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002742379706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Data analysis and graphics using R: an example-based approach -
Maindonald, J.H.; Braun, J,
Cambridge University, 2010. ISBN: 9780521762939
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003210549706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Pattern classification -
Duda, R.O.; Hart, P.E.; Stork, D.G,
John Wiley & Sons, 2001. ISBN: 0-471-05669-3
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002131619706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementaria:
Capacidades previas
Fundamentos de probabilidad y estadística. Programación básica en I