Técnicas de Minería de Datos

Usted está aquí

Créditos
3
Tipos
Optativa
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
EIO
Mail
El objetivo principal de esta materia es adquirir una visión general i pràctica de la fase central del proceso de Knowlege Discovery from DataBases, la Minería de Datos, disciplina que se encarga de extraer información relevante para la toma de decisiones a partir de datos de distinta índole (de encuesta, de monitorización, de data-warehouse...) i procedentes de fenómenos o organizaciones de altos niveles de complejidad. El curso se centra en proporcionar los elementos necesarios para poder diseñar procesos de Minería de Datos eficaces, eficientes y adecuados a la resolución del problema real planteado en cada ocasión. Además de revisar los principales métodos de Minería de Datos, se trabajarán ámpliamente aspectos prácticos de gran repercusión, como los efectos de un mal pre-procesamiento de los datos, de la elección incorrecta del método de explotación de datos, de una mala interpretación de resultados o de la suposición de falsas hipòtesis sobre el proceso a analizar, con tal de garantizar la validez y utilidad de los resultados obtenidos. Se analizarán casos reales diversos del ámbito de la medicina, economía o medioambiente entre otros, que pondrán de manifiesto la versatilidad de la disciplina para dar soporte a una amplia gama de problemas reales de gran complejidad.

Profesores

Responsable

  • Karina Gibert Oliveras ( )

Horas semanales

Teoría
1.5
Problemas
0
Laboratorio
1.5
Aprendizaje dirigido
0
Aprendizaje autónomo
0

Competencias

Competencias Técnicas de cada especialidad

Dirección y gestión

  • CDG1 - Capacidad para la integración de tecnologías, aplicaciones, servicios y sistemas propios de la Ingeniería Informática, con carácter generalista, y en contextos más amplios y multidisciplinares.

Específicas

  • CTE9 - Capacidad para aplicar métodos matemáticos, estadísticos y de inteligencia artificial para modelar, diseñar y desarrollar aplicaciones, servicios, sistemas inteligentes y sistemas basados en el conocimiento.

Competencias Técnicas Genéricas

Genéricas

  • CG8 - Capacidad para la aplicación de los conocimientos adquiridos y de resolver problemas en entornos nuevos o poco conocidos dentro de contextos más amplios y mulitidisciplinares, siendo capaces de integrar estos conocimientos.

Competencias Transversales

Sostenibilidad y compromiso social

  • CTR2 - Conocer y comprender la complejidad de los fenómenos económicos y sociales típicos de la sociedad del bienestar. Ser capaz de analizar y valorar el impacto social y medioambiental

Trabajo en equipo

  • CTR3 - Ser capaz de trabajar como miembro de un equipo, ya sea como un miembro más, o realizando tareas de dirección con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.

Uso solvente de los recursos de información

  • CTR4 - Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información del ámbito de la ingeniería informática y valorar de forma crítica los resultados de esta gestión.

Actitud frente al trabajo

  • CTR5 - Tener motivación para la realización profesional y para afrontar nuevos retos, así como una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Ingeniería en Informática. Tener motivación por la calidad y la mejora continua, y actuar con rigor en el desarrollo profesional. Capacidad de adaptación a los cambios organizativos o tecnológicos. Capacidad de trabajar en situaciones de falta de información y/o con restricciones temporales y/o de recursos.

Razonamiento

  • CTR6 - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios
  • CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Objetivos

  1. Saber realitzar l'anàlisi descriptivá bàsica automàtica d'una base de dades complexa
    Competencias relacionadas: CTE9, CG8,
  2. Saber traslladar un problema real donat a un problema de mineria de dades
    Competencias relacionadas: CTR2, CTR6, CB6, CG8,
  3. Saber triar la tècnica de mineria de dades adequada per un problema real donat
    Competencias relacionadas: CTR6, CB6, CG8,
  4. Saber dissenyar un projecte integrat de knowledge discovery, amb totes les seves fases, des de la formulació d'objectius fins la producció explícita del coneixement, integrant les tècniques apropiades en cada punt del procés sota un enfoc multidisciplinar
    Competencias relacionadas: CTE9, CDG1, CTR2, CTR4, CTR6, CB6, CB7, CB8, CG8,
  5. Saber triar i utilitzar les eines adequades per implementar i desplegar un projecte de Knowledge Discovery, utilitzant la combinació més eficaç d'entorns de programació de lliure distribució o paquets professionals especialitzats
    Competencias relacionadas: CTE9, CDG1, CTR4, CG8,
  6. Saber interpretar correctament els resultats d'un projecte de Knowledge Discovery, fer una validació crítica dels resultats i reportar-los amb claredat i poder comunicar-los per escrit (tant de forma detallada com sintètica) o oralment a destinataris tècnics o no especialitzats
    Competencias relacionadas: CTR2, CTR4, CTR6, CB7, CB8,
  7. Poder recòrrer a bibliografia complementària per trobar solució a problemes nous, incorporant coneixements més avençats al disseny dels projectes de Knowledge Discovery. Poder incorporar a un projecte un software nou o una nova tècnica.
    Competencias relacionadas: CDG1, CTR5, CTR6, CB9, CG8,
  8. Saber realitzar una planificació a mig termini (uns tres mesos) per al desenvolupament d'un projecte de Knowledge Discovery de certa envergadura
    Competencias relacionadas: CDG1, CTR3, CTR5,
  9. Saber integrar-se en un equip de treball (potser multidisciplinar) per al desenvolupament d'un projecte de Knowledge Discovery
    Competencias relacionadas: CDG1, CTR3, CTR4, CTR5, CB8,
  10. Saber dissenyar un preprocessament adequat de les dades a analitzar, d'acord amb els objectius de l'estudi i l'estat original de les pròpies dades
    Competencias relacionadas: CTR2, CTR4, CB6, CG8,

Contenidos

  1. Introducción. Orígenes de la Mineria de Datos, etapas. Estadística e Inteligencia Artificial
    Se sitúa la Minería de Datos en el contexto histórico.
    Se presenta el proceso global de Knowledge Discovery from databases con sus etapas, incluida la de Minería de Datos propiamente dicha.Se introducen los Pilares disciplinarios de la Minería de Datos: La Estadística y la Inteligencia Artificial, Sistemas de Información y Visualización de Datos
  2. Ámbito de la disciplina y herramientas
    Se reflexiona sobre la distinta naturaleza de los problemas reales y sus diferentes grados de complejidad de acuerdo con la clasificación de Simpson. Se introduce la problemática ligada a los problemas poco estructurados, el conocimiento a priori y el conocimiento implícito, discutiendo sobre sus causas y consecuencias.
    Se introducen varias herramientas software para desarrollar tareas de Minería de Datos.
  3. Elección del método. Tipología de métodos (DMMCM)
    El curso presenta el KDD bajo una aproximación orientada al problema, donde la naturaleza del mismo determinará en gran parte el diseó del proceso de anàlisis. Se presentan los factores que determinan una correcta elección del método de Minería de Datos en casos reales. Introducción de la tipología de métodos DMMCM como base conceptual para la selección.
  4. Datos, Metadatos
    Principales estructuras de Datos que se tratan en Minería de Datos.
    Importancia de los metadatos, formatos y contenidos.
  5. Preprocesamiento de los datos
    Breve introducción de los aspectos relevantes en la fase de preparación de datos: Tratamiento de datos faltantes, detección y tratamiento de outliers, generación de variables derivadas, transformaciones de variables, filtrage, sampling, feature weighting y reducción de la dimensionalidad. Se proporcionaràn criterios para un buen preprocesado
  6. Métodos descriptivos de Mineria de Datos
    Clustering estadístico, métodos de particiones, métodos jerárquicos, density-based, model-based, escalabilidad. Clustering conceptual (IA). Métodos híbridos AI&Stats: Clasificación basada en reglas. Caso OMS de sistemas de salud mental
  7. Métodos Asociativos de Minería de Datos
    Reglas de asociación, Métodos factoriales, Redes Bayesianas
  8. Métodos predictivos de Data Mining
    Regresión, modelización estadística en general. Métodos temporales, Redes Neuronales Artificiales, Swarm Intelligence.
  9. Métodos discriminantes de Minería de Datos
    Árboles de decisión, inducción de reglas, máquinas de vector de soporte, Random Forest. Análisis discriminante, métodos híbridos. Caso funcionamiento en ancianos y cubo de seguimiento.
  10. Espacio temporalidad
    Se introducen alguna herramientas para tratar datos que simultáneamente incluyen información espacial que evoluciona a lo largo del tiempo. Caso Calidad de Vida Guttmann
  11. Post-procesamiento y validación
    Se verán herramientas de post-procesamiento y validación de modelos y resultados adecuadas a los distintos métodos de Mineria de Datos. Caso tratamiento de aguas residuales
  12. Conclusión
    Reubicación de todos los elementos vistos durante el curso sobre el esquema del proceso general de Knowledge Discovery descrito en la sección 1, a modo de recapitulación global del curso y síntesis.

Actividades

Actividad Acto evaluativo


Lectura de un artículo

Se seleccionará un artículo de revista de impacto sobre una aplicación real de la Minería de Datos a propuesta del estudiante o el profesor, que el estudiante deberá leer, y entender el proceso de Knowledge Discovery que se ha utilizado, con todos sus ingredientes. Se rellenará un formulario con esta información
Objetivos: 6 7
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Definició del projecte en equip

Per grups, els estudiants triaran un tema i unes dades sobre les que resoldre un problema de Mineria de Dades
Objetivos: 2 8 9
Teoría
0h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Presentació Control de projectes en equip

Cada grup presentarà en públic el plantejament del seu projecte. Descripció del projecte, objectius, estructura, contingut i origen de les dades, disseny del procés de Data Mining a aplicar, pla de treball
  • Laboratorio: Se dedican dos sesiones de laboratorio a las presentaciones de los distintos grupos y la discusión
Objetivos: 1 2 3 8 9 10
Teoría
0h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
7h

Presentació final del projecte en equip

Cada grup entregarà l'informe de la pràctica i presentarà als seus companys els resultats de l'aplicació de mineria de dades desenvolupada. Hi haurà debat i discussió amb el professor sobre les decisions preses al llarg del projecte
Objetivos: 1 2 3 4 5 6 8 9
Semana: 18
Tipo: examen final
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
14h

Conclusió Final del curs

Integra tots els elements que s'han vist i treballat durant el curs, així com la posta en comú dels projectes desenvolupats per grups i articles llegits durant el curs
Objetivos: 3 6
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Introducción



Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Ámbito, herramientas, datos, metadatos, preproceso



Teoría
6h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Mapa DMMCDM, métodos de Data Mining



Teoría
12h
Problemas
0h
Laboratorio
8h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Espacio-temporalidad



Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Post-proceso



Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Metodología docente

La asignatura se imparte bajo una metodología mixta de aprendizaje basado en casos, y aprendizaje basado en el desarrollo de proyectos.

La primera semana se sentaran las bases conceptuales de la asignatura y se hará el reparto de las actividades en las que cada estudiante deberá participar activamente para llevar a buen puerto su proceso de aprendizaje. Básicamente dos, la lectura de un artículo con una aplicación de Data Mining y el desarrollo de un proyecto de Data Mining por grupos.

Las semanas sucesivas, se seguirá la siguiente estructura: De las cuatro horas semanales, cada semana se dedicaran dos a presentar casos de una cierta familia, incluyendo todas las etapas de desarrollo del caso (preproceso, análisis, postproceso y validació). Parte de la tercera hora algunos estudiantes presentarán, de forma sintética, casos complementarios sobre los que se documentará individualmente. El resto de la tercera hora y cuarta, se realizarán actividades en el laboratorio de aprendizaje dirigido por el profesor ligadas al proyecto que cada grupo de estudiantes desarrolle durante el curso.

A parte de la adquisición de competencias técnicas ligadas directamente al Data Mining, un objetivo importante del curso es dotar al estudiante de competencias transversales relevantes en su ejercicio profesional, como la capacidad de trabajar en equipo, de planificar un trabajo de larga duración, de comunicar oral, visualmente y por escrito, de sintetizar, de argumentar decisiones tomadas a lo largo del proyecto, de gestionar incidencias en su desarrollo y de relacionar e integrar conocimientos para la construcción de soluciones a problemas de gran complejidad. Las actividades programadas durante el curso están especialmente diseñadas a tal efecto.

La última semana del curso, se hará una presentación de cada proyecto que irá seguida de discusión y que servirá de examen oral. El profesor dedicará la última hora de clase a poner de relieve los puntos en común y las particularidades de los proyectos desarrollados en relación con los esquemas básicos de un proyecto de Data Mining y se reflexionará conjuntamente sobre lo que los estudiantes hayan podido captar sobre la utilidad de la disciplina en ingeniería informática, completando así el mensaje general del curso.

Método de evaluación

Dos calificaciones correspondientes a dos actividades desarrolladas durante el curso:
20% para la actividad del Paper, Se valorará la capacidad de comprensión (0.5), síntesis (0.5) y comunicación oral y visual (0.5) de cada estudiante individualmente, así como su capacidad argumentativa (0.5), que se manifestará a través de la discusión.

80% para la actividad del proyecto desarrollado en grupo. Se hará una valoración común para todos los componentes de la calidad del proyecto de Data Mining desarrollado, el rigor metodológico (0.5) , la corrección del proceso de Knowledge Discovery diseñado (0.5), elección de métodos de preproceso (0,25), elección de métodos de data mining (0,25), herramientas utilizadas (0.5), correcta aplicación e interpretación de los resultados (1), y la integración de distintas técnicas (0.5) en el proyecto, así como la calidad de la memoria (1), y la presentación final (1). Una componente importante de la calificación corresponderá al nivel de planificación y coordinación del equipo, cómo ha gestionado las incidencias aparecidas durante el curso (1). Además se realizará una valoración individualizada de las capacidades comunicativas personales del estudiante (0.5) y de su nivel de integración de cada estudiante a su equipo de trabajo (1).

Web links

Capacidades previas

És convenient, però no imprescindible, tenir coneixements previs d'estadística en general i més particularment d'anàlisi multivariant de dades, i d'aprenentatge automàtic