Aumentar letras   Inicio   Información   Contactar   Mapa
Català   English

Minería de Datos (MD)

Créditos Dept. Tipo Requisitos
7.5 (6.0 ECTS) EIO-LSI
  • Optativa para la EI
AL - Prerequisito para la EI
CAL - Prerequisito para la EI
EST - Prerequisito para la EI
PRAP - Prerequisito para la EI

Profesores

Responsable:  Luis Antonio Belanche Muñoz (belanche@lsi.upc.edu)
Tomas Aluja Banet (tomas.aluja@upc.edu)
Otros:(-)

Objectivos Generales

La filosofía de la Minería de Datos es la conversión de datos en conocimiento para la toma de decisiones. La Minería de Datos constituye la fase central del proceso de extracción de conocimiento de las bases de datos KDD (Knowledge Discovery in Databases). En este sentido la Minería de Datos es un punto de encuentro de diferentes disciplinas: la estadística, el aprendizaje automático ('machine learning'), las técnicas de bases de datos y los sistemas para la toma de decisiones que, juntas, permiten afrontar problemas actuales de las organizaciones en relación con el tratamiento de la información. La asignatura se divide en tres partes conceptuales, centradas en los temas de la asociación, la clasificación y la predicción, los cuales configuran la gran mayoría de problemas que trata la Minería de Datos. Como objetivo paralelo está la utilización de un entorno de programación libre, así como conocer entornos profesionales, para la resolución de los problemos propios de la Minería de Datos.


Objectivos Específicos

Conocimientos

  1. La descripción estadística automática de bases de datos.
  2. Herramientas de reducción de la dimensionalidad y visualización multivariante.
  3. La generación de reglas de asociación.
  4. Herramientas para la definición de clusters.
  5. La generación de modelos estadísticos de predicción.
  6. La generación de reglas de clasificación.
  7. El funcionamiento del perceptrón multicapa y la máquina de vectores soporte.
  8. Utilización del entorno R de programación libre para Minería de Datos.

Habilidades

  1. Identificar problemas de Minería de Datos en el entorno profesional.
  2. Identificar las técnicas estadísticas y/o de inteligencia artificial más apropiadas para el problema a resolver.
  3. Implementar algoritmos sencillos de aprendizaje.
  4. Utilizar sistemas de Minería de Datos para la resolución de problemas reales.
  5. Evaluación de la calidad de los resultados obtenidos.
  6. Construir un sistema de Minería de Datos, por integración de diferentes herramientas de aprendizaje, enfocado a la toma de decisiones.
  7. Conocer los sistemas profesionales más utilizados de Minería de Datos.

Competencias

  1. Trabajo en equipo.
  2. Capacidad de resolución de problemas cuantitativos en el entorno informático.
  3. Redacción de informes y defensa oral de los mismos.
  4. Capacidad crítica de las herramientas y resultados utilizados en minería de datos.

Contenidos

Horas estimadas de:

T P L Alt L Ext. Est O. Ext.
Teoria Problemas Laboratorio Otras actividades Laboratorio externo Estudio Otras horas fuera del horario fijado

1. INTRODUCCIÓN A LA MINERÍA DE DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
1,0 0 0 0 0 0 0 1,0

2. DESCRIPCIÓN ESTADÍSTICA AUTOMÁTICA DE BASES DE DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
  • Laboratorio:
    Realización de la práctica 1.1. Descripción automática de una Base de datos

  • Actividades de laboratorio adicionales:
    Realización de la práctica 1.1. Descripción automática de una Base de datos

3. VISUALIZACIÓN MULTIVARIANT DE LOS DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 0 2,0 0 1,0 4,0 0 11,0
  • Laboratorio:
    Práctica 1.2. Visualización multivariante

  • Actividades de laboratorio adicionales:
    Práctica 1.2. Visualización multivariante

4. GENERACIÓN DE REGLAS DE ASOCIACIÓN
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
  • Laboratorio:
    Práctica 1.3. Generación de reglas de asociación.

  • Actividades de laboratorio adicionales:
    Práctica 2.1. Generación de reglas de asociación.

5. TÉCNICAS DE CLUSTERING
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 0 2,0 0 2,0 4,0 0 12,0
  • Laboratorio:
    Práctica 2.2. Programación de un algoritmo de clustering

  • Actividades de laboratorio adicionales:
    Práctica 2.2. Programación de un algoritmo de clustering

6. MODELOS DE PREDICCIÓN DE VARIABLES CONTÍNUAS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 0 2,0 0 1,0 4,0 0 11,0

7. MODELOS LINEALES GENERALIZADOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
2,0 0 2,0 0 1,0 2,0 0 7,0
  • Laboratorio:
    Práctica 3. Modelo de predicción por regresión logística.

  • Actividades de laboratorio adicionales:
    Práctica 3. Modelo de predicción por regresión logística.

8. MÉTODOS DE DISCRIMINACIÓN PARAMÉTRICOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
  • Laboratorio:
    Practica 3. Modelo de predicción por discriminación lineal.

  • Actividades de laboratorio adicionales:
    Practica 3. Modelo de predicción por discriminación lineal.

9. DISCRIMINACIÓN NO PARAMÉTRICA-
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
1. Discriminación local KNN.
2. Ejemplo de discriminación local.
  • Laboratorio:
    Práctica 3. Modelos de predicción por KNN.



  • Actividades de laboratorio adicionales:
    Práctica 3. Modelos de predicción por KNN.

10. ÁRBOLES DE DECISIÓN
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 2,0 3,0 0 10,0
  • Laboratorio:
    Práctica 3. Modelo de predicción con árboles.

  • Actividades de laboratorio adicionales:
    Práctica 3. Modelo de predicción con árboles.

11. REDES NEURONALES
T      P      L      Alt    L Ext. Est    O. Ext. Total 
5,0 0 4,0 0 3,0 5,0 0 17,0
  • Laboratorio:
    Práctica 3. Modelo de predicción por red neuronal.

  • Actividades de laboratorio adicionales:
    Práctica 3. Modelo de predicción por red neuronal.

12. MÉTODOS FLEXIBLES DE DISCRIMINACIÓN-
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 0 0 0 3,0 0 6,0

13. COMBINACIÓN DE MODELOS Y APLICACIONES
T      P      L      Alt    L Ext. Est    O. Ext. Total 
1,0 0 0 0 0 1,0 0 2,0

14. UTILIZACIÓN DE UN SISTEMA INTEGRADO DE MINERÍA DE DATOS.
T      P      L      Alt    L Ext. Est    O. Ext. Total 
0 0 2,0 0 0 0 0 2,0
  • Laboratorio:
    1. Introducción a R
    2. Introducción a Weka

  • Actividades de laboratorio adicionales:
    El aprendizaje de R se hará durante el curso, a lo largo de las diferentes sesiones de laboratorio

15. SISTEMAS PROFESIONALES DE MINERÍA DE DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
0 0 4,0 0 0 0 0 4,0
  • Laboratorio:
    Presentación de SPAD, Clementine y Enterprise Miner.

16. PRESENTACIÓN DE RESULTADOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
0 0 0 0 10,0 0 0 10,0
  • Actividades de laboratorio adicionales:
    Preparación de la presentación de la práctica 3.


Total por tipo T      P      L      Alt    L Ext. Est    O. Ext. Total 
39,0 0 28,0 0 24,0 38,0 0 129,0
Horas adicionales dedicadas a la evaluación 10,0
Total horas de trabajo para el estudiante 139,0

Metodología docente

El aprendizaje se hará siguiendo la metodología de los casos, a partir del análisis de conjuntos de datos complejos provenientes de problemas reales. A partir de estos problemas se desarrollarán los conocimientos científicos necesarios en clase de teoría y su aplicación en las clases de laboratorio, de tal manera que la programación y/o integración de funciones de minería de datos reforzará la asimilación de los diferentes conceptos explicados. Por ello, se utilizará el sistema R.

R es un sistema abierto de programación, de distribución libre, si bien también se podrá utilizar el software disponible en la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Dada la utilidad finalista de la asignatura, también se hará énfasis en la utilización de sistemas profesionales de minería de datos, tales como SPAD, Clementine y Enterprise Minero.



Con respecto al desarrollo de las clases teóricas, se hará siguiendo los documentos PDF depositados en el Racó de la asignatura.

Método de evaluación

La evaluación de la asignatura se realizará a partir de la nota obtenida en las tres prácticas realizadas durante el curso y de un pequeña prueba escrita. La primera práctica se basa en la resolución de un problema de preproceso, visualización multivariante y "clustering" en una base de datos.
La segunda práctica comporta la generación de reglas de asociación orientadas al descubrimiento de conocimiento interesante en una base de datos de transacciones comerciales o similar.
La tercera práctica es libre sobre un problema de predicción, escogido por el alumno entre diferentes alternativas. Esta última práctica incorpora los elementos de las anteriores y tiene como finalidad la resolución de un problema de predicción mediante diferentes modelos y su comparación. Esta práctica deberá ser defendida públicamente y el estudiante deberá responder además las preguntas teóricas sobre los modelos y métodos usados en la resolución. Las práctica se realizarán con el sistema R.
La prueba escrita se realizará el último día de clase y evaluará de manera sencilla el grado de comprensión y asimilación de los conceptos básicos de la asignatura.
Las prácticas se ponderarán con un 15%, 15% y 50% respectivamente, y la prueba escrita un 20%. Cada práctica comportará la redacción del correspondiente informe y podrán ser efectuadas conjuntamente, hasta un máximo de dos alumnos.

Bibliografía básica

  • Aluja T., Morineau A. Aprender de los datos: El Análisis de Componentes Principales, EUB, 1999.
  • Hand D.J. Construction and Assessment of Classification Rules. , John Wiley, 1997.
  • Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Data mining, inference and prediction. , Springer, 2001.
  • Hernández Orallo J., Ramírez Quintana M.J., Ferri Ramírez C Introducción a la Minería de Datos, Prentice Hall, 2004.
  • Witten I.H., Frank E Data Mining, . Morgan Kaufman Publishers, 2000.

Bibliografía complementaria

  • Berry M.J.A., Linoff G Data Mining Techniques, for marketing, sales and costumer support, John Wiley, 1997.
  • Hand D., Mannila H., Smyth P. Principles of Data Mining, The MIT Press, 2001.
  • Lebart, L. Morineau, A., Piron M Statistique exploratoire multidimensionelle, Dunod, 1995.
  • Peña, D. Regresión y Diseño de Experimentos, Alianza Editorial, 2002.
  • Ripley B.D. Pattern Recognition and Neural Networks. , Cambridge University Press, 1995.
  • Bishop C. M. Neural Networks for Pattern Recognition, Clarendon Press. Oxford, 1995.
  • Breiman, L., Friedman, J.H., Olshen, R.A., Stone, C.J. Classification and Regression Trees. , Wadsworth, 1984.
  • Cyos, K., Pedyioz, W. I Swiniaski, R. Data Mining. Methods for Knowledge Discovery, Kluwer, 1998.

Capacidades previas

La asignatura es autocontenida, pero es bueno que el estudiante haya adquirido una serie de conceptos, en particular los siguientes
- Concepto de término medio, matriz de covariancias y correlaciones.
- Concepto de prueba de hipótesis.
- Descomposición en valores singulares de una matriz.
- Programación de algoritmos.
- Regresión lineal múltiple.

Las asignaturas que deberán ser prerrequisito son Estadística, Programación y Matemáticas.



 
logo FIB © Facultad de Informática de Barcelona - webmaster@fib.upc.edu - RSS RSS