Saltar al contingut Menu
Mapa
  • Inicio
  • Información
  • Contacto
  • Mapa

Minería de Datos (MD)

Créditos Dept.
7.5 (6.0 ECTS) EIO-CS

Profesores

Responsable:  (-)
Otros:(-)

Objectivos Generales

La filosofía de la Minería de Datos es la conversión de datos en conocimiento para la toma de decisiones. Constituye la fase central del proceso de extracción de conocimiento de las bases de datos KDD (Knowledge Discovery in Databases). En este sentido,es un punto de encuentro de diferentes disciplinas: la estadística, el aprendizaje automático ('machine learning'), las técnicas de bases de datos y los sistemas para la toma de decisiones que, juntas, permiten afrontar problemas actuales de las organizaciones en relación con el tratamiento de la información.
De por qué un estudiante de informática puede estar interesado en esta asignatura: La Minería de Datos es la disciplina que se ocupa de procesar grandes cantidades de
datos provenientes de sistemas de información complejos de las grandes organizaciones, con el fin de extraer de ellos conocimiento relevante, nuevo, comprensible y útil
para la toma de decisiones en toda clase de contextos, desde el comercio electrónico, hasta las redes sociales, pasando por la monitorización de sistemas ambientales, las targetas de fidelización de clientes, el consumo en general, la salud pública, banca, finanzas o producción industrial.
Es un área paraguas donde es necesario combinar técnicas y metodologías de diversas áreas informáticas (como el diseño de data warehouses, el machine learning, la
modelización estadística, el análisis multivariante de datos, la visualización, la computación intensiva, la ingeniería del software) para dar respuesta a la complejidad del área.
Actualmente está claro que el valor de las organizaciones está íntimamente ligado a la información que se puede extraer de los datos de que ésta dispone, y que todavía
escasea el perfil professional adecuado para hacerlo. La MD es precisamente la ciencia que transforma los datos en valor para las organizaciones, y adquirir
competencias en este ámbito es un excelente complemento para el profesional de la informática sea cual sea su área de especialización.
Por lo que se refiere al área de sistemas de información, aporta capacidades para completar el proceso de datos: a menudo un excelente diseño dels istema de
información de la organización no se aprovecha lo bastante por falta de un buen servicio de explotación de la misma con la minería de datos adecuada. Por otro lado,
conocer qué se puede tener que extraer de los datos es un importante referente a considerar en el diseño de la propia estructura de datos. En cuanto a ingeniería del software, aportará criterio para poder identificar y estandarizar servicios de minería de datos a incluir en los grandes aplicativos informáticos que den soporte a la
organización, decidiendo y planificando qué consumo de datos se provee.
En tecnologías de la información resulta interesante el vínculo entre la monitorización en tiempo real de sistemas fijos o móbiles, y las técnicas de data mining para reducir la señal a indicadores relevantes, para detectar los eventos de la señal a comunicar o para extraer la información importante de forma incremental (data stream mining). La extracción de conocimiento sobre datos distribuidos o almacenados en la nube es un área de extrema proyección en el futuro inmediato. También presenta retos muy interesantes relativos al desarrollo de nuevos algoritmos de extracción de información más eficientes y/o escalables
para atacar conjuntos de datos muy masivos o incluso otras estructuras no tan clásicas como grafos (social nets mining) o documentos (web mining)
En el siguiente link podrán captar el espíritu general de la asignatura http://videolectures.net/learning06_gibert_dmtae/

Objectivos Específicos

Conocimientos

  1. La descripción estadística automática de bases de datos.
  2. Herramientas de reducción de la dimensionalidad y visualización multivariante.
  3. La generación de reglas de asociación.
  4. Herramientas para la definición de clusters.
  5. La generación de modelos estadísticos de predicción.
  6. La generación de reglas de clasificación.
  7. El funcionamiento del perceptrón multicapa y la máquina de vectores soporte.
  8. Utilización del entorno R de programación libre para Minería de Datos.

Habilidades

  1. Identificar problemas de Minería de Datos en el entorno profesional.
  2. Identificar las técnicas estadísticas y/o de inteligencia artificial más apropiadas para el problema a resolver.
  3. Implementar algoritmos sencillos de aprendizaje.
  4. Utilizar sistemas de Minería de Datos para la resolución de problemas reales.
  5. Evaluación de la calidad de los resultados obtenidos.
  6. Construir un sistema de Minería de Datos, por integración de diferentes herramientas de aprendizaje, enfocado a la toma de decisiones.
  7. Conocer los sistemas profesionales más utilizados de Minería de Datos.

Competencias

  1. Trabajo en equipo.
  2. Capacidad de resolución de problemas cuantitativos en el entorno informático.
  3. Redacción de informes y defensa oral de los mismos.
  4. Capacidad crítica de las herramientas y resultados utilizados en minería de datos.

Contenidos

Horas estimadas de:

T P L Alt L Ext. Est O. Ext.
Teoria Problemas Laboratorio Otras actividades Laboratorio externo Estudio Otras horas fuera del horario fijado

1. INTRODUCCIÓN A LA MINERÍA DE DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
1,0 0 0 0 0 0 0 1,0

2. DESCRIPCIÓN ESTADÍSTICA AUTOMÁTICA DE BASES DE DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
  • Laboratorio:
    Realización de la práctica 1.1. Descripción automática de una Base de datos

  • Actividades de laboratorio adicionales:
    Realización de la práctica 1.1. Descripción automática de una Base de datos

3. VISUALIZACIÓN MULTIVARIANT DE LOS DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 0 2,0 0 1,0 4,0 0 11,0
  • Laboratorio:
    Práctica 1.2. Visualización multivariante

  • Actividades de laboratorio adicionales:
    Práctica 1.2. Visualización multivariante

4. GENERACIÓN DE REGLAS DE ASOCIACIÓN
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
  • Laboratorio:
    Práctica 1.3. Generación de reglas de asociación.

  • Actividades de laboratorio adicionales:
    Práctica 2.1. Generación de reglas de asociación.

5. TÉCNICAS DE CLUSTERING
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 0 2,0 0 2,0 4,0 0 12,0
  • Laboratorio:
    Práctica 2.2. Programación de un algoritmo de clustering

  • Actividades de laboratorio adicionales:
    Práctica 2.2. Programación de un algoritmo de clustering

6. MODELOS DE PREDICCIÓN DE VARIABLES CONTÍNUAS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 0 2,0 0 1,0 4,0 0 11,0

7. MODELOS LINEALES GENERALIZADOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
2,0 0 2,0 0 1,0 2,0 0 7,0
  • Laboratorio:
    Práctica 3. Modelo de predicción por regresión logística.

  • Actividades de laboratorio adicionales:
    Práctica 3. Modelo de predicción por regresión logística.

8. MÉTODOS DE DISCRIMINACIÓN PARAMÉTRICOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
  • Laboratorio:
    Practica 3. Modelo de predicción por discriminación lineal.

  • Actividades de laboratorio adicionales:
    Practica 3. Modelo de predicción por discriminación lineal.

9. DISCRIMINACIÓN NO PARAMÉTRICA-
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
1. Discriminación local KNN.
2. Ejemplo de discriminación local.
  • Laboratorio:
    Práctica 3. Modelos de predicción por KNN.



  • Actividades de laboratorio adicionales:
    Práctica 3. Modelos de predicción por KNN.

10. ÁRBOLES DE DECISIÓN
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 2,0 0 2,0 3,0 0 10,0
  • Laboratorio:
    Práctica 3. Modelo de predicción con árboles.

  • Actividades de laboratorio adicionales:
    Práctica 3. Modelo de predicción con árboles.

11. REDES NEURONALES
T      P      L      Alt    L Ext. Est    O. Ext. Total 
5,0 0 4,0 0 3,0 5,0 0 17,0
  • Laboratorio:
    Práctica 3. Modelo de predicción por red neuronal.

  • Actividades de laboratorio adicionales:
    Práctica 3. Modelo de predicción por red neuronal.

12. MÉTODOS FLEXIBLES DE DISCRIMINACIÓN-
T      P      L      Alt    L Ext. Est    O. Ext. Total 
3,0 0 0 0 0 3,0 0 6,0

13. COMBINACIÓN DE MODELOS Y APLICACIONES
T      P      L      Alt    L Ext. Est    O. Ext. Total 
1,0 0 0 0 0 1,0 0 2,0

14. UTILIZACIÓN DE UN SISTEMA INTEGRADO DE MINERÍA DE DATOS.
T      P      L      Alt    L Ext. Est    O. Ext. Total 
0 0 2,0 0 0 0 0 2,0
  • Laboratorio:
    1. Introducción a R
    2. Introducción a Weka

  • Actividades de laboratorio adicionales:
    El aprendizaje de R se hará durante el curso, a lo largo de las diferentes sesiones de laboratorio

15. SISTEMAS PROFESIONALES DE MINERÍA DE DATOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
0 0 4,0 0 0 0 0 4,0
  • Laboratorio:
    Presentación de SPAD, Clementine y Enterprise Miner.

16. PRESENTACIÓN DE RESULTADOS
T      P      L      Alt    L Ext. Est    O. Ext. Total 
0 0 0 0 10,0 0 0 10,0
  • Actividades de laboratorio adicionales:
    Preparación de la presentación de la práctica 3.


Total por tipo T      P      L      Alt    L Ext. Est    O. Ext. Total 
39,0 0 28,0 0 24,0 38,0 0 129,0
Horas adicionales dedicadas a la evaluación 10,0
Total horas de trabajo para el estudiante 139,0

Metodología docente

El aprendizaje se hará siguiendo la metodología de los casos, a partir del análisis de conjuntos de datos complejos provenientes de problemas reales. A partir de estos problemas se desarrollarán los conocimientos científicos necesarios en clase de teoría y su aplicación en las clases de laboratorio, de tal manera que la programación y/o integración de funciones de minería de datos reforzará la asimilación de los diferentes conceptos explicados. Por ello, se utilizará el sistema R.

R es un sistema abierto de programación, de distribución libre, si bien también se podrá utilizar el software disponible en la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Dada la utilidad finalista de la asignatura, también se hará énfasis en la utilización de sistemas profesionales de minería de datos, tales como SPAD, Clementine y Enterprise Minero.



Con respecto al desarrollo de las clases teóricas, se hará siguiendo los documentos PDF depositados en el Racó de la asignatura.

Método de evaluación

La evaluación de la asignatura se realizará a partir de la nota obtenida en las tres prácticas realizadas durante el curso y de un pequeña prueba escrita. La primera práctica se basa en la resolución de un problema de preproceso, visualización multivariante y "clustering" en una base de datos.
La segunda práctica comporta la generación de reglas de asociación orientadas al descubrimiento de conocimiento interesante en una base de datos de transacciones comerciales o similar.
La tercera práctica es libre sobre un problema de predicción, escogido por el alumno entre diferentes alternativas. Esta última práctica incorpora los elementos de las anteriores y tiene como finalidad la resolución de un problema de predicción mediante diferentes modelos y su comparación. Esta práctica deberá ser defendida públicamente y el estudiante deberá responder además las preguntas teóricas sobre los modelos y métodos usados en la resolución. Las práctica se realizarán con el sistema R.
La prueba escrita se realizará el último día de clase y evaluará de manera sencilla el grado de comprensión y asimilación de los conceptos básicos de la asignatura.
Las prácticas se ponderarán con un 15%, 15% y 50% respectivamente, y la prueba escrita un 20%. Cada práctica comportará la redacción del correspondiente informe y podrán ser efectuadas conjuntamente, hasta un máximo de dos alumnos.

Bibliografía básica

  • Tomàs Aluja Banet, Alain Morineau Aprender de los datos : el análisis de componentes principales : una aproximación desde el Data Mining, EUB, 1999.
  • D.J. Hand. Construction and assessment of classification rules, Wiley, 1997.
  • Trevor Hastie, Robert Tibshirani, Jerome Friedman The Elements of statistical learning : data mining, Springer, 2001.
  • José Hernández Orallo, Mª José Ramírez Quintana, Cèsar Ferri Ramírez Introducción a la minería de datos, Pearson, 2004.
  • Ian H. Witten, Eibe Frank Data mining : practical machine learning tools and techniques with java implementations, Morgan Kaufmann Publishers, 1999.

Bibliografía complementaria

  • Michael J. A. Berry, Gordon Linoff Data mining techniques : for marketing, sales, and customer relationship management, Wiley, 2004.
  • David Hand, Heikki Mannila Padrhraic Smyth Principles of data mining, MIT Press, 2001.
  • Ludovic Lebart, Alain Morineau, Marie Piron Statistique exploratoire multidimensionnelle, Dunod, 1997.
  • Daniel Peña Regresión y diseño de experimentos, Alianza, 2002.
  • B. D. Ripley Pattern recognition and neural networks, Cambridge University Press, 1996.
  • Christopher M. Bishop Neural networks for pattern recognition, Clarendon Press, 1995.
  • Leo Breiman ... [et al.]. Classification and regression trees, Chapman & Hall : ITP International Thomson Publishing, 1994.
  • Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski Data mining methods for knowledge discovery, Kluwer Academic, 1998.
  • Maria L. Rizzo Statistical Computing with R, Chapman and Hall, 2008.

Enlaces web

  1. http://www.cran.es.r-project.org


  2. http://www.kdnuggets.com/


  3. http://www.cs.waikako.ac.nz


Capacidades previas

La asignatura es autocontenida, pero es bueno que el estudiante haya adquirido una serie de conceptos, en particular los siguientes
- Concepto de término medio, matriz de covariancias y correlaciones.
- Concepto de prueba de hipótesis.
- Descomposición en valores singulares de una matriz.
- Programación de algoritmos.
- Regresión lineal múltiple.

Las asignaturas que deberán ser prerrequisito son Estadística, Programación y Matemáticas.


Compartir

 
logo FIB © Facultad de Informática de Barcelona - Contacto - RSS
Esta web utiliza cookies propias para ofrecerle una mejor experiencia y servicio. Si continúa la navegación, entendemos que acepta nuestra política de cookies. Versión clássica Versión móvil