| Responsable: | Luis Antonio Belanche Muñoz (belanche Tomas Aluja Banet (tomas.aluja |
| Otros: | (-) |
| Créditos | Dept. |
|---|---|
| 6.0 ECTS | EIO-LSI |
| Responsable: | Luis Antonio Belanche Muñoz (belanche Tomas Aluja Banet (tomas.aluja |
| Otros: | (-) |
La filosofía de la Minería de Datos es la conversión de datos en conocimiento para la toma de decisiones. La Minería de Datos constituye la fase central del proceso de extracción de conocimiento de las bases de datos KDD (Knowledge Discovery in Databases). En este sentido la Minería de Datos es un punto de encuentro de diferentes disciplinas: la estadística, el aprendizaje automático ('machine learning'), las técnicas de bases de datos y los sistemas para la toma de decisiones que, juntas, permiten afrontar problemas actuales de las organizaciones en relación con el tratamiento de la información. La asignatura se divide en tres partes conceptuales, centradas en los temas de la asociación, la clasificación y la predicción, los cuales configuran la gran mayoría de problemas que trata la Minería de Datos. Como objetivo paralelo está la utilización de un entorno de programación libre, así como conocer entornos profesionales, para la resolución de los problemos propios de la Minería de Datos.
Horas estimadas de:
| T | P | L | Alt | L Ext. | Est | O. Ext. |
| Teoria | Problemas | Laboratorio | Otras actividades | Laboratorio externo | Estudio | Otras horas fuera del horario fijado |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 1,0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 4,0 | 0 | 2,0 | 0 | 1,0 | 4,0 | 0 | 11,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 4,0 | 0 | 2,0 | 0 | 2,0 | 4,0 | 0 | 12,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 4,0 | 0 | 2,0 | 0 | 1,0 | 4,0 | 0 | 11,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 2,0 | 0 | 2,0 | 0 | 1,0 | 2,0 | 0 | 7,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
1. Discriminación local KNN.
2. Ejemplo de discriminación local.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 2,0 | 3,0 | 0 | 10,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 5,0 | 0 | 4,0 | 0 | 3,0 | 5,0 | 0 | 17,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 0 | 0 | 0 | 3,0 | 0 | 6,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 1,0 | 0 | 0 | 0 | 0 | 1,0 | 0 | 2,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 2,0 | 0 | 0 | 0 | 0 | 2,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 4,0 | 0 | 0 | 0 | 0 | 4,0 | |||
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 0 | 0 | 10,0 | 0 | 0 | 10,0 | |||
|
||||||||||
| Total por tipo | T | P | L | Alt | L Ext. | Est | O. Ext. | Total |
| 39,0 | 0 | 28,0 | 0 | 24,0 | 38,0 | 0 | 129,0 | |
| Horas adicionales dedicadas a la evaluación | 10,0 | |||||||
| Total horas de trabajo para el estudiante | 139,0 | |||||||
El aprendizaje se hará siguiendo la metodología de los casos, a partir del análisis de conjuntos de datos complejos provenientes de problemas reales. A partir de estos problemas se desarrollarán los conocimientos científicos necesarios en clase de teoría y su aplicación en las clases de laboratorio, de tal manera que la programación y/o integración de funciones de minería de datos reforzará la asimilación de los diferentes conceptos explicados. Por ello, se utilizará el sistema R.
R es un sistema abierto de programación, de distribución libre, si bien también se podrá utilizar el software disponible en la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Dada la utilidad finalista de la asignatura, también se hará énfasis en la utilización de sistemas profesionales de minería de datos, tales como SPAD, Clementine y Enterprise Minero.
Con respecto al desarrollo de las clases teóricas, se hará siguiendo los documentos PDF depositados en el Racó de la asignatura.
La evaluación de la asignatura se realizará a partir de la nota obtenida en las tres prácticas realizadas durante el curso y de un pequeña prueba escrita. La primera práctica se basa en la resolución de un problema de preproceso, visualización multivariante y "clustering" en una base de datos.
La segunda práctica comporta la generación de reglas de asociación orientadas al descubrimiento de conocimiento interesante en una base de datos de transacciones comerciales o similar.
La tercera práctica es libre sobre un problema de predicción, escogido por el alumno entre diferentes alternativas. Esta última práctica incorpora los elementos de las anteriores y tiene como finalidad la resolución de un problema de predicción mediante diferentes modelos y su comparación. Esta práctica deberá ser defendida públicamente y el estudiante deberá responder además las preguntas teóricas sobre los modelos y métodos usados en la resolución. Las práctica se realizarán con el sistema R.
La prueba escrita se realizará el último día de clase y evaluará de manera sencilla el grado de comprensión y asimilación de los conceptos básicos de la asignatura.
Las prácticas se ponderarán con un 15%, 15% y 50% respectivamente, y la prueba escrita un 20%. Cada práctica comportará la redacción del correspondiente informe y podrán ser efectuadas conjuntamente, hasta un máximo de dos alumnos.
La asignatura es autocontenida, pero es bueno que el estudiante haya adquirido una serie de conceptos, en particular los siguientes
- Concepto de término medio, matriz de covariancias y correlaciones.
- Concepto de prueba de hipótesis.
- Descomposición en valores singulares de una matriz.
- Programación de algoritmos.
- Regresión lineal múltiple.
Las asignaturas que deberán ser prerrequisito son Estadística, Programación y Matemáticas.