Responsable: | (-) |
Otros: | (-) |
Créditos | Dept. |
---|---|
7.5 (6.0 ECTS) | EIO-CS |
Responsable: | (-) |
Otros: | (-) |
La filosofía de la Minería de Datos es la conversión de datos en conocimiento para la toma de decisiones. Constituye la fase central del proceso de extracción de conocimiento de las bases de datos KDD (Knowledge Discovery in Databases). En este sentido,es un punto de encuentro de diferentes disciplinas: la estadística, el aprendizaje automático ('machine learning'), las técnicas de bases de datos y los sistemas para la toma de decisiones que, juntas, permiten afrontar problemas actuales de las organizaciones en relación con el tratamiento de la información.
De por qué un estudiante de informática puede estar interesado en esta asignatura: La Minería de Datos es la disciplina que se ocupa de procesar grandes cantidades de
datos provenientes de sistemas de información complejos de las grandes organizaciones, con el fin de extraer de ellos conocimiento relevante, nuevo, comprensible y útil
para la toma de decisiones en toda clase de contextos, desde el comercio electrónico, hasta las redes sociales, pasando por la monitorización de sistemas ambientales, las targetas de fidelización de clientes, el consumo en general, la salud pública, banca, finanzas o producción industrial.
Es un área paraguas donde es necesario combinar técnicas y metodologías de diversas áreas informáticas (como el diseño de data warehouses, el machine learning, la
modelización estadística, el análisis multivariante de datos, la visualización, la computación intensiva, la ingeniería del software) para dar respuesta a la complejidad del área.
Actualmente está claro que el valor de las organizaciones está íntimamente ligado a la información que se puede extraer de los datos de que ésta dispone, y que todavía
escasea el perfil professional adecuado para hacerlo. La MD es precisamente la ciencia que transforma los datos en valor para las organizaciones, y adquirir
competencias en este ámbito es un excelente complemento para el profesional de la informática sea cual sea su área de especialización.
Por lo que se refiere al área de sistemas de información, aporta capacidades para completar el proceso de datos: a menudo un excelente diseño dels istema de
información de la organización no se aprovecha lo bastante por falta de un buen servicio de explotación de la misma con la minería de datos adecuada. Por otro lado,
conocer qué se puede tener que extraer de los datos es un importante referente a considerar en el diseño de la propia estructura de datos. En cuanto a ingeniería del software, aportará criterio para poder identificar y estandarizar servicios de minería de datos a incluir en los grandes aplicativos informáticos que den soporte a la
organización, decidiendo y planificando qué consumo de datos se provee.
En tecnologías de la información resulta interesante el vínculo entre la monitorización en tiempo real de sistemas fijos o móbiles, y las técnicas de data mining para reducir la señal a indicadores relevantes, para detectar los eventos de la señal a comunicar o para extraer la información importante de forma incremental (data stream mining). La extracción de conocimiento sobre datos distribuidos o almacenados en la nube es un área de extrema proyección en el futuro inmediato. También presenta retos muy interesantes relativos al desarrollo de nuevos algoritmos de extracción de información más eficientes y/o escalables
para atacar conjuntos de datos muy masivos o incluso otras estructuras no tan clásicas como grafos (social nets mining) o documentos (web mining)
En el siguiente link podrán captar el espíritu general de la asignatura http://videolectures.net/learning06_gibert_dmtae/
Horas estimadas de:
T | P | L | Alt | L Ext. | Est | O. Ext. |
Teoria | Problemas | Laboratorio | Otras actividades | Laboratorio externo | Estudio | Otras horas fuera del horario fijado |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
1,0 | 0 | 0 | 0 | 0 | 0 | 0 | 1,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
4,0 | 0 | 2,0 | 0 | 1,0 | 4,0 | 0 | 11,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
4,0 | 0 | 2,0 | 0 | 2,0 | 4,0 | 0 | 12,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
4,0 | 0 | 2,0 | 0 | 1,0 | 4,0 | 0 | 11,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
2,0 | 0 | 2,0 | 0 | 1,0 | 2,0 | 0 | 7,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
1. Discriminación local KNN.
2. Ejemplo de discriminación local.
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
3,0 | 0 | 2,0 | 0 | 2,0 | 3,0 | 0 | 10,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
5,0 | 0 | 4,0 | 0 | 3,0 | 5,0 | 0 | 17,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
3,0 | 0 | 0 | 0 | 0 | 3,0 | 0 | 6,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
1,0 | 0 | 0 | 0 | 0 | 1,0 | 0 | 2,0 |
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 2,0 | 0 | 0 | 0 | 0 | 2,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 4,0 | 0 | 0 | 0 | 0 | 4,0 | |||
|
|
T | P | L | Alt | L Ext. | Est | O. Ext. | Total | ||
---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 0 | 0 | 10,0 | 0 | 0 | 10,0 | |||
|
Total por tipo | T | P | L | Alt | L Ext. | Est | O. Ext. | Total |
39,0 | 0 | 28,0 | 0 | 24,0 | 38,0 | 0 | 129,0 | |
Horas adicionales dedicadas a la evaluación | 10,0 | |||||||
Total horas de trabajo para el estudiante | 139,0 |
El aprendizaje se hará siguiendo la metodología de los casos, a partir del análisis de conjuntos de datos complejos provenientes de problemas reales. A partir de estos problemas se desarrollarán los conocimientos científicos necesarios en clase de teoría y su aplicación en las clases de laboratorio, de tal manera que la programación y/o integración de funciones de minería de datos reforzará la asimilación de los diferentes conceptos explicados. Por ello, se utilizará el sistema R.
R es un sistema abierto de programación, de distribución libre, si bien también se podrá utilizar el software disponible en la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Dada la utilidad finalista de la asignatura, también se hará énfasis en la utilización de sistemas profesionales de minería de datos, tales como SPAD, Clementine y Enterprise Minero.
Con respecto al desarrollo de las clases teóricas, se hará siguiendo los documentos PDF depositados en el Racó de la asignatura.
La evaluación de la asignatura se realizará a partir de la nota obtenida en las tres prácticas realizadas durante el curso y de un pequeña prueba escrita. La primera práctica se basa en la resolución de un problema de preproceso, visualización multivariante y "clustering" en una base de datos.
La segunda práctica comporta la generación de reglas de asociación orientadas al descubrimiento de conocimiento interesante en una base de datos de transacciones comerciales o similar.
La tercera práctica es libre sobre un problema de predicción, escogido por el alumno entre diferentes alternativas. Esta última práctica incorpora los elementos de las anteriores y tiene como finalidad la resolución de un problema de predicción mediante diferentes modelos y su comparación. Esta práctica deberá ser defendida públicamente y el estudiante deberá responder además las preguntas teóricas sobre los modelos y métodos usados en la resolución. Las práctica se realizarán con el sistema R.
La prueba escrita se realizará el último día de clase y evaluará de manera sencilla el grado de comprensión y asimilación de los conceptos básicos de la asignatura.
Las prácticas se ponderarán con un 15%, 15% y 50% respectivamente, y la prueba escrita un 20%. Cada práctica comportará la redacción del correspondiente informe y podrán ser efectuadas conjuntamente, hasta un máximo de dos alumnos.
La asignatura es autocontenida, pero es bueno que el estudiante haya adquirido una serie de conceptos, en particular los siguientes
- Concepto de término medio, matriz de covariancias y correlaciones.
- Concepto de prueba de hipótesis.
- Descomposición en valores singulares de una matriz.
- Programación de algoritmos.
- Regresión lineal múltiple.
Las asignaturas que deberán ser prerrequisito son Estadística, Programación y Matemáticas.