Minería de Datos

Usted está aquí

Créditos
6
Tipos
Optativa
Requisitos
  • Prerrequisito: PE
  • Prerrequisito: PRO2
Departamento
CS;EIO
Mail
La filosofía de la Minería de Datos es la conversión de datos en conocimiento para la toma de decisiones y como tal constituye la fase central del proceso de extracción de conocimiento a partir de bases de datos (KDD, Knowledge Discovery in Databases). La Minería de Datos es un punto de encuentro de diferentes disciplinas: la estadística, el aprendizaje automático (Machine Learning), las técnicas de bases de datos y los sistemas para la toma de decisiones. Permite afrontar muchos problemas actuales en cuanto al tratamiento de la información.
La asignatura introduce las técnicas más establecidas para la resolución de tres tipos de problemas fundamentales: análisis de datos binarios ("transacciones"), análisis de datos científicos (por ejemplo, de genómica) y análisis de datos de empresas, los cuales configuran buena parte de los problemas que trata la disciplina. Como objetivo paralelo está la utilización de R, un potente entorno de programación libre.

De por qué un estudiante del grado puede estar interesado en esta asignatura: La Minería de Datos es la disciplina que se ocupa de procesar grandes cantidades de datos provenientes de sistemas de información complejos de las grandes organizaciones, con el fin de extraer de ellos conocimiento relevante, nuevo, comprensible y útil para la toma de decisiones en toda clase de contextos, desde el comercio electrónico, hasta las redes sociales, pasando por la monitorización de sistemas ambientales, las targetas de fidelización de clientes, el consumo en general, la salud pública, banca, finanzas o producción industrial.

Es un área paraguas donde es necesario combinar técnicas y metodologías de diversas áreas informáticas (como el diseño de data warehouses, el machine learning, la modelización estadística, el análisis multivariante de datos, la visualización, la computación intensiva, la ingeniería del software) para dar respuesta a la complejidad del área.

Actualmente está claro que el valor de las organizaciones está íntimamente ligado a la información que se puede extraer de los datos de que ésta dispone, y que todavía escasea el perfil professional adecuado para hacerlo. La minería de datos es precisamente la ciencia que transforma los datos en valor para las organizaciones, y adquirir competencias en este ámbito es un excelente complemento para el profesional de la informática sea cual sea su área de especialización.

Para los estudiantes de sistemas de información esta asignatura aporta capacidades para completar el proceso de datos: a menudo un excelente diseño dels istema de información de la organización no se aprovecha lo bastante por falta de un buen servicio de explotación de la misma con la minería de datos adecuada. Por otro lado, conocer qué se puede tener que extraer de los datos es un importante referente a considerar en el diseño de la propia estructura de datos. A los estudiantes de ingeniería del software, les aportará criterio para poder identificar y estandarizar servicios de minería de datos a incluir en los grandes aplicativos informáticos que den soporte a la organización, decidiendo y planificando qué consumo de datos se provee.

Para los estudiantes del área de tecnologías de la información resulta interesante el vínculo entre la monitorización en tiempo real de sistemas fijos o móbiles, y las técnicas de data mining para reducir la señal a indicadores relevantes, para detectar los eventos de la señal a comunicar o para extraer la información importante de forma incremental (data stream mining). La extracción de conocimiento sobre datos distribuidos o almacenados en la nube es un área de extrema proyección en el futuro inmediato.

Para estudiantes de computación, presenta retos muy interesantes relativos al desarrollo de nuevos algoritmos de extracción de información más eficientes y/o escalables para atacar conjuntos de datos muy masivos o incluso otras estructuras no tan clásicas como grafos (social nets mining) o documentos (web mining)

Profesores

Responsable

  • Karina Gibert Oliveras ( )
  • Mario Martín Muñoz ( )

Otros

  • David Rodriguez Segado ( )
  • Lavanya Mandadapu ( )
  • Xavier Angerri Torredeflot ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0.4
Aprendizaje autónomo
5.6

Competencias

Competencias Técnicas de cada especialidad

Especialidad sistemas de información

  • CSI2 - Integrar soluciones de Tecnologías de la Información y las Comunicaciones y procesos empresariales para satisfacer las necesidades de información de las organizaciones, permitiéndoles llegar a sus objetivos de forma efectiva
    • CSI2.2 - Concebir, desplegar, organizar y gestionar sistemas y servicios informáticos, en contextos empresariales o institucionales, para mejorar sus procesos de negocio, responsabilizarse y liderar su puesta en marcha, y su mejora continua; y valorar su impacto económico y social.
    • CSI2.3 - Demostrar conocimiento y capacidad de aplicación de los sistemas de extracción y de gestión del conocimiento.
    • CSI2.6 - Demostrar conocimiento y capacidad de aplicación de los sistemas de ayuda a la toma de decisiones y de bussines intelligence.

Competencias Transversales

Razonamiento

  • G9 [Avaluable] - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.
    • G9.3 - Capacidad crítica, capacidad de evaluación.

Lengua extranjera

  • G3 [Avaluable] - Conocer el idioma inglés con un nivel adecuado de forma oral y por escrito, y con consonancia con las necesidades que tendrán los graduados y graduadas en ingeniería informática. Capacidad de trabajar en un grupo multidisciplinar y en un entorno multilingüe, y de comunicar, tanto por escrito como de forma oral, conocimientos, procedimientos, resultados e ideas relacionadas con la profesión de ingeniero técnico en informática.
    • G3.2 - Estudiar con materiales escritos en inglés. Redactar un informe o trabajo de tipo técnico en inglés. Participar en una reunión técnica llevada a cabo en inglés.

Objetivos

  1. Conocer la tipología de los principales problemas de la Minería de Datos
    Competencias relacionadas: CSI2.3, CSI2.6, CSI2.2,
  2. Evaluación de la calidad de los datos y la necesidad de su preprocesado
    Competencias relacionadas: CSI2.3, CSI2.6, CSI2.2,
  3. Identificar las técnicas estadísticas y/o de aprendizaje automático más apropiadas al problema a resolver
    Competencias relacionadas: G9.3, CSI2.3, CSI2.6, CSI2.2,
  4. Implementar algoritmos sencillos de aprendizaje
    Competencias relacionadas: G9.3, CSI2.3, CSI2.6, CSI2.2,
  5. Evaluación de los resultados obtenidos
    Competencias relacionadas: G9.3, CSI2.3, CSI2.6, CSI2.2,
  6. Presentación de los resultados en un entorno profesional para la toma de decisiones
    Competencias relacionadas: G9.3, CSI2.3, CSI2.6, G3.2, CSI2.2,

Contenidos

  1. Introducción a la Minería de Datos.
    Modelización estadística y tipos de problemas: análisis de datos binarios ("transacciones"), análisis de datos científicos y análisis de datos de empresas
  2. Visualización y reducción de la dimensionalidad
    Métodos de selección y extracción de variables. Visualización de datos multivariantes.
  3. Clustering
    Métodos de partición directa, jerárquicos y maximización de la esperanza
  4. Métodos Predictivos
    Regressió lineal múltiple i generalitzada. Regressió Logística. Xarxes Neuronals
  5. Árboles de Decisión
    Árboles de regresión y clasificación (CART).
  6. Protocolos de validación y remuestreo de datos
    Holdout, validación cruzada y bootstrap
  7. Generación de reglas de asociación
    Algoritmos A-priori y Eclat.
  8. Métodos bayesianos
    Teoria de la decisión bayesiana. Análisis Discriminante LDA, QDA. Naïve Bayes
  9. Discriminación no paramétrica
    Vecinos más cercanos
  10. Métodos de contracción y selección de variables en regresión
    Regressión lineal regularizada. Métodos LASSO y Elastic Net
  11. Análisis formal de conceptos
    Mètodo formar para encontrar patrones en datos
  12. Preprocesamiento de datos
    a
  13. Bagging i ensemble methods
    Bagging i ensemble methods

Actividades

Actividad Acto evaluativo


Desarrollo del Tema 1


Objetivos: 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Repaso del lenguaje R



Teoría
0h
Problemas
0h
Laboratorio
6h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Desarrollo del tema 2


Objetivos: 2
Contenidos:
Teoría
4h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
8h

Desarrollo del tema 3


Objetivos: 2
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Desarrollo del Tema 4


Objetivos: 2
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Desarrollo del tema 5


Objetivos: 2
Teoría
3h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Desarrollo del Tema 6


Objetivos: 2
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Desarrollo del Tema 7


Objetivos: 2
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Desarrollo del Tema 8


Objetivos: 2
Teoría
3h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h

Desarrollo del Tema 9


Objetivos: 2
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Desarrollo del Tema 10


Objetivos: 5
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Practica 1


Objetivos: 2 5 4 3
Semana: 13
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
3h
Aprendizaje autónomo
20h

Practica 2


Objetivos: 5 4 3 6
Semana: 15
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
3h
Aprendizaje autónomo
20h

Metodología docente

El aprendizaje se hará siguiendo la metodología de los casos, a partir del análisis de conjuntos de datos complejos provenientes de problemas reales. A partir de estos problemas se desarrollarán los conocimientos científicos necesarios en clase de teoría y su aplicación en las clases de laboratorio, de tal manera que la programación y/o integración de funciones de minería de datos reforzará la asimilación de los diferentes conceptos explicados. Para ello, se utilizará el entorno de programación libre R.

Las clases de laboratorio se dedicarán a resolver problemas relacionados con los conocimientos proporcionados en las clases de teoría y a la resolución por parte de los alumnos (de forma autónoma) de un problema similar. Este problema puede incluir la resolución de preguntas muy breves de carácter conceptual y será entregado para su evaluación. Por último, los alumnos deberán realizar dos prácticas completas, una de modelización estadística y otra para resolver problemas de tipo "científico", "transacciones" o "marketing" (uno a elegir). Esta última práctica será presentada de forma oral ante el conjunto de la clase.

Método de evaluación

La evaluación de la asignatura se realizará a partir de la nota obtenida en las ejercicios desarrollados durante las sesiones de laboratorio.
Por otra parte se realizarán dos prácticas, una realizada a partir de un problema de modelización estadística, y la otra práctica sobre uno de los otros tipos de problemas tratados en la asignatura. Por cada práctica el alumno presentará el correspondiente informe. Y por último, al finalizar el curso, el alumno deberá hacer la presentación oral de la segunda práctica.

El alumno deberá demostrar en estos informes y presentación haber adquirido los elementos de razonamiento e inglés de la asignatura. Estos se evaluarán mediante la correspondiente rúbrica.

La nota global de laboratorio es el promedio de las evaluaciones de los ejercicios desarrollados a partir de las sesiones de laboratorio.

La nota final se obtendrá así:

Labo = nota global de laboratorio
PR1 = nota de la primera práctica
PR2 = nota de la segunda práctica

Nota final = 0.2 * Labo + 0.4 * PR1 + 0.4 * PR2

En las dos prácticas, y respecto a su 40%, el 35% corresponde a la corrección técnica y el 5% corresponde a la competencia transversal 'razonamiento', de modo que se obtiene un peso global del 10% de esta competencia transversal en la nota final.

Bibliografía

Básica:

Complementaria:

Web links

Capacidades previas

Fundamentos de probabilidad y estadística. Programación básica en I

Adenda

Contenidos

No es preveuen modificacions de continguts

Metodología docente

Si hi hagués necessitat de semi-presencialitat es podrien aprofitar els materials disponibles al web de l'assignatura per combinar classes invertides amb sessions interactives per videoconferència que tindrien lloc en els hores programades normalment per l'assignaturaEl treball pràctic es pot desenvolupar de la mateixa forma que està plantejat per via telemàtica

Método de evaluación

La presentació dels treballs finals es pot realitzar per videoconferència sense problemes si és necessari

Plan de contingencia

Si cal assumir caràcter no presencial es farà més ús de classes invertides i es donarà instruccions setmanals per mail als estudiants sobre els temes a treballar i els materials a utilitzar d'entre els que hi ha disponibles al web de l'assignatura Els treballs es presentaràn per vídeoconferència. La discussió amb els professors i debat amb el grup de classe es podrà realitzar igualment per aquest medi