Recuperación de la Información y Sistemas Recomendadores

Usted está aquí

Créditos
6
Tipos
  • MIRI: Complementaria de especialidad (Ciencia de los Datos)
  • MDS: Optativa
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
CS
La información almacenada digitalmente por las organizaciones, o colectivamente en la web, es hoy en día suficientemente voluminosa como para que encontrar aquello que se busca sea generalmente complicado. El campo conocido como "Information Retrieval" contempla métodos para organizar la información de forma que sea posible después para los usuarios encontrar la información de forma cómoda y eficiente. Cubriremos las técnicas básicas de búsqueda de documentación textual basada en palabras clave. Examinaremos después el caso de la búsqueda en la web, donde la presencia de hiperenlaces puede usarse no sólo para dirigir la búsqueda sino para valorar el interés de cada página -- éste es el caso del conocido algoritmo PageRank utilizado por Google. Veremos la extensión de este tipo de técnicas a redes sociales (por ejemplo Facebook o Twitter) donde el grafo de interacciones entre usuarios da mucha información sobre qué le puede interesar a cada usuario. Finalment, estudiaremos como las tecnologías de Big Data y de recomendación se complementan en los sistemas de búsqueda de información contemporáneos.

Profesorado

Responsable

  • Ramon Ferrer Cancho ( )

Horas semanales

Teoría
2
Problemas
1
Laboratorio
0.5
Aprendizaje dirigido
0.44444445
Aprendizaje autónomo
7.11

Competencias

Competencias Transversales

Uso solvente de los recursos de información

  • CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Lengua extranjera

  • CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

Competencias Técnicas Genéricas

Genéricas

  • CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.

Competencias Técnicas

Específicas

  • CE1 - Desarrollar algoritmos eficientes basados en el conocimiento y comprensión de la teoría de la complejidad computacional y las principales estructuras de datos dentro del ámbito de ciencia de datos
  • CE11 - Analizar y extraer conocimiento de información no estructurada mediante técnicas de procesamiento de lenguaje natural, minería de textos e imágenes

Objetivos

  1. Técnicas de búsqueda y tratamiento de la información en entornos heterogéneos
    Competencias relacionadas: CT4, CT5, CG2, CE1, CE11, CB10,
  2. Sistemas recomendadores
    Competencias relacionadas: CT5, CG2, CE11, CB6, CB7,
  3. Algoritmos avanzados para minería de datos
    Competencias relacionadas: CT5, CE1, CE11, CB6, CB10,

Contenidos

  1. Introducción
    Necesidad de técnicas de búsqueda y análisis de información masiva. Búsqueda y análisis vs. bases de datos. Proceso de recuperación de la información. Preproceso y análisis léxico.
  2. Modelos de recuperación de la información
    Definición formal y conceptos básicos: Modelos abstractos de documentos y lenguajes de interrogación. Modelo booleano. Modelo vectorial. Latent Semantic Indexing.
  3. Implementación: Indexación y búsquedas
    Ficheros inversos y ficheros de firmas. Compresión de índices. Ejemplo: Implementación eficiente de la regla del coseno con medida tf-idf. Ejemplo: Lucene.
  4. Evaluación en recuperación de la información
    Recall y precisión. Otras medidas de rendimiento. Colecciones de referencia. "Relevance feedback" y "query expansion".
  5. Búsqueda en internet
    Ranking y relevancia para modelos web. Algoritmo PageRank. Crawling. Arquitectura de un sistema simple de búsqueda en la web.
  6. Arquitectura de sistemas para la gestión de información masiva
    Escalabilidad, alto rendimento y tolerancia a fallos: el caso de buscadores web masivos. Arquitecturas distribuidas. Ejemplo: Hadoop.
  7. Análisis de redes
    Parámetros descriptivos y características de las redes: grado, diámetro, redes "small-world", entre otros. Algoritmos sobre redes: clustering, detección de comunidades y de nodos influyentes, reputación, entre otros.
  8. Sistemas de información basados en análisis de información masiva. Combination with other technologies.
    "Search Engine Optimization". Uso de técnicas de recuperación de la información en combinación con Minería de Datos y Aprendizaje. Sistemas de recomendación.

Actividades

Actividad Acto evaluativo


Teoría
26h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
26h

Ejercicios sobre los temas 1 a 8 de la asignatura

En cada sesión, el profesor plantea una colección de problemas (orientativamente, entre 4 y 7) del tema que acaba de tratarse teòricamente. A continuación se resuelven conjuntamente algunos de los problemas propuestos (orientativamente, 3). Los estudiantes han de resolver el resto de los problemas fuera de horas de clase, y entregarlos al inicio de la siguiente sesión. Parte de la sesión se dedica a comentar las dudas que puedan haber salido en la resolución de estos problemas pendientes de la sesión anterior.
Objetivos: 1 2 3
Contenidos:
Teoría
0h
Problemas
13h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
26h

Trabajo de laboratorio sobre los temas 1 a 8

El profesor planteará un trabajo de tipo práctico relacionado con los temas vistos más recientemente. Éste puede consistir en el análisis de unos datos proporcionados (o que haga falta buscar), implementar uno de los algoritmos vistos en clase, o proporcionar una solución a un caso concreto de necesidad de técnicas de recuperación de la información. El estudiante completa el trabajo en la medida de lo posible dentro de las horas de clase, aunque algún tiempo fuera de clase pueden ser necesario. En muchas de las sesiones será necesario entregar un informe del trabajo hecho y resultados obtenidos, a entregar en el plazo que se determinará en cada caso (orientativamente, 2 semanas).
Objetivos: 1 2 3
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
13h
Aprendizaje dirigido
0h
Aprendizaje autónomo
13h

Examen final

Examen final sobre el contenido de toda la asignatura
Objetivos: 1 2 3
Semana: 18
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
15h

Estudio y presentación de un artículo científico

Estudio y presentación de un artículo científico relacionado con la asignatura
Objetivos: 1 2 3
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
3h
Aprendizaje autónomo
10h

Metodología docente

Sesiones de teoría + problemas de 3 horas semanales. Las 2 primeras horas de cada sesión son de tipo teórico, y la tercera se dedica a problemas. Para cada sesión, el estudiante tendrá que entregar algunos problemas propuestos pero no resueltos en el anterior.

Sesiones de laboratorio de 1 hora semanal. Para muhcas de las sesiones, el estudiante tendrá que entregar un informe del trabajo hecho y resultados obtenidos en alrededor de 2 semanas.

El funcionamiento de cada tipo de sesión se describe en el apatado "Actividades".

Además, hacia final de curso cada estudiante presentará ante los profesores y otros matriculados un artículo científico relacionado con la temática de la asignatura, como si se tratara de una presentación en congreso. Hacia la semana 8 se publicará una lista de posibles artículos de los cuales cada estudiante elegirá uno. Alternativamente, podrá proponer un artículo de su elección para que la aprueben los profesores. El día de las presentaciones se anunciará con al menos 2 meses de tiempo y el orden y hora exactos de las presentaciones con al menos 1 semana de antelación.

Método de evaluación

Sean:

- NF la nota del examen final, de 0 a 10,
- NE la nota de las entregas de ejercicios, de 0 a 10,
- NL la nota de las prácticas de laboratorio, de 0 a 10,
- NA la nota de la presentación de un artículo científico,

todas en el rango de 0 a 10.

La nota final de la assignatura es 0.3*NF + 0.25*NL + 0.25*NE + 0.2*NA.

Bibliografía

Básica:

Web links

Capacidades previas

Las supuestas en el ingreso en el MIRI más las proporcionadas por la fase de formación común.