Saltar al contingut Menu
Mapa
  • Inicio
  • Información
  • Contacto
  • Mapa

Recuperación de la Información (RI)

Créditos Dept. Tipo Requisitos
7.5 (6.0 ECTS) CS
  • Optativa para la EI
  • Optativa para la ETIG
  • Optativa para la ETIS
PRED - Prerequisito para la EI , ETIG
PS - Prerequisito para la ETIS

Profesores

Responsable:  (-)
Otros:(-)

Objectivos Generales

Entender el problema de la recuperación de información. Entender los diferentes componentes de un sistema de recuperación de la información, los factores y técnicas que pueden optimizar el proceso y saberlos usar y adaptar. Conocer algunas aplicaciones de estos sistemas, como mínimo en la bioinformática y la Web.

Objectivos Específicos

Conocimientos

  1. Conocer los problemas asociados al almacenamiento y recuperación de la información, sobre todo de tipo textual.
  2. Entender que la efectividad en la búsqueda y recuperación de la información está muy relacionada con la organización y descripción de esta información.
  3. Conocer los algoritmos y técnicas más importantes de búsqueda de patrones en información textual.
  4. Describir las aplicaciones en bioinformática y en la web de las técnicas de recuperación de la información.

Habilidades

  1. Poder decidir las técnicas de recuperación de la información que pueden ser efectivas en un sistema de información concreto, sobre todo de tipo textual.
  2. En particular, poder decidir las técnicas de búsqueda y recuperación de la información a emplear en aplicaciones sencillas del ámbito de la bioinformática y de la Web.
  3. Poder evaluar la efectividad y utilidad, de acuerdo con varios criterios, de un sistema de recuperación de la información.
  4. Poder implementar las técnicas básicas (algoritmos y estructuras de datos) de recuperación de la información.
  5. Saber utilizar y adaptar una herramienta para manejar información textual, como Lucene.

Competencias

  1. Capacidad para aplicar los conocimientos de matemáticas y lógica a la resolución de problemas.
  2. Capacidad para crear y utilizar modelos de la realidad.
  3. Capacidad para diseñar, llevar a cabo experimentos y analizar los resultados.
  4. Capacidad para diseñar sistemas, componentes o procesos que se ajusten a unas necesidades, utilizando los métodos, técnicas y herramientas más adecuadas en cada caso.
  5. Capacidad para tomar decisiones en presencia de incertidumbre o de requisitos contradictorios
  6. Capacidad para actuar autónomamente: Saber trabajar de forma independiente, recibiendo sólo la información indispensable y unas guías mínimas
  7. Capacidad para aprender autónomamente.

Contenidos

Horas estimadas de:

T P L Alt L Ext. Est O. Ext.
Teoria Problemas Laboratorio Otras actividades Laboratorio externo Estudio Otras horas fuera del horario fijado

1. Introducción
T      P      L      Alt    L Ext. Est    O. Ext. Total 
2,0 1,0 2,0 0 1,0 2,0 0 8,0
Necesidad de las técnicas de recuperación de la información. Recuperación de la información vs. bases de datos. Proceso de recuperación de la información. Preproceso y análisis léxico.

2. Modelos de recuperación de la información
T      P      L      Alt    L Ext. Est    O. Ext. Total 
4,0 4,0 2,0 0 2,0 10,0 0 22,0
Definición formal y conceptos básicos: Modelos abstractos de documentos y lenguajes de interrogación. Modelo booleano. Modelo vectorial. Latent semantic indexing.

3. Indexado y búsquedas, implementación
T      P      L      Alt    L Ext. Est    O. Ext. Total 
2,0 2,0 0 0 0 4,0 0 8,0
Ficheros invertidos. Compresión de índices. Ejemplo: Implementación eficiente de la regla del coseno con medida tf-idf. Ejemplo: Lucene.

4. Evaluación en recuperación de la información
T      P      L      Alt    L Ext. Est    O. Ext. Total 
2,0 2,0 2,0 0 4,0 4,0 0 14,0
Recall y precisión. Otras medidas de rendimiento. Colecciones de referencia. "Relevance feedback" y "query expansion".

5. Aplicaciones en la Web
T      P      L      Alt    L Ext. Est    O. Ext. Total 
8,0 6,0 0 0 0 8,0 0 22,0
Ranking y relevancia para modelos Web. Algoritmo PageRank. Arquitectura de buscadores en la web. Web Crawling. Análisis de redes sociales basado en enlaces.

6. Búsqueda secuencial e indexada
T      P      L      Alt    L Ext. Est    O. Ext. Total 
8,0 8,0 3,0 0 2,0 16,0 0 37,0
Búsqueda de patrones. Algoritmos para la búsqueda exacta y aproximada.Tries. Modelos de Markov ocultos. Ficheros invertidos, árbol de sufijos. Algoritmos de construcción, utilización y análisis.

7. Aplicaciones en la bioinformática
T      P      L      Alt    L Ext. Est    O. Ext. Total 
6,0 6,0 3,0 0 2,0 15,0 0 32,0
Patrones en cadenas de ADN. Similaridad de secuencias. Secuenciación de ADN. Bases de datos para ADN.


Total por tipo T      P      L      Alt    L Ext. Est    O. Ext. Total 
32,0 29,0 12,0 0 11,0 59,0 0 143,0
Horas adicionales dedicadas a la evaluación 5,0
Total horas de trabajo para el estudiante 148,0

Metodología docente

En las clases de laboratorio se implementarán variaciones de los algoritmos vistos en teoría y problemas, o bien se aplicarán las técnicas en situaciones relativamente reales de búsqueda de información.

Algunas sesiones de laboratorio pueden exigir un tiempo de preparación previa. En algunas sesiones se pedirá la redacción de un informe corto o bien la entrega del código desarrollado, que contarán para la evaluación de la asignatura.



Actualmente se está usando el paquete Lucene.

Método de evaluación

Habrá una primera prueba parcial a mitad de curso, y a final de curso los estudiantes podrán escoger entre hacer un segundo parcial o bien un examen final de toda la asignatura.

La nota de laboratorio se calculará en base a los informes o a los programas entregados después de las sesiones de laboratorio.





La nota de la asignatura se calculará como:



Estudiantes que elijan hacer el 2o parcial:



0.2 * nota laboratorio

+ 0.4 * prueba parcial 1

+ 0.4 * prueba parcial 2



Estudiantes que elijan hacer el examen final:



0.2 * nota laboratorio

+ max (0.2 * prueba parcial 1 + 0.6 * examen final, 0.8 * examen final)

Bibliografía básica

  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern information retrieval, Addison-Wesley, 1999.
  • Ian H. Witten, Alistair Moffat, Timothy C. Bell Managing gigabytes : compressing and indexing documents and images, Morgan Kauffman, 1999.
  • Gonzalo Navarro, Matthieu Raffinot Flexible pattern matching in strings : practical on-line search algorithms for texts and biological sequences, Cambridge University Press, 2002.
  • Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval, Cambridge University Press, 2008.
  • Dan Gusfield Algorithms on strings, trees, and sequences: computer science and computational biology , Cambridge University Press, 1997.

Bibliografía complementaria

  • Richard K. Belew Finding out about : a cognitive perspective on search engine technology and the WWW, Cambridge University Press, 2000.
  • Otis Gospodnetic, Erik Hatcher Lucene in action, Manning, 2005.
  • Zdravko Markov, Daniel T. Larose Data mining the web, Wiley Interscience, 2007.

Enlaces web

  1. http://lucene.apache.org/java/docs/


  2. http://en.wikipedia.org/wiki/Information_Retrieval


  3. http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html


  4. http://www-pagines.fib.upc.es/~ri/


Capacidades previas

Capacidad para hacer programas medios, preferentemente con orientación a objetos.

Capacidad para diseñar y analizar estructures de datos sencillas.

Conocer la distinción entre memoria principal y memoria secundaria y su impacto en la eficiencia de los programas.


Compartir

 
logo FIB © Facultad de Informática de Barcelona - Contacto - RSS
Esta web utiliza cookies propias para ofrecerle una mejor experiencia y servicio. Si continúa la navegación, entendemos que acepta nuestra política de cookies. Versión clássica Versión móvil