Augmentar lletres   Inici   Informació   Contactar   Mapa
Castellano   English

Recuperació de la Informació (RI)

Crèdits Dept. Tipus Requisits
7.5 (6.0 ECTS) LSI
  • Optativa per a l'EI
  • Optativa per a l'ETIG
  • Optativa per a l'ETIS
PRED - Pre-requisit per la EI , ETIG
PS - Pre-requisit per la ETIS

Professors

Responsable:  Ricard Gavaldà Mestre (gavalda@lsi.upc.edu)
Altres:Xavier Messeguer Peypoch (peypoch@lsi.upc.edu)

Objectius Generals

Entendre el problema de la recuperació de la informació. Entendre els diferents components de un sistema de recuperació de la informació i els factors i tècniques que poden optimitzar el procés i saber-los usar i adaptar.
Conèixer algunes aplicaciones d'aquests sistemes, com a mínim a la bioinformatica i a la Web.

Objectius Específics

Coneixements

  1. Conèixer els problemes associats a l'emmagatzemament i recuperació de la informació, sobretot de tipus textual.
  2. Entendre que l'efectivitat en la cerca i recuperació de la informació està molt relacionada amb l'organització i descripció d'aquesta informació.
  3. Conèixer els algorismes i tècniques més importants de cerca de patrons en informació textual.
  4. Descriure les aplicacions en bioinformàtica i en la web de les tècniques de recuperació de la informació.

Habilitats

  1. Poder decidir les tècniques de recuperació de la informació que poden ser efectives en un sistema d'informació concret, sobretot de tipus textual.
  2. En particular, poder decidir les tècniques de cerca i recuperació de la informació a emprar en aplicacions senzilles de l'àmbit de la bioinformàtica i de la Web.
  3. Poder avaluar l'efectivitat i utilitat, d'acord amb diversos criteris, d'un sistema de recuperació de la informació.
  4. Poder implementar les tècniques bàsiques (algorismes i estuctures de dades) de recuperació de la informació.
  5. Saber utilitzar i adaptar una eina per manegar informació textual com ara Lucene.

Competències

  1. Capacitat d'aplicar els coneixements de matemàtiques i lògica a la resolució de problemes.
  2. Capacitat per crear i utilitzar models de la realitat.
  3. Capacitat per dissenyar i dur a terme experiments, i d'analitzar-ne els resultats.
  4. Capacitat per dissenyar sistemes, components o processos que s'ajustin a unes necessitats, utilitzant els mètodes, tècniques i eines més adients en cada cas.
  5. Capacitat per prendre decisions en presència d'incertesa o de requisits contradictoris
  6. Capacitat d'actuar autònomament: Saber treballar de forma independent, rebent només la informació indispensable i un mínim de guiatge.
  7. Capacitat d'aprendre autònomament.

Continguts

Hores estimades de:

T P L Alt L Ext. Est A Ext.
Teoria Problemes Laboratori Altres activitats Laboratori extern Estudi Altres hores fora d'horari fixat

1. Introducció
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 0 2,0 0 2,0 2,0 0 8,0
Recuperació versus navegació. Documents. Visió lògica. Procés de recuperació de l'informació. Anàlisi lèxica.

2. Models de recuperació de la informació
T      P      L      Alt    L Ext. Est    A Ext. Total 
4,0 4,0 2,0 0 2,0 10,0 0 22,0
Caracterització formal i conceptes bàsics. Model booleà.
Model vectorial. Model probabilista.
Llenguatges d'interrogació. Principals components i models.

3. Indexació i cerques, implementació
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 2,0 0 0 0 4,0 0 8,0
Fitxers invertits i fitxers de signatures. Compressió d'índexos. Example: Implementació eficient de la regla del cosinus amb mesura tf-idf. Exemple: Lucene.

4. Avaluació
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 2,0 2,0 0 4,0 4,0 0 14,0
Recall i precisió. Altres mesures de rendiment. Col·leccions de referència.
"Relevance feedback" i "query expansion".

5. Clustering i classificació
T      P      L      Alt    L Ext. Est    A Ext. Total 
1,0 1,0 0 0 0 2,0 0 4,0
Noció de clustering. Algorismes bàsics: k-means i clustering jeràrquic.
Noció de classificació i alguns algorismes. Aplicacions en cerques.
Latent Semantic Indexing (LSI).

6. Aplicacions a la Web
T      P      L      Alt    L Ext. Est    A Ext. Total 
4,0 4,0 0 0 0 4,0 0 12,0
Ranking i relevancia per a models Web. Algorismes PageRank i HITS. Web Crawling. Recuperació XML.

7. Cerca seqüèncial i indexada
T      P      L      Alt    L Ext. Est    A Ext. Total 
8,0 8,0 3,0 0 2,0 16,0 0 37,0
Cerca de patrons. Algorismes per la cerca exacta i aproximada. Models de Markov ocults.
Tries. Fitxers invertits, arbre de sufixos. Algorismes de construcció, utilització i anàlisi.

8. Aplicacions a la bioinformàtica
T      P      L      Alt    L Ext. Est    A Ext. Total 
6,0 6,0 3,0 0 2,0 15,0 0 32,0
Patrons en cadenes d'ADN. Similaritat de seqüències.
Seqüènciació d'ADN. Bases de dades per a ADN.


Total per tipus T      P      L      Alt    L Ext. Est    A Ext. Total 
29,0 27,0 12,0 0 12,0 57,0 0 137,0
Hores addicionals dedicades a l'avaluació 6,0
Total hores de treball per l'estudiant 143,0

Metodologia docent

En les classes de laboratori s'implementaran (variacions dels) algorismes vistos a teoria i problemes, o bé s'aplicaran les tècniques en situacions relativament reals de cerca d'informació.

Algunes sessions de laboratori poden exigir una estona de preparació prèvia. En algunes sessions es demanarà la redacció d'un informe curt o bé el lliurament del codi desenvolupat, que comptaran per a l'avaluació de l'assignatura.

Actualment s'esta fent servir el paquet Lucene.

Mètode d'avaluació

Hi haurà un primer examen parcial a mig curs, i a final de curs
els estudiants poden triar entre fer un segon parcial o bé un examen final
de tota l'assignatura.

La nota de laboratori es calcularà en base als informes o els programes
lliurats després de les sessions de laboratori.

La nota de l'assignatura es calcularà com:

Estudiants que trien fer el 2on parcial:

0.2 * nota laboratori
+ 0.4 * prova parcial 1
+ 0.4 * prova parcial 2

Estudiants que trien fer l'examen final:

0.2 * nota laboratori
+ maxim (0.2 * prova parcial 1 + 0.6 * examen final,
0.8 * examen final)

Bibliografía bàsica

  • BAEZA-YATES, Ricardo; RIBEIRO-NIETO, Berthier Modern Information Retrieval, Addison Wesley , 1998.
  • WITTEN, Ian. H; MOFFAT, Alistair.; BELL, Timothy C. Managing Gigabytes, Morgan Kaufmann, 1999.
  • NAVARRO, Gonzalo.; RAFFINOT, Matthieu Flexible Pattern Matching in Strings: Practical on-line Search Algorithms for Texts and Biological Sequences, Cambridge University Press, 2002.
  • GUSFIELD, Dan Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology, Cambridge University Press, 1997.
  • MARKOV, Zdravko; LAROSE, Daniel T. Data mining the web , Wiley Interscience, 2007.

Bibliografía complementària

  • BELEW, Richard K. Finding Out About: Perspective on Search Engine Technology and the WWW, Cambridge University Press, 2001.
  • GOSPODNETIC, Otis.; HATCHER, Erik Lucene in Action , Manning Publications Co., 2005.

Enllaços web

  1. Obrir nova finestra http://lucene.apache.org/java/docs/
    Web del projecte Lucene


  2. Obrir nova finestra http://en.wikipedia.org/wiki/Information_Retrieval
    "Information Retrieval" a la Wikipedia


  3. Obrir nova finestra http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html
    Esborrany online del llibre "Introduction to Information Retrieval",
    de Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze.


  4. Obrir nova finestra http://www-pagines.fib.upc.es/~ri/
    Pàgina amb material de l'assignatura


Capacitats prèvies

Capacitat per fer programes mitjans, preferentment amb orientació a objectes.

Capacitat per dissenyar i analitzar estructures de dades senzilles.

Conèixer la distinció entre memòria principal i memòria secundària i el seu impacte en l'eficiència dels programes.



 
logo FIB © Facultat d'Informàtica de Barcelona - webmaster@fib.upc.edu - RSS RSS