Recuperació de la Informació

Esteu aquí

Crèdits
6
Tipus
Complementària d'especialitat (Ciència de les Dades)
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
La informació emmagatzemada digitalment en moltes organitzacions, o col·lectivament en la web, és avui dia prou gran perquè trobar allò que es busca sigui generalment complicat. El camp conegut com a "Information Retrieval" tracta dels mètodes per organitzar informació i permetre després als usuaris trobar-la de manera còmoda i eficient. Cobrirem les tècniques bàsiques de cerca de documentació textual basada en paraules clau. Examinarem després el cas de la cerca en la web, on la presència d'hiperenllaços pot usar-se no sols per dirigir la cerca sinó per valorar l'interès de cada pàgina - és el cas del conegut algorisme PageRank. Veurem l'extensió d'aquestes tècniques al cas de les xarxes socials on el graf d'interaccions entre usuaris proporciona molta informació de què pot interessar a cadascun. Finalment, estudiarem com les tecnologies de Big Data i de recomanació es complementen en sistemes de cerca d'informació actuals.

Professors

Responsable

  • Ramon Ferrer Cancho ( )

Altres

  • Marta Arias Vicente ( )

Hores setmanals

Teoria
2
Problemes
1
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
4

Competències

Competències Tècniques Generals

Genèriques

  • CG1 - Capacitat per aplicar el mètode científic en l'estudi i anàlisi de fenòmens i sistemes en qualsevol àmbit de la Informàtica, així com en la concepció, disseny i implantació de solucions informàtiques innovadores i originals.
  • CG3 - Capacitat per al modelatge matemàtic, càlcul i disseny experimental en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca i innovació en tots els àmbits de la Informàtica.
  • CG5 - Capacitat per aplicar solucions innovadores i realitzar avenços en el coneixement que explotin els nous paradigmes de la Informàtica, particularment en entorns distribuïts.

Competències Transversals

ús solvent dels recursos d'informació

  • CTR4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i d'informació de l'àmbit de l'enginyeria informàtica, i valorar de forma crítica els resultats d'aquesta gestió.

Actitud adequada davant el treball

  • CTR5 - Tenir motivació per a la realització professional i per a afrontar nous reptes, tenir una visió àmplia de les possibilitats de la carrera professional en l'àmbit de l'enginyeria en informàtica. Sentir-se motivat per la qualitat i la millora contínua, i actuar amb rigor en el desenvolupament professional. Capacitat d'adaptació als canvis organitzatius o tecnològics. Capacitat de treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.

Raonament

  • CTR6 - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma.

Competències Tècniques de cada especialitat

Específiques comunes

  • CEC1 - Capacitat per aplicar el mètode científic en l'estudi i anàlisi de fenòmens i sistemes en qualsevol àmbit de la Informàtica, així com en la concepció, disseny i implantació de solucions informàtiques innovadores i originals.
  • CEC2 - Capacitat per al modelatge matemàtic, càlcul i disseny experimental en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca i innovació en tots els àmbits de la Informàtica.
  • CEC3 - Capacitat per aplicar solucions innovadores i realitzar avanços en el coneixement que explotin els nous paradigmes de la Informàtica, particularment en entorns distribuïts.

Continguts

  1. Introducció
    Necessitat de les tècniques de cerca i anàlisi d'informació massiva. Cerca i anàlisi vs. bases de dades. Procés de recuperació de la informació. Preprocés i anàlisi lèxica.
  2. Models de recuperació de la informació
    Definició formal i conceptes bàsics: Models abstractes de documents i llenguatges d'interrogació. Model booleà. Model vectorial. Latent Semantic Indexing.
  3. Implementació: Indexació i cerques
    Fitxers invertits i fitxers de signatures. Compressió d'índexos. Exemple: Implementació eficient de la regla del cosinus amb mesura tf-idf. Exemple: Lucene.
  4. Avaluació en recuperació de la informació
    Recall i precisió. Altres mesures de rendiment. Col·leccions de referència. "Relevance feedback" i "query expansion".
  5. Cerca a internet
    Ranking i relevància per a models web. Algorisme PageRank. Crawling. Arquitectura de un sistema simple de cerca a la web.
  6. Arquitectura de sistemes pera la gestió d'informació massiva
    Escalabilitat, alt rendiment i tolerància a fallides: el cas de cercadors web massius. Arquitectures distribuïdes. Exemple: Hadoop.
  7. Anàlisi de xarxes
    Paràmetres descriptius i característiques de les xarxes: grau, diàmetre, xarxes "small-world", entre altres. Algorismes sobre xarxes: clustering, detecció de comunitats i de nodes influents, reputació, entre altres.
  8. Sistemes d'informació basats en l'explotació d'informació massiva. Combinació amb altres tecnologies.
    "Search Engine Optimization". Utilització de tècniques de recuperació de la informació en combinació amb Mineria de Dades i Aprenentatge. Sistemes de recomanació.

Activitats

Activitat Acte avaluatiu


Teoria
26h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
26h

Exercicis sobre els temes 1 a 8 de l'assignatura

A cada sessió, el professor planteja una col·lecció de problemes (orientativament, entre 4 i 7) del tema que s'acaba de tractar teòricament. A continuació es resolen conjuntament alguns dels problemes proposats (orientativament, 3). Els estudiants han de resoldre la resta dels problemes fora d'hores de classe, i lliurar-los a l'inici de la la sessió següent. Part de la sessió es dedica a comentar conjuntament els dubtes que puguin haver sorgit en la resolució d'aquests problemes pendents de la sessió anterior. parte de la sesión se reserva para la discusión de dudas que puedan haber surgido en la resolución de los problemas pendientes de la sesión anterior.

Continguts:
Teoria
0h
Problemes
13h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
26h

Treball de laboratori sobre els temes 1 a 8

El professor planteja un treball de tipus pràctic relacionat amb els temes vistos més recentment. Aquest pot consistir en l'anàlisi d'unes dades donades (o que calgui buscar), implementar un dels algorismes vistos a classe, o proposar una solució a un cas concret de necessitat de tècniques de recuperació de la informació. L'estudiant completa tant com sigui possible el treball en l'hora de classe, encara que algun temps addicional pot ser ocasionalment necessari. En moltes de les sessions es demanarà un informe de la feina feta i els resultats obtinguts, a lliurar en el termini que es definirà en cada cas (orientativament, 2 setmanes).

Continguts:
Teoria
0h
Problemes
0h
Laboratori
13h
Aprenentatge dirigit
0h
Aprenentatge autònom
13h

Examen final

Examen final sobre el contingut de tota l'assignatura

Setmana: 18
Tipus: examen final
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
15h

Estudi i presentació d'un article científic

Estudi i presentació d'un article científic relacionat amb la temàtica de l'assignatura

Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
3h
Aprenentatge autònom
10h

Metodologia docent

Sessions de teoria + problemes de 3 hores setmanals. Les 2 primeres hores de cada sessió són de tipus teòric, i la tercera es dedica a problemes. Per a cada sessió, l'estudiant haurà de lliurar les solucions d'alguns problemes proposats però no resolts en l'anterior.

Sessions de laboratori d'1 hora setmanal. Per a moltes de les sessions, l'estudiant haurà de lliurar un informe de la feina feta i resultats obtinguts al cap d'unes 2 setmanes.

El funcionament de cada tipus de sessió es descriu a l'apartat "Activitats".

A més, cap al final del curs els estudiants hauran de presentar davant els professors i els altres matriculats que vulguin assistir un article científic relacionat amb la temàtica de l'assignatura, en una forma similar a com es presentaria en un congrés científic. Cap a la setmana 8 de curs es farà pública una llista d'articles d'entre els quals l'estudiant podrà triar-ne un. Alternativament també pot proposar un article escollit per ell per al vist-i-plau dels professors. El dia de les presentacions s'anunciarà amb al menys 2 mesos de temps, i l'ordre i hora exactes de les presentacions amb al menys 1 setmana de temps.

Mètode d'avaluació

Siguin:

- NF la nota de l'examen final,
- NE la nota dels lliuraments d'exercicis,
- NL la nota de les pràctiques de laboratori,
- NA la nota de la presentació d'un article científic,

totes en el rang de 0 a 10.

La nota final de l'assignatura és 0.3*NF + 0.25*NL + 0.25*NE + 0.2*NA.

Bibliografia

Bàsica:

Web links

Capacitats prèvies

Les suposades a l'ingrés al MIRI més les proporcionades per la fase de formació comú.

Addenda

Continguts

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT NO CHANGES WITH RESPECT TO PRIOR PUBLISHED INFORMATION

Metodologia docent

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT NO CHANGES WITH RESPECT TO PRIOR PUBLISHED INFORMATION

Mètode d'avaluació

NO HI HA CANVIS RESPECTE LA INFORMACIÓ PUBLICADA A LA GUIA DOCENT NO CHANGES WITH RESPECT TO PRIOR PUBLISHED INFORMATION

Pla de contingència

Passariem a format online amb gravaciones de vídeo i sessions remotes via meet. In case of lockdown, we would move our lectures to an online environment through meet sessions and/or recorded videos.