Créditos
6
Tipos
- MDS: Optativa
- MIRI: Optativa
- MEI: Optativa
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
CS
Profesorado
Responsable
- Ramon Ferrer Cancho ( rferrericancho@cs.upc.edu )
Horas semanales
Teoría
2
Problemas
1
Laboratorio
0.5
Aprendizaje dirigido
0.44444445
Aprendizaje autónomo
7.11
Competencias
Uso solvente de los recursos de información
Lengua extranjera
Básicas
Genéricas
Específicas
Objetivos
-
Técnicas de búsqueda y tratamiento de la información en entornos heterogéneos
Competencias relacionadas: CT4, CT5, CG2, CE1, CE11, CB10, -
Sistemas recomendadores
Competencias relacionadas: CT5, CG2, CE11, CB6, CB7, -
Algoritmos avanzados para minería de datos
Competencias relacionadas: CT5, CE1, CE11, CB6, CB10,
Contenidos
-
Introducción
Necesidad de técnicas de búsqueda y análisis de información masiva. Búsqueda y análisis vs. bases de datos. Proceso de recuperación de la información. Preproceso y análisis léxico. -
Modelos de recuperación de la información
Definición formal y conceptos básicos: Modelos abstractos de documentos y lenguajes de interrogación. Modelo booleano. Modelo vectorial. Latent Semantic Indexing. -
Implementación: Indexación y búsquedas
Ficheros inversos y ficheros de firmas. Compresión de índices. Ejemplo: Implementación eficiente de la regla del coseno con medida tf-idf. Ejemplo: Lucene. -
Evaluación en recuperación de la información
Recall y precisión. Otras medidas de rendimiento. Colecciones de referencia. "Relevance feedback" y "query expansion". -
Búsqueda en internet
Ranking y relevancia para modelos web. Algoritmo PageRank. Crawling. Arquitectura de un sistema simple de búsqueda en la web. -
Arquitectura de sistemas para la gestión de información masiva
Escalabilidad, alto rendimento y tolerancia a fallos: el caso de buscadores web masivos. Arquitecturas distribuidas. Ejemplo: Hadoop. -
Análisis de redes
Parámetros descriptivos y características de las redes: grado, diámetro, redes "small-world", entre otros. Algoritmos sobre redes: clustering, detección de comunidades y de nodos influyentes, reputación, entre otros. -
Sistemas de información basados en análisis de información masiva. Combination with other technologies.
"Search Engine Optimization". Uso de técnicas de recuperación de la información en combinación con Minería de Datos y Aprendizaje. Sistemas de recomendación.
Actividades
Actividad Acto evaluativo
Desarrollo teórico de los temas 1 a 8 del curso
El alumno atenderá a la exposición del profesor y participará activamente en la discusión inicial del reto a resolver en la sesión.Objetivos: 1 2 3
Contenidos:
- 1 . Introducción
- 3 . Implementación: Indexación y búsquedas
- 4 . Evaluación en recuperación de la información
- 6 . Arquitectura de sistemas para la gestión de información masiva
- 8 . Sistemas de información basados en análisis de información masiva. Combination with other technologies.
- 2 . Modelos de recuperación de la información
- 5 . Búsqueda en internet
- 7 . Análisis de redes
Teoría
26h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
26h
Ejercicios sobre los temas 1 a 8 de la asignatura
En cada sesión, el profesor plantea una colección de problemas (orientativamente, entre 4 y 7) del tema que acaba de tratarse teòricamente. A continuación se resuelven conjuntamente algunos de los problemas propuestos (orientativamente, 3). Los estudiantes han de resolver el resto de los problemas fuera de horas de clase, y entregarlos al inicio de la siguiente sesión. Parte de la sesión se dedica a comentar las dudas que puedan haber salido en la resolución de estos problemas pendientes de la sesión anterior.Objetivos: 1 2 3
Contenidos:
- 1 . Introducción
- 3 . Implementación: Indexación y búsquedas
- 4 . Evaluación en recuperación de la información
- 6 . Arquitectura de sistemas para la gestión de información masiva
- 8 . Sistemas de información basados en análisis de información masiva. Combination with other technologies.
- 2 . Modelos de recuperación de la información
- 5 . Búsqueda en internet
- 7 . Análisis de redes
Teoría
0h
Problemas
13h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
26h
Trabajo de laboratorio sobre los temas 1 a 8
El profesor planteará un trabajo de tipo práctico relacionado con los temas vistos más recientemente. Éste puede consistir en el análisis de unos datos proporcionados (o que haga falta buscar), implementar uno de los algoritmos vistos en clase, o proporcionar una solución a un caso concreto de necesidad de técnicas de recuperación de la información. El estudiante completa el trabajo en la medida de lo posible dentro de las horas de clase, aunque algún tiempo fuera de clase pueden ser necesario. En muchas de las sesiones será necesario entregar un informe del trabajo hecho y resultados obtenidos, a entregar en el plazo que se determinará en cada caso (orientativamente, 2 semanas).Objetivos: 1 2 3
Contenidos:
- 1 . Introducción
- 3 . Implementación: Indexación y búsquedas
- 4 . Evaluación en recuperación de la información
- 6 . Arquitectura de sistemas para la gestión de información masiva
- 8 . Sistemas de información basados en análisis de información masiva. Combination with other technologies.
- 2 . Modelos de recuperación de la información
- 5 . Búsqueda en internet
- 7 . Análisis de redes
Teoría
0h
Problemas
0h
Laboratorio
13h
Aprendizaje dirigido
0h
Aprendizaje autónomo
13h
Metodología docente
Sesiones de teoría + problemas de 3 horas semanales. Las 2 primeras horas de cada sesión son de tipo teórico, y la tercera se dedica a problemas. Para cada sesión, el estudiante tendrá que entregar algunos problemas propuestos pero no resueltos en el anterior.Sesiones de laboratorio de 1 hora semanal. Para muhcas de las sesiones, el estudiante tendrá que entregar un informe del trabajo hecho y resultados obtenidos en alrededor de 2 semanas.
El funcionamiento de cada tipo de sesión se describe en el apatado "Actividades".
Además, hacia final de curso cada estudiante presentará ante los profesores y otros matriculados un artículo científico relacionado con la temática de la asignatura, como si se tratara de una presentación en congreso. Hacia la semana 8 se publicará una lista de posibles artículos de los cuales cada estudiante elegirá uno. Alternativamente, podrá proponer un artículo de su elección para que la aprueben los profesores. El día de las presentaciones se anunciará con al menos 2 meses de tiempo y el orden y hora exactos de las presentaciones con al menos 1 semana de antelación.
Método de evaluación
Sean:- NF la nota del examen final, de 0 a 10,
- NE la nota de las entregas de ejercicios, de 0 a 10,
- NL la nota de las prácticas de laboratorio, de 0 a 10,
- NA la nota de la presentación de un artículo científico,
todas en el rango de 0 a 10.
La nota final de la assignatura es 0.3*NF + 0.25*NL + 0.25*NE + 0.2*NA.
Bibliografía
Básico
-
Modern information retrieval: the concepts and technology behind search
- Baeza-Yates, R.; Ribeiro-Neto, B,
Addison-Wesley / Pearson,
2011.
ISBN: 9780321416919
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003938679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Introduction to information retrieval
- Manning, C.D.; Raghavan, P.; Schütze, H,
Cambridge University Press,
2008.
ISBN: 9780521865715
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003641259706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Search engines: information retrieval in practice
- Croft, W.B.; Metzler, D.; Strohman, T,
Pearson,
2010.
ISBN: 9780131364899
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003969369706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Mining the social web: data mining Facebook, Twitter, LinkedIn, Instagram, Github, and more
- Russell, M.A.; Klassen, M,
O'Reilly Media,
2018.
ISBN: 9781491973509
-
Lucene in action
- McCandless, M.; Hatcher, E.; Gospodnetic, O,
Manning,
2010.
ISBN: 9781933988177
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003760299706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Web links
- Supporting web of the course http://www.cs.upc.edu/~IR-MIRI/