La información almacenada digitalmente por las organizaciones, o colectivamente en la web, es hoy en día suficientemente voluminosa como para que encontrar aquello que se busca sea generalmente complicado. El campo conocido como "Information Retrieval" contempla métodos para organizar la información de forma que sea posible después para los usuarios encontrar la información de forma cómoda y eficiente. Cubriremos las técnicas básicas de búsqueda de documentación textual basada en palabras clave. Examinaremos después el caso de la búsqueda en la web, donde la presencia de hiperenlaces puede usarse no sólo para dirigir la búsqueda sino para valorar el interés de cada página -- éste es el caso del conocido algoritmo PageRank utilizado por Google. Veremos la extensión de este tipo de técnicas a redes sociales (por ejemplo Facebook o Twitter) donde el grafo de interacciones entre usuarios da mucha información sobre qué le puede interesar a cada usuario. Finalment, estudiaremos como las tecnologías de Big Data y de recomendación se complementan en los sistemas de búsqueda de información contemporáneos.
Profesorado
Responsable
Ramon Ferrer Cancho (
)
Horas semanales
Teoría
2
Problemas
1
Laboratorio
0.5
Aprendizaje dirigido
0.44444445
Aprendizaje autónomo
7.11
Competencias
Competencias Transversales
Uso solvente de los recursos de información
CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.
Lengua extranjera
CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.
Básicas
CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
Competencias Técnicas Genéricas
Genéricas
CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.
Competencias Técnicas
Específicas
CE1 - Desarrollar algoritmos eficientes basados en el conocimiento y comprensión de la teoría de la complejidad computacional y las principales estructuras de datos dentro del ámbito de ciencia de datos
CE11 - Analizar y extraer conocimiento de información no estructurada mediante técnicas de procesamiento de lenguaje natural, minería de textos e imágenes
Objetivos
Técnicas de búsqueda y tratamiento de la información en entornos heterogéneos
Competencias relacionadas:
CT4,
CT5,
CG2,
CE1,
CE11,
CB10,
Algoritmos avanzados para minería de datos
Competencias relacionadas:
CT5,
CE1,
CE11,
CB6,
CB10,
Contenidos
Introducción
Necesidad de técnicas de búsqueda y análisis de información masiva. Búsqueda y análisis vs. bases de datos. Proceso de recuperación de la información. Preproceso y análisis léxico.
Modelos de recuperación de la información
Definición formal y conceptos básicos: Modelos abstractos de documentos y lenguajes de interrogación. Modelo booleano. Modelo vectorial. Latent Semantic Indexing.
Implementación: Indexación y búsquedas
Ficheros inversos y ficheros de firmas. Compresión de índices. Ejemplo: Implementación eficiente de la regla del coseno con medida tf-idf. Ejemplo: Lucene.
Evaluación en recuperación de la información
Recall y precisión. Otras medidas de rendimiento. Colecciones de referencia. "Relevance feedback" y "query expansion".
Búsqueda en internet
Ranking y relevancia para modelos web. Algoritmo PageRank. Crawling. Arquitectura de un sistema simple de búsqueda en la web.
Arquitectura de sistemas para la gestión de información masiva
Escalabilidad, alto rendimento y tolerancia a fallos: el caso de buscadores web masivos. Arquitecturas distribuidas. Ejemplo: Hadoop.
Análisis de redes
Parámetros descriptivos y características de las redes: grado, diámetro, redes "small-world", entre otros. Algoritmos sobre redes: clustering, detección de comunidades y de nodos influyentes, reputación, entre otros.
Sistemas de información basados en análisis de información masiva. Combination with other technologies.
"Search Engine Optimization". Uso de técnicas de recuperación de la información en combinación con Minería de Datos y Aprendizaje. Sistemas de recomendación.
Actividades
ActividadActo evaluativo
Desarrollo teórico de los temas 1 a 8 del curso
El alumno atenderá a la exposición del profesor y participará activamente en la discusión inicial del reto a resolver en la sesión. Objetivos:123 Contenidos:
En cada sesión, el profesor plantea una colección de problemas (orientativamente, entre 4 y 7) del tema que acaba de tratarse teòricamente. A continuación se resuelven conjuntamente algunos de los problemas propuestos (orientativamente, 3). Los estudiantes han de resolver el resto de los problemas fuera de horas de clase, y entregarlos al inicio de la siguiente sesión. Parte de la sesión se dedica a comentar las dudas que puedan haber salido en la resolución de estos problemas pendientes de la sesión anterior. Objetivos:123 Contenidos:
El profesor planteará un trabajo de tipo práctico relacionado con los temas vistos más recientemente. Éste puede consistir en el análisis de unos datos proporcionados (o que haga falta buscar), implementar uno de los algoritmos vistos en clase, o proporcionar una solución a un caso concreto de necesidad de técnicas de recuperación de la información. El estudiante completa el trabajo en la medida de lo posible dentro de las horas de clase, aunque algún tiempo fuera de clase pueden ser necesario. En muchas de las sesiones será necesario entregar un informe del trabajo hecho y resultados obtenidos, a entregar en el plazo que se determinará en cada caso (orientativamente, 2 semanas). Objetivos:123 Contenidos:
Examen final sobre el contenido de toda la asignatura Objetivos:123 Semana:
18
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
15h
Estudio y presentación de un artículo científico
Estudio y presentación de un artículo científico relacionado con la asignatura Objetivos:123
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
3h
Aprendizaje autónomo
10h
Metodología docente
Sesiones de teoría + problemas de 3 horas semanales. Las 2 primeras horas de cada sesión son de tipo teórico, y la tercera se dedica a problemas. Para cada sesión, el estudiante tendrá que entregar algunos problemas propuestos pero no resueltos en el anterior.
Sesiones de laboratorio de 1 hora semanal. Para muhcas de las sesiones, el estudiante tendrá que entregar un informe del trabajo hecho y resultados obtenidos en alrededor de 2 semanas.
El funcionamiento de cada tipo de sesión se describe en el apatado "Actividades".
Además, hacia final de curso cada estudiante presentará ante los profesores y otros matriculados un artículo científico relacionado con la temática de la asignatura, como si se tratara de una presentación en congreso. Hacia la semana 8 se publicará una lista de posibles artículos de los cuales cada estudiante elegirá uno. Alternativamente, podrá proponer un artículo de su elección para que la aprueben los profesores. El día de las presentaciones se anunciará con al menos 2 meses de tiempo y el orden y hora exactos de las presentaciones con al menos 1 semana de antelación.
Método de evaluación
Sean:
- NF la nota del examen final, de 0 a 10,
- NE la nota de las entregas de ejercicios, de 0 a 10,
- NL la nota de las prácticas de laboratorio, de 0 a 10,
- NA la nota de la presentación de un artículo científico,
todas en el rango de 0 a 10.
La nota final de la assignatura es 0.3*NF + 0.25*NL + 0.25*NE + 0.2*NA.
Mining the social web: data mining Facebook, Twitter, LinkedIn, Instagram, Github, and more -
Russell, M.A.; Klassen, M,
O'Reilly Media, 2018. ISBN: 9781491973509