Este curso introduce los principios y las técnicas de la gestión semántica de datos para la representación, integración y explotación de datos complejos y heterogéneos. Los estudiantes aprenden cómo los modelos de datos basados en grafos permiten la representación explícita de entidades y relaciones, superando las limitaciones de los modelos de datos tradicionales, basados en claves primarias, cuando se trabaja con datos altamente conectados. El curso aborda los property graphs y los knowledge graphs como abstracciones fundamentales para la integración semántica de datos.
La primera parte del curso se centra en los property graphs, que se apoyan en los sistemas tradicionales de gestión de grafos y proporcionan la base para el almacenamiento, la consulta y el procesamiento eficientes de grafos. En este marco, los estudiantes estudian algoritmos fundamentales de grafos y técnicas de procesamiento de grafos para analizar la estructura, la conectividad y los patrones en datos de grafos a gran escala.
La segunda parte del curso introduce los knowledge graphs, que amplían la gestión de grafos con anotaciones semánticas y vocabularios formales, permitiendo el razonamiento simbólico, la inferencia y formas más ricas de integración de datos. Esta perspectiva pone de manifiesto cómo la semántica aporta capacidades de interpretabilidad y razonamiento más allá del análisis puramente estructural de los grafos.
La parte final del curso presenta una forma complementaria de explotación de grafos basada en embeddings de grafos. Mediante el mapeo de los elementos del grafo a espacios vectoriales continuos, los embeddings permiten la aplicación de técnicas de aprendizaje automático directamente sobre datos estructurados como grafos. Esto incluye una introducción a las redes neuronales de grafos (GNNs) como un potente paradigma de aprendizaje de representaciones sobre grafos que captura explícitamente el contexto estructural y relacional.
Dado que se trata de un ámbito de investigación en rápida evolución y aún en proceso de maduración, no existe una metodología única plenamente establecida. En consecuencia, el curso pone el énfasis en el razonamiento riguroso, la profundidad técnica y la innovación, preparando a los estudiantes para incorporar de manera efectiva datos complejos estructurados como grafos en los procesos de toma de decisiones de las organizaciones.
Profesorado
Responsable
Anna Queralt Calafat (
)
Otros
Albert Martin Garcia (
)
Gerard Pons Recasens (
)
Oscar Romero Moral (
)
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
7.11
Competencias
Competencias Transversales
Trabajo en equipo
CT3 - Ser capaz de trabajar como miembro de un equipo interdisciplinar ya sea como un miembro mas, o realizando tareas de direccion con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
Lengua extranjera
CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.
Espíritu emprendedor e innovador
CT1 - Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio. Conocer y entender los mecanismos en que se basa la investigación científica, así como los mecanismos e instrumentos de transferencia de resultados entre los diferentes agentes socioeconómicos implicados en los procesos de I+D+i.
Básicas
CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
Competencias Técnicas Genéricas
Genéricas
CG1 - Identificar y aplicar los métodos y procesos de gestión de datos más adecuados para gestionar el ciclo de vida de los datos, incluyendo datos estructurados y no estructurados
CG3 - Definir, diseñar e implementar sistemas complejos que cubran todas las fases en proyectos de ciencia de datos
Competencias Técnicas
Específicas
CE3 - Aplicar métodos de integración de datos para dar solución a problemas de ciencia de datos en entornos heterogéneos
CE5 - Modelar, diseñar e implementar sistemas complejos de datos, incluyendo la visualización de datos
CE9 - Aplicar métodos adecuados para el análisis de otro tipo de formatos, tales como procesos y grafos, dentro del ámbito de ciencia de datos
CE12 - Aplicar la ciencia de datos en proyectos multidisciplinares para resolver problemas en dominios nuevos o poco conocidos y que sean económicamente viables, socialmente aceptables, y de acuerdo con la legalidad vigente
CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.
Objetivos
Learn, understand and apply the fundamentals of property graphs
Competencias relacionadas:
CT3,
CT5,
CG1,
CE5,
CE9,
CB6,
CB9,
CB10,
Learn, understand and apply the fundamentals of knowledge graphs
Competencias relacionadas:
CT3,
CT5,
CG1,
CE5,
CE9,
CB6,
CB9,
CB10,
Perform graph data processing both in centralized and distributed environments
Competencias relacionadas:
CT3,
CT5,
CG1,
CE5,
CE9,
CB6,
CB9,
CB10,
Integrate, combine and refine semi-structured or non-structured data using graph formalisms
Competencias relacionadas:
CT3,
CT5,
CT1,
CG1,
CG3,
CE3,
CE5,
CE9,
CE12,
CE13,
CB6,
CB7,
CB8,
CB9,
Determine how to apply graph formalisms to solve the Variety challenge (data integration)
Competencias relacionadas:
CT5,
CT1,
CG3,
CE3,
CE5,
CE9,
CE12,
CE13,
CB6,
CB7,
CB9,
Apply property or knowledge graphs to solve realistic problems such as data integration, graph-based data analysis, etc.
Competencias relacionadas:
CT3,
CT5,
CT1,
CG1,
CG3,
CE3,
CE5,
CE9,
CE12,
CE13,
CB6,
CB7,
CB8,
CB9,
CB10,
Contenidos
Introducción y formalización de la gestión de datos semánticos
Definición de las tareas de gestión de datos desde las perspectivas de las bases de datos y de la representación del conocimiento. Heterogeneidades sintácticas y semánticas, y el efecto de la heterogeneidad de los datos en las distintas tareas de gestión de datos. Concepto de integración de datos y definición de un marco teórico para la gestión e integración de fuentes de datos heterogéneas. La necesidad de un modelo de datos canónico para la integración de datos, incluyendo la definición de modelo de datos y las características esenciales de los modelos de datos canónicos.
Property graphs
Estructuras de datos. Restricciones de integridad del modelo. Operaciones básicas basadas en la topología, el contenido y enfoques híbridos. Lenguajes de consulta para grafos: GraphQL y Cypher. Conceptos de bases de datos de grafos. Implementaciones nativas e implementaciones basadas en el álgebra relacional. Impacto de estas decisiones de diseño en las operaciones principales. Diseño eficiente de grafos. Impacto de estas heterogeneidades en las operaciones principales. Bases de datos de grafos distribuidas: necesidad y dificultades. El paradigma thinking like a vertex como estándar de facto para el procesamiento distribuido de grafos. Principales algoritmos distribuidos de procesamiento de grafos.
Knowledge graphs
RDF, RDFS y OWL. Estructuras de datos. Restricciones de integridad. Relación con la lógica de primer orden. Fundamentos en Description Logics. Inferencia. Operaciones básicas y lenguaje de consulta. SPARQL y su álgebra. Regímenes de entailment (inferencia).
Diferencias entre ambos paradigmas y casos de uso
Recapitulación de ambos modelos. Similitudes y diferencias. Conceptos exportables entre ambos modelos.
Principales casos de uso. Gestión de metadatos: semantificación del Data Lake y gobernanza de datos.
Principales casos de uso. Explotación de sus características topológicas: recomendadores sobre grafos y minería de datos en grafo.
Visualización. A través de GUI (Gephi) o programáticas (D3.js o GraphLab).
Embeddings y GNNs
Concepto de embeddings. Propiedades. Aplicación a grafos y vinculación con el Machine Learning y los algoritmos de aprendizaje. Arquitectura de las GNN. Aplicaciones.
Actividades
ActividadActo evaluativo
Lectures
During lectures the main concepts will be discussed. Lectures will combine master lectures and active / cooperative learning activities. The student is meant to have a pro-active attitude during active / cooperative learning activities. During master lectures, the student is meant to listen, take notes and ask questions. Objetivos:2531 Contenidos:
The student will be asked to practice the different concepts introduced in the lectures. This includes problem solving either on the computer or on paper. Objetivos:654 Contenidos:
El curso consta de sesiones magistrales y de laboratorio/problemas.
Magistrales: El profesorado expone el tema. El estudiantado sigue la lección, toma apuntes y prepara material adicional fuera del aula. Asimismo, se le puede solicitar la realización de actividades durante estas sesiones.
Laboratorio: Las sesiones de laboratorio se dedicarán principalmente a la práctica (con o sin ordenador) de los conceptos introducidos en las sesiones magistrales. Las herramientas relevantes para los conceptos presentados se introducen y se emplean en proyectos durante estas sesiones. Los laboratorios requieren la entrega de trabajos de carácter proyectual, a desarrollar tanto en clase como en casa, que se evalúan conjuntamente con una prueba presencial.
Método de evaluación
Nota final = 40% EX + 60% LAB
EX = Nota final del examen
LAB = Nota ponderada de los laboratorios. La evaluación de los laboratorios se basa en la entrega (E) y en un control de evaluación presencial (C) asociado a la entrega. La nota final del laboratorio se calcula como la media geométrica entre E y C.
Bibliografía
Básica:
Data Integration: A Theoretical Perspective -
Lenzerini, Maurizio,
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, 2002. ISBN: 1-58113-507-6 https://doi.org/10.1145/543613.543644
The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing -
Sahu, Siddhartha; Mhedhbi, Amine; Salihoglu, Semih; Lin, Jimmy; Özsu, M. Tamer,
Cornell University Library, 2017. https://arxiv.org/abs/1709.03188
Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies) -
Goldberg, Yoav; Hirst, Graemer,
Morgan & Claypool , 2017. ISBN: 9781681732350 https://mitpressbookstore.mit.edu/book/9781681732350
A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications -
Cai, HongYun and Zheng, Vincent W. and Chang, Kevin Chen-Chuan,
IEEE Transactions on Knowledge and Data Engineering, 9 (2018). ISBN: 1558-2191 10.1109/TKDE.2018.2807452
Capacidades previas
El estudiantado debe estar familiarizado con los fundamentos de las bases de datos, la modelización de datos, la lógica y el álgebra lineal. Se requieren competencias avanzadas de programación.