Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
ESSI
La primera parte del curso se centra en los property graphs, que se apoyan en los sistemas tradicionales de gestión de grafos y proporcionan la base para el almacenamiento, la consulta y el procesamiento eficientes de grafos. En este marco, los estudiantes estudian algoritmos fundamentales de grafos y técnicas de procesamiento de grafos para analizar la estructura, la conectividad y los patrones en datos de grafos a gran escala.
La segunda parte del curso introduce los knowledge graphs, que amplían la gestión de grafos con anotaciones semánticas y vocabularios formales, permitiendo el razonamiento simbólico, la inferencia y formas más ricas de integración de datos. Esta perspectiva pone de manifiesto cómo la semántica aporta capacidades de interpretabilidad y razonamiento más allá del análisis puramente estructural de los grafos.
La parte final del curso presenta una forma complementaria de explotación de grafos basada en embeddings de grafos. Mediante el mapeo de los elementos del grafo a espacios vectoriales continuos, los embeddings permiten la aplicación de técnicas de aprendizaje automático directamente sobre datos estructurados como grafos. Esto incluye una introducción a las redes neuronales de grafos (GNNs) como un potente paradigma de aprendizaje de representaciones sobre grafos que captura explícitamente el contexto estructural y relacional.
Dado que se trata de un ámbito de investigación en rápida evolución y aún en proceso de maduración, no existe una metodología única plenamente establecida. En consecuencia, el curso pone el énfasis en el razonamiento riguroso, la profundidad técnica y la innovación, preparando a los estudiantes para incorporar de manera efectiva datos complejos estructurados como grafos en los procesos de toma de decisiones de las organizaciones.
Profesorado
Responsable
- Anna Queralt Calafat ( anna.queralt@upc.edu )
Otros
- Albert Martín Garcia ( albert.martin.g@upc.edu )
- Gerard Pons Recasens ( gerard.pons.recasens@upc.edu )
- Oscar Romero Moral ( oscar.romero@upc.edu )
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
7.11
Competencias
Trabajo en equipo
Lengua extranjera
Espíritu emprendedor e innovador
Básicas
Genéricas
Específicas
Objetivos
-
Learn, understand and apply the fundamentals of property graphs
Competencias relacionadas: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10, -
Learn, understand and apply the fundamentals of knowledge graphs
Competencias relacionadas: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10, -
Perform graph data processing both in centralized and distributed environments
Competencias relacionadas: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10, -
Integrate, combine and refine semi-structured or non-structured data using graph formalisms
Competencias relacionadas: CT3, CT5, CT1, CG1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB8, CB9, -
Determine how to apply graph formalisms to solve the Variety challenge (data integration)
Competencias relacionadas: CT5, CT1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB9, -
Apply property or knowledge graphs to solve realistic problems such as data integration, graph-based data analysis, etc.
Competencias relacionadas: CT3, CT5, CT1, CG1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB8, CB9, CB10,
Contenidos
-
Introducción y formalización de la gestión de datos semánticos
Definición de las tareas de gestión de datos desde las perspectivas de las bases de datos y de la representación del conocimiento. Heterogeneidades sintácticas y semánticas, y el efecto de la heterogeneidad de los datos en las distintas tareas de gestión de datos. Concepto de integración de datos y definición de un marco teórico para la gestión e integración de fuentes de datos heterogéneas. La necesidad de un modelo de datos canónico para la integración de datos, incluyendo la definición de modelo de datos y las características esenciales de los modelos de datos canónicos. -
Property graphs
Estructuras de datos. Restricciones de integridad del modelo. Operaciones básicas basadas en la topología, el contenido y enfoques híbridos. Lenguajes de consulta para grafos: GraphQL y Cypher. Conceptos de bases de datos de grafos. Implementaciones nativas e implementaciones basadas en el álgebra relacional. Impacto de estas decisiones de diseño en las operaciones principales. Diseño eficiente de grafos. Impacto de estas heterogeneidades en las operaciones principales. Bases de datos de grafos distribuidas: necesidad y dificultades. El paradigma thinking like a vertex como estándar de facto para el procesamiento distribuido de grafos. Principales algoritmos distribuidos de procesamiento de grafos. -
Knowledge graphs
RDF, RDFS y OWL. Estructuras de datos. Restricciones de integridad. Relación con la lógica de primer orden. Fundamentos en Description Logics. Inferencia. Operaciones básicas y lenguaje de consulta. SPARQL y su álgebra. Regímenes de entailment (inferencia). -
Diferencias entre ambos paradigmas y casos de uso
Recapitulación de ambos modelos. Similitudes y diferencias. Conceptos exportables entre ambos modelos.
Principales casos de uso. Gestión de metadatos: semantificación del Data Lake y gobernanza de datos.
Principales casos de uso. Explotación de sus características topológicas: recomendadores sobre grafos y minería de datos en grafo.
Visualización. A través de GUI (Gephi) o programáticas (D3.js o GraphLab). -
Embeddings y GNNs
Concepto de embeddings. Propiedades. Aplicación a grafos y vinculación con el Machine Learning y los algoritmos de aprendizaje. Arquitectura de las GNN. Aplicaciones.
Actividades
Actividad Acto evaluativo
Lectures
During lectures the main concepts will be discussed. Lectures will combine master lectures and active / cooperative learning activities. The student is meant to have a pro-active attitude during active / cooperative learning activities. During master lectures, the student is meant to listen, take notes and ask questions.Objetivos: 2 5 3 1
Contenidos:
Teoría
25h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
28h
Metodología docente
El curso consta de sesiones magistrales y de laboratorio/problemas.Magistrales: El profesorado expone el tema. El estudiantado sigue la lección, toma apuntes y prepara material adicional fuera del aula. Asimismo, se le puede solicitar la realización de actividades durante estas sesiones.
Laboratorio: Las sesiones de laboratorio se dedicarán principalmente a la práctica (con o sin ordenador) de los conceptos introducidos en las sesiones magistrales. Las herramientas relevantes para los conceptos presentados se introducen y se emplean en proyectos durante estas sesiones. Los laboratorios requieren la entrega de trabajos de carácter proyectual, a desarrollar tanto en clase como en casa, que se evalúan conjuntamente con una prueba presencial.
Método de evaluación
Nota final = 40% EX + 60% LABEX = Nota final del examen
LAB = Nota ponderada de los laboratorios. La evaluación de los laboratorios se basa en la entrega (E) y en un control de evaluación presencial (C) asociado a la entrega. La nota final del laboratorio se calcula como la media geométrica entre E y C.
Bibliografía
Básico
-
Data Integration: A Theoretical Perspective
- Lenzerini, Maurizio,
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems,
2002.
ISBN: 1-58113-507-6
https://doi.org/10.1145/543613.543644 -
Managing and mining graph data
- Aggarwal, Charu C; Wang, Haixun,
Springer,
2010.
ISBN: 9781441960443
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003843179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
The description logic handbook: theory, implementation and applications
- Baader, Franz,
Cambridge University Press,
2003.
ISBN: 0521781760
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002562579706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Web data management
- Abiteboul, Serge,
Cambridge University Press,
2012.
ISBN: 9781107012431
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003929239706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing
- Sahu, Siddhartha; Mhedhbi, Amine; Salihoglu, Semih; Lin, Jimmy; Özsu, M. Tamer,
Cornell University Library,
2017.
https://arxiv.org/abs/1709.03188 -
Deep Learning
- Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron,
MIT Press,
2016.
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=6287197 -
Representation Learning on Graphs
- Hamilton, William L.,
Morgan & Claypool Publishers,
2020.
https://www.cs.mcgill.ca/~wlh/grl_book/ -
Neural Network Methods for Natural Language Processing
- Goldberg, Yoav,
Springer,
2017.
ISBN: 9781627052986
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991039901499706706&context=L&vid=34CSUC_UPC:VU1&lang=ca -
IEEE Transactions on Knowledge and data engineering
- Cai, HongYun and Zheng, Vincent W. and Chang, Kevin Chen-Chuan,
IEEE Transactions on Knowledge and data engineering,
9 (2018).
ISBN: 1558-2191
https://arxiv.org/abs/1709.07604