Gestión de Datos Semánticos

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
ESSI
Este curso introduce los principios y las técnicas de la gestión semántica de datos para la representación, integración y explotación de datos complejos y heterogéneos. Los estudiantes aprenden cómo los modelos de datos basados en grafos permiten la representación explícita de entidades y relaciones, superando las limitaciones de los modelos de datos tradicionales, basados en claves primarias, cuando se trabaja con datos altamente conectados. El curso aborda los property graphs y los knowledge graphs como abstracciones fundamentales para la integración semántica de datos.

La primera parte del curso se centra en los property graphs, que se apoyan en los sistemas tradicionales de gestión de grafos y proporcionan la base para el almacenamiento, la consulta y el procesamiento eficientes de grafos. En este marco, los estudiantes estudian algoritmos fundamentales de grafos y técnicas de procesamiento de grafos para analizar la estructura, la conectividad y los patrones en datos de grafos a gran escala.

La segunda parte del curso introduce los knowledge graphs, que amplían la gestión de grafos con anotaciones semánticas y vocabularios formales, permitiendo el razonamiento simbólico, la inferencia y formas más ricas de integración de datos. Esta perspectiva pone de manifiesto cómo la semántica aporta capacidades de interpretabilidad y razonamiento más allá del análisis puramente estructural de los grafos.

La parte final del curso presenta una forma complementaria de explotación de grafos basada en embeddings de grafos. Mediante el mapeo de los elementos del grafo a espacios vectoriales continuos, los embeddings permiten la aplicación de técnicas de aprendizaje automático directamente sobre datos estructurados como grafos. Esto incluye una introducción a las redes neuronales de grafos (GNNs) como un potente paradigma de aprendizaje de representaciones sobre grafos que captura explícitamente el contexto estructural y relacional.

Dado que se trata de un ámbito de investigación en rápida evolución y aún en proceso de maduración, no existe una metodología única plenamente establecida. En consecuencia, el curso pone el énfasis en el razonamiento riguroso, la profundidad técnica y la innovación, preparando a los estudiantes para incorporar de manera efectiva datos complejos estructurados como grafos en los procesos de toma de decisiones de las organizaciones.

Profesorado

Responsable

  • Anna Queralt Calafat ( )

Otros

  • Albert Martin Garcia ( )
  • Gerard Pons Recasens ( )
  • Oscar Romero Moral ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
7.11

Competencias

Competencias Transversales

Trabajo en equipo

  • CT3 - Ser capaz de trabajar como miembro de un equipo interdisciplinar ya sea como un miembro mas, o realizando tareas de direccion con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.

Lengua extranjera

  • CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Espíritu emprendedor e innovador

  • CT1 - Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio. Conocer y entender los mecanismos en que se basa la investigación científica, así como los mecanismos e instrumentos de transferencia de resultados entre los diferentes agentes socioeconómicos implicados en los procesos de I+D+i.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
  • CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Identificar y aplicar los métodos y procesos de gestión de datos más adecuados para gestionar el ciclo de vida de los datos, incluyendo datos estructurados y no estructurados
  • CG3 - Definir, diseñar e implementar sistemas complejos que cubran todas las fases en proyectos de ciencia de datos

Competencias Técnicas

Específicas

  • CE3 - Aplicar métodos de integración de datos para dar solución a problemas de ciencia de datos en entornos heterogéneos
  • CE5 - Modelar, diseñar e implementar sistemas complejos de datos, incluyendo la visualización de datos
  • CE9 - Aplicar métodos adecuados para el análisis de otro tipo de formatos, tales como procesos y grafos, dentro del ámbito de ciencia de datos
  • CE12 - Aplicar la ciencia de datos en proyectos multidisciplinares para resolver problemas en dominios nuevos o poco conocidos y que sean económicamente viables, socialmente aceptables, y de acuerdo con la legalidad vigente
  • CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.

Objetivos

  1. Learn, understand and apply the fundamentals of property graphs
    Competencias relacionadas: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10,
  2. Learn, understand and apply the fundamentals of knowledge graphs
    Competencias relacionadas: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10,
  3. Perform graph data processing both in centralized and distributed environments
    Competencias relacionadas: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10,
  4. Integrate, combine and refine semi-structured or non-structured data using graph formalisms
    Competencias relacionadas: CT3, CT5, CT1, CG1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB8, CB9,
  5. Determine how to apply graph formalisms to solve the Variety challenge (data integration)
    Competencias relacionadas: CT5, CT1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB9,
  6. Apply property or knowledge graphs to solve realistic problems such as data integration, graph-based data analysis, etc.
    Competencias relacionadas: CT3, CT5, CT1, CG1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB8, CB9, CB10,

Contenidos

  1. Introducción y formalización de la gestión de datos semánticos
    Definición de las tareas de gestión de datos desde las perspectivas de las bases de datos y de la representación del conocimiento. Heterogeneidades sintácticas y semánticas, y el efecto de la heterogeneidad de los datos en las distintas tareas de gestión de datos. Concepto de integración de datos y definición de un marco teórico para la gestión e integración de fuentes de datos heterogéneas. La necesidad de un modelo de datos canónico para la integración de datos, incluyendo la definición de modelo de datos y las características esenciales de los modelos de datos canónicos.
  2. Property graphs
    Estructuras de datos. Restricciones de integridad del modelo. Operaciones básicas basadas en la topología, el contenido y enfoques híbridos. Lenguajes de consulta para grafos: GraphQL y Cypher. Conceptos de bases de datos de grafos. Implementaciones nativas e implementaciones basadas en el álgebra relacional. Impacto de estas decisiones de diseño en las operaciones principales. Diseño eficiente de grafos. Impacto de estas heterogeneidades en las operaciones principales. Bases de datos de grafos distribuidas: necesidad y dificultades. El paradigma thinking like a vertex como estándar de facto para el procesamiento distribuido de grafos. Principales algoritmos distribuidos de procesamiento de grafos.
  3. Knowledge graphs
    RDF, RDFS y OWL. Estructuras de datos. Restricciones de integridad. Relación con la lógica de primer orden. Fundamentos en Description Logics. Inferencia. Operaciones básicas y lenguaje de consulta. SPARQL y su álgebra. Regímenes de entailment (inferencia).
  4. Diferencias entre ambos paradigmas y casos de uso
    Recapitulación de ambos modelos. Similitudes y diferencias. Conceptos exportables entre ambos modelos.

    Principales casos de uso. Gestión de metadatos: semantificación del Data Lake y gobernanza de datos.

    Principales casos de uso. Explotación de sus características topológicas: recomendadores sobre grafos y minería de datos en grafo.

    Visualización. A través de GUI (Gephi) o programáticas (D3.js o GraphLab).
  5. Embeddings y GNNs
    Concepto de embeddings. Propiedades. Aplicación a grafos y vinculación con el Machine Learning y los algoritmos de aprendizaje. Arquitectura de las GNN. Aplicaciones.

Actividades

Actividad Acto evaluativo


Lectures

During lectures the main concepts will be discussed. Lectures will combine master lectures and active / cooperative learning activities. The student is meant to have a pro-active attitude during active / cooperative learning activities. During master lectures, the student is meant to listen, take notes and ask questions.
Objetivos: 2 5 3 1
Contenidos:
Teoría
25h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
28h

Hands-on Session

The student will be asked to practice the different concepts introduced in the lectures. This includes problem solving either on the computer or on paper.
Objetivos: 6 5 4
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
27h
Aprendizaje dirigido
0h
Aprendizaje autónomo
60h

Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
8h

Metodología docente

El curso consta de sesiones magistrales y de laboratorio/problemas.

Magistrales: El profesorado expone el tema. El estudiantado sigue la lección, toma apuntes y prepara material adicional fuera del aula. Asimismo, se le puede solicitar la realización de actividades durante estas sesiones.

Laboratorio: Las sesiones de laboratorio se dedicarán principalmente a la práctica (con o sin ordenador) de los conceptos introducidos en las sesiones magistrales. Las herramientas relevantes para los conceptos presentados se introducen y se emplean en proyectos durante estas sesiones. Los laboratorios requieren la entrega de trabajos de carácter proyectual, a desarrollar tanto en clase como en casa, que se evalúan conjuntamente con una prueba presencial.

Método de evaluación

Nota final = 40% EX + 60% LAB

EX = Nota final del examen
LAB = Nota ponderada de los laboratorios. La evaluación de los laboratorios se basa en la entrega (E) y en un control de evaluación presencial (C) asociado a la entrega. La nota final del laboratorio se calcula como la media geométrica entre E y C.

Bibliografía

Básica:

Capacidades previas

El estudiantado debe estar familiarizado con los fundamentos de las bases de datos, la modelización de datos, la lógica y el álgebra lineal. Se requieren competencias avanzadas de programación.