Gestió de Dades Semàntiques

Professorat
Hores setmanals
Competències
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Capacitats prèvies

Crèdits

6

Tipus

Obligatòria

Requisits

Aquesta assignatura no té requisits, però té capacitats prèvies

Departament

ESSI

Web

https://learnsql.fib.upc.edu

Aquest curs introdueix els principis i les tècniques de la gestió semàntica de dades per a la representació, integració i explotació de dades complexes i heterogènies. Els estudiants aprenen com els models de dades basats en grafs permeten la representació explícita d'entitats i relacions, superant les limitacions dels models de dades tradicionals, basats en clau primàries, quan es treballa amb dades altament connectades. El curs aborda els property graphs i els knowledge graphs com a abstraccions fonamentals per a la integració semàntica de dades.

La primera part del curs se centra en els property graphs, que es basen en els sistemes tradicionals de gestió de grafs i proporcionen la base per a l'emmagatzematge, la consulta i el processament eficients de grafs. En aquest marc, els estudiants estudien algorismes fonamentals de grafs i tècniques de processament de grafs per analitzar l'estructura, la connectivitat i els patrons en dades de graf a gran escala.

La segona part del curs introdueix els knowledge graphs, que amplien la gestió de grafs amb anotacions semàntiques i vocabularis formals, permetent el raonament simbòlic, la inferència i formes més riques d¿integració de dades. Aquesta perspectiva posa de manifest com la semàntica aporta capacitats d'interpretabilitat i raonament més enllà de l'anàlisi purament estructural dels grafs.

La part final del curs presenta una forma complementària d'explotació dels grafs basada en embeddings de graf. Mitjançant el mapatge dels elements del graf a espais vectorials continus, els embeddings permeten l'aplicació de tècniques d'aprenentatge automàtic directament sobre dades estructurades com a grafs. Això inclou una introducció a les xarxes neuronals de graf (GNNs) com un paradigma potent d'aprenentatge de representacions sobre grafs que captura explícitament el context estructural i relacional.

Atès que es tracta d'un àmbit de recerca en ràpida evolució i encara en fase de maduració, no existeix una metodologia única plenament establerta. En conseqüència, el curs posa l'èmfasi en el raonament rigorós, la profunditat tècnica i la innovació, preparant els estudiants per incorporar de manera efectiva dades complexes estructurades com a grafs en els processos de presa de decisions de les organitzacions.

Professorat

Responsable

Anna Queralt Calafat ( )

Altres

Albert Martin Garcia ( )
Gerard Pons Recasens ( )
Oscar Romero Moral ( )

Hores setmanals

Teoria

2

Problemes

0

Laboratori

2

Aprenentatge dirigit

0

Aprenentatge autònom

7.11

Competències

Competències Transversals

Treball en equip

CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.

Tercera llengua

CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.

Emprenedoria i innovació

CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.

Bàsiques

CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.

Competències Tècniques Generals

Genèriques

CG1 - Identificar i aplicar els mètodes i processos de gestió de dades més adequats per gestionar el cicle de vida de les dades, incloent-hi dades estructurades i no estructurades
CG3 - Definir, dissenyar i implementar sistemes complexos que cobreixin totes les fases en projectes de ciència de dades

Competències Tècniques

Específiques

CE3 - Aplicar mètodes d'integració de dades per donar solució a problemes de ciència de dades en entorns heterogenis
CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
CE9 - Aplicar mètodes adequats per a l'anàlisi d'altres tipus de formats, com ara processos i grafs, dins l'àmbit de ciència de dades
CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.

Objectius

Learn, understand and apply the fundamentals of property graphs
Competències relacionades: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10,
Learn, understand and apply the fundamentals of knowledge graphs
Competències relacionades: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10,
Perform graph data processing both in centralized and distributed environments
Competències relacionades: CT3, CT5, CG1, CE5, CE9, CB6, CB9, CB10,
Integrate, combine and refine semi-structured or non-structured data using graph formalisms
Competències relacionades: CT3, CT5, CT1, CG1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB8, CB9,
Determine how to apply graph formalisms to solve the Variety challenge (data integration)
Competències relacionades: CT5, CT1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB9,
Apply property or knowledge graphs to solve realistic problems such as data integration, graph-based data analysis, etc.
Competències relacionades: CT3, CT5, CT1, CG1, CG3, CE3, CE5, CE9, CE12, CE13, CB6, CB7, CB8, CB9, CB10,

Continguts

Introducció i formalització de gestió de dades semàntiques
Definició de les tasques de gestió de dades: des de la perspectiva de les bases de dades i de la representació del coneixement. Heterogeneitats sintàctiques i semàntiques. Efecte de l'heterogeneitat de les dades en les diferents tasques de gestió de dades
Concepte d'integració de dades. Definició d'un marc teòric per a la gestió i integració de fonts de dades heterogènies. La necessitat d'un model de dades canònic per a la integració de dades. Definició de model de dades. Característiques essencials dels models canònics de dades.
Property graph
Estructures de dades. Restriccions d'integritat del model. Operacions bàsiques. Basades en la topologia, contingut i híbrides. Llenguatges de consulta per a grafs: GraphQL y Cypher. Conceptes de bases de dades graf. Implementacions natives i basades en l'àlgebra relacional. Impacte d'aquestes decisions en les principals operacions. Disseny eficient de grafs. Impacte d'aquestes heterogeneïtats en les principals operacions. Bases de dades graf distribuïdes. Necessitat. Dificultats. El paradigma thinking like a vertex com estàndar de facto pel processament distribuït de grafs. Principals algoritmes distribuïts de processament de grafs.
Knowledge graphs
RDF, RDFS i OWL. Estructures de dades. Restriccions d'integritat. Relació amb la lògica de primer ordre. Fonaments en Description Logics. Raonament. Operacions bàsiques i llenguatge de consulta. SPARQL i la seva àlgebra. Entailment regimes (inferència).
Comparativa entre ambdos paradigmes i casos d'ús
Diferències entre ambdos paradigmes i casos d'ús.

Recapitulació d'ambdos models. Similituts y diferències. Conceptes exportables entre ambdos models.

Principals casos d'ús. Gestió de metadades: semantificació del Data Lake i governança de dades.

Principals casos d'ús. Explotació de les seves característiques topològiques: recomendadors sobre grafs i mineria de dades.

Visualització. A través de GUI (Gephi) oprogramàtiques (D3.js o GraphLab).
Embeddings i GNNs
Concepte d'embeddings. Propietats. Aplicació a Graphs i vincle amb Machine Learning i algoritmes d'aprenentatge. Arquitectura GNNs. Aplicacions.

Activitats

Activitat Acte avaluatiu

Lectures

During lectures the main concepts will be discussed. Lectures will combine master lectures and active / cooperative learning activities. The student is meant to have a pro-active attitude during active / cooperative learning activities. During master lectures, the student is meant to listen, take notes and ask questions.
Objectius: 2 5 3 1
Continguts:

1 . Introducció i formalització de gestió de dades semàntiques
2 . Property graph
3 . Knowledge graphs
4 . Comparativa entre ambdos paradigmes i casos d'ús
5 . Embeddings i GNNs

Teoria

25h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

28h

Hands-on Session

The student will be asked to practice the different concepts introduced in the lectures. This includes problem solving either on the computer or on paper.
Objectius: 6 5 4
Continguts:

2 . Property graph
3 . Knowledge graphs
4 . Comparativa entre ambdos paradigmes i casos d'ús

Teoria

0h

Problemes

0h

Laboratori

27h

Aprenentatge dirigit

0h

Aprenentatge autònom

60h

Final Exam

Written exam of the theoretical concepts introduced along the course.
Objectius: 2 5 3 4 1
Continguts:

1 . Introducció i formalització de gestió de dades semàntiques
2 . Property graph
3 . Knowledge graphs
4 . Comparativa entre ambdos paradigmes i casos d'ús
5 . Embeddings i GNNs

Teoria

2h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

8h

Metodologia docent

El curs té sessions magistrals i de laboratori / problemes.

Magistrals: El professor exposa el tema. Els estudiants segueixen la lliçó, prenen apunts i preparen material addicional fora de classe. També se'ls pot demanar que portin a terme activitats durant aquestes sessions.

Laboratori: Principalment, les sessions de laboratori estaran dedicades a la pràctica (amb o sense ordinador) dels conceptes introduïts a les sessions magistrals. Eines rellevants pels conceptes introduïts són presentades i emprades en projectes en aquestes sessions.Els laboratoris requereixen d'una entrega a treballar a mode de projecte a classe i a casa, que s'avalua juntament amb una prova presencial.

Mètode d'avaluació

Nota final = 40% EX + 60% LAB

EX = Nota final de l'examen
LAB = Nota ponderada dels laboratoris. Els laboratoris s'avaluen a partir de l'entrega (E) i amb el control d'avaluació (C) presencial sobre l'entrega. La nota final es computa amb la mitjana geòmetrica entre E i C.

Bibliografia

Bàsica:

Data Integration: A Theoretical Perspective - Lenzerini, Maurizio, PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, 2002. ISBN: 1-58113-507-6
https://doi.org/10.1145/543613.543644
Managing and mining graph data - Aggarwal, Charu C; Wang, Haixun, Springer, 2010. ISBN: 9781441960443
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003843179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
The description logic handbook: theory, implementation and applications - Baader, Franz, Cambridge University Press, 2003. ISBN: 0521781760
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002562579706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Web data management - Abiteboul, Serge, Cambridge University Press, 2012. ISBN: 9781107012431
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003929239706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing - Sahu, Siddhartha; Mhedhbi, Amine; Salihoglu, Semih; Lin, Jimmy; Özsu, M. Tamer, Cornell University Library, 2017.
https://arxiv.org/abs/1709.03188
Deep Learning - Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron, MIT Press, 2016.
https://www.deeplearningbook.org/
Representation Learning on Graphs - Hamilton, William L., Morgan & Claypool Publishers, 2020.
https://www.cs.mcgill.ca/~wlh/grl_book/
Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies) - Goldberg, Yoav; Hirst, Graemer, Morgan & Claypool , 2017. ISBN: 9781681732350
https://mitpressbookstore.mit.edu/book/9781681732350
A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications - Cai, HongYun and Zheng, Vincent W. and Chang, Kevin Chen-Chuan, IEEE Transactions on Knowledge and Data Engineering, 9 (2018). ISBN: 1558-2191
10.1109/TKDE.2018.2807452

Capacitats prèvies

L'estudiant ha d¿estar familiaritzat amb els fonaments de les bases de dades, la modelització de dades, la lògica i l'àlgebra lineal. Es requereixen competències avançades de programació.

Gestió de Dades Semàntiques

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Transversals

Treball en equip

Tercera llengua

Emprenedoria i innovació

Bàsiques

Competències Tècniques Generals

Genèriques

Competències Tècniques

Específiques

Objectius

Continguts

Activitats

Lectures

Hands-on Session

Final Exam

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Capacitats prèvies

On som

Contacta amb la FIB

Gestió de Dades Semàntiques

Esteu aquí

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Transversals

Treball en equip

Tercera llengua

Emprenedoria i innovació

Bàsiques

Competències Tècniques Generals

Genèriques

Competències Tècniques

Específiques

Objectius

Continguts

Activitats

Lectures

Hands-on Session

Final Exam

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Capacitats prèvies

On som

Contacta amb la FIB