Big Data is traditionally defined with the three V's: Volume, Velocity and Variety. Traditionally, Big Data has been associated with Volume (e.g., the Hadoop ecosystem) and recently Velocity has earned its momentum (especially, with the arrival of Stream processors such as Spark). However, currently, associating Big Data with simply Volume or Velocity is a capital mistake. The biggest challenge in Big Data Management is nowadays the Variety challenge and how to tackle Variety in real-world projects is yet not clear and there are no standarized solutions (such as Hadoop for Volume or Spark for Velocity) for this challenge. Yet, the main efforts in Big Data, nowadays, go in this direction.
In this course the student will be introduced to advanced database technologies, modeling techniques and methods for tackling Variety for decision making. We will also explore the difficulties that arise when combining Variety with Volume and / or Velocity. The focus of this course is on the need to enrich the available data (typically owned by the organization) with external repositories (special attention will be paid to Open Data), in order to gain further insights into the organization business domain. There is a vast amount of examples of external data to be considered as relevant in the decision making processes of any company. For example, data coming from social networks such as Facebook or Twitter; data released by governmental bodies (such as town councils or governments); data coming from sensor networks (such as those in the city services within the Smart Cities paradigm); etc.
This is a new hot topic without a clear and established (mature enough) methodology. For this reason, it requires rigorous thinking, innovation and a strong technical background in order to master the inclusion of external data in an organization decision making processes. Accordingly, this course focuses on three main aspects:
1.- The use of property graphs to ingest, process and query highly unstructured data. The course covers the basic graph algorithms to perform graph-oriented data analysis and foundations on large graph processing.
2.- The use of knowledge graphs to overcome data exchange and data integration, specially with / from third parties.
3.- Fundamentals on data integration for Big Data and its current application in real-world projects.
Professorat
Responsable
Oscar Romero Moral (
)
Altres
Anna Queralt Calafat (
)
Javier Flores Herrera (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
7.11
Competències
Competències Transversals
Treball en equip
CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.
Tercera llengua
CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
Emprenedoria i innovació
CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
Competències Tècniques Generals
Genèriques
CG1 - Identificar i aplicar els mètodes i processos de gestió de dades més adequats per gestionar el cicle de vida de les dades, incloent-hi dades estructurades i no estructurades
CG3 - Definir, dissenyar i implementar sistemes complexos que cobreixin totes les fases en projectes de ciència de dades
Competències Tècniques
Específiques
CE3 - Aplicar mètodes d'integració de dades per donar solució a problemes de ciència de dades en entorns heterogenis
CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
CE9 - Aplicar mètodes adequats per a l'anàlisi d'altres tipus de formats, com ara processos i grafs, dins l'àmbit de ciència de dades
CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
Objectius
Learn, understand and apply the fundamentals of property graphs
Competències relacionades:
CT3,
CT5,
CG1,
CE5,
CE9,
CB6,
CB9,
CB10,
Learn, understand and apply the fundamentals of knowledge graphs
Competències relacionades:
CT3,
CT5,
CG1,
CE5,
CE9,
CB6,
CB9,
CB10,
Perform graph data processing both in centralized and distributed environments
Competències relacionades:
CT3,
CT5,
CG1,
CE5,
CE9,
CB6,
CB9,
CB10,
Integrate, combine and refine semi-structured or non-structured data using graph formalisms
Competències relacionades:
CT3,
CT5,
CT1,
CG1,
CG3,
CE3,
CE5,
CE9,
CE12,
CE13,
CB6,
CB7,
CB8,
CB9,
Determine how to apply graph formalisms to solve the Variety challenge (data integration)
Competències relacionades:
CT5,
CT1,
CG3,
CE3,
CE5,
CE9,
CE12,
CE13,
CB6,
CB7,
CB9,
Apply property or knowledge graphs to solve realistic problems such as data integration, graph-based data analysis, etc.
Competències relacionades:
CT3,
CT5,
CT1,
CG1,
CG3,
CE3,
CE5,
CE9,
CE12,
CE13,
CB6,
CB7,
CB8,
CB9,
CB10,
Continguts
Introducció i formalització del concepte de Varietat en Big Data i la seva gestió
Definició de les tasques de gestió de dades: des de la perspectiva de les bases de dades i de la representació del coneixement.
Definició de Varietat en el món del Big Data. Heterogeneitats sintàctiques i semàntiques. Efecte de l'heterogeneitat de les dades en les diferents tasques de gestió de dades.
Concepte d'integració de daeds. Definició d'un marc teòric per a la gestió i integració de fonts de dades heterogènies.
Principals components d'un sistema d'integració de dades: fonts, esquema global i mappings.
La necessitat d'un model de dades canònic per a la integració de dades. Definició de model de dades. Característiques essencials dels models canònics de dades.
Gestió dels property graph
Estructures de dades. Restriccions d'integritat del model.
Operacions bàsiques. Basades en la topologia, contingut i híbrides.
Llenguatges de consulta per a grafs: GraphQL.
Conceptes de bases de dades graf. Heterogeneïtat de les diferents eines actual. Impacte d'aquestes heterogeneïtats en les principals operacions.
Bases de dades graf distribuïdes. Necessitat. Dificultats. El paradigma thinking like a vertex com estàndar de facto pel processament distribuït de grafs.
Principals algoritmes distribuïts de processament de grafs.
Gestió dels knowledge graph
Estructures de dades. RDF. Origen i relació amb Linked Open Data. Restriccions d'integritat.
Estructures de dades: RDFS i OWL. Relació amb la lògica de primer ordre. Fonaments en Description Logics. Restriccions d'integritat. Raonament.
Operacions bàsiques i llenguatge de consulta. SPARQL i la seva àlgebra. Entailment regimes (raonament).
Triplestores. Diferències amb les bases de dades de grafs. Implementacions natives i basades en l'àlgebra relacional. Impacte d'aquestes decisions en les principals operacions.
Triplestores distribuïts. Necessitats i dificultats. Graph Engine 1.0 com a pardigma de triplestore distribuït.
Principals algoritmes distribuïts.
Els grafs com a solució a la gestió de la varietat
l'Idoneïtat dels grafs com a model de dades canònic en sistemes d'integració de dades.
Principals característiques dels models de dades de grafs. Diferencia amb altres models de dades (especialment amb el model relacional).
Concepte de dades i metadadades en els models de grafs.
Casos d'ús (èmfasi en els beneficis topològics): detecció de frau, aplicacions en bioinformàtica, gestió del trànsit i logística, xarxes socials, etc.
Introducció als principals models de graf: property graph i knowledge graph.
Comparativa entre ambdos paradigmes i casos d'ús
Diferències entre ambdos paradigmes i casos d'ús.
Recapitulació d'ambdos models. Similituts y diferències. Conceptes exportables entre ambdos models.
Principals casos d'ús. Gestió de metadades: semantificació del Data Lake i governança de dades.
Principals casos d'ús. Explotació de les seves característiques topològiques: recomendadors sobre grafs i mineria de dades.
Visualització. A través de GUI (Gephi) oprogramàtiques (D3.js o GraphLab).
Activitats
ActivitatActe avaluatiu
Lectures
During lectures the main concepts will be discussed. Lectures will combine master lectures and active / cooperative learning activities. The student is meant to have a pro-active attitude during active / cooperative learning activities. During master lectures, the student is meant to listen, take notes and ask questions. Objectius:2531 Continguts:
The student will be asked to practice the different concepts introduced in the lectures. This includes problem solving either on the computer or on paper. Objectius:654 Continguts:
Magistrals: El professor exposa el tema. Els estudiants segueixen la lliçó, prenen apunts i preparen material addicional fora de classe. També se'ls pot demanar que portin a terme activitats avaluatòries dins d'aquestes sessions.
Laboratori: Principalment, les sessions de laboratori estaran dedicades a la pràctica (amb o sense ordinador) dels conceptes introduïts a les sessions magistrals. Eines rellevants pels conceptes introduïts són presentades i emprades en petits projectes en aquestes sessions.
Projecte: El projecte final intenta posar en comú tots els conceptes vists a classe en un entorn realista.
Mètode d'avaluació
Nota final = 40% EX + 50% LAB + 10% P
EX = Nota final de l'examen
LAB = Nota ponderada dels laboratoris
P = Projecte
Bibliografia
Bàsica:
Data Integration: A Theoretical Perspective -
Lenzerini, Maurizio,
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, 2002. ISBN: 1-58113-507-6 https://doi.org/10.1145/543613.543644
The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing -
Sahu, Siddhartha; Mhedhbi, Amine; Salihoglu, Semih; Lin, Jimmy; Özsu, M. Tamer,
Cornell University Library, 2017. https://arxiv.org/abs/1709.03188
Capacitats prèvies
The student must be familiar with basics on databases and data modeling. Advanced programming skills are mandatory.