Crèdits
6
Tipus
Obligatòria d'especialitat (Ciència de les Dades)
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
ESSI
Big Data is traditionally defined with the three V's: Volume, Velocity and Variety. Traditionally, Big Data has been associated with Volume (e.g., the Hadoop ecosystem) and recently Velocity has earned its momentum (especially, with the arrival of Stream processors such as Spark). However,
currently, associating Big Data with simply Volume or Velocity is simply a mistake. The biggest challenge in Big Data Management is nowadays the Variety challenge and how to tackle Variety in real-world projects is yet not clear and there are no standarized solutions (such as Hadoop for Volume or Spark for Velocity) for this challenge.

In this course the student will be introduced to advanced database technologies, modeling techniques and methods for tackling Variety for decision making. We will also explore the difficulties that arise when combining Variety with Volume and / or Velocity. The focus of this course is on the need to enrich the available data (typically owned by the organization) with external repositories (special attention will be paid to Open Data), in order to gain further insights into the organization business domain. There is a vast amount of examples of external data to be considered as relevant in the decision making processes of any company. For example, data coming from social networks such as Facebook or Twitter; data released by governmental bodies (such as town councils or governments); data coming from sensor networks (such as those in the city services within the Smart Cities paradigm); etc.

This is a new hot topic without a clear and established (mature enough) methodology. For this reason, it requires rigorous thinking, innovation and a strong technical background in order to master the inclusion of external data in an organization decision making processes. Accordingly, this course focuses on three main aspects:

1.- Technical aspect. This represents the core discussion in the course and includes:
- dealing with semi-structured or non-structured data (as in the Web),
- the effective use of metadata to understand external data as by means of Linked Data,
- mastering the main formalisms (mostly coming from the Semantic Web) to enrich the data with metadata (ontology languages, RDF, XML, etc.),
- determine relevant sources, apply and use semantic mechanisms to automate the addition (potentially integration), linkage and / or cross of data between heterogeneous data sources,
- refining and visualizing Open Data

2.- Entrepreneurship and innovation, which includes:
- working on the visionary aspect to boost new analytical perspectives on a business domain by considering external sources and,
- developing added value to current systems by means of (such) external data

Professors

Responsable

  • Oscar Romero Moral ( )

Altres

  • Besim Bilalli ( )
  • Petar Jovanovic ( )

Hores setmanals

Teoria
1.8
Problemes
0
Laboratori
1.8
Aprenentatge dirigit
0.214
Aprenentatge autònom
6.85

Competències

Competències Tècniques Generals

Genèriques

  • CG4 - Capacitat per a la direcció general i tècnica de projectes de recerca, desenvolupament i innovació, en empreses i centres tecnològics, en l'àmbit de l'Enginyeria Informàtica.
  • CG5 - Capacitat per aplicar solucions innovadores i realitzar avenços en el coneixement que explotin els nous paradigmes de la Informàtica, particularment en entorns distribuïts.

Competències Transversals

Emprenedoria i innovació

  • CTR1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; capacitat de comprendre les regles laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Desenvolupar la creativitat, l'esperit emprenedor i la tendència a la innovació.

Treball en equip

  • CTR3 - Ser capaç de treballar com a membre d'un equip, ja sigui com a un membre més, ja sigui realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes d'una manera pragmàtica i amb sentit de la responsabilitat; assumir compromisos tenint en compte els recursos disponibles.

Competències Tècniques de cada especialitat

Específiques comunes

  • CEC1 - Capacitat per aplicar el mètode científic en l'estudi i anàlisi de fenòmens i sistemes en qualsevol àmbit de la Informàtica, així com en la concepció, disseny i implantació de solucions informàtiques innovadores i originals.
  • CEC3 - Capacitat per aplicar solucions innovadores i realitzar avanços en el coneixement que explotin els nous paradigmes de la Informàtica, particularment en entorns distribuïts.

Objectius

  1. Determine how to apply graph formalisms to solve the Variety challenge (data integration)
    Related competences: CG4, CEC1, CEC3, CTR1, CG5,
  2. Master the main semantic-aware formalisms to enable semantic modeling
    Related competences: CEC1, CG5,
  3. Integrate, combine and refine semi-structured or non-structured data into decisional systems
    Related competences: CG4, CEC1, CEC3, CTR1, CG5,
  4. Reinforce team work capabilities in order to develop innovative solutions by means of complementing the organization data with external data
    Related competences: CG4, CTR1, CTR3,
  5. Perform graph data processing both in centralized and distributed environments
    Related competences: CG4, CEC3, CG5,

Continguts

  1. Introducció i formalització del concepte de Varietat en Big Data i la seva gestió
    Definició de les tasques de gestió de dades: des de la perspectiva de les bases de dades i de la representació del coneixement.

    Definició de Varietat en el món del Big Data. Heterogeneitats sintàctiques i semàntiques. Efecte de l'heterogeneitat de les dades en les diferents tasques de gestió de dades.

    Concepte d'integració de daeds. Definició d'un marc teòric per a la gestió i integració de fonts de dades heterogènies.

    Principals components d'un sistema d'integració de dades: fonts, esquema global i mappings.

    La necessitat d'un model de dades canònic per a la integració de dades. Definició de model de dades. Característiques essencials dels models canònics de dades.
  2. Els grafs com a solució a la gestió de la varietat
    l'Idoneïtat dels grafs com a model de dades canònic en sistemes d'integració de dades.

    Principals característiques dels models de dades de grafs. Diferencia amb altres models de dades (especialment amb el model relacional).

    Concepte de dades i metadadades en els models de grafs.

    Casos d'ús (èmfasi en els beneficis topològics): detecció de frau, aplicacions en bioinformàtica, gestió del trànsit i logística, xarxes socials, etc.

    Introducció als principals models de graf: property graph i knowledge graph.
  3. Gestió dels property graph
    Estructures de dades. Restriccions d'integritat del model.

    Operacions bàsiques. Basades en la topologia, contingut i híbrides.

    Llenguatges de consulta per a grafs: GraphQL.

    Conceptes de bases de dades graf. Heterogeneïtat de les diferents eines actual. Impacte d'aquestes heterogeneïtats en les principals operacions.

    Bases de dades graf distribuïdes. Necessitat. Dificultats. El paradigma thinking like a vertex com estàndar de facto pel processament distribuït de grafs.

    Principals algoritmes distribuïts de processament de grafs.
  4. Gestió dels knowledge graph
    Estructures de dades. RDF. Origen i relació amb Linked Open Data. Restriccions d'integritat.

    Estructures de dades: RDFS i OWL. Relació amb la lògica de primer ordre. Fonaments en Description Logics. Restriccions d'integritat. Raonament.

    Operacions bàsiques i llenguatge de consulta. SPARQL i la seva àlgebra. Entailment regimes (raonament).

    Triplestores. Diferències amb les bases de dades de grafs. Implementacions natives i basades en l'àlgebra relacional. Impacte d'aquestes decisions en les principals operacions.

    Triplestores distribuïts. Necessitats i dificultats. Graph Engine 1.0 com a pardigma de triplestore distribuït.

    Principals algoritmes distribuïts.
  5. Comparativa entre ambdos paradigmes i casos d'ús
    Diferències entre ambdos paradigmes i casos d'ús.

    Recapitulació d'ambdos models. Similituts y diferències. Conceptes exportables entre ambdos models.

    Principals casos d'ús. Gestió de metadades: semantificació del Data Lake i governança de dades.

    Principals casos d'ús. Explotació de les seves característiques topològiques: recomendadors sobre grafs i mineria de dades.

    Visualització. A través de GUI (Gephi) oprogramàtiques (D3.js o GraphLab).

Activitats

Activitat Acte avaluatiu


Lectures

During lectures the main concepts will be discussed. Lectures will combine master lectures and active / cooperative learning activities. The student is meant to have a pro-active attitude during active / cooperative learning activities. During master lectures, the student is meant to listen, take notes and ask questions.
Objectius: 3 2 1 5 4
Continguts:
Teoria
25.5h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
28h

Hands-on Session

The student will be asked to practice the different concepts introduced in the lectures. This includes problem solving either on the computer or on paper.
Objectius: 3 4
Continguts:
Teoria
0h
Problemes
0h
Laboratori
25.5h
Aprenentatge dirigit
3h
Aprenentatge autònom
60h

Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Metodologia docent

El curs té sessions magistrals i de laboratori.

Magistrals: El professor exposa el tema. Els estudiants segueixen la lliçó, prenen apunts i preparen material addicional fora de classe. També se'ls pot demanar que portin a terme activitats avaluatòries dins d'aquestes sessions.

Laboratori: Principalment, les sessions de laboratori estaran dedicades a la pràctica (amb o sense ordinador) dels conceptes introduïts a les sessions magistrals. Eines rellevants pels conceptes introduïts són presentades i emprades en petits projectes en aquestes sessions.

Projecte: El projecte final intenta posar en comú tots els conceptes vists a classe en un entorn realista.

Mètode d'avaluació

Nota final = 10% EC + 40% EX + 40% LAB + 10% P

EX = Nota final de l'examen
LAB = Nota ponderada dels laboratoris
EC = Nota de les activitats a les sessions magistrals
P = Projecte

EC = En algunes sessions de teoria es portaran a terme activitats que, abans que acabi la classe, el docent recollirà i avaluarà a posteriori.

LAB: Hi ha tres laboratoris, cada un amb un pes potencial diferent. Els laboratoris s'han de portar a terme en groups assignats pels docents.

C: Projecte final de curs

Bibliografia

Bàsica:

Capacitats prèvies

The student must be familiar with basics on databases and data modeling. Programming skills are also mandatory.