Administració de Dades Massives

Professorat
Hores setmanals
Competències
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Web links
Capacitats prèvies

Crèdits

6

Tipus

Obligatòria

Requisits

Aquesta assignatura no té requisits, però té capacitats prèvies

Departament

ESSI

Web

https://learnsql3.fib.upc.edu/moodle/course/view.php?id=169

L'objectiu principal d'aquest curs és analitzar les necessitats tecnològiques i d'enginyeria de la gestió de Big Data. La tecnologia habilitadora d'aquest desafiament són els serveis en el núvol, que proporcionen l'elasticitat necessària per escalar adequadament la infraestructura a mesura que creixen les necessitats de l'empresa. D'aquesta manera, els estudiants aprenen tècniques avançades de gestió de dades (és a dir, solucions NOSQL) que també escalen amb la infraestructura. Sent la gestió de Big Data l'evolució de Data Warehousing, es considera que aquest coneixement (consulteu el tema corresponent a l'especialitat de Ciència de Dades per obtenir més informació sobre els seus continguts) com ja asolit i l'assignatura es centrarà específicament en la gestió del volum i la velocitat.

D'una banda, per fer front a grans volums de dades, veurem com un sistema de fitxers distribuït pot escalar a tantes màquines com sigui necessari. A continuació, estudiarem les diferents estructures físiques que podem utilitzar per emmagatzemar les nostres dades. Aquestes estructures poden ser en forma de format de fitxer al nivell del sistema operatiu o en un nivell superior d'abstracció. En aquest últim cas, prenen la forma de conjunts de parells clau-valor, col·leccions de documents semiestructurats o taules emmagatzemades en columnes. Veurem que, independentment del tipus d'emmagatzematge que escollim, els sistemes de processament actualment paral·lelitzables utilitzen principis de programació funcional (normalment basats en funcions map i reduce), i poden descansar sobre fitxers temporals (com Hadoop MapReduce) o principalment sobre estructures de memòria (com Spark).

D'altra banda, per fer front a l'alta velocitat de les dades, necessitem un sistema de latència baix que processi fluxos o micro-lots. No obstant això, avui en dia, la producció de dades ja supera la capacitat de les tecnologies de processament. Es generen més dades de les que podem emmagatzemar o fins i tot processar sobre la marxa. Així doncs, reconeixerem la necessitat de (a) algunes tècniques per seleccionar subconjunts de dades (és a dir, filtrar o mostrejar), (b) resumir-los maximitzant la informació rellevant retinguda, i (c) simplificar els nostres algorismes per reduir la seva complexitat computacional (és a dir, fer un sol pas sobre les dades) i proporcionar una resposta aproximada.

Finalment, la complexitat d'un projecte Big Data (que combina totes les eines necessàries en un ecosistema col·laboratiu), que generalment implica diverses persones amb perfils diferents, requereix la definició d'una arquitectura d'alt nivell que superi les dificultats tecnològiques i se centri en les funcionalitats proporcionades i les interaccions entre mòduls. Per tant, també analitzarem diferents arquitectures de programari per Big Data.

Professorat

Responsable

Alex Barceló Cuerda ( )

Altres

Marc Maynou Yelamos ( )
Sergi Nadal Francesch ( )

Hores setmanals

Teoria

1.9

Problemes

0

Laboratori

1.9

Aprenentatge dirigit

0

Aprenentatge autònom

6.85

Competències

Competències Transversals

Treball en equip

CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.

Tercera llengua

CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.

Emprenedoria i innovació

CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.

Bàsiques

CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.

Competències Tècniques Generals

Genèriques

CG1 - Identificar i aplicar els mètodes i processos de gestió de dades més adequats per gestionar el cicle de vida de les dades, incloent-hi dades estructurades i no estructurades
CG3 - Definir, dissenyar i implementar sistemes complexos que cobreixin totes les fases en projectes de ciència de dades

Competències Tècniques

Específiques

CE2 - Aplicar els fonaments de la gestió i processament de dades en un problema de ciència de dades
CE4 - Aplicar mètodes escalables d'emmagatzematge i processament paral·lel de dades, incloent-hi fluxos continus de dades, un cop identificats els més apropiats per a un problema de ciència de dades
CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.

Objectius

Comprendre els principals mètodes avançats de gestió de dades i dissenyar i implementar gestors de bases de dades no relacionals, amb especial èmfasi en sistemes distribuïts.
Competències relacionades: CT3, CT5, CG1, CG3, CE2, CE4, CE5, CB6, CB7, CB8, CB9, CB10,
Comprendre, dissenyar, explicar i dur a terme processament paral·lel de la informació en sistemes distribuïts massivament.
Competències relacionades: CT3, CT5, CG1, CG3, CE2, CE4, CE5, CB6, CB7, CB8, CB9, CB10,
Gestionar i processar un flux continu de dades.
Competències relacionades: CT3, CT5, CG1, CG3, CE2, CE4, CE5, CB6, CB7, CB8, CB9, CB10,
Dissenyar, implementar i mantenir arquitectures de sistemes que gestionen el cicle de vida de la dada en entorns analítics.
Competències relacionades: CT3, CT5, CT1, CG1, CG3, CE2, CE4, CE5, CE12, CE13, CB6, CB7, CB8, CB9, CB10,

Continguts

Introducció
Big Data, Cloud Computing, Escalabilitat
Disseny de Big Data
Polyglot systems; Schemaless databases; Key-value stores; Wide-column stores; Document-stores
Gestió de dades distribuides
Transparency layers; Distributed file systems; File formats; Fragmentation; Replication and synchronization; Sharding; Distributed hash; LSM-Trees
Gestió de dades a memòria
NUMA architectures; Columnar storage; Late reconstruction; Light-weight compression
Processament distribuït de dades
Distributed Query Processing; Sequential access; Pipelining; Parallelism; Synchronization barriers; Multitenancy; MapReduce; Resilient Distributed Datasets; Spark
Gestió i processament de Streams
One-pass algorithms; Sliding window; Stream to relation operations; Micro-batching; Sampling; Filtering; Sketching
Arquitectures de Big Data
Centralized and Distributed functional architectures of relational systems; Lambda architecture

Activitats

Activitat Acte avaluatiu

Classes de teoria

En aquestes activitats, el profesor introduirà el principals conceptes teòrics de l'assignatura. Es demanarà la participació activa dels estudiants.
Objectius: 2 1 3 4
Continguts:

1 . Introducció
5 . Processament distribuït de dades
6 . Gestió i processament de Streams
7 . Arquitectures de Big Data
2 . Disseny de Big Data
3 . Gestió de dades distribuides
4 . Gestió de dades a memòria

Teoria

25h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

25h

Examen

Examen escrito de los conceptos teòric-pràctics introduits al llarg del curs.
Objectius: 2 1 3 4
Continguts:

1 . Introducció
5 . Processament distribuït de dades
6 . Gestió i processament de Streams
7 . Arquitectures de Big Data
2 . Disseny de Big Data
3 . Gestió de dades distribuides
4 . Gestió de dades a memòria

Teoria

2h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

17h

Laboratori

Els estudiants utilitzaran diferents eines NOSQL en entorns de proves.
Objectius: 2 1 3 4
Continguts:

5 . Processament distribuït de dades
6 . Gestió i processament de Streams
7 . Arquitectures de Big Data
2 . Disseny de Big Data
3 . Gestió de dades distribuides
4 . Gestió de dades a memòria

Teoria

0h

Problemes

0h

Laboratori

27h

Aprenentatge dirigit

0h

Aprenentatge autònom

54h

Metodologia docent

The course comprises theory, and lab sessions.

Theory: Classical theory lectures in conjunction with complementary explanations and problem solving.

Lab: There will be a project done in teams where students will put into practice the kinds of tools studied during the course. This will be evaluated in two deliverables and individual tests.

Mètode d'avaluació

Final Mark = 60%E + 40%L

L = Weighted average of the marks of the lab deliverables and tests
E = Final exam

Bibliografia

Bàsica:

Principles of distributed database systems - Özsu, M.T.; Valduriez, P, Springer, 2020. ISBN: 9783030262525
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004193569706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Encyclopedia of database systems - Liu, L.; Özsu, M.T, Springer, 2009. ISBN: 9780387399409
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004877013906711&context=L&vid=34CSUC_UPC:VU1&lang=ca
NoSQL distilled: a brief guide to the emerging world of polygot persistence - Sadalage, P.J.; Fowler, M, Addison-Wesley, 2013. ISBN: 9780321826626
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003990429706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
In-memory data management - Plattner, H.; Zeier, A, Springer, 2012. ISBN: 9783642295744
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004007899706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
An architecture for fast and general data processing on large clusters - Zaharia, M, ACM Books, 2016. ISBN: 9781970001563
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004088079706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Mining of massive datasets - Leskovec, J.; Rajaraman, A.; Ullman, J.D, Cambridge University Press, 2020. ISBN: 9781108476348
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004193679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Data streams: models and algorithms - Aggarwal, C.C. (ed.), Springer, 2007. ISBN: 9780387287591
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003199179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Understanding ETL Data Pipelines for Modern Data Architectures - PALMER, Matt, O'Reilly Media, Inc., 2024. ISBN: 9781098159252
https://www.oreilly.com/library/view/understanding-etl/9781098159269/

Complementaria:

Database systems : the complete book - Garcia-Molina, Hector; Ullman, Jeffrey D; Widom, Jennifer, Pearson Education Limited , [2014]. ISBN: 9781292024479
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004168919706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Master data management - Loshin, D, Morgan Kaufmann/Elsevier , 2009. ISBN: 9781282285507

Web links

Summer school http://cs.ulb.ac.be/conferences/ebiss.html
PhD programme https://deds.ulb.ac.be

Capacitats prèvies

En ser Big Data Management l'evolució del Data Warehousing, aquest coneixement s'assumeix en aquest curs. Per tant, s'espera coneixement general sobre: disseny de bases de dades relacionals; Arquitectura del sistema de gestió de bases de dades; ETL i OLAP

Específicament, s'espera coneixement sobre:
- Multidimensional modeling (i.e, star schemas)
- Querying relational databases
- Physical design of relational tables (i.e., partitioning)
- Hash and B-tree indexing
- External sorting algorithms (i.e., merge-sort)
- ACID transactions

Administració de Dades Massives

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Transversals

Treball en equip

Tercera llengua

Emprenedoria i innovació

Bàsiques

Competències Tècniques Generals

Genèriques

Competències Tècniques

Específiques

Objectius

Continguts

Activitats

Classes de teoria

Examen

Laboratori

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

On som

Contacta amb la FIB

Administració de Dades Massives

Esteu aquí

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Transversals

Treball en equip

Tercera llengua

Emprenedoria i innovació

Bàsiques

Competències Tècniques Generals

Genèriques

Competències Tècniques

Específiques

Objectius

Continguts

Activitats

Classes de teoria

Examen

Laboratori

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

On som

Contacta amb la FIB