Bases de Dades Avançades

Esteu aquí

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
ESSI
Aquesta assignatura forma els estudiants en les competències necessàries per a dissenyar i configurar bases de dades analítiques, avaluant les diferents alternatives possibles en el context de la seva empresa. Es tracten conceptes de bases de dades relacionals genèriques (aplicables a entorns decisionals d'emmagatzemament de dades), per tal d'aprofundir després en les alternatives no tradicionals, també conegudes com a gestors NewSQL, més apropiats per entorns Big Data. Primer es presentaran conceptes de magatzems de dades i, després, gestors de dades (columnars) i arquitectures (distribuïdes i en memoria) alternatives a les bases de dades relacionals tradicionals en certs escenaris. S'inclou també el tractament massiu de dades en entorns d'estil funcional.
Els coneixements impartits són imprescindibles per afrontar les tasques pròpies de l'enginyer de dades.

Professorat

Responsable

  • Alberto Abello Gamazo ( )

Altres

  • Besim Bilalli ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències Tècniques

Competències tècniques

  • CE7 - Demostrar coneixement i capacitat d'aplicació de les eines necessàries per a l'emmagatzematge, el processament i l'accés a les dades.

Competències Transversals

Transversals

  • CT4 - Treball en equip. Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, assumint compromisos tenint en compte els recursos disponibles.
  • CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.

Bàsiques

  • CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
  • CB3 - Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica.

Competències Tècniques Generals

Genèriques

  • CG1 - Concebre sistemes computacionals que integren dades de procedències i formes molt diverses, construeixen amb ells models matemàtics, raonen sobre aquests models i actuen en conseqüència, aprenent de l'experiència.
  • CG2 - Elegir i aplicar els mètodes i tècniques més adequats a un problema definit per dades que representin un repte pel seu volum, velocitat, varietat o heterogeneïtat, inclosos mètodes informàtics, matemàtics, estadístics i de processament del senyal.

Objectius

  1. Ser capaç de discutir i justificar amb detall els principis arquitectonics i colls d'ampolla dels gestors relacionals enfront de sistemes d'emmagatzematge i processament alternatius.
    Competències relacionades: CE7, CT4, CT6, CG1, CG2, CB2, CB3,
  2. Ser capaç d'obtenir l'esquema lògic d'un magatzem de dades a partir d'un esquema conceptual expressat en UML, detectar i corregir els seus defectes.
    Competències relacionades: CE7, CT4, CT6, CB2, CB3,
  3. Ser capaç de triar i justificar l'us d'emmagatzemament basat en files o columnes.
    Competències relacionades: CE7, CT4, CT6, CG2, CB2, CB3,
  4. Ser capaç d'explicar i utilitzar els principals mecanismes de processament paral·lel de consultes en entorns distribuïts, i detectar colls d'ampolla.
    Competències relacionades: CE7, CT4, CT6, CG2, CB2, CB3,
  5. Ser capaç de justificar i utilitzar entorns de processament distribuït de dades d'estil funcional, tipus MapReduce/Spark.
    Competències relacionades: CE7, CT4, CT6, CG1, CG2, CB2, CB3,

Continguts

  1. Introducció
    Emmagatzemament de dades en entorns analítics i Big Data
  2. Magatzems de dades
    Emmagatzemament de dades. Fluxes de dades ETL. Integració de dades. Eines OLAP. Tècniques de compressió i emmagatzemament columnar.
  3. Bases de dades distribuïdes
    Taxonomia de bases de dades distribuïdes. Arquitectures. Disseny de bases de dades distribuïdes (fragmentació i replicació). Paral·lelisme. Mesures d'escalabilitat. Sistemes de fitxers distribuits.
  4. Processament distribuït de dades
    Importància de l'accés seqüencial paral·lel. Barreres de sincronització (Bulk Synchronous Parallel model). Entorns de processament distribuït de dades d'estíl funcional (MapReduce i Spark). Abstracció de conjunts de dades distribuïts (Resilient Distributed Datasets). Arquitectures de Big Data.

Activitats

Activitat Acte avaluatiu


Introducció

Introducció de l'assignatura, motivació i visió general de les eines de gestió de dades existents actualment, els seus avantatges i inconvenients
Objectius: 1
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Estudi dels magatzems de dades


Objectius: 2 3
Continguts:
Teoria
10h
Problemes
0h
Laboratori
14h
Aprenentatge dirigit
0h
Aprenentatge autònom
38h

Estudi de bases de dades distribuïdes

Aprenentatge dels principis de bases de dades distribuïdes i la seva aplicació en sistemes NOSQL
Objectius: 1 4
Continguts:
Teoria
6h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Estudi del processament distribuït de dades

Aprenentatge de tècniques de processament distribuït de dades en entorns d'estil funcional
Objectius: 1 4 5
Continguts:
Teoria
10h
Problemes
0h
Laboratori
12h
Aprenentatge dirigit
0h
Aprenentatge autònom
38h

Examen final

Examen global de l'assignatura
Objectius: 1 2 4 3 5
Setmana: 15 (Fora d'horari lectiu)
Tipus: examen de teoria
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h

Metodologia docent

L'assignatura es compon de teoria, i sessions de laboratori.

Teoria: S'utilitzaran tècniques de classe invertida que requereixen que l'estudiant traballi materials multimedia abans de la classe. Les classes de teoria consisteixen en explicacions complementàries del professor i resolució de problemes.

Laboratori: S'utilitzaran eines representatives per a l'aplicació de conceptes teòrics (per exemple, Indyco Builder, PotgreSQL, Pentaho Data Integration, Spark). Es faran també dos projectes, en què els estudiants treballaran en equips: un d'anàlisi descriptiu de dades en un magatzem de dades i l'altre d'anàlisi predictiu en un entorn Big Data. Consequentment, hi haurà dos entregables fora de l'horari de classe, però els estudiants també seran avaluats individualment a l'aula sobre els coneixements adquirits durant cadascun dels projectes.

El curs té una component d'aprenentatge autònom, donat que els estudiants hauran de treballar amb diferents eines de gestió i processament de dades. A part del material de suport, els estudiants han de ser capaços de resoldre dubtes o problemes d'ús d'aquestes eines.

Mètode d'avaluació

Nota final = min(10 ; max(20%EP+40%EF ; 60% EF) + 40% P + 10% C)

EP = nota de l'examen parcial
EF = nota de l'examen final
P = nota de projecte, com a promig ponderat dels projectes del curs
C = participació a classe

Pels estudiants que puguin concórrer a la reavalaució, la nota de examen de reavaluació substituirà EF.

Bibliografia

Bàsica:

Complementaria:

  • Exercises Big Data Management - , , .
  • Exercises Data Warehousing - , , .

Web links

Capacitats prèvies

Ser capaç de llegir i entendre materials en anglès.
Ser capaç d'enumerar les etapes que conformen el procés de l'enginyeria de software.
Ser capaç d'entendre esquemes conceptuals en UML.
Ser capaç de crear, consultar i manipular bases de dades amb SQL.