Vés al contingut

Bases de Dades Avançades

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
ESSI
Aquesta assignatura forma els estudiants en les competències necessàries per a dissenyar i configurar bases de dades analítiques, avaluant les diferents alternatives possibles en el context de la seva empresa. Es tracten conceptes de bases de dades relacionals genèriques (aplicables a entorns decisionals d'emmagatzemament de dades), per tal d'aprofundir després en les alternatives no tradicionals, també conegudes com a gestors NOSQL, més apropiats per entorns Big Data. Primer es presentaran conceptes de magatzems de dades i, després, gestors de dades i arquitectures (distribuïdes) alternatives a les bases de dades relacionals tradicionals en certs escenaris. Els coneixements impartits són imprescindibles per afrontar les tasques pròpies de l'enginyer de dades.

Professorat

Responsable

  • Alberto Abello Gamazo (alberto.abello@upc.edu)

Altres

  • Besim Bilalli (besim.bilalli@upc.edu)

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències tècniques

  • CE7 - Demostrar coneixement i capacitat d'aplicació de les eines necessàries per a l'emmagatzematge, el processament i l'accés a les dades.
  • Transversals

  • CT4 - Treball en equip. Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, assumint compromisos tenint en compte els recursos disponibles.
  • CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.
  • Bàsiques

  • CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
  • CB3 - Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica.
  • Genèriques

  • CG1 - Concebre sistemes computacionals que integren dades de procedències i formes molt diverses, construeixen amb ells models matemàtics, raonen sobre aquests models i actuen en conseqüència, aprenent de l'experiència.
  • CG2 - Elegir i aplicar els mètodes i tècniques més adequats a un problema definit per dades que representin un repte pel seu volum, velocitat, varietat o heterogeneïtat, inclosos mètodes informàtics, matemàtics, estadístics i de processament del senyal.
  • Objectius

    1. Ser capaç de discutir i justificar amb detall els principis arquitectonics i colls d'ampolla dels gestors relacionals enfront de sistemes d'emmagatzematge i processament alternatius.
      Competències relacionades: CB2, CB3, CT4, CT6, CE7, CG1, CG2,
    2. Ser capaç d'obtenir l'esquema lògic d'un magatzem de dades a partir d'un esquema conceptual expressat en UML, detectar i corregir els seus defectes.
      Competències relacionades: CB2, CB3, CT4, CT6, CE7,
    3. Ser capaç d'explicar i utilitzar els principals mecanismes de processament paral·lel de consultes en entorns distribuïts, i detectar colls d'ampolla.
      Competències relacionades: CB2, CB3, CT4, CT6, CE7, CG2,
    4. Ser capaç de justificar i utilitzar sistemes d'emmagatzemament NOSQL.
      Competències relacionades: CB2, CB3, CT4, CT6, CE7, CG1, CG2,

    Continguts

    1. Introducció
      Emmagatzemament de dades en entorns analítics i Big Data
    2. Magatzems de dades
      Emmagatzemament de dades. Fluxes de dades ETL. Integració de dades. Eines OLAP.
    3. Bases de dades distribuïdes
      Taxonomia de bases de dades distribuïdes. Arquitectures. Disseny de bases de dades distribuïdes (fragmentació i replicació). Paral·lelisme. Mesures d'escalabilitat. Sistemes de fitxers distribuits.
    4. Processament distribuït de dades
      Importància de l'accés seqüencial paral·lel. Barreres de sincronització (Bulk Synchronous Parallel model). Arquitectures de Big Data i sistemes NOSQL.

    Activitats

    Activitat Acte avaluatiu


    Introducció

    Introducció de l'assignatura, motivació i visió general de les eines de gestió de dades existents actualment, els seus avantatges i inconvenients
    Objectius: 1
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Estudi dels magatzems de dades


    Objectius: 2
    Continguts:
    Teoria
    10h
    Problemes
    0h
    Laboratori
    14h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    38h

    Estudi de bases de dades distribuïdes

    Aprenentatge dels principis de bases de dades distribuïdes i la seva aplicació en sistemes NOSQL
    Objectius: 1 3
    Continguts:
    Teoria
    6h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Estudi del processament distribuït de dades i sistemes NOSQL

    Aprenentatge de tècniques de processament distribuït de dades y sistemes NOSQL
    Objectius: 1 3 4
    Continguts:
    Teoria
    10h
    Problemes
    0h
    Laboratori
    12h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    38h

    Examen final

    Examen global de l'assignatura
    Objectius: 1 2 3 4
    Setmana: 15 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    L'assignatura es compon de teoria, i sessions de laboratori.

    Teoria: S'utilitzaran tècniques de classe invertida que requereixen que l'estudiant traballi materials multimedia abans de la classe. Les classes de teoria consisteixen en explicacions complementàries del professor i resolució de problemes.

    Laboratori: S'utilitzaran eines representatives per a l'aplicació de conceptes teòrics (per exemple, PotgreSQL, Talend, HDFS, MongoDB). Es faran també dos projectes, en què els estudiants treballaran en equips: un d'anàlisi descriptiu de dades en un magatzem de dades i l'altre d'anàlisi predictiu en un entorn Big Data. Consequentment, hi haurà dos entregables fora de l'horari de classe, però els estudiants també seran avaluats individualment a l'aula sobre els coneixements adquirits durant cadascun dels projectes.

    El curs té una component d'aprenentatge autònom, donat que els estudiants hauran de treballar amb diferents eines de gestió i processament de dades. A part del material de suport, els estudiants han de ser capaços de resoldre dubtes o problemes d'ús d'aquestes eines.

    Mètode d'avaluació

    Nota final = max(20%EP+40%EF ; 60% EF) + 40% P

    EP = nota de l'examen parcial
    EF = nota de l'examen final
    P = nota de projecte, com a promig ponderat dels projectes del curs

    Pels estudiants que puguin concórrer a la reavalaució, la nota de examen de reavaluació substituirà EF.

    Bibliografia

    Bàsic

    Complementari

    • Exercises Big Data Management - ,
    • Exercises Data Warehousing - ,

    Web links

    Capacitats prèvies

    Ser capaç de llegir i entendre materials en anglès.
    Ser capaç d'enumerar les etapes que conformen el procés de l'enginyeria de software.
    Ser capaç d'entendre esquemes conceptuals en UML.
    Ser capaç de crear, consultar i manipular bases de dades amb SQL.
    Ser capaç de programar amb programació funcional tipus Spark.