Paral·lelisme i Sistemes Distribuïts

Professorat
Hores setmanals
Competències
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Capacitats prèvies

Crèdits

Tipus

Obligatòria

Requisits

Aquesta assignatura no té requisits, però té capacitats prèvies

Departament

Web

http://docencia.ac.upc.edu/FIB/GCED/PSD

Mail

El curs pretén que l'estudiant prengui consciència que avui en dia l'anàlisi de dades que la majoria d'empreses realitzin, requereixen d'avançades plataformes d'execució que ofereixin una computació a gran escala i d'alt rendiment basada en sistemes paral·lel i distribuïts, disponibles a través de les pròpies empreses o través de l'ampli ventall de proveïdors de serveis de Cloud Computing.

Aquest curs proporcionarà a l'estudiant els fonaments, i l'introduirà en l'ús d'aquests sistemes de computació paral·lela i distribuïda actuals per donar suport als entorns d'anàlisi de dades que requereixen als científics i enginyers de dades. L'alumne comprendrà el continu desenvolupament d'aquests sistemes que permeten la convergència dels algoritmes d'anàlisi avançats i les tecnologies de computació relacionades.

Les classes és complementen amb exercicis de programació en base a problemes habituals del científic de dades i avaluar els solucions, usant sistemes paral·lels i distribuïts a l'abast de tothom. Gràcies als serveis de computació i anàlisi d'alt rendiment . D'aquesta, manera l'alumne podrà dissenyar experiments que siguin realistes.

Un dels objectius finals de l'assignatura és encoratjar els estudiants a voler ser actors i no espectadors d'aquesta profunda transformació de l'analítica d'alt rendiment que s'està produint i procurar estimular el seu desig de voler aprofundir més en aquest apassionant món de la tecnologia, més enllà de l'assignatura.

Professorat

Responsable

Julita Corbalan Gonzalez ( )

Altres

Yolanda Becerra Fontal ( )

Hores setmanals

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Competències

Competències Tècniques

Competències tècniques

CE4 - Utilitzar els sistemes de computació actuals, inclosos els sistemes d'alt rendiment, per al procés de grans volums de dades des del coneixement de la seva estructura, funcionament i particularitats.

Competències Transversals

Transversals

CT4 [Avaluable] - Treball en equip. Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, assumint compromisos tenint en compte els recursos disponibles.
CT5 [Avaluable] - Ús solvent dels recursos d'informació. Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació en l'àmbit de l'especialitat i valorar de forma crítica els resultats d'aquesta gestió.
CT6 - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.
CT7 - Tercera llengua. Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i d'acord amb les necessitats que tindran els titulats i titulades.

Bàsiques

CB1 - Que els estudiants hagin demostrat posseir i comprendre coneixements en una àrea d'estudi que parteix de la base de l'educació secundària general, i se sol trobar a un nivell que, si bé es recolza en llibres de text avançats, inclou també alguns aspectes que impliquen coneixements procedents de l'avantguarda del seu camp d'estudi.
CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques Generals

Genèriques

CG1 - Concebre sistemes computacionals que integren dades de procedències i formes molt diverses, construeixen amb ells models matemàtics, raonen sobre aquests models i actuen en conseqüència, aprenent de l'experiència.
CG2 - Elegir i aplicar els mètodes i tècniques més adequats a un problema definit per dades que representin un repte pel seu volum, velocitat, varietat o heterogeneïtat, inclosos mètodes informàtics, matemàtics, estadístics i de processament del senyal.
CG4 - Identificar oportunitats per a aplicacions innovadores orientades a dades en entorns tecnològics en contínua evolució.

Objectius

Conèixer els fonaments dels sistemes paral·lels i distribuïts actuals
Competències relacionades: CG1, CB1,
Coneixer i saber usar els elements bàsics que conformen els sistemes paral·lels i distribuïts
Competències relacionades: CT4, CT6, CT7, CB2,
Coneixer i poder triar convenientment quin els entorns d'analítica avançada que usen sistemes distribuïts i parallel
Competències relacionades: CE4, CG2, CG4,
Us pràctic per diferents problemes plantejats dels entorns cloud, sistemes paral.lels i distribuïts disponibles actualment per a un enginyer i científic de dades
Competències relacionades: CE4, CT4, CT6, CG1, CB2,
Familiaritzar-se amb els models de programació més habituals dels sistemes paral·lels i distribuïts
Competències relacionades: CE4, CT5, CB5,

Continguts

Fonaments de supercomputació paral·lela i distribuïda
En aquest tema, els alumnes aprendran conceptes bàsics de la computació paral·lela així com mètriques que els ajudaran a avaluar tant el rendiment dels seus programes com els límits derivats de la pròpia estructura de l'aplicació.
Arquitecturas paralel.les i distribuïdes
En aquest tema, els estudiants aprenen les principals característiques de les arquitectures paral·leles i distribuïdes que poden influir en el disseny dels seus programes d'anàlisi de dades o d'entendre el rendiment (o pèrdua de rendiment) d'aquests.
Entorns d'execució de computació paral·lela i anàlisi de dades
En aquest tema els alumnes aprendran els diferents entorns que principalment poden trobar-se al executar tants les aplicacions de generar dades com les que els emmagatzemen o analitzen. Es farà èmfasi en les diferències entre els tres entorns i en impacte que pot tenir en l'eficiència de les seves aplicacions.
Models de programació per a supercomputadors
En aquest tema els alumnes veuran els principis bàsics dels models de programació més utilitzats en els entorns HPC: MPI, OpenMP i models híbrids MPI + OpenMP. Es donaran les eines per detectar i gestionar els principals detalls que puguin afectar tant la robustesa dels seus programes com a l'eficiència.

També s'introduiran models orientats a coprocessadors que ofereixin un bon rendiment vs. eficiència. Consum d'energia i molt usat en l'anàlisi de dades.
New programari requirements for advanced analytics
En aquest tema, els estudiants veuran amb més detall les característiques dels models de programació i entorns d'execució per a l'emmagatzematge i l'anàlisi de dades. El model Apache Spark / Hadoop s'utilitzarà com a referència, com a referència per a l'emmagatzematge de dades Cassandra i com a eines d'anàlisi TensorFlow / keras.
Machine Learning en Supercomputadors: Cas d'us basat en Spark/Cassandra/TensorFlow
En aquest tema aprofundirem en un entorn de Machine learning utilitzant com a referència el model Apache Spark, com DB key / value Cassandra i com a eina d'anàlisi TensorFlow. S'explicaran els elements més importants d'aquests tres components que puguin afectar en major mesura tant al disseny d'aplicacions de machine learning com l'emmagatzematge de dades i anàlisi.
Sessions de laboratori
Les sessions de laboratori s'agruparan en dos projectes que s'aniran realitzant tant en les sessions de laboratori com en treball autònom. Els dos projectes estaran relacionats amb la programació, anàlisi i optimització d'un cas el més realista possible en dos entorns: entorns d'execució paral·lel (mpi + OpenMP, sistemes de cues, etc), utilitzats per generar i post-processar dades, i entorns específics de gestió i anàlisi de dades com és Apache Stark + Cassandra + TensorFlow.

Activitats

Activitat Acte avaluatiu

Introducció de l'assignatura

Durant aquesta activitat s'explicaran els objectius, continguts, i funcionament de l'assignatura

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Desenvolupament del tema "Fonaments de supercomputació paral·lela i distribuïda"

En aquest tema, els alumnes aprendran conceptes bàsics de la computació paral·lela així com mètriques que els ajudaran a avaluar tant el rendiment dels seus programes com els límits derivats de la pròpia estructura de l'aplicació.
Objectius: 1
Continguts:

1 . Fonaments de supercomputació paral·lela i distribuïda
2 . Arquitecturas paralel.les i distribuïdes

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Desenvolupament del tema "Arquitecturas paralel.les i distribuïdes"

En aquest tema, els estudiants aprenen les principals característiques de les arquitectures paral·leles i distribuïdes que poden influir-les en el disseny dels seus programes d'anàlisi de dades i entendre el rendiment (o pèrdua de rendiment) d'aquests : Es veuran, per exemple característiques de sistemes amb arquitectura multi-core, hyperthreading, memoria compartida-distribuida, localitat de dades temporal-espacial, tipus storage (local, remoto), tipologia xarxes, etc.
Objectius: 1 2
Continguts:

1 . Fonaments de supercomputació paral·lela i distribuïda
2 . Arquitecturas paralel.les i distribuïdes
3 . Entorns d'execució de computació paral·lela i anàlisi de dades

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Desenvolupament del tema "Entorns d'execució de computació paral·lela i anàlisi de dades"

En aquest tema els alumnes aprendran els diferents entorns que principalment poden trobar-se al executar tants les aplicacions de generar dades com les que els emmagatzemen o analitzen. Es farà èmfasi en les diferències entre els tres entorns i en impacte que pot tenir en l'eficiència de les seves aplicacions. Entorno de ejecucion con colas para HPC, cloud computing para DA. Durant aquest tema es dividirà en entorns HPC i entorns d'anàlisis de dades (DA). També es faran exercicis de problemes durant les classes de teoria.
Objectius: 2 3
Continguts:

2 . Arquitecturas paralel.les i distribuïdes
3 . Entorns d'execució de computació paral·lela i anàlisi de dades

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Desenvolupament del tema "Models de programació per a supercomputadors"

En aquest tema els alumnes veuran els principi bàsics dels models de programació més utilitzats en els entorns HPC: MPI, OpenMP i models híbrids MPI + OpenMP. Es donaran les eines per detectar i gestionar els principals detalls que puguin afectar tant la robustesa dels seus programes com a l'eficiència. També s'introduiran models orientats a coprocessadors que ofereixin un bon rendiment vs. eficiència. Consum d'energia i molt usat en l'anàlisi de dades.
Objectius: 5
Continguts:

3 . Entorns d'execució de computació paral·lela i anàlisi de dades
4 . Models de programació per a supercomputadors
5 . New programari requirements for advanced analytics

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Desenvolupament del tema "New programari per anàlisi de dades"

En aquest tema, els estudiants veuran amb més detall les característiques dels models de programació i entorns d'execució per a l'emmagatzematge i l'anàlisi de dades. El model Apache Spark / Hadoop s'utilitzarà com a referència, com a referència per a l'emmagatzematge de dades Cassandra i com a eines d'anàlisi TensorFlow / keras.
Objectius: 3
Continguts:

5 . New programari requirements for advanced analytics

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Desenvolupament del tema "Machine Learning en Supercomputadors: Cas d'us basat en Spark/Cassandra/TensorFlow"

En aquest tema aprofundirem en un entorn de Machine learning utilitzant com a referència el model Apache Spark, com DB key / value Cassandra i com a eina d'anàlisi TensorFlow. S'explicaran els elements més importants d'aquests tres components que puguin afectar en major mesura tant al disseny d'aplicacions de machine learning com l'emmagatzematge de dades i anàlisi.
Objectius: 4
Continguts:

5 . New programari requirements for advanced analytics
6 . Machine Learning en Supercomputadors: Cas d'us basat en Spark/Cassandra/TensorFlow

Teoria

Problemes

Laboratori

Aprenentatge dirigit

Aprenentatge autònom

Sesions de laboratori i entregables: Execució d'applicacions HPC, Generació de dades en entorns HPC, enmagatzematge i anàlis de dades en contexte de DA (Data Analytics)

Aquest projecte seguirà el fluxe natural de les dades, des de la paral.lelització , execució, i avaluació de codis que generen dades,tradicionalment en un entorn HPC, passant per l'enmagatzematge i el posterior anàlisis amb els nous entorns d'execució per aquest tipus de problemes.
Objectius: 2 5 3 4
Continguts:

3 . Entorns d'execució de computació paral·lela i anàlisi de dades
4 . Models de programació per a supercomputadors
5 . New programari requirements for advanced analytics
6 . Machine Learning en Supercomputadors: Cas d'us basat en Spark/Cassandra/TensorFlow
7 . Sessions de laboratori

Teoria

Problemes

Laboratori

28h

Aprenentatge dirigit

Aprenentatge autònom

28h

Metodologia docent

Durant el curs hi haurà quatre tipus d'activitats:

a) Activitats orientades a l'adquisició de coneixements teòrics. Les activitats teòriques inclouen classes de classes participatives, que expliquen els continguts bàsics del curs.

b) Les activitats es centren en l'adquisició del coneixement a través de l'experimentació mitjançant l'enfocament "aprenent per fer" en sessions de laboratori guiades per pràctiques (i informe final). Algunes sessions poden incloure treball previ o a fer després de les sessions depenent de
l'aprofitament dels laboratoris.

c) Poques sessions durant les classes teòriques on es realitzaran exercicis pràctics per realitzar avaluacions numèriques i anàlisi per a l'avaluació del rendiment

d) Dos informes dels exercicis que es duran a terme als laboratoris relacionats amb entorns i aplicacions HPC i amb entorns d'anàlisi de dades

Aquest quadrimestre, ja que les classes de laboratori es faran en aules de teoria, els estudiants hauran de portar el seu propi portàtil. Per fer els examens, tant de teoria com de laboratori, degut a que s'entregaran en format digital, també serà necessari que portin el seu propi portàtil. Totes les clases de teoría que es facin online s'habilitarà un meet a l'horari oficial. Per les clases de laboratori, aquells alumnes que estiguin confinats s'habilitarà un meet per poder seguir les classes.

Mètode d'avaluació

- Exàmen parcial: 35% (Primera part del curs: HPC) : teoriaHPC
- Exàmen final: 35% (Segona part del curs: AD): teoriaAD
- Laboratori: 30%.

La notaLaboratori sortirà de l'avaluació dels entregables de laboratori : 15% labHPC i 15% labAD
La notaTeoria de Teoria sera: (teoriaHPC + teoriaAD)/2

La notaFinal serà 0.3*notaLaboratori+0.7*notaTeoria

Reavaluació:

Si teoriaHPC !=NP i teoriaAD != NP i labHPC != NP i labAD != NP i NotaFinal < 5 ==> Es pot accedir a l'examen de re-avaluacio

1 examen de re-avaluació que inclou teoriaHPC i teoriaAD (els laboratoris no es re-avaluaen)

NotaFinalPSD=max(notaFinal, notaReavaluacio)

Bibliografia

Bàsica:

Hand-on sessions at GitHub - TORRES, Jordi,
Slides of the course - Torres, J, UPC,
Understanding supercomputing: with Marenostrum Supercomputer in Barcelona - Torres, J, Universitat Politècnica de Catalunya, Barcelona Supercomputing Center, 2016. ISBN: 9781365376825
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004105469706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Hello world en TensorFlow - Torres, J, Universitat Politècnica de Catalunya, Barcelona Supercomputing Centrer, 2016. ISBN: 9781326532383
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004074709706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Introducción a Apache Spark: para empezar a programar el big data - Macias, M.; Gómez, M.; Tous, R.; Torres, J, UOC, 2015. ISBN: 9788491160373
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004068679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Articles from Technical Journals in the area - ,

Complementaria:

Empresas en la nube: ventajas y retos del cloud computing - Torres, J, Libros de Cabecera , 2011. ISBN: 9788493908225
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003890319706711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacitats prèvies

C i Python són els llenguatges de programació triats per a les sessions de laboratori d'aquest curs. Se suposa que l'alumne té un coneixement bàsic de Python i C abans de començar les classes.

Paral·lelisme i Sistemes Distribuïts

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Tècniques

Competències tècniques

Competències Transversals

Transversals

Bàsiques

Competències Tècniques Generals

Genèriques

Objectius

Continguts

Activitats

Introducció de l'assignatura

Desenvolupament del tema "Fonaments de supercomputació paral·lela i distribuïda"

Desenvolupament del tema "Arquitecturas paralel.les i distribuïdes"

Desenvolupament del tema "Entorns d'execució de computació paral·lela i anàlisi de dades"

Desenvolupament del tema "Models de programació per a supercomputadors"

Desenvolupament del tema "New programari per anàlisi de dades"

Desenvolupament del tema "Machine Learning en Supercomputadors: Cas d'us basat en Spark/Cassandra/TensorFlow"

Sesions de laboratori i entregables: Execució d'applicacions HPC, Generació de dades en entorns HPC, enmagatzematge i anàlis de dades en contexte de DA (Data Analytics)

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

On som

Contacta amb la FIB

Paral·lelisme i Sistemes Distribuïts

Esteu aquí

Professorat

Responsable

Altres

Hores setmanals

Competències

Competències Tècniques

Competències tècniques

Competències Transversals

Transversals

Bàsiques

Competències Tècniques Generals

Genèriques

Objectius

Continguts

Activitats

Introducció de l'assignatura

Desenvolupament del tema "Fonaments de supercomputació paral·lela i distribuïda"

Desenvolupament del tema "Arquitecturas paralel.les i distribuïdes"

Desenvolupament del tema "Entorns d'execució de computació paral·lela i anàlisi de dades"

Desenvolupament del tema "Models de programació per a supercomputadors"

Desenvolupament del tema "New programari per anàlisi de dades"

Desenvolupament del tema "Machine Learning en Supercomputadors: Cas d'us basat en Spark/Cassandra/TensorFlow"

Sesions de laboratori i entregables: Execució d'applicacions HPC, Generació de dades en entorns HPC, enmagatzematge i anàlis de dades en contexte de DA (Data Analytics)

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

On som

Contacta amb la FIB