Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
ESSI
L'estudiant coneixerà els conceptes relacionats amb el emmagatzematge de dades orientat a l'anàlisi, així com els processos de tractament massiu de dades. Així mateix, podrà identificar i avaluar els seus reptes i dificultats. Com a resultat, l'estudiant serà capaç d'avaluar les diferents alternatives possibles d'emmagatzematge, modelització i processament de dades en el context de la vostra organització i triar-ne les més apropiades.
Professorat
Responsable
- Petar Jovanovic (petar.jovanovic@upc.edu)
Altres
- Anna Queralt Calafat (anna.queralt@upc.edu)
- Gerard Pons Recasens (gerard.pons.recasens@upc.edu)
- Marc Maynou Yelamos (marc.maynou@upc.edu)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Transversals
Bàsiques
Específiques
Genèriques
Objectius
-
Ser capaç d'explicar i utilitzar els principals mecanismes de processament paral·lel de consultes en entorns distribuïts, i detectar colls d'ampolla.
Competències relacionades: CG3, CG9, CT4, CT6, CB1, CB2, CE08, -
Aprendre, comprendre i aplicar els fonaments dels sistemes de gestió de dades distribuïdes com les bases de dades distribuïdes i els sistemes de fitxers distribuïts.
Competències relacionades: CG2, CG5, CT4, CT6, CB2, CE04, CE08, CE15, -
Ser capaç de justificar i utilitzar entorns de processament distribuït de dades d'estil funcional.
Competències relacionades: CG3, CG5, CT4, CT6, CB1, CB2, CE08, CE09, CE10, -
Aprendre, comprendre i aplicar els fonaments dels gràfs de coneixement.
Competències relacionades: CG2, CG5, CT6, CT8, CB1, CE04, CE08, -
Ser capaç d'especificar, dissenyar, implementar i avaluar sistemes de gestió de dades orientades a la IA, incloses les bases de dades semàntiques per a la representació del coneixement.
Competències relacionades: CG2, CG5, CT4, CT6, CB1, CE04, CE08, CE15, -
Ser capaç d'aplicar gràfs de coneixement per resoldre problemes realistes com ara la integració de dades, l'anàlisi de dades basada en gràfs, etc.
Competències relacionades: CG2, CG5, CG9, CT4, CT6, CT8, CB2, CE04, CE08, CE15, -
Ser capaç d'avaluar i seleccionar sistemes de gestió de dades en funció d'un determinat criteri de qualitat.
Competències relacionades: CG2, CG3, CT4, CB2, CE04, CE08, CE10, -
Ser capaç de resoldre problemes de descoberta i integració de dades basant-se en les estratègies, estàndards i tecnologies disponibles.
Competències relacionades: CG3, CG9, CT4, CT6, CT8, CB1, CB2, CE08, CE09, CE10, -
Ser capaç de realitzar el processament de consultes de dades de gràfs.
Competències relacionades: CG3, CG9, CT4, CT6, CB1, CB2, CE04, CE09,
Continguts
-
Introducció als sistemes de dades per a la Intel·ligència Artificial.
El cicle de vida complet de la IA amb DevOps i DataOps. Adquisició, neteja i preparació de dades. Selecció i gestió de models. Depuració i servei de models. -
Gestió i tractament de dades a gran escala.
Bases de dades distribuïdes. Visió general de la gestió i tractament de dades distribuïdes. Sistema de fitxers distribuïts. Marcs de processament de dades distribuïts (MapReduce/Spark). Models de processament de flux de dades. Programes de flux de dades declaratius. -
Gestió de dades semàntiques
Fonaments de la gestió de dades de grafs. Representacions de grafs de coneixement amb RDF, RDFS, OWL i la seva relació amb lògiques de primer ordre. Consultes basades en patrons i el llenguatge SPARQL. Llenguatges per a la descripció i validació de grafs de coneixement. -
Integració de dades
Descobriment de dades. Avaluació de la qualitat de les dades. Integració d'esquemes i dades. -
Arquitectures de dades per a sistemes basats en l'IA i la seva governança
Arquitectures funcionals centralitzades i distribuïdes de sistemes de gestió de dades per a IA. Governança de dades.
Activitats
Activitat Acte avaluatiu
Introducció als sistemes de dades per a la IA
Introducció de l'assignatura, motivació i visió general del cicle de vida de les dades per a la IA.Objectius: 5
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h
Teoria
4h
Problemes
0h
Laboratori
6h
Aprenentatge dirigit
0h
Aprenentatge autònom
10h
Metodologia docent
El curs té classes de teoria i de laboratori.Magistrals: El professor exposa el tema. Els estudiants segueixen la lliçó, prenen apunts i preparen material addicional fora de classe. També se'ls pot demanar que portin a terme activitats avaluatòries dins d'aquestes sessions.
Laboratori: Principalment, les sessions de laboratori estaran dedicades a la pràctica (amb o sense ordinador) dels conceptes introduïts a les sessions magistrals. Eines rellevants pels conceptes introduïts són presentades i emprades en petits projectes en aquestes sessions. Es faran també mini projectes, en què els estudiants treballaran en equips. Per cada mini projecte hi haurà un lliurament fora de l'horari de classe, però els estudiants també seran avaluats individualment a l'aula sobre els coneixements adquirits durant cadascun dels projectes.
El curs té una component d'aprenentatge autònom, donat que els estudiants hauran de treballar amb diferents eines de gestió i processament de dades. A part del material de suport, els estudiants han de ser capaços de resoldre dubtes o problemes d'ús d'aquestes eines.
Mètode d'avaluació
La qualificació de les competències tècniques es basa en:- NPR: Nota de projecte, com a promig ponderat dels mini projectes del curs
- NEP: Nota de l'examen parcial.
- NEF: Nota de l'examen final.
Qualificació final = NPR*0.40+NEP*0.25+NEF*0.35
Revavaluació: Només es poden presentar a revavaluació els estudiants que s'han presentat a l'examen final i l'han suspès (no els que tenen un NP). La nota de examen de reavaluació substituirà NEF i NEP i per tant incloure continguts de tota l'assignatura. En tot cas, la nota final serà el màxim entre la nota ordinària i la nota de reavaluació. La nota màxima de qualsevol examen de reavaluació serà de 7.
Bibliografia
Bàsic
-
SQL for data science : data cleaning, wrangling and analytics with relational databases
- Badia, Antonio,
Springer,
[2020].
ISBN: 9783030575915
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004916338406711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Principles of distributed database systems
- Özsu, M. Tamer; Valduriez, Patrick,
Springer,
[2020].
ISBN: 9783030262525
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004193569706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
The Web of Data
- Hogan, Aidan,
Springer,
2020.
ISBN: 9783030515829
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005316955606711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
NoSQL distilled : a brief guide to the emerging world of polygot persistence
- Sadalage, Pramod J; Fowler, Martin,
Addison-Wesley,
2013.
ISBN: 9780321826626
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003990429706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Data management and query processing in semantic web databases
- Groppe, Sven,
Springer,
2011.
ISBN: 9783642193569
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003898129706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Web data management
- Abiteboul, S,
Cambridge University Press,
2012.
ISBN: 9781107012431
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003929239706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementari
-
Encyclopedia of database systems [Recurs electrònic]
- Özsu, M. Tamer; Liu, Ling,
Springer,
2009.
ISBN: 9780387399409
https://link-springer-com.recursos.biblioteca.upc.edu/referencework/10.1007/978-0-387-39940-9 -
Managing and mining graph data
- Aggarwal, Charu C; Wang, Haixun,
Springer,
cop. 2010.
ISBN: 9781441960443
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003843179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database Systems
- Lenzerini, Maurizio,
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database Systems,
2002.
https://dl-acm-org.recursos.biblioteca.upc.edu/doi/10.1145/543613.543644 -
Frontiers of Computer Science
- Özsu, M. Tamer,
Frontiers of Computer Science,
2016.
https://link-springer-com.recursos.biblioteca.upc.edu/article/10.1007/s11704-016-5554-y
Web links
Capacitats prèvies
Coneixaments fonamentals de modelització de dades relacionals.Ser capaç de crear, consultar i manipular bases de dades amb SQL.
Fonaments de representació del coneixement i lògica de primer ordre.
Programació avançada en Python.