Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
ESSI
Web
https://learnsql3.fib.upc.edu/moodle
Profesorado
Responsable
- Alberto Abello Gamazo ( alberto.abello@upc.edu )
Otros
- Besim Bilalli ( besim.bilalli@upc.edu )
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6
Competencias
Competencias técnicas
Transversales
Básicas
Genéricas
Objetivos
-
Ser capaz de discutir y justificar con detalle los principios arquitectonicos y cuellos de botella de los gestores relacionales frente a sistemas de almacenamiento y procesamiento alternativos.
Competencias relacionadas: CE7, CT4, CT6, CG1, CG2, CB2, CB3, -
Ser capaz de obtener el esquema lógico de un almacén de datos a partir de un esquema conceptual expresado en UML, detectar y corregir sus defectos.
Competencias relacionadas: CE7, CT4, CT6, CB2, CB3, -
Ser capaz de explicar y utilizar los principales mecanismos de procesamiento paralelo de consultas en entornos distribuidos, y detectar cuellos de botella.
Competencias relacionadas: CE7, CT4, CT6, CG2, CB2, CB3, -
Ser capaz de justificar y utilizar NOSQL storage systems.
Competencias relacionadas: CE7, CT4, CT6, CG1, CG2, CB2, CB3,
Contenidos
-
Introducción
Almacenamiento de datos en entornos analíticos y Big Data -
Almacenamiento de datos
Almacenamiento de datos. Flujos de datos ETL. Integración de datos. Herramientas OLAP. -
Bases de datos distribuidas
Taxonomía de bases de datos distribuidas. Arquitecturas. Diseño de bases de datos distribuidas (fragmentación y replicación). Paralelismo. Métricas de escalabilidad. Sistemas de ficheros distribuídos. -
Procesamiento distribuido de datos
Importancia del acceso secuencial paralelo. Barreras de sincronización (Bulk Synchronous Parallel modelo). Arquitecturas de Big Data y sistemas NOSQL.
Actividades
Actividad Acto evaluativo
Introducción
Introducción de la asignatura, motivación y visión general de las herramientas de gestión de datos existentes actualmente, sus ventajas e inconvenientesObjetivos: 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h
Teoría
10h
Problemas
0h
Laboratorio
14h
Aprendizaje dirigido
0h
Aprendizaje autónomo
38h
Metodología docente
La asignatura se compone de teoría, y sesiones de laboratorio.Teoría: Se utilizarán técnicas de clase invertida que requieren que el estudiante trabaje materiales multimedia antes de la clase. Las clases de teoría consisten en explicaciones complementarias del profesor y resolución de problemas.
Laboratorio: Se utilizarán herramientas representativas para la aplicación de conceptos teóricos (por ejemplo, PotgreSQL, Talend, HDFS, MongoDB). Se harán también dos proyectos, en el que los estudiantes trabajarán en equipos: uno de análisis descriptivo de datos en un almacén de datos y el otro de análisis predictivo en un entorno Big Data. Consecuentemente, habrá dos entregables fuera del horario de clase, pero los estudiantes también serán evaluados individualmente en el aula sobre los conocimientos adquiridos durante cada uno de los proyectos.
El curso tiene una componente de aprendizaje autónomo, dado que los estudiantes tendrán que trabajar con diferentes herramientas de gestión y procesamiento de datos. Aparte del material de apoyo, los estudiantes deben ser capaces de resolver dudas o problemas de uso de estas herramientas.
Método de evaluación
Nota final = max(20%EP+40%EF ; 60% EF) + 40% PEP = nota del examen parcial
EF = nota del examen final
P = nota de proyecto, como promedio ponderado de los proyectos del curso
Para los estudiantes que puedan concurrir a la reavalaució, la nota del examen de reevaluación sustituirá EF.
Bibliografía
Básico
-
Database systems : the complete book
- Garcia-Molina, Hector; Ullman, Jeffrey D; Widom, Jennifer,
Pearson Education,
2013.
ISBN: 9781292024479
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004168919706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Data warehouse design: modern principles and methodologies
- Golfarelli, M.; Rizzi, S,
McGraw Hill,
2009.
ISBN: 9780071610391
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003628169706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Data warehouse systems: design and implentation
- Vaisman, A.; Zimányi, E,
Springer,
2022.
ISBN: 9783662651667
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005155876506711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Principles of distributed database systems
- Özsu, M.T.; Valduriez, P,
Springer,
2020.
ISBN: 9783030262525
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004193569706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
NoSQL distilled: a brief guide to the emerging world of polygot persistence
- Sadalage, P.J.; Fowler, M,
Addison-Wesley,
2013.
ISBN: 9780321826626
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003990429706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
SQL for data science : data cleaning, wrangling and analytics with relational databases
- Badia, Antonio,
Springer,
2020.
ISBN: 9783030575915
http://cataleg.upc.edu/record=99100491633840671~S1*cat -
Data Warehousing and OLAP
- Abelló, Alberto; Jovanovic, Petar,
-
Big Data Management
- Abelló, Albero; Nadal, Sergi,
-
Slides on Advanced Databases course
- Database Technologies and Information Management,
Complementario
-
Exercises Big Data Management
- ,
-
Exercises Data Warehousing
- ,
Web links
- Erasmus Mundus Master on Big Data Management and Analytics https://bdma.ulb.ac.be/bdma
- European Big Data Management and Analytics Summer School (eBISS) https://cs.ulb.ac.be/conferences/ebiss.html
Capacidades previas
Ser capaz de leer y entender materiales en inglés.Ser capaz de enumerar las etapas que conforman el proceso de la ingeniería de software.
Ser capaz de entender esquemas conceptuales en UML.
Ser capaz de crear, consultar y manipular bases de datos con SQL.
Ser capaz de programar utilizando programación funcional tipo Spark.