Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
ESSI
El estudiante conocerá los conceptos relacionados con el almacenamiento de datos orientado al análisis, así como los procesos de tratamiento masivo de datos. Así mismo, podrá identificar y evaluar sus retos y dificultades. Como resultado, el estudiante será capaz de evaluar las distintas alternativas posibles de almacenamiento, modelización y procesamiento de datos en el contexto de su organización y elegir las más apropiadas.
Profesorado
Responsable
- Petar Jovanovic (petar.jovanovic@upc.edu)
Otros
- Anna Queralt Calafat (anna.queralt@upc.edu)
- Gerard Pons Recasens (gerard.pons.recasens@upc.edu)
- Marc Maynou Yelamos (marc.maynou@upc.edu)
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6
Competencias
Transversales
Básicas
Específicas
Genéricas
Objetivos
-
Ser capaz de explicar y utilizar los principales mecanismos de procesamiento paralelo de consultas en entornos distribuidos, detectando cuellos de botella.
Competencias relacionadas: CG3, CG9, CT4, CT6, CB1, CB2, CE08, -
Aprender, comprender y aplicar los fundamentos de los sistemas de gestión de datos distribuidos como las bases de datos distribuidas y los sistemas de archivos distribuidos.
Competencias relacionadas: CG2, CG5, CT4, CT6, CB2, CE04, CE08, CE15, -
Ser capaz de justificar y utilizar entornos de procesamiento distribuido de datos de estilo funcional.
Competencias relacionadas: CG3, CG5, CT4, CT6, CB1, CB2, CE08, CE09, CE10, -
Aprender, comprender y aplicar los fundamentos de los grafos de conocimiento.
Competencias relacionadas: CG2, CG5, CT6, CT8, CB1, CE04, CE08, -
Ser capaz de especificar, diseñar, implementar y evaluar sistemas de gestión de datos orientados a la IA, incluidas las bases de datos semánticas para la representación del conocimiento.
Competencias relacionadas: CG2, CG5, CT4, CT6, CB1, CE04, CE08, CE15, -
Ser capaz de aplicar grafos de conocimiento para resolver problemas realistas como la integración de datos, el análisis de datos basado en grafos, etc.
Competencias relacionadas: CG2, CG5, CG9, CT4, CT6, CT8, CB2, CE04, CE08, CE15, -
Ser capaz de evaluar y seleccionar sistemas de gestión de datos en función de un determinado criterio de calidad.
Competencias relacionadas: CG2, CG3, CT4, CB2, CE04, CE08, CE10, -
Ser capaz de resolver problemas de descubrimiento e integración de datos en base a las estrategias, estándares y tecnologías disponibles.
Competencias relacionadas: CG3, CG9, CT4, CT6, CT8, CB1, CB2, CE08, CE09, CE10, -
Ser capaz de realizar el procesamiento de consultas de datos de grafos.
Competencias relacionadas: CG3, CG9, CT4, CT6, CB1, CB2, CE04, CE09,
Contenidos
-
Introducción a los sistemas de datos para Inteligencia Artificial.
El ciclo de vida completo de la IA con DevOps y DataOps. Adquisición, limpieza y preparación de datos. Selección y gestión de modelos. Depuración y servicio de modelos. -
Gestión y procesamiento de datos a gran escala.
Bases de datos distribuidas. Descripción general de la gestión y el procesamiento de datos distribuidos. Sistema de archivos distribuidos. Marcos de procesamiento de datos distribuidos (MapReduce/Spark). Modelos de procesamiento de flujo de datos. Programas de flujo de datos declarativos. -
Gestión de datos semánticos
Fundamentos de la gestión de datos de grafos. Representaciones de grafos de conocimiento con RDF, RDFS, OWL y su relación con lógicas de primer orden. Consultas basadas en patrones y el lenguaje SPARQL. Lenguajes para describir y validar grafos de conocimiento. -
Integración de datos
Descubrimiento de datos. Evaluación de la calidad de los datos. Esquema e integración de datos. -
Arquitecturas de datos para sistemas basados en la IA y su gobernanza
Arquitecturas funcionales centralizadas y distribuidas de sistemas de gestión de datos para IA. Gobernanza de datos.
Actividades
Actividad Acto evaluativo
Introducció als sistemes de dades per a la IA
Introducción del tema, motivación y descripción general del ciclo de vida de los datos para la IA.Objetivos: 5
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h
Teoría
4h
Problemas
0h
Laboratorio
6h
Aprendizaje dirigido
0h
Aprendizaje autónomo
10h
Metodología docente
El curso tiene clases de teoria y de laboratorio.Magistrales: El profesor expone el tema. Los estudiantes siguen la lección, toman apuntes y preparan material adicional fuera de clase. También se les puede pedir que lleven a cabo actividades evaluatorias dentro de estas sesiones.
Laboratorio: Principalmente, las sesiones de laboratorio estarán dedicadas a la práctica (con o sin ordenador) de los conceptos introducidos en las sesiones magistrales. Herramientas relevantes para los conceptos introducidos son presentadas y utilizadas en pequeños proyectos en estas sesiones. Se realizarán también mini proyectos, en los que los estudiantes trabajarán en equipos. Por cada mini proyecto habrá una entrega fuera del horario de clase, pero los estudiantes también serán evaluados individualmente en el aula sobre los conocimientos adquiridos durante cada uno de los proyectos.
El curso tiene un componente de aprendizaje autónomo, dado que los estudiantes tendrán que trabajar con diferentes herramientas de gestión y procesamiento de datos. Aparte del material de apoyo, los estudiantes deben ser capaces de resolver dudas o problemas de uso de estas herramientas.
Método de evaluación
La calificación de las competencias técnicas se basa en:- NPR: Nota de proyecto, como promedio ponderado de los mini proyectos del curso
- NEP: Nota del examen parcial.
- NEF: Nota del examen final.
Calificación final = NPR*0.40+NEP*0.25+NEF*0.35
Revavaluación: Sólo se pueden presentar a reevaluación los estudiantes que se han presentado al examen final y lo han suspendido (no los que tienen un NP). La nota de examen de reevaluación sustituirá a NEF y NEP y por tanto incluye el contenido de toda la asignatura. En cualquier caso, la nota final será el máximo entre la nota ordinaria y la nota de reevaluación. La nota máxima de cualquier examen de reevaluación será de 7.
Bibliografía
Básico
-
SQL for data science : data cleaning, wrangling and analytics with relational databases
- Badia, Antonio,
Springer,
[2020].
ISBN: 9783030575915
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004916338406711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Principles of distributed database systems
- Özsu, M. Tamer; Valduriez, Patrick,
Springer,
[2020].
ISBN: 9783030262525
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004193569706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
The Web of Data
- Hogan, Aidan,
Springer,
2020.
ISBN: 9783030515829
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005316955606711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
NoSQL distilled : a brief guide to the emerging world of polygot persistence
- Sadalage, Pramod J; Fowler, Martin,
Addison-Wesley,
2013.
ISBN: 9780321826626
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003990429706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Data management and query processing in semantic web databases
- Groppe, Sven,
Springer,
2011.
ISBN: 9783642193569
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003898129706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Web data management
- Abiteboul, S,
Cambridge University Press,
2012.
ISBN: 9781107012431
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003929239706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementario
-
Encyclopedia of database systems [Recurs electrònic]
- Özsu, M. Tamer; Liu, Ling,
Springer,
2009.
ISBN: 9780387399409
https://link-springer-com.recursos.biblioteca.upc.edu/referencework/10.1007/978-0-387-39940-9 -
Managing and mining graph data
- Aggarwal, Charu C; Wang, Haixun,
Springer,
cop. 2010.
ISBN: 9781441960443
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003843179706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database Systems
- Lenzerini, Maurizio,
PODS '02: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database Systems,
2002.
https://dl-acm-org.recursos.biblioteca.upc.edu/doi/10.1145/543613.543644 -
Frontiers of Computer Science
- Özsu, M. Tamer,
Frontiers of Computer Science,
2016.
https://link-springer-com.recursos.biblioteca.upc.edu/article/10.1007/s11704-016-5554-y
Web links
Capacidades previas
Conocimientos fundamentales de modelización de datos relacionales.Ser capaz de crear, consultar y manipular bases de datos con SQL.
Fundamentos de representación del conocimiento y lógica de primer orden
Programación avanzada en Python.