Vés al contingut

Anàlisi de Dades i Descobriment del Coneixement

Crèdits
6
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
CS
Web
https://raco.fib.upc.edu/home/assignatura?espai=270650
Mail
assig-DAKD-MIRI@fib.upc.edu
This exciting course broaches the hot topic of Data Analysis and Knowledge Discovery (DAKD) from the viewpoint of Data Mining.
Most areas in science, engineering and business are becoming increasingly data dependent. Clear examples of this are, to name a few, bioinformatics, medicine, or electronic commerce.
Data analysis techniques are needed to deal with these data and generate usable knowledge out of them. Amongst them, DAKD techniques are one of the most promising approaches. This theme is at the core of the contents of this course.

Professorat

Responsable

Altres

Hores setmanals

Teoria
3
Problemes
0
Laboratori
0
Aprenentatge dirigit
0.6
Aprenentatge autònom
6.4

Competències

Ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
  • Tercera llengua

  • CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
  • Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
  • Genèriques

  • CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
  • Específiques

  • CE2 - Aplicar els fonaments de la gestió i processament de dades en un problema de ciència de dades
  • CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
  • CE8 - Extreure informació de dades estructurades i no estructurades, tenint en compte la naturalesa multivariant de les mateixes.
  • CE10 - Identificar els mètodes d'aprenentatge automàtic i modelització estadística a utilitzar per resoldre un problema específic de ciència de dades, i aplicar-los de forma rigorosa
  • CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
  • CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
  • Objectius

    1. Presenting DM as a process that should involve a methodology id applied at its best.
      Competències relacionades: CB10, CT4, CT5, CE10, CE2, CE8, CG2,
      Subcompetences
      • Técnicas de búsqueda y tratamiento de la información en entornos heterogéneos
      • Limpieza de datos
      • Derivación de datos
    2. Introducing the students to the new concept of DM for processes, called Process Mining.
      Competències relacionades: CB6, CT4, CT5, CE10, CE12, CE2, CE5, CE8, CG2,
      Subcompetences
      • Algoritmos de análisis de flujos continuos de datos
    3. Delving into some detail in one of the stages of DM: data exploration.
      Competències relacionades: CB10, CT4, CT5, CE10, CE2, CE5, CE8, CG2,
      Subcompetences
      • Exploración y visualización de datos en minería de datos
    4. Dealing in detail with the problem of data visualization for exploration as a key issue in DM.
      Competències relacionades: CT4, CT5, CE5,
      Subcompetences
      • Exploración y visualización de datos en minería de datos
    5. Introducing the students to the basics of probability theory as applied in Data Analysis and Knowledge Discovery (DAKD)
      Competències relacionades: CB10, CB7, CT5, CE10, CE8,
      Subcompetences
      • Estadística bayesiana
    6. Introducing the students to the probabilistic variant of DAKD in the form of Statistical Machine Learning, both for supervised and unsupervised learning models.
      Competències relacionades: CB10, CB7, CT5, CE10, CE8,
      Subcompetences
      • Estadística bayesiana
      • Modelización a partir de factores latentes
    7. Dealing in detail with different unsupervised models for data visualization, including case studies.
      Competències relacionades: CB10, CB6, CT5, CE10, CE12, CE2, CE5, CE8, CG2,
      Subcompetences
      • Algoritmos avanzados para minería de datos
      • Exploración y visualización de datos en minería de datos
      • Diseño e implementación de sistemas de visualización
    8. Approaching the multi-faceted concept of data mining (DM) from different perspectives.
      Competències relacionades: CB6, CB7, CT4, CT5, CE12, CE13,
      Subcompetences
      • Técnicas de búsqueda y tratamiento de la información en entornos heterogéneos

    Continguts

    1. Introduction to the concept of data mining (DM).
      DM is a multi-faceted concept that requires discussion and clarification. We will do this at the beginning of the course.
    2. DM as a methodology.
      We argue that DM should not be focused on the concept of data analysis/modeling, but, instead, should be treated as a methodology with diverse inter-related stages.
    3. DM for processes: Process Mining.
      A new development in DM methodologies is that which deals with one specifically suited for processes. It is called Process Mining and will be described and discussed in this course.
    4. Data exploration in DM.
      One of the main stages of well-structures DM methodologies is Data exploration. It will be discussed as a preamble to data visualization.
    5. Data visualization for exploration.
      One of the aspects of the problem of data exploration is data visualization. It has a research 'life' of its own as it involves not only computer-based mathematical models, but also natural perception and processing.
    6. Basics of probability theory in Data Analysis and Knowledge Discovery (DAKD)
      For a long time in the last half-century, multivariate statistics and artificial intelligence (mostly in the field of machine learning) have developed in parallel without fully meeting. Statistical machine learning has bridged that field over the last two decades. We introduce it by first providing some basic principles of probability theory (Bayesian inference).
    7. Statistical Machine Learning for DAKD: supervised models.
      Once the basics of Bayesian inference are set, we will delve into the field of Statistical Machine Learning for IDA, starting with supervised learning models, with an emphasis on feed-forward artificial neural networks.
    8. Statistical Machine Learning for DAKD: unsupervised models.
      Once the basics of Bayesian inference and of Statistical Machine Learning for IDA in supervised models are set, we will continue with unsupervised models, focusing on self-organizing maps and related models.
    9. Unsupervised models for data visualization, with case studies.
      In the final item of the contents of the course, we will bring statistical machine learning and data visualization together by discussing some probabilistic unsupervised learning models for data visualization, including some case studies as an example.

    Activitats

    Activitat Acte avaluatiu


    Essay on DAKD for DM

    Students will have to write a research essay on the topic of DAKD for DM, with different options: 1. State of the art on an specific DAKD-DM topic 2. Evaluation of an DAKD-DM software tool with original experiments 3. Pure research essay, with original experimental content
    Objectius: 1 3 5 7 2 4 6 8
    Setmana: 18
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Introduction to Data Mining and its Methodologies

    Introduction to Data Mining as a general concept and to its methodologies for practical implementation
    Objectius: 1
    Continguts:
    Teoria
    9h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    1h
    Aprenentatge autònom
    13h

    Process Mining

    Introduction to the novel concept of Process Mining and its application within the DM framework.
    Objectius: 2
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    1h
    Aprenentatge autònom
    5h

    Data Visualization

    As part of the DM stage of Data Exploration, we focus in the problem of Data Visualization.
    Objectius: 3 4
    Continguts:
    Teoria
    6h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    1h
    Aprenentatge autònom
    9h

    Basics of probability theory for intelligent data analysis

    Introduction to probability theory for intelligent data analysis, with a focus on Bayesian statistics
    Objectius: 5
    Continguts:
    Teoria
    6h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    1h
    Aprenentatge autònom
    9h

    Statistical Machine Learning methods

    The meeting of statistics and machine learning: Statistical Machine Learning methods, from the point of view of both supervised and supervised learning
    Objectius: 5 6
    Continguts:
    Teoria
    12h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    1h
    Aprenentatge autònom
    18h

    SML in data visualization, with case studies

    We merge the topics of SML and data visualization, illustrating its use with some real case studies
    Objectius: 7 4 8
    Continguts:
    Teoria
    9h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    1h
    Aprenentatge autònom
    15h

    Metodologia docent

    This course will build on different teaching methodology (TM) aspects, including:
    TM1: Expositive seminars
    TM2: Expositive-participative seminars
    TM3: Orientation for individual assignments (essays)
    TM4: Individual tutorization

    Mètode d'avaluació

    The course will include two evaluation tasks:
    The first one will be a data science purely analytical task performed according to data mining principles.
    The second one will involve writing an essay according to one of these three modalities:
    1. State of the art on an specific IDA-DM topic
    2. Evaluation of an IDA-DM software tool with original experiments
    3. Pure research essay, with original experimental content

    Bibliografia

    Bàsic

    Complementari

    Capacitats prèvies

    Students are expected to have at least some basic background in the area of artificial intelligence and, more specifically, with the areas of Machine Leaning and Computational Intelligence.
    Some basic knowledge of probability theory and statistics would be beneficial.
    Other than this, the course is open to students and researchers of all types of background.