Aprenentatge No Supervisat i per Reforçament

Esteu aquí

Crèdits
4.5
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits
Departament
CS
Aquest curs introduirà a diferents tècniques avançades dins de les àrees de aprenentatge automàtic no supervisat i aprenentatge per reforç. La part d'aprenentatge no supervisat estarà orientada a algorismes per dades estructurades (sequencies, fluxos, grafs) i no estructurades. La part de aprenentatge per reforç

Professors

Responsable

  • Javier Béjar Alonso ( )

Altres

  • Mario Martín Muñoz ( )

Hores setmanals

Teoria
3
Problemes
0
Laboratori
0
Aprenentatge dirigit
0.38
Aprenentatge autònom
5.7

Competències

Competències Tècniques Generals

Genèriques

  • CG1 - Capacitat per a projectar, dissenyar i implantar productes, processos, serveis i instal·lacions en tots els àmbits de la Intel·ligència Artificial.
  • CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.

Competències Tècniques de cada especialitat

Acadèmiques

  • CEA12 - Capacitat de comprendre les tècniques avançades d'Enginyeria del Coneixement, Aprenentatge Automàtic i Sistemes de Suport a la Decisió, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.
  • CEA13 - Capacitat de comprendre les tècniques avançades de Modelització, Raonament i Resolució de problemes, i saber dissenyar, implementar i aplicar aquestes tècniques en el desenvolupament d'aplicacions, serveis o sistemes intel·ligents.

Professionals

  • CEP1 - Capacitat de resoldre les necessitats d'anàlisi de la informació de les diferents organitzacions, tot identificant les fonts d'incertesa i variabilitat.

Competències Transversals

Sostenibilitat i compromís social

  • CT2 - Conèixer i comprendre la complexitat dels fenòmens econòmics i socials típics de la societat del benestar; tenir capacitat per relacionar el benestar amb la globalització i la sostenibilitat; assolir habilitats per usar de forma equilibrada i compatible la tècnica, la tecnologia, l'economia i la sostenibilitat.

ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.

Bàsiques

  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.

Objectius

  1. Coneixer i fer servir tecniques avançades d'aprenentatge no supervisat i aprenentatge per reforç per a aplicacions en tots els dominis d'aplicacion de la ingenieria i la ciencia
    Competències relacionades: CB7, CT2, CT4, CEA12, CEA13, CEP1, CG1, CG3,

Continguts

  1. Mineria de dades una perspectiva global
    Breu introducció al que és Data Mining and Knowledge Discovery, les àrees a les quals es relacionen i les diferents tècniques que hi intervenen
  2. Preprocessament i transformacio no supervisada de dades
    En aquest tema s'inclouen diferents algorismes per a la preprocessos de dades no supervisats, com ara la normalització de dades, la discretització, la detecció de valors extrems, la reducció de dimensionalitats i l'extracció de característiques (PCA, ICA, SVD, linear and non linear multidimensional scalling and non negative matrix factorizationl)
  3. Aprenentatge no supervisat
    Aquest tema inclourà algoritmes clàssics i actuals per a l'aprenentatge no supervisat a partir de l'aprenentatge automàtic i estadístiques, incloent-hi algoritmes jeràrquics i pariticionals (K-means, Fuzzy C-means, Gaussian EM, particionament de gràfics, algorismes basats en densitat, algorismes basats en quadrícules, ANN no supervisats, propagació d'afinitat , ...)
  4. Aprenentatge no supervisat en mineria de dades
    This topic will include current trends on knowledge discovery for data mining and big data, (scalability, any time clustering, one pass algorithms, approximation algorithms, distributed clustering, ..)
  5. Temes avançats en aprenentatge no supervisat
    This topic will include and introduction to different advanced topics in unsupervised learning such as consensus clustering, subspace clustering, biclustering and semisupervised clustering
  6. Aprendizaje no supervisado para datos sequencials i estucturades
    This topic will include algorithms for unsupervised learning with sequential data and structured data, such as sequences, strings, time series and data streams, graphs and social networks
  7. Basic concepts of Reinforcement Learning
    This topic describes the framework of reinforcement learning as the agent-learning of a behavior by interacting with the environment. This framework will be mathematically formalized. Finally, the concepts of reward, long-term reward, Value functions and Policy function will be introduced. Concepts will be illustrated with several examples.
  8. Basic reinforcement learning algorithms: Model based methods
    This topic introduce the model-based-algorithms of RL. We will see Dynamic Programming methods of Policy Iteration (PI) and Value Iteration (VI). Asynchronous versions of the algorithm will also be described. Finally, we will stress the importance of convergence of the algorithms and the optimality of the policy learnt by the algorithms.
  9. Basic reinforcement learning algorithms: Model free methods
    We will see algorithm able to learn without a model of the world. We will present Monte Carlo, Q-learning and Sarsa algorithms. We will extend these methods to TD(lambda) and n-estimators backups. The role of exploration in learning will be discussed.
  10. Function approximation
    This topic explains what to do when the state space is too large to be represented with a table. We will discuss the advantages and problems of the two main approaches for this problem: Parametric and No parametric methods. We will show how to apply know supervised methods as RBFs, Trees, SVMs and Deep Leaning methods to RL.
  11. Policy gradient methods
    In some cases, value function approaches are not appropriate, for instance, when the action space is continuous or when long-term reward is not the best guide for learning. This topic show approaches developed to solve this cases. We will describe the actor-critic approach and also the Vanilla policy gradient method and REINFORCE and TROP algorithms.
  12. State of the art applications of RL.
    In this topic, we will describe the latest practical application of RL: Atari, Go, robotic applications and NLP

Activitats

Activitat Acte avaluatiu


Aprenentatge no supervisat

Aquesta activitat desenvolupa el temari de la part d'aprenentatge no supervisat del curs
  • Teoria: Aprenentatge no supervisat
  • Aprenentatge autònom: Aprenentatge no supervisat
Objectius: 1
Continguts:
Teoria
18h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
2.3h
Aprenentatge autònom
34.2h

Teoria
18h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
2.3h
Aprenentatge autònom
34.2h

Metodologia docent

Classes magistrals i de projectes en grup

Mètode d'avaluació

L'avaluació es basarà en petits qüestionaris individuals sobre cada tema del curs (20%) i a escollir entre escriure un treball sobre l'estat de l'art per a un tema concret entre els proposats o implementar un algoritme d'aprenentatge (80%).

Web links