Vés al contingut

Aprenentatge Estadístic

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
UB;UAB
Aquest curs ofereix una exploració de la teoria de l'aprenentatge estadístic i de tècniques avançades d'anàlisi de dades. Els estudiants desenvoluparan tant una comprensió teòrica com una experiència pràctica en la gestió de conjunts de dades complexos d'origen biològic i relacionats amb la salut.
El programa comença amb els fonaments de l'aprenentatge estadístic, abastant problemes centrals com la classificació, la regressió i l'agrupament, així com conceptes essencials com les funcions de pèrdua, la complexitat del model, la regularització i les figures de mèrit derivades de la teoria de detecció de senyals. Sobre aquesta base, els estudiants dominaran mètodes de preprocessament necessaris per analitzar dades reals provinents de fonts com la cromatografia acoblada a espectrometria de masses i els microarrays.
Es posa un fort èmfasi en la reducció de dimensionalitat, incloent tant la selecció com l'extracció de característiques, per abordar els desafiaments que plantegen les dades biològiques d'alta dimensió. Els estudiants treballaran amb un conjunt complet d¿algoritmes d'aprenentatge automàtic, des de classificadors bàsics i tècniques d'agrupament fins a mètodes avançats com màquines de vectors de suport, arbres de decisió, boscos aleatoris i arquitectures de xarxes neuronals.
El curs integra estratègies robustes de validació per assegurar una avaluació i interpretació fiable dels models.

Professorat

Responsable

Altres

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Coneixements

  • K2 - Identificar els mètodes estadístics i computacionals i els models matemàtics que permeten resoldre problemes en els camps de la biologia molecular, la genòmica, la investigació mèdica i la genètica de poblacions.
  • K3 - Identificar els fonaments matemàtics, les teories informàtiques, els esquemes algorísmics i els principis d'organització de la informació aplicables al modelat de sistemes biològics i a la resolució eficient de problemes bioinformàtics mitjançant el disseny d'eines computacionals.
  • K4 - Integrar els conceptes oferts pels llenguatges de programació de major ús en l'àmbit de les Ciències de la Vida per a modelar i optimitzar estructures de dades i construir algorismes eficients, relacionant-los entre sí i amb els seus casos d'aplicació.
  • K5 - Identificar la naturalesa de les variables biològiques que cal analitzar, així com els models matemàtics, els algorismes i les proves estadístiques adequades per a desenvolupar i avaluar anàlisis estadístics i eines computacionals.
  • Habilitats

  • S2 - Analitzar computacionalment seqüències d'ADN, ARN i proteïnes, incloent anàlisis comparatives de genomes, usant la computació, les matemàtiques i l'estadística com a eines bàsiques de la bioinformàtica.
  • S3 - Resoldre problemes en els camps de la biologia molecular, la genòmica, la investigació mèdica i la genètica de poblacions mitjançant l'aplicació de mètodes estadístics i computacionals i models matemàtics.
  • S4 - Elaborar eines específiques que permetin la resolució de problemes sobre la interpretació de dades biològiques i biomèdiques, incloent visualitzacions complexes.
  • S8 - Enfrontar-se a la presa de decisions, i defensar-les amb arguments, en la resolució de problemes de les àrees de biologia, així com, dins dels àmbits adequats, les ciències de la salut, les ciències de la computació i les ciències experimentals.
  • Competències

  • C3 - Comunicar-se de forma oral i escrita amb altres persones, en llengua anglesa, sobre els resultats de l'aprenentatge, de l'elaboració del pensament i de la presa de decisions.
  • C6 - Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per a ampliar aquest coneixement.
  • Objectius

    1. Implementar esquemes correctes per la partició del dades per l'entrenament, optimització i la caracterització de models predictius
      Competències relacionades: K2, K3, K4, S3, S4,
    2. Seleccionar el preprocessat de dades adient abans de la construcció del model
      Competències relacionades: K2, K3, K4,
    3. Realitzar la reducció de la dimensionalitat utilitzant tant els mètodes de selecció com d'extracció de característiques.
      Competències relacionades: C3, K2, K3, K4, K5, S3, S4, C6,
    4. Avaluar críticament el rendiment del model utilitzant tècniques de validació adequades.
      Competències relacionades: C3, K2, K3, K4, S3, S8, C6,
    5. Aplicar mètodes avançats d'aprenentatge automàtic i processament de senyals als reptes reals de la bioinformàtica i les dades de salut
      Competències relacionades: C3, K2, K3, K4, K5, S2, S3, S4, S8, C6,
    6. Escriure un informe de laboratori en un llenguatge formal, ben estructurat i amb grafics de qualitat.
      Competències relacionades: C3,
    7. Defensar oralment un treball en equip sobre una anàlisi d'aprenentatge automàtic d'un conjunt de dades. Produir diapositives de bona qualitat i estructurar la presentació per proporcionar un missatge clar al públic. Respondre preguntes tècniques amb competència.
      Competències relacionades: C3, S8,
    8. Comprendre la literatura tècnica en l'àrea de l'aprenentatge estadístic per a la salut. Identificar conceptes clau i identificar idees que requereixen una anàlisi més profunda.
      Competències relacionades: K2, C6, K3,

    Continguts

    1. Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
      Motivació i conceptes bàsics. Exemples d'aplicació. Eines
    2. Introducció a l'aprenentatge estadístic (II)
      Figures de mèrit. Classificadors bàsics. Sobreajust i control de complexitat. Reducció de la dimensionalitat. Regularització.
    3. Preprocessat de dades: Des de les dades en cru fins a les característiques.
      Exemples en espectrometria. Reducció de soroll, correcció de linia de base, detecció de pics i integració, transformacions no-lineals, tècniques d'escalat i normalització.
    4. Reducció de dimensionalitat: extracció de característiques
      La maldició de la dimensionalitat. Anàlisi de Components Principals. Anàlisi discriminant lineal.
    5. Reducció de dimensionalitat: Selecció de característiques
      La importància de la partició de les dades. Enfocaments univariants. Enfocaments multivariants: filtres, wrappers, cerques seqüencials, algorismes genètics. Rànquings de característiques i eliminació recursiva de característiques.
    6. Agrupament
      K-means, agrupament jeràrquic, models de mescla gaussiana, finestres de Parzen.
    7. Classificadors bàsics
      Teorema de Bayes. Classificadors discriminants lineals i quadràtics. Naive Bayes. Anàlisi discriminant per mínims quadrats parcials (PLS-DA).
    8. Validació de models i validació creuada
      Nivells i propòsit de la validació. Estratificació. Validació interna/externa. Hold-out, Leave-one-out, k-fold, mostreig aleatori, Bootstrap.
    9. Clasificadors avançats
      Màquines de vectors de suport, arbres de decisió, bosc aleatori. XGBoost.
    10. Regressió multilineal
      Regressió lineal. Regressió multilineal. El nombre de condició. Regressió Ridge, LASSO. Selecció de subconjunts.
    11. Regressió avançafa
      Xarxes neuronals, el perceptró. El perceptró multicapa. Tècniques de descens per gradient. Aprenentatge profund (Deep Learning). Regressió de vectors de suport.

    Activitats

    Activitat Acte avaluatiu



    laboratori computacional


    Objectius: 1 2 3 4 5 6
    Teoria
    0h
    Problemes
    0h
    Laboratori
    30h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    22.5h

    Miniprojecte


    Objectius: 1 2 3 4 5 7
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    30h


    examen parcial



    Teoria
    2h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    La metodologia docent combina classes expositives amb laboratoris computacionals. Adicionalment els estudiants en grups hauran d'analitzar un conjunt de dades i presentar el seu anàlisi oralment.

    Mètode d'avaluació

    L'avaluació del curs tindrà en compte l'examen parcial (P), l'examen final (F), els informes de laboratori (LR), els qüestionaris de laboratori (LQ), el qüestionari de lectura (RQ), els deures de càlcul (H) i el Miniprojecte (SP). Es combinaran segons la fórmula.
    Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
    En cas d'alumnes repetidors en cap cas es tindran en compte activitats realitzades en anys previs.

    Els alumnes que suspenguin l'assignatura podran presentar-se a l'examen de reavalaució; en aquest cas la nota d'aquest examen, E, substituirà les notes P i F de manera que la nota final serà 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ

    Bibliografia

    Bàsic

    Capacitats prèvies

    Programació bàsica en R. Bioestadística. Algebra.