Aquest curs ofereix una exploració de la teoria de l'aprenentatge estadístic i de tècniques avançades d'anàlisi de dades. Els estudiants desenvoluparan tant una comprensió teòrica com una experiència pràctica en la gestió de conjunts de dades complexos d'origen biològic i relacionats amb la salut.
El programa comença amb els fonaments de l'aprenentatge estadístic, abastant problemes centrals com la classificació, la regressió i l'agrupament, així com conceptes essencials com les funcions de pèrdua, la complexitat del model, la regularització i les figures de mèrit derivades de la teoria de detecció de senyals. Sobre aquesta base, els estudiants dominaran mètodes de preprocessament necessaris per analitzar dades reals provinents de fonts com la cromatografia acoblada a espectrometria de masses i els microarrays.
Es posa un fort èmfasi en la reducció de dimensionalitat, incloent tant la selecció com l'extracció de característiques, per abordar els desafiaments que plantegen les dades biològiques d'alta dimensió. Els estudiants treballaran amb un conjunt complet d¿algoritmes d'aprenentatge automàtic, des de classificadors bàsics i tècniques d'agrupament fins a mètodes avançats com màquines de vectors de suport, arbres de decisió, boscos aleatoris i arquitectures de xarxes neuronals.
El curs integra estratègies robustes de validació per assegurar una avaluació i interpretació fiable dels models.
Professorat
Responsable
Santiago Marco Colás (
)
Altres
Agustín Gutiérrez Gálvez (
)
Elitza Nikolaeva Maneva (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Objectius
Implementar esquemes correctes per la partició del dades per l'entrenament, optimització i la caracterització de models predictius
Competències relacionades:
K2,
K3,
K4,
S3,
S4,
Seleccionar el preprocessat de dades adient abans de la construcció del model
Competències relacionades:
K2,
K3,
K4,
Realitzar la reducció de la dimensionalitat utilitzant tant els mètodes de selecció com d'extracció de característiques.
Competències relacionades:
C3,
C6,
K2,
K3,
K4,
K5,
S3,
S4,
Avaluar críticament el rendiment del model utilitzant tècniques de validació adequades.
Competències relacionades:
C3,
C6,
K2,
K3,
K4,
S3,
S8,
Aplicar mètodes avançats d'aprenentatge automàtic i processament de senyals als reptes reals de la bioinformàtica i les dades de salut
Competències relacionades:
C3,
C6,
K2,
K3,
K4,
K5,
S2,
S3,
S4,
S8,
Escriure un informe de laboratori en un llenguatge formal, ben estructurat i amb grafics de qualitat.
Competències relacionades:
C3,
Defensar oralment un treball en equip sobre una anàlisi d'aprenentatge automàtic d'un conjunt de dades. Produir diapositives de bona qualitat i estructurar la presentació per proporcionar un missatge clar al públic. Respondre preguntes tècniques amb competència.
Competències relacionades:
C3,
S8,
Comprendre la literatura tècnica en l'àrea de l'aprenentatge estadístic per a la salut. Identificar conceptes clau i identificar idees que requereixen una anàlisi més profunda.
Competències relacionades:
K2,
C6,
K3,
Continguts
Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
Motivació i conceptes bàsics. Exemples d'aplicació. Eines
Introducció a l'aprenentatge estadístic (II)
Figures de mèrit. Classificadors bàsics. Sobreajust i control de complexitat. Reducció de la dimensionalitat. Regularització.
Preprocessat de dades: Des de les dades en cru fins a les característiques.
Exemples en espectrometria. Reducció de soroll, correcció de linia de base, detecció de pics i integració, transformacions no-lineals, tècniques d'escalat i normalització.
Reducció de dimensionalitat: extracció de característiques
La maldició de la dimensionalitat. Anàlisi de Components Principals. Anàlisi discriminant lineal.
Reducció de dimensionalitat: Selecció de característiques
La importància de la partició de les dades. Enfocaments univariants. Enfocaments multivariants: filtres, wrappers, cerques seqüencials, algorismes genètics. Rànquings de característiques i eliminació recursiva de característiques.
Agrupament
K-means, agrupament jeràrquic, models de mescla gaussiana, finestres de Parzen.
Classificadors bàsics
Teorema de Bayes. Classificadors discriminants lineals i quadràtics. Naive Bayes. Anàlisi discriminant per mínims quadrats parcials (PLS-DA).
Validació de models i validació creuada
Nivells i propòsit de la validació. Estratificació. Validació interna/externa. Hold-out, Leave-one-out, k-fold, mostreig aleatori, Bootstrap.
Clasificadors avançats
Màquines de vectors de suport, arbres de decisió, bosc aleatori. XGBoost.
Regressió multilineal
Regressió lineal. Regressió multilineal. El nombre de condició. Regressió Ridge, LASSO. Selecció de subconjunts.
Regressió avançafa
Xarxes neuronals, el perceptró. El perceptró multicapa. Tècniques de descens per gradient. Aprenentatge profund (Deep Learning). Regressió de vectors de suport.
La metodologia docent combina classes expositives amb laboratoris computacionals. Adicionalment els estudiants en grups hauran d'analitzar un conjunt de dades i presentar el seu anàlisi oralment.
Mètode d'avaluació
L'avaluació del curs tindrà en compte l'examen parcial (P), l'examen final (F), els informes de laboratori (LR), els qüestionaris de laboratori (LQ), el qüestionari de lectura (RQ), els deures de càlcul (H) i el Miniprojecte (SP). Es combinaran segons la fórmula.
Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En cas d'alumnes repetidors en cap cas es tindran en compte activitats realitzades en anys previs.
Els alumnes que suspenguin l'assignatura podran presentar-se a l'examen de reavalaució; en aquest cas la nota d'aquest examen, E, substituirà les notes P i F de manera que la nota final serà 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ