Aquest curs ofereix una exploració de la teoria de l'aprenentatge estadístic i de tècniques avançades d'anàlisi de dades. Els estudiants desenvoluparan tant una comprensió teòrica com una experiència pràctica en la gestió de conjunts de dades complexos d'origen biològic i relacionats amb la salut.
El programa comença amb els fonaments de l'aprenentatge estadístic, abastant problemes centrals com la classificació, la regressió i l'agrupament, així com conceptes essencials com les funcions de pèrdua, la complexitat del model, la regularització i les figures de mèrit derivades de la teoria de detecció de senyals. Sobre aquesta base, els estudiants dominaran mètodes de preprocessament necessaris per analitzar dades reals provinents de fonts com la cromatografia acoblada a espectrometria de masses i els microarrays.
Es posa un fort èmfasi en la reducció de dimensionalitat, incloent tant la selecció com l'extracció de característiques, per abordar els desafiaments que plantegen les dades biològiques d'alta dimensió. Els estudiants treballaran amb un conjunt complet d¿algoritmes d'aprenentatge automàtic, des de classificadors bàsics i tècniques d'agrupament fins a mètodes avançats com màquines de vectors de suport, arbres de decisió, boscos aleatoris i arquitectures de xarxes neuronals.
El curs integra estratègies robustes de validació per assegurar una avaluació i interpretació fiable dels models.
Professorat
Responsable
Santiago Marco Colás (
)
Altres
Agustín Gutiérrez Gálvez (
)
Elitza Nikolaeva Maneva (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Resultats d'aprenentatge
Resultats d'aprenentatge
Coneixements
K2 - Identificar els mètodes estadístics i computacionals i els models matemàtics que permeten resoldre problemes en els camps de la biologia molecular, la genòmica, la investigació mèdica i la genètica de poblacions.
K3 - Identificar els fonaments matemàtics, les teories informàtiques, els esquemes algorísmics i els principis d'organització de la informació aplicables al modelat de sistemes biològics i a la resolució eficient de problemes bioinformàtics mitjançant el disseny d'eines computacionals.
K4 - Integrar els conceptes oferts pels llenguatges de programació de major ús en l'àmbit de les Ciències de la Vida per a modelar i optimitzar estructures de dades i construir algorismes eficients, relacionant-los entre sí i amb els seus casos d'aplicació.
K5 - Identificar la naturalesa de les variables biològiques que cal analitzar, així com els models matemàtics, els algorismes i les proves estadístiques adequades per a desenvolupar i avaluar anàlisis estadístics i eines computacionals.
Habilitats
S2 - Analitzar computacionalment seqüències d'ADN, ARN i proteïnes, incloent anàlisis comparatives de genomes, usant la computació, les matemàtiques i l'estadística com a eines bàsiques de la bioinformàtica.
S3 - Resoldre problemes en els camps de la biologia molecular, la genòmica, la investigació mèdica i la genètica de poblacions mitjançant l'aplicació de mètodes estadístics i computacionals i models matemàtics.
S4 - Elaborar eines específiques que permetin la resolució de problemes sobre la interpretació de dades biològiques i biomèdiques, incloent visualitzacions complexes.
S8 - Enfrontar-se a la presa de decisions, i defensar-les amb arguments, en la resolució de problemes de les àrees de biologia, així com, dins dels àmbits adequats, les ciències de la salut, les ciències de la computació i les ciències experimentals.
Competències
C3 - Comunicar-se de forma oral i escrita amb altres persones, en llengua anglesa, sobre els resultats de l'aprenentatge, de l'elaboració del pensament i de la presa de decisions.
C6 - Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per a ampliar aquest coneixement.
Objectius
Implementar esquemes correctes per la partició del dades per l'entrenament, optimització i la caracterització de models predictius
Competències relacionades:
K2,
K3,
K4,
S3,
S4,
Seleccionar el preprocessat de dades adient abans de la construcció del model
Competències relacionades:
K2,
K3,
K4,
Realitzar la reducció de la dimensionalitat utilitzant tant els mètodes de selecció com d'extracció de característiques.
Competències relacionades:
K2,
K3,
K4,
K5,
S3,
S4,
C3,
C6,
Avaluar críticament el rendiment del model utilitzant tècniques de validació adequades.
Competències relacionades:
K2,
K3,
K4,
S3,
S8,
C3,
C6,
Aplicar mètodes avançats d'aprenentatge automàtic i processament de senyals als reptes reals de la bioinformàtica i les dades de salut
Competències relacionades:
K2,
K3,
K4,
K5,
S2,
S3,
S4,
S8,
C3,
C6,
Escriure un informe de laboratori en un llenguatge formal, ben estructurat i amb grafics de qualitat.
Competències relacionades:
C3,
Defensar oralment un treball en equip sobre una anàlisi d'aprenentatge automàtic d'un conjunt de dades. Produir diapositives de bona qualitat i estructurar la presentació per proporcionar un missatge clar al públic. Respondre preguntes tècniques amb competència.
Competències relacionades:
S8,
C3,
Comprendre la literatura tècnica en l'àrea de l'aprenentatge estadístic per a la salut. Identificar conceptes clau i identificar idees que requereixen una anàlisi més profunda.
Competències relacionades:
K2,
K3,
C6,
Continguts
Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
Motivació i conceptes bàsics. Exemples d'aplicació. Eines
Introducció a l'aprenentatge estadístic (II)
Figures de mèrit. Classificadors bàsics. Sobreajust i control de complexitat. Reducció de la dimensionalitat. Regularització.
Preprocessat de dades: Des de les dades en cru fins a les característiques.
Exemples en espectrometria. Reducció de soroll, correcció de linia de base, detecció de pics i integració, transformacions no-lineals, tècniques d'escalat i normalització.
Reducció de dimensionalitat: extracció de característiques
La maldició de la dimensionalitat. Anàlisi de Components Principals. Anàlisi discriminant lineal.
Reducció de dimensionalitat: Selecció de característiques
La importància de la partició de les dades. Enfocaments univariants. Enfocaments multivariants: filtres, wrappers, cerques seqüencials, algorismes genètics. Rànquings de característiques i eliminació recursiva de característiques.
Agrupament
K-means, agrupament jeràrquic, models de mescla gaussiana, finestres de Parzen.
Classificadors bàsics
Teorema de Bayes. Classificadors discriminants lineals i quadràtics. Naive Bayes. Anàlisi discriminant per mínims quadrats parcials (PLS-DA).
Validació de models i validació creuada
Nivells i propòsit de la validació. Estratificació. Validació interna/externa. Hold-out, Leave-one-out, k-fold, mostreig aleatori, Bootstrap.
Clasificadors avançats
Màquines de vectors de suport, arbres de decisió, bosc aleatori. XGBoost.
Regressió multilineal
Regressió lineal. Regressió multilineal. El nombre de condició. Regressió Ridge, LASSO. Selecció de subconjunts.
Regressió avançafa
Xarxes neuronals, el perceptró. El perceptró multicapa. Tècniques de descens per gradient. Aprenentatge profund (Deep Learning). Regressió de vectors de suport.
La metodologia docent combina classes expositives amb laboratoris computacionals. Adicionalment els estudiants en grups hauran d'analitzar un conjunt de dades i presentar el seu anàlisi oralment.
Mètode d'avaluació
L'avaluació del curs tindrà en compte l'examen parcial (P), l'examen final (F), els informes de laboratori (LR), els qüestionaris de laboratori (LQ), el qüestionari de lectura (RQ), els deures de càlcul (H) i el Miniprojecte (SP). Es combinaran segons la fórmula.
Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En cas d'alumnes repetidors en cap cas es tindran en compte activitats realitzades en anys previs.
Els alumnes que suspenguin l'assignatura podran presentar-se a l'examen de reavalaució; en aquest cas la nota d'aquest examen, E, substituirà les notes P i F de manera que la nota final serà 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ