Aprenentatge Estadístic

Professorat
Hores setmanals
Resultats d'aprenentatge
Objectius
Continguts
Activitats
Metodologia docent
Mètode d'avaluació
Bibliografia
Capacitats prèvies

Crèdits

6

Tipus

Obligatòria

Requisits

Aquesta assignatura no té requisits, però té capacitats prèvies

Departament

UB;UAB

Aquest curs ofereix una exploració de la teoria de l'aprenentatge estadístic i de tècniques avançades d'anàlisi de dades. Els estudiants desenvoluparan tant una comprensió teòrica com una experiència pràctica en la gestió de conjunts de dades complexos d'origen biològic i relacionats amb la salut.
El programa comença amb els fonaments de l'aprenentatge estadístic, abastant problemes centrals com la classificació, la regressió i l'agrupament, així com conceptes essencials com les funcions de pèrdua, la complexitat del model, la regularització i les figures de mèrit derivades de la teoria de detecció de senyals. Sobre aquesta base, els estudiants dominaran mètodes de preprocessament necessaris per analitzar dades reals provinents de fonts com la cromatografia acoblada a espectrometria de masses i els microarrays.
Es posa un fort èmfasi en la reducció de dimensionalitat, incloent tant la selecció com l'extracció de característiques, per abordar els desafiaments que plantegen les dades biològiques d'alta dimensió. Els estudiants treballaran amb un conjunt complet d¿algoritmes d'aprenentatge automàtic, des de classificadors bàsics i tècniques d'agrupament fins a mètodes avançats com màquines de vectors de suport, arbres de decisió, boscos aleatoris i arquitectures de xarxes neuronals.
El curs integra estratègies robustes de validació per assegurar una avaluació i interpretació fiable dels models.

Professorat

Responsable

Santiago Marco Colás ( )

Altres

Agustín Gutiérrez Gálvez ( )
Elitza Nikolaeva Maneva ( )

Hores setmanals

Teoria

2

Problemes

0

Laboratori

2

Aprenentatge dirigit

0

Aprenentatge autònom

6

Resultats d'aprenentatge

Coneixements

K2 - Identificar els mètodes estadístics i computacionals i els models matemàtics que permeten resoldre problemes en els camps de la biologia molecular, la genòmica, la investigació mèdica i la genètica de poblacions.
K3 - Identificar els fonaments matemàtics, les teories informàtiques, els esquemes algorísmics i els principis d'organització de la informació aplicables al modelat de sistemes biològics i a la resolució eficient de problemes bioinformàtics mitjançant el disseny d'eines computacionals.
K4 - Integrar els conceptes oferts pels llenguatges de programació de major ús en l'àmbit de les Ciències de la Vida per a modelar i optimitzar estructures de dades i construir algorismes eficients, relacionant-los entre sí i amb els seus casos d'aplicació.
K5 - Identificar la naturalesa de les variables biològiques que cal analitzar, així com els models matemàtics, els algorismes i les proves estadístiques adequades per a desenvolupar i avaluar anàlisis estadístics i eines computacionals.

Habilitats

S2 - Analitzar computacionalment seqüències d'ADN, ARN i proteïnes, incloent anàlisis comparatives de genomes, usant la computació, les matemàtiques i l'estadística com a eines bàsiques de la bioinformàtica.
S3 - Resoldre problemes en els camps de la biologia molecular, la genòmica, la investigació mèdica i la genètica de poblacions mitjançant l'aplicació de mètodes estadístics i computacionals i models matemàtics.
S4 - Elaborar eines específiques que permetin la resolució de problemes sobre la interpretació de dades biològiques i biomèdiques, incloent visualitzacions complexes.
S8 - Enfrontar-se a la presa de decisions, i defensar-les amb arguments, en la resolució de problemes de les àrees de biologia, així com, dins dels àmbits adequats, les ciències de la salut, les ciències de la computació i les ciències experimentals.

Competències

C3 - Comunicar-se de forma oral i escrita amb altres persones, en llengua anglesa, sobre els resultats de l'aprenentatge, de l'elaboració del pensament i de la presa de decisions.
C6 - Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per a ampliar aquest coneixement.

Objectius

Implementar esquemes correctes per la partició del dades per l'entrenament, optimització i la caracterització de models predictius
Competències relacionades: K2, K3, K4, S3, S4,
Seleccionar el preprocessat de dades adient abans de la construcció del model
Competències relacionades: K2, K3, K4,
Realitzar la reducció de la dimensionalitat utilitzant tant els mètodes de selecció com d'extracció de característiques.
Competències relacionades: K2, K3, K4, K5, S3, S4, C3, C6,
Avaluar críticament el rendiment del model utilitzant tècniques de validació adequades.
Competències relacionades: K2, K3, K4, S3, S8, C3, C6,
Aplicar mètodes avançats d'aprenentatge automàtic i processament de senyals als reptes reals de la bioinformàtica i les dades de salut
Competències relacionades: K2, K3, K4, K5, S2, S3, S4, S8, C3, C6,
Escriure un informe de laboratori en un llenguatge formal, ben estructurat i amb grafics de qualitat.
Competències relacionades: C3,
Defensar oralment un treball en equip sobre una anàlisi d'aprenentatge automàtic d'un conjunt de dades. Produir diapositives de bona qualitat i estructurar la presentació per proporcionar un missatge clar al públic. Respondre preguntes tècniques amb competència.
Competències relacionades: S8, C3,
Comprendre la literatura tècnica en l'àrea de l'aprenentatge estadístic per a la salut. Identificar conceptes clau i identificar idees que requereixen una anàlisi més profunda.
Competències relacionades: K2, K3, C6,

Continguts

Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
Motivació i conceptes bàsics. Exemples d'aplicació. Eines
Introducció a l'aprenentatge estadístic (II)
Figures de mèrit. Classificadors bàsics. Sobreajust i control de complexitat. Reducció de la dimensionalitat. Regularització.
Preprocessat de dades: Des de les dades en cru fins a les característiques.
Exemples en espectrometria. Reducció de soroll, correcció de linia de base, detecció de pics i integració, transformacions no-lineals, tècniques d'escalat i normalització.
Reducció de dimensionalitat: extracció de característiques
La maldició de la dimensionalitat. Anàlisi de Components Principals. Anàlisi discriminant lineal.
Reducció de dimensionalitat: Selecció de característiques
La importància de la partició de les dades. Enfocaments univariants. Enfocaments multivariants: filtres, wrappers, cerques seqüencials, algorismes genètics. Rànquings de característiques i eliminació recursiva de característiques.
Agrupament
K-means, agrupament jeràrquic, models de mescla gaussiana, finestres de Parzen.
Classificadors bàsics
Teorema de Bayes. Classificadors discriminants lineals i quadràtics. Naive Bayes. Anàlisi discriminant per mínims quadrats parcials (PLS-DA).
Validació de models i validació creuada
Nivells i propòsit de la validació. Estratificació. Validació interna/externa. Hold-out, Leave-one-out, k-fold, mostreig aleatori, Bootstrap.
Clasificadors avançats
Màquines de vectors de suport, arbres de decisió, bosc aleatori. XGBoost.
Regressió multilineal
Regressió lineal. Regressió multilineal. El nombre de condició. Regressió Ridge, LASSO. Selecció de subconjunts.
Regressió avançafa
Xarxes neuronals, el perceptró. El perceptró multicapa. Tècniques de descens per gradient. Aprenentatge profund (Deep Learning). Regressió de vectors de suport.

Activitats

Activitat Acte avaluatiu

Classes de teoria

Continguts:

1 . Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
2 . Introducció a l'aprenentatge estadístic (II)
3 . Preprocessat de dades: Des de les dades en cru fins a les característiques.
4 . Reducció de dimensionalitat: extracció de característiques
5 . Reducció de dimensionalitat: Selecció de característiques
6 . Agrupament
7 . Classificadors bàsics
8 . Validació de models i validació creuada
9 . Clasificadors avançats
10 . Regressió multilineal
11 . Regressió avançafa

Teoria

28h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

30h

laboratori computacional

Objectius: 1 2 3 4 5 6

Teoria

0h

Problemes

0h

Laboratori

30h

Aprenentatge dirigit

0h

Aprenentatge autònom

22.5h

Miniprojecte

Objectius: 1 2 3 4 5 7

Teoria

0h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

30h

Lectura

Objectius: 8
Continguts:

3 . Preprocessat de dades: Des de les dades en cru fins a les característiques.
4 . Reducció de dimensionalitat: extracció de característiques
5 . Reducció de dimensionalitat: Selecció de característiques
7 . Classificadors bàsics
8 . Validació de models i validació creuada

Teoria

0h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

7.5h

examen parcial

Teoria

2h

Problemes

0h

Laboratori

0h

Aprenentatge dirigit

0h

Aprenentatge autònom

0h

Metodologia docent

La metodologia docent combina classes expositives amb laboratoris computacionals. Adicionalment els estudiants en grups hauran d'analitzar un conjunt de dades i presentar el seu anàlisi oralment.

Mètode d'avaluació

L'avaluació del curs tindrà en compte l'examen parcial (P), l'examen final (F), els informes de laboratori (LR), els qüestionaris de laboratori (LQ), el qüestionari de lectura (RQ), els deures de càlcul (H) i el Miniprojecte (SP). Es combinaran segons la fórmula.
Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En cas d'alumnes repetidors en cap cas es tindran en compte activitats realitzades en anys previs.

Els alumnes que suspenguin l'assignatura podran presentar-se a l'examen de reavalaució; en aquest cas la nota d'aquest examen, E, substituirà les notes P i F de manera que la nota final serà 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ

Bibliografia

Bàsica:

The Elements of statistical learning : data mining, inference, and prediction - Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome, Springer, cop. 2009. ISBN: 0387952845
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-0-387-84858-7
Pattern recognition and machine learning - Bishop, Christopher M, Springer, cop. 2006. ISBN: 9780387310732
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003157379706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Bioinformatics : the machine learning approach - Baldi, Pierre; Brunak, Soren, The MIT Press, cop. 2001. ISBN: 9780262025065
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003149339706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Multidimensional scaling - Cox, Trevor F; Cox, Michael A. A, Chapman & Hall, cop. 2001. ISBN: 1584880945
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001195129706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Correspondence analysis in practice - Greenacre, Michael J, CRC Press/Taylor, 2017. ISBN: 9781498731782
https://www-taylorfrancis-com.recursos.biblioteca.upc.edu/books/mono/10.1201/9781315369983/correspondence-analysis-practice-michael-greenacre
Chemometrics with R: multivariate data analysis in the natural sciences and life sciences - Wehrens, Ron, Springer Science, 2011. ISBN: 9786613086648
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-3-642-17841-2
Introduction to multivariate statistical analysis in chemometrics - Varmuza, Kurt; Filzmoser, Peter, CRC Press, 2016.
Data Science and Predictive Analytics: Biomedical and Health Applications using R - Dinov, Ivo D, Springer, 2023. ISBN: 9783031174827
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005498239106711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Modern statistics for modern biology - Holmes, Susan; Huber, Wolfgang, Cambridge Press, 2025.
An Introduction to statistical learning : with applications in R - James, Gareth, Springer, ©2021. ISBN: 1071614177
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=6686746
An introduction to statistical Learning : with applications in Python - James, Gareth, Springer, 2023. ISBN: 9783031391897
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005494541006711&context=L&vid=34CSUC_UPC:VU1&lang=ca

Capacitats prèvies

Programació bàsica en R. Bioestadística. Algebra.

Aprenentatge Estadístic

Professorat

Responsable

Altres

Hores setmanals

Resultats d'aprenentatge

Resultats d'aprenentatge

Coneixements

Habilitats

Competències

Objectius

Continguts

Activitats

Classes de teoria

laboratori computacional

Miniprojecte

Lectura

examen parcial

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Capacitats prèvies

On som

Contacta amb la FIB

Aprenentatge Estadístic

Esteu aquí

Professorat

Responsable

Altres

Hores setmanals

Resultats d'aprenentatge

Resultats d'aprenentatge

Coneixements

Habilitats

Competències

Objectius

Continguts

Activitats

Classes de teoria

laboratori computacional

Miniprojecte

Lectura

examen parcial

Metodologia docent

Mètode d'avaluació

Bibliografia

Bàsica:

Capacitats prèvies

On som

Contacta amb la FIB