Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
UB;UAB
El programa comença amb els fonaments de l'aprenentatge estadístic, abastant problemes centrals com la classificació, la regressió i l'agrupament, així com conceptes essencials com les funcions de pèrdua, la complexitat del model, la regularització i les figures de mèrit derivades de la teoria de detecció de senyals. Sobre aquesta base, els estudiants dominaran mètodes de preprocessament necessaris per analitzar dades reals provinents de fonts com la cromatografia acoblada a espectrometria de masses i els microarrays.
Es posa un fort èmfasi en la reducció de dimensionalitat, incloent tant la selecció com l'extracció de característiques, per abordar els desafiaments que plantegen les dades biològiques d'alta dimensió. Els estudiants treballaran amb un conjunt complet d¿algoritmes d'aprenentatge automàtic, des de classificadors bàsics i tècniques d'agrupament fins a mètodes avançats com màquines de vectors de suport, arbres de decisió, boscos aleatoris i arquitectures de xarxes neuronals.
El curs integra estratègies robustes de validació per assegurar una avaluació i interpretació fiable dels models.
Professorat
Responsable
- Santiago Marco Colás ( santiago.marco@ub.edu )
Altres
- Agustín Gutiérrez Gálvez ( agutierrez@ub.edu )
- Elitza Nikolaeva Maneva ( elitza.maneva@uab.cat )
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Coneixements
Habilitats
Competències
Objectius
-
Implementar esquemes correctes per la partició del dades per l'entrenament, optimització i la caracterització de models predictius
Competències relacionades: K2, K3, K4, S3, S4, -
Seleccionar el preprocessat de dades adient abans de la construcció del model
Competències relacionades: K2, K3, K4, -
Realitzar la reducció de la dimensionalitat utilitzant tant els mètodes de selecció com d'extracció de característiques.
Competències relacionades: C3, K2, K3, K4, K5, S3, S4, C6, -
Avaluar críticament el rendiment del model utilitzant tècniques de validació adequades.
Competències relacionades: C3, K2, K3, K4, S3, S8, C6, -
Aplicar mètodes avançats d'aprenentatge automàtic i processament de senyals als reptes reals de la bioinformàtica i les dades de salut
Competències relacionades: C3, K2, K3, K4, K5, S2, S3, S4, S8, C6, -
Escriure un informe de laboratori en un llenguatge formal, ben estructurat i amb grafics de qualitat.
Competències relacionades: C3, -
Defensar oralment un treball en equip sobre una anàlisi d'aprenentatge automàtic d'un conjunt de dades. Produir diapositives de bona qualitat i estructurar la presentació per proporcionar un missatge clar al públic. Respondre preguntes tècniques amb competència.
Competències relacionades: C3, S8, -
Comprendre la literatura tècnica en l'àrea de l'aprenentatge estadístic per a la salut. Identificar conceptes clau i identificar idees que requereixen una anàlisi més profunda.
Competències relacionades: K2, C6, K3,
Continguts
-
Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
Motivació i conceptes bàsics. Exemples d'aplicació. Eines -
Introducció a l'aprenentatge estadístic (II)
Figures de mèrit. Classificadors bàsics. Sobreajust i control de complexitat. Reducció de la dimensionalitat. Regularització. -
Preprocessat de dades: Des de les dades en cru fins a les característiques.
Exemples en espectrometria. Reducció de soroll, correcció de linia de base, detecció de pics i integració, transformacions no-lineals, tècniques d'escalat i normalització. -
Reducció de dimensionalitat: extracció de característiques
La maldició de la dimensionalitat. Anàlisi de Components Principals. Anàlisi discriminant lineal. -
Reducció de dimensionalitat: Selecció de característiques
La importància de la partició de les dades. Enfocaments univariants. Enfocaments multivariants: filtres, wrappers, cerques seqüencials, algorismes genètics. Rànquings de característiques i eliminació recursiva de característiques. -
Agrupament
K-means, agrupament jeràrquic, models de mescla gaussiana, finestres de Parzen. -
Classificadors bàsics
Teorema de Bayes. Classificadors discriminants lineals i quadràtics. Naive Bayes. Anàlisi discriminant per mínims quadrats parcials (PLS-DA). -
Validació de models i validació creuada
Nivells i propòsit de la validació. Estratificació. Validació interna/externa. Hold-out, Leave-one-out, k-fold, mostreig aleatori, Bootstrap. -
Clasificadors avançats
Màquines de vectors de suport, arbres de decisió, bosc aleatori. XGBoost. -
Regressió multilineal
Regressió lineal. Regressió multilineal. El nombre de condició. Regressió Ridge, LASSO. Selecció de subconjunts. -
Regressió avançafa
Xarxes neuronals, el perceptró. El perceptró multicapa. Tècniques de descens per gradient. Aprenentatge profund (Deep Learning). Regressió de vectors de suport.
Activitats
Activitat Acte avaluatiu
Classes de teoria
Continguts:
- 1 . Introducció a l' aprenentatge estadìstic: conceptes bàsics i exemples
- 2 . Introducció a l'aprenentatge estadístic (II)
- 3 . Preprocessat de dades: Des de les dades en cru fins a les característiques.
- 4 . Reducció de dimensionalitat: extracció de característiques
- 5 . Reducció de dimensionalitat: Selecció de característiques
- 6 . Agrupament
- 7 . Classificadors bàsics
- 8 . Validació de models i validació creuada
- 9 . Clasificadors avançats
- 10 . Regressió multilineal
- 11 . Regressió avançafa
Teoria
28h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
30h
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
7.5h
examen parcial
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Metodologia docent
La metodologia docent combina classes expositives amb laboratoris computacionals. Adicionalment els estudiants en grups hauran d'analitzar un conjunt de dades i presentar el seu anàlisi oralment.Mètode d'avaluació
L'avaluació del curs tindrà en compte l'examen parcial (P), l'examen final (F), els informes de laboratori (LR), els qüestionaris de laboratori (LQ), el qüestionari de lectura (RQ), els deures de càlcul (H) i el Miniprojecte (SP). Es combinaran segons la fórmula.Grade= 0.2*P+0.2*F+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
En cas d'alumnes repetidors en cap cas es tindran en compte activitats realitzades en anys previs.
Els alumnes que suspenguin l'assignatura podran presentar-se a l'examen de reavalaució; en aquest cas la nota d'aquest examen, E, substituirà les notes P i F de manera que la nota final serà 0.4*E+0.2*SP+0.05*RQ+0.1*H+0.15*LR+0.1*LQ
Bibliografia
Bàsic
-
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 0387952845
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-0-387-84858-7 -
Pattern recognition and machine learning
- Bishop, Christopher M,
Springer,
cop. 2006.
ISBN: 9780387310732
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003157379706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Bioinformatics : the machine learning approach
- Baldi, Pierre; Brunak, Soren,
The MIT Press,
cop. 2001.
ISBN: 9780262025065
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003149339706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Multidimensional scaling
- Cox, Trevor F; Cox, Michael A. A,
Chapman & Hall,
cop. 2001.
ISBN: 1584880945
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001195129706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Correspondence analysis in practice
- Greenacre, Michael J,
CRC Press/Taylor,
2017.
ISBN: 9781498731782
https://www-taylorfrancis-com.recursos.biblioteca.upc.edu/books/mono/10.1201/9781315369983/correspondence-analysis-practice-michael-greenacre -
Chemometrics with R: multivariate data analysis in the natural sciences and life sciences
- Wehrens, Ron,
Springer Science,
2011.
ISBN: 9786613086648
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-3-642-17841-2 -
Introduction to multivariate statistical analysis in chemometrics
- Varmuza, Kurt; Filzmoser, Peter,
CRC Press,
2016.
-
Data Science and Predictive Analytics: Biomedical and Health Applications using R
- Dinov, Ivo D,
Springer,
2023.
ISBN: 9783031174827
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005498239106711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Modern statistics for modern biology
- Holmes, Susan; Huber, Wolfgang,
Cambridge Press,
2025.
-
An Introduction to statistical learning : with applications in R
- James, Gareth,
Springer,
©2021.
ISBN: 1071614177
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=6686746 -
An introduction to statistical Learning : with applications in Python
- James, Gareth,
Springer,
2023.
ISBN: 9783031391897
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991005494541006711&context=L&vid=34CSUC_UPC:VU1&lang=ca