Aquest curs presenta les principals tècniques algorísmiques i eines computacionals utilitzades en genòmica i pangenòmica. El curs se centra en la cerca de patrons exacta i aproximada, l¿alineació de seqüències, i la cerca de patrons i alineació sobre representacions genòmiques no lineals (pangenòmica). Es posa un èmfasi especial en la comprensió dels fonaments algorísmics dels mètodes utilitzats, en l¿anàlisi de la seva complexitat temporal i espacial, i en els compromisos pràctics necessaris per al processament eficient de dades a escala genòmica.
Professorat
Responsable
Santiago Marco Sola (
)
Hores setmanals
Teoria
2
Problemes
1
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
8.5
Competències
Competències Tècniques de cada especialitat
Direcció i gestió
CDG1 - Capacitat per a la integració de tecnologies, aplicacions, serveis i sistemes propis de l'Enginyeria Informàtica, amb caràcter generalista, i en contextos més amplis i multidisciplinaris.
Específiques
CTE7 - Capacitat per a comprendre i poder aplicar coneixements avançats de computació d'altes prestacions i mètodes numèrics o computacionals a problemes d'enginyeria.
CTE9 - Capatitat per a aplicar mètodes matemàtics, estadístics i d'intel·ligència artificial per a modelar, dissenyar i desenvolupar aplicacions, serveis, sistemes intel·ligents i sistemes basats en el coneixement.
Competències Tècniques Generals
Genèriques
CG4 - Capacitat pel modelat matemàtic, càlcul i simulació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb l'Enginyeria en Informàtica.
Competències Transversals
ús solvent dels recursos d'informació
CTR4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i d'informació de l'àmbit de l'enginyeria informàtica, i valorar de forma crítica els resultats d'aquesta gestió.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
Objectius
Comprendre algorismes i estructures de dades de concordança de patrons i la seva implementació en un llenguatge de programació modern, i aplicar-los per resoldre problemes pràctics en bioinformàtica.
Competències relacionades:
CB6,
CTR4,
CDG1,
CTE7,
CTE9,
CG4,
Continguts
Tecnologies de seqüenciació i anàlisi genòmica
El curs s¿inicia amb una visió general de les tecnologies modernes de seqüenciació d¿ADN i de les característiques computacionals de les dades genòmiques. S¿introdueixen les principals tasques d¿anàlisi genòmica, incloent el mapatge de patrons, la detecció de variants i l¿assemblatge. Aquests problemes motiven l¿abstracció de les seqüències biològiques com a strings i permeten posar de manifest els reptes algorísmics i computacionals associats a les dades a gran escala.
Algorismes de cerca exacta de patrons
S¿estudia el problema de la cerca exacta de patrons com a tasca algorísmica fonamental. S¿introdueixen algorismes clàssics que il·lustren diferents paradigmes de disseny, incloent el preprocessament basat en prefixos, estratègies heurístiques, tècniques de hashing i mètodes bit-paral·lels. Es posa un èmfasi especial en la correcció, la complexitat temporal i el rendiment pràctic.
Estructures de dades d'indexació de textos
Aquest bloc se centra en les estructures de dades que permeten la cerca eficient de patrons en textos de gran mida, amb una atenció especial a les aplicacions genòmiques. Es tracten estratègies d¿indexació basades en hashing i k-mers, estructures d¿arbres lexicogràfics, arbres i vectors de sufixos, així com índexs de text complet compressats basats en la transformada de Burrows-Wheeler.
Algorismes de cerca aproximada de patrons
Aquest bloc se centra en el problema de la cerca de patrons al cas aproximat, en què es permeten substitucions i insercions. S¿introdueixen models de distància i d¿error, així com tècniques de filtratge i seeding per reduir l¿espai de cerca. Es presenten mètodes assistits per índexs, tècniques de sketching per a l¿estimació de similitud, algorismes de verificació i estratègies de chaining com a components clau dels algorismes i eines modernes de cerca aproximada.
Alineació de seqüències
Aquest bloc aborda l¿alineació de seqüències com una tasca fonamental en bioinformàtica i anàlisi genòmica. S¿introdueixen tècniques de programació dinàmica per al càlcul de la distància d¿edició i altres models d¿alineació, incloent penalitzacions de tipus gap-affine. S¿estudien tant les modalitats clàssiques d¿alineació com optimitzacions algorísmiques avançades, amb atenció a l¿eficiència en espai, sparse dynamic programming i els mètodes output-sensitive, com el Wavefront Alignment Algorithm.
Grafs de seqüències i pangenòmica
El curs conclou amb una introducció a les representacions basades en grafs de la variació genòmica. Es discuteixen els models de pangenoma, la seva relació amb les referències lineals i el problema de l¿alineació de seqüències sobre grafs, posant de manifest els reptes algorísmics i les oportunitats que sorgeixen en estendre les tècniques d¿alineació a representacions genòmiques no lineals.
L¿assignatura combina classes teòriques, sessions de resolució de problemes i treball autònom amb l¿objectiu de desenvolupar tant la comprensió teòrica com les habilitats pràctiques. En les sessions teòriques, el professor introdueix els conceptes algorísmics, les estructures de dades i les tècniques fonamentals utilitzades en genòmica i pangenòmica, combinant l¿exposició amb exemples il·lustratius i la discussió de compromisos de complexitat i rendiment.
Les sessions de resolució de problemes es dediquen al treball guiat d¿exercicis, en què els estudiants aborden problemes algorísmics relacionats amb els continguts de l¿assignatura. Aquestes sessions posen èmfasi en el raonament, la correcció i l¿anàlisi, i compten amb la supervisió i retroacció contínua del professor.
El treball autònom i el projecte tenen un paper central en el desenvolupament del curs. Els estudiants han de llegir i analitzar literatura de recerca, preparar una presentació oral d¿un article seleccionat i desenvolupar un projecte de programació aplicat que consolidi les tècniques estudiades al llarg de l¿assignatura.
Mètode d'avaluació
L¿avaluació de l¿assignatura és contínua. La qualificació final es compon de dos components.
El component principal, que representa el 80% de la qualificació final, consisteix en la presentació i defensa oral d¿un article científic relacionat amb els continguts de l¿assignatura. L¿estudiant haurà de llegir l¿article de manera autònoma, analitzar-lo en profunditat i presentar-ne una exposició crítica, demostrant la comprensió dels fonaments algorísmics, les decisions metodològiques i la seva rellevància en el context de l¿anàlisi de seqüències a escala genòmica.
El segon component, que representa el 20% restant de la qualificació, consisteix en un projecte de programació. En aquest projecte, els estudiants dissenyaran i implementaran de manera autònoma una solució aplicada i experimental que permeti posar en pràctica les tècniques algorísmiques estudiades al llarg del curs.
No es requereixen coneixements previs en bioinformàtica. Alguns coneixements bàsics de biologia molecular, genètica o genòmica poden ser útils, però tot el context biològic necessari s¿introduirà al llarg de l¿assignatura.
Es pressuposa una formació bàsica en informàtica, incloent coneixements d¿algorismes i estructures de dades fonamentals. L¿estudiant ha d¿estar còmode programant en almenys un llenguatge de programació d¿ús habitual (per exemple, Python, C, C++, Java o Rust). No és necessari tenir experiència prèvia en computació d¿alt rendiment, arquitectura de computadores o enginyeria del rendiment, tot i que una comprensió bàsica d¿aquests aspectes pot ser avantatjosa per a les parts d¿implementació i optimització del curs.
Es valora especialment l¿interès i la motivació per l¿algorísmia i les estructures de dades.