Tècniques i Eines Bioinformàtiques

Esteu aquí

Crèdits
3
Tipus
  • MEI: Optativa
  • MIRI: Optativa
  • MDS: Optativa
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
Aquest curs presenta les principals tècniques algorísmiques i eines computacionals utilitzades en genòmica i pangenòmica. El curs se centra en la cerca de patrons exacta i aproximada, l¿alineació de seqüències, i la cerca de patrons i alineació sobre representacions genòmiques no lineals (pangenòmica). Es posa un èmfasi especial en la comprensió dels fonaments algorísmics dels mètodes utilitzats, en l¿anàlisi de la seva complexitat temporal i espacial, i en els compromisos pràctics necessaris per al processament eficient de dades a escala genòmica.

Professorat

Responsable

  • Santiago Marco Sola ( )

Hores setmanals

Teoria
2
Problemes
1
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
8.5

Competències

Competències Tècniques de cada especialitat

Direcció i gestió

  • CDG1 - Capacitat per a la integració de tecnologies, aplicacions, serveis i sistemes propis de l'Enginyeria Informàtica, amb caràcter generalista, i en contextos més amplis i multidisciplinaris.

Específiques

  • CTE7 - Capacitat per a comprendre i poder aplicar coneixements avançats de computació d'altes prestacions i mètodes numèrics o computacionals a problemes d'enginyeria.
  • CTE9 - Capatitat per a aplicar mètodes matemàtics, estadístics i d'intel·ligència artificial per a modelar, dissenyar i desenvolupar aplicacions, serveis, sistemes intel·ligents i sistemes basats en el coneixement.

Competències Tècniques Generals

Genèriques

  • CG4 - Capacitat pel modelat matemàtic, càlcul i simulació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb l'Enginyeria en Informàtica.

Competències Transversals

ús solvent dels recursos d'informació

  • CTR4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i d'informació de l'àmbit de l'enginyeria informàtica, i valorar de forma crítica els resultats d'aquesta gestió.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.

Objectius

  1. Comprendre algorismes i estructures de dades de concordança de patrons i la seva implementació en un llenguatge de programació modern, i aplicar-los per resoldre problemes pràctics en bioinformàtica.
    Competències relacionades: CB6, CTR4, CDG1, CTE7, CTE9, CG4,

Continguts

  1. Tecnologies de seqüenciació i anàlisi genòmica
    El curs s¿inicia amb una visió general de les tecnologies modernes de seqüenciació d¿ADN i de les característiques computacionals de les dades genòmiques. S¿introdueixen les principals tasques d¿anàlisi genòmica, incloent el mapatge de patrons, la detecció de variants i l¿assemblatge. Aquests problemes motiven l¿abstracció de les seqüències biològiques com a strings i permeten posar de manifest els reptes algorísmics i computacionals associats a les dades a gran escala.
  2. Algorismes de cerca exacta de patrons
    S¿estudia el problema de la cerca exacta de patrons com a tasca algorísmica fonamental. S¿introdueixen algorismes clàssics que il·lustren diferents paradigmes de disseny, incloent el preprocessament basat en prefixos, estratègies heurístiques, tècniques de hashing i mètodes bit-paral·lels. Es posa un èmfasi especial en la correcció, la complexitat temporal i el rendiment pràctic.
  3. Estructures de dades d'indexació de textos
    Aquest bloc se centra en les estructures de dades que permeten la cerca eficient de patrons en textos de gran mida, amb una atenció especial a les aplicacions genòmiques. Es tracten estratègies d¿indexació basades en hashing i k-mers, estructures d¿arbres lexicogràfics, arbres i vectors de sufixos, així com índexs de text complet compressats basats en la transformada de Burrows-Wheeler.
  4. Algorismes de cerca aproximada de patrons
    Aquest bloc se centra en el problema de la cerca de patrons al cas aproximat, en què es permeten substitucions i insercions. S¿introdueixen models de distància i d¿error, així com tècniques de filtratge i seeding per reduir l¿espai de cerca. Es presenten mètodes assistits per índexs, tècniques de sketching per a l¿estimació de similitud, algorismes de verificació i estratègies de chaining com a components clau dels algorismes i eines modernes de cerca aproximada.
  5. Alineació de seqüències
    Aquest bloc aborda l¿alineació de seqüències com una tasca fonamental en bioinformàtica i anàlisi genòmica. S¿introdueixen tècniques de programació dinàmica per al càlcul de la distància d¿edició i altres models d¿alineació, incloent penalitzacions de tipus gap-affine. S¿estudien tant les modalitats clàssiques d¿alineació com optimitzacions algorísmiques avançades, amb atenció a l¿eficiència en espai, sparse dynamic programming i els mètodes output-sensitive, com el Wavefront Alignment Algorithm.
  6. Grafs de seqüències i pangenòmica
    El curs conclou amb una introducció a les representacions basades en grafs de la variació genòmica. Es discuteixen els models de pangenoma, la seva relació amb les referències lineals i el problema de l¿alineació de seqüències sobre grafs, posant de manifest els reptes algorísmics i les oportunitats que sorgeixen en estendre les tècniques d¿alineació a representacions genòmiques no lineals.

Activitats

Activitat Acte avaluatiu


Tecnologies de seqüenciació i anàlisi del genoma


Objectius: 1
Continguts:
Teoria
2h
Problemes
1h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h

Algorismes de cerca exacta de patrons


Objectius: 1
Continguts:
Teoria
2h
Problemes
1h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h

Estructures de dades per a la indexació de text


Objectius: 1
Continguts:
Teoria
3h
Problemes
1h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h

Algorismes de cerca aproximada de patrons


Objectius: 1
Continguts:
Teoria
2h
Problemes
1h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h

Alineament de seqüències


Objectius: 1
Continguts:
Teoria
2h
Problemes
1h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h

Grafs seqüència i pangenòmica


Objectius: 1
Continguts:
Teoria
1h
Problemes
1h
Laboratori
1h
Aprenentatge dirigit
0h
Aprenentatge autònom
5h

Projecte de programació


Objectius: 1
Setmana: 7 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
15h

Presentació d'algorismes i estructures de dades avançades


Objectius: 1
Setmana: 7 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Metodologia docent


L¿assignatura combina classes teòriques, sessions de resolució de problemes i treball autònom amb l¿objectiu de desenvolupar tant la comprensió teòrica com les habilitats pràctiques. En les sessions teòriques, el professor introdueix els conceptes algorísmics, les estructures de dades i les tècniques fonamentals utilitzades en genòmica i pangenòmica, combinant l¿exposició amb exemples il·lustratius i la discussió de compromisos de complexitat i rendiment.

Les sessions de resolució de problemes es dediquen al treball guiat d¿exercicis, en què els estudiants aborden problemes algorísmics relacionats amb els continguts de l¿assignatura. Aquestes sessions posen èmfasi en el raonament, la correcció i l¿anàlisi, i compten amb la supervisió i retroacció contínua del professor.

El treball autònom i el projecte tenen un paper central en el desenvolupament del curs. Els estudiants han de llegir i analitzar literatura de recerca, preparar una presentació oral d¿un article seleccionat i desenvolupar un projecte de programació aplicat que consolidi les tècniques estudiades al llarg de l¿assignatura.

Mètode d'avaluació

L¿avaluació de l¿assignatura és contínua. La qualificació final es compon de dos components.

El component principal, que representa el 80% de la qualificació final, consisteix en la presentació i defensa oral d¿un article científic relacionat amb els continguts de l¿assignatura. L¿estudiant haurà de llegir l¿article de manera autònoma, analitzar-lo en profunditat i presentar-ne una exposició crítica, demostrant la comprensió dels fonaments algorísmics, les decisions metodològiques i la seva rellevància en el context de l¿anàlisi de seqüències a escala genòmica.

El segon component, que representa el 20% restant de la qualificació, consisteix en un projecte de programació. En aquest projecte, els estudiants dissenyaran i implementaran de manera autònoma una solució aplicada i experimental que permeti posar en pràctica les tècniques algorísmiques estudiades al llarg del curs.

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

No es requereixen coneixements previs en bioinformàtica. Alguns coneixements bàsics de biologia molecular, genètica o genòmica poden ser útils, però tot el context biològic necessari s¿introduirà al llarg de l¿assignatura.

Es pressuposa una formació bàsica en informàtica, incloent coneixements d¿algorismes i estructures de dades fonamentals. L¿estudiant ha d¿estar còmode programant en almenys un llenguatge de programació d¿ús habitual (per exemple, Python, C, C++, Java o Rust). No és necessari tenir experiència prèvia en computació d¿alt rendiment, arquitectura de computadores o enginyeria del rendiment, tot i que una comprensió bàsica d¿aquests aspectes pot ser avantatjosa per a les parts d¿implementació i optimització del curs.

Es valora especialment l¿interès i la motivació per l¿algorísmia i les estructures de dades.