Bioinformàtica i Genètica Estadística

Esteu aquí

Crèdits
6
Tipus
  • MIRI: Complementària d'especialitat (Ciència de les Dades)
  • MDS: Optativa
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS;EIO
Bioinformatics and Statistical Genetics

Professorat

Responsable

  • Gabriel Valiente Feruglio ( )

Altres

  • Marta Janira Castellano Palomino ( )

Hores setmanals

Teoria
1
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
7

Competències

Competències Transversals

ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.

Tercera llengua

  • CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.

Competències Tècniques Generals

Genèriques

  • CG4 - Dissenyar i posar en marxa projectes de ciència de dades en dominis específics de forma innovadora

Competències Tècniques

Específiques

  • CE1 - Desenvolupar algoritmes eficients fonamentats en el coneixement i comprensió de la teoria de la complexitat computacional i les principals estructures de dades, dins de l'àmbit de ciència de dades
  • CE2 - Aplicar els fonaments de la gestió i processament de dades en un problema de ciència de dades
  • CE5 - Modelar, dissenyar i implementar sistemes complexos de dades, incloent-hi la visualització de dades
  • CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
  • CE9 - Aplicar mètodes adequats per a l'anàlisi d'altres tipus de formats, com ara processos i grafs, dins l'àmbit de ciència de dades

Objectius

  1. Introduce the student to the algorithmic, computational, and statistical problems that arise in the analysis of biological data.
    Competències relacionades: CT4, CT5, CG4, CE5, CE6, CE9, CB6, CB7, CB10,
  2. Reinforce the knowledge of discrete structures, algorithmic techniques, and statistical techniques that the student may have from previous courses.
    Competències relacionades: CT5, CE1, CE2, CE9,

Continguts

  1. Introduction to bioinformatics
    Combinatorial introduction to molecular biology.
  2. ILP and SAT in bioinformatics
    Brief Introduction to ILP. Solving an integer linear program. AMPL. Brief introduction to SAT. Solving a SAT formulation. PySAT.
  3. Longest common substring and subsequence
    Longest common substring. ILP and SAT models. Longest common subsequence. RNA folding. ILP and SAT models.
  4. Shortest common superstring and supersequence
    Shortest common superstring. Genome assembly. ILP and SAT models. Shortest common supersequence. ILP and SAT models.
  5. Sequence alignment and multiple sequence alignment
    Sequence alignment. Edit distance. ILP and SAT models. Multiple sequence alignment. ILP and SAT models.
  6. Other string selection problems
    Closest string. ILP and SAT models. Closest substring. ILP and SAT models.
  7. Introduction to statistical genetics
    Basic genetic terminology. Population-based and family-based studies. Traits, markers and polymorphisms. Single nucleotide polymorphisms and microsatellites. R-package genetics.
  8. Hardy-Weinberg equilibrium
    Hardy-Weinberg law. Hardy-Weinberg assumptions. Multiple alleles. Statistical tests for Hardy-Weinberg equilibrium: chi-square, exact and likelihood-ratio tests. Graphical representations. Disequilibrium coefficients: the inbreeding coefficient, Weir's D. R-package HardyWeinberg.
  9. Linkage disequilibrium
    Definition of linkage disequilibrium (LD). Measures for LD. Estimation of LD by maximum likelihood. Haplotypes. The HapMap project. Graphics for LD. The LD heatmap.
  10. Phase estimation
    Phase ambiguity for double heterozygotes. Phase estimation with the EM algorithm. Estimation of haplotype frequencies. R-package haplo.stats.
  11. Population substructure
    Definition of population substructure. Population substructure and Hardy-Weinberg equilibrium. Population substructure and LD. Statistical methods for detecting substructure. Multidimensional scaling. Metric and non-metric multidimensional scaling. Euclidean distance matrices. Stress. Graphical representations.
  12. Genetic association analysis
    Disease-marker association studies. Genetic models: dominant, co-dominant and recessive models. Testing models with chi-square tests. The alleles test and the Cochran-Armitage trend test. Genome-wide assocation tests.
  13. Family relationships and allele sharing
    Identity by state (IBS) and Identity by descent (IBD). Kinship coefficients. Allele sharing. Detection of family relationships. Graphical representations.

Activitats

Activitat Acte avaluatiu



Final exam Bioinformatics


Objectius: 1 2
Setmana: 9 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
3h
Aprenentatge dirigit
0h
Aprenentatge autònom
15h

Final exam Statistical Genetics


Objectius: 1 2
Setmana: 18 (Fora d'horari lectiu)
Teoria
0h
Problemes
0h
Laboratori
3h
Aprenentatge dirigit
0h
Aprenentatge autònom
15h

Metodologia docent

All classes consist of a theoretical session (a lecture in which the professor introduces new concepts or techniques and detailed examples illustrating them) followed by a practical session (in which the students work on the examples and exercises proposed in the lecture). On the average, two hours a week are dedicated to theory and one hour a week to practice, and the professor allocates them according to the subject matter. Students are required to take an active part in class and to submit the exercises at the end of each class.

Mètode d'avaluació

For the first half (Bioinformatics), students are evaluated in a mid-term exam, in which they model and solve new string problems in Bioinformatics using ILP and SAT. In the second half (Statistical Genetics), students are evaluated during class, and in a final exam. Every student is required to submit one exercise each week, graded from 0 to 10, and the final grade consists of 50% for the exercises and 50% for the final exam, also graded from 0 to 10.

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

Basic knowledge of algorithms and data structures.
Basic knowledge of statistics.
Basic knowledge of the Python programming language.
Basic knowledge of the R programming language.