Algoritmos en Biología

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
UPF
Este curso presenta los fundamentos del análisis de secuencias de datos biológicos, desde los algoritmos básicos hasta sus principales aplicaciones.

La asignatura se compone de tres bloques principales:

Análisis de datos genómicos: Tecnologías de secuenciación. Genómica computacional. Principales formatos de archivo para datos de secuencias. Alineadores de coincidencia aproximada de cadenas para lecturas de secuenciación. Algoritmos y estrategias de ensamblaje del genoma.
Programación dinámica y alineación de secuencias: Programación dinámica. Alineación por pares (algoritmos de Needleman-Wunsch y Smith-Waterman). BLAST. Alineación múltiple de secuencias. Otras aplicaciones.
Métodos de agrupamiento y algoritmos en genómica: Modelos ocultos de Markov (HMM). Análisis de componentes principales (PCA). Parsimonia. Métodos de máxima verosimilitud. Algoritmos genéticos.

El lenguaje de programación utilizado en este curso es Python, con especial énfasis en la resolución de problemas aplicados a la genómica y al agrupamiento. Siguiendo un enfoque de aprendizaje basado en problemas, los estudiantes escribirán sus propios scripts y/o utilizarán enfoques bioinformáticos preexistentes para diferentes desafíos. Fomentaremos el uso de bibliotecas de Python (para estadísticas y gráficos) y clases.

Profesorado

Responsable

  • Arnau Cordomí Montoya ( )
  • Fernando Cruz Rodríguez ( )
  • Oscar Lao Grueso ( )

Horas semanales

Teoría
2
Problemas
2
Laboratorio
0
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Resultados de aprendizaje

Resultados de aprendizaje

Conocimientos

  • K1 - Reconocer los principios básicos de la biología, desde la escala celular a la de organismo, y cómo estos se relacionan con los conocimientos actuales en los campos de la bioinformática, del análisis de datos y del aprendizaje automático; alcanzando así una visión interdisciplinar con especial énfasis en aplicaciones biomédicas.
  • K2 - Identificar los métodos estadísticos y computacionales y los modelos matemáticos que permiten resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y la genética de poblaciones.
  • K4 - Integrar los conceptos ofrecidos por los lenguajes de programación de mayor uso en el ámbito de las Ciencias de la Vida para modelar y optimizar estructuras de datos y construir algoritmos eficientes, relacionándolos entre sí y con sus casos de aplicación.
  • K7 - Analizar las fuentes de informaciones científicas, válidas y fiables, para fundamentar el estado de la cuestión de un problema bioinformático y poder abordar su resolución.

Habilidades

  • S1 - Integrar datos ómicos y clínicos para obtener una mayor comprensión y un mejor análisis de los fenómenos biológicos.
  • S2 - Analizar computacionalmente secuencias de ADN, ARN y proteínas, incluyendo análisis comparativos de genomas, usando la computación, las matemáticas y la estadística como herramientas básicas de la bioinformática.
  • S3 - Resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y la genética de poblaciones mediante la aplicación de métodos estadísticos y computacionales y modelos matemáticos.
  • S4 - Elaborar herramientas específicas que permitan la resolución de problemas sobre la interpretación de datos biológicos y biomédicos, incluyendo visualizaciones complejas.
  • S5 - Divulgar información, ideas, problemas y soluciones provenientes de la bioinformática y la biología computacional a un público general.
  • S7 - Implementar métodos de programación y análisis de datos orientados a partir de la elaboración de hipótesis de trabajo, dentro del área de estudio.
  • S8 - Enfrentarse a la toma de decisiones, y defenderlas con argumentos, en la resolución de problemas de las áreas de biología, así como, dentro de los ámbitos adecuados, las ciencias de la salud, las ciencias de la computación y las ciencias experimentales.

Competencias

  • C2 - Identificar la complejidad de los fenómenos económicos y sociales típicos de la sociedad del bienestar y relacionar el bienestar con la globalización, la sostenibilidad y el cambio climático para utilizar de forma equilibrada y compatible la técnica, la tecnología, la economía y la sostenibilidad.
  • C3 - Comunicarse de forma oral y escrita con otras personas, en lengua inglesa, sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones.
  • C4 - Trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con el fin de contribuir a desarrollar proyectos (incluso empresariales o de investigación) con pragmatismo y sentido de la responsabilidad y principios éticos, asumiendo compromisos teniendo en cuenta los recursos disponibles.

Objetivos

  1. Presentar su trabajo frente a sus compañeros
    Competencias relacionadas: C3,
  2. Colaborar con otros estudiantes para realizar una tarea de proyecto.
    Competencias relacionadas: C4,
  3. Desarrollo de modelos matemáticos para trabajar con secuencias biológicas durante las tareas prácticas utilizando el lenguaje de programación Python. Se proporcionarán diversas herramientas para visualizar los resultados.
    Competencias relacionadas: K2, K4, K7, S1, S2, S3, S4, S5, S7, S8,
  4. Desarrollando habilidades de programación óptimas para minimizar el tiempo computacional y la huella del cambio climático global.
    Competencias relacionadas: C2,
  5. Comprender cómo el alineamiento de secuencias y la filogenética se pueden aplicar a la medicina.
    Competencias relacionadas: K1,

Contenidos

  1. Contenido Teórico
    T1 = Tecnologías de secuenciación. Genómica computacional. Formatos de archivo para datos de secuencia.
    T2 = Alineación de secuencia por pares
    T3 = BLAST y alineación de secuencias múltiples
    T4 = Alineadores aproximados de coincidencia de cadenas para lecturas cortas. Fundamentos de la transformada de Burrow-Wheeler. Introducción Alineación de lectura larga.
    T5 = Ensamblaje del genoma de novo. Asamblea de lectura breve: gráfico de Debruijn y consenso de diseño de superposición. Lectura larga y ensamblaje híbrido. Andamio.
    T6 = Modelos ocultos de Markov para secuencias.
    T7 = Conceptos básicos de filogenética. Algoritmos básicos en filogenética.
    T8 = Filogenética Métodos basados ¿¿en distancia.
    T9 = Métodos basados ¿¿en caracteres. Parsimonia, máxima verosimilitud y filogenética bayesiana.

Actividades

Actividad Acto evaluativo


Introducción al análisis de datos genómicos

Tecnologías de secuenciación. Genómica computacional. Formatos de archivo para datos de secuencias.
Objetivos: 3 5
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Alineamiento de sequencias por parejas

Alineamiento de sequencias por parejas
Objetivos: 3
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

BLAST y alineamiento de secuencias múltiples

BLAST y alineamiento de secuencias múltiples

Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Alineadores de coincidencia aproximada de cadenas para lecturas cortas. Fundamentos de la Transformada Burrows-Wheeler. Introducción a la alineación de lecturas largas.

Alineadores de coincidencia aproximada de cadenas para lecturas cortas. Fundamentos de la Transformada Burrows-Wheeler. Introducción a la alineación de lecturas largas.
Objetivos: 3
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Ensamblaje de novo del genoma. Ensamblaje de lecturas cortas: gráfico de De Bruijn y consenso de superposición-layout. Ensamblaje de lecturas largas e híbrido. Andamiaje.

Ensamblaje de novo del genoma. Ensamblaje de lecturas cortas: gráfico de De Bruijn y consenso de superposición-layout. Ensamblaje de lecturas largas e híbrido. Andamiaje.
Objetivos: 3
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Modelos de Hidden Markov

Modelos de Hidden Markov
Objetivos: 3 4
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Elementos básicos y algoritmos básicos en filogenias.

Elementos básicos y algoritmos básicos en filogenias.
Objetivos: 5
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Filogenias basadas en distancias.

Filogenias basadas en distancias.
Objetivos: 3 5
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Métodos de filogenia basados en carácteres. Parsimonia, máxima verosimilitud y filogenia bayesiana.

Métodos de filogenia basados en carácteres. Parsimonia, máxima verosimilitud y filogenia bayesiana.
Objetivos: 3 4 5
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Proyecto grupal en algoritmos y aplicaciones bioinformáticas.

Proyecto grupal en algoritmos y aplicaciones bioinformáticas.
Objetivos: 1 2 4
Contenidos:
Teoría
3h
Problemas
3h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
36h

Metodología docente

Enfoque de aprendizaje basado en problemas:

Clases teóricas.
Ejercicios prácticos de programación directamente relacionados con la teoría.
Proyecto grupal en algoritmos y aplicaciones bioinformáticas.

Método de evaluación

Evaluación continua 20%: Cuestionarios y entrega de ejercicios
Proyecto grupal 20%: La rúbrica de evaluación se publicará en el Moodle de la asignatura.
Exámenes 60%: La rúbrica de evaluacióne se publicará en el Moodle de la asignatura.

Recuperación: La nota del examen de recuperación sustituye a la nota del examen final.

Bibliografía

Básica:

  • Biological sequence analysis [Recurs electrònic] : probabilistic models of proteins and nucleic acids - Durbin, Richard, Cambridge University Press, 1998. ISBN: 9780521620413
    https://discovery.upc.edu/discovery/fulldisplay?docid=alma991000581539706711&context=L&vid=34CSUC_UPC:VU1
  • Bioinformatics algorithms. An active learning approach. - Compeau, Phillip P; Pevzner, Pavel., Active Learning Publishers. , 2014. ISBN: 9780990374602
  • Problems and Solutions in Biological Sequence Analysis - Borodovsky, Mark; Ekisheva, Svetlana, Cambridge University Press, 2006. ISBN: 978-0521847544
  • The Phylogenetic Handbook: A Practical Approach to Phylogenetic Analysis and Hypothesis Testing - Lemey,P; Salemi, M; Vandamme, A, Cambridge, 2009. ISBN: 978-0521730716

Web links

  • Will be provided during the lecture presentations http://None

Capacidades previas

Programación Aplicada I, II i III