Este curso presenta los fundamentos del análisis de secuencias de datos biológicos, desde los algoritmos básicos hasta sus principales aplicaciones.
La asignatura se compone de tres bloques principales:
- Programación dinámica y alineación de secuencias: Programación dinámica. Alineación por pares (algoritmos de Needleman-Wunsch y Smith-Waterman). BLAST. Alineación múltiple de secuencias. Otras aplicaciones.
- Análisis de datos genómicos: Tecnologías de secuenciación. Genómica computacional. Principales formatos de archivo para datos de secuencias. Alineadores de coincidencia aproximada de cadenas para lecturas de secuenciación. Algoritmos y estrategias de ensamblaje del genoma.
- Métodos de agrupamiento y algoritmos en genómica: Modelos ocultos de Markov (HMM). Análisis de componentes principales (PCA). Parsimonia. Métodos de máxima verosimilitud. Algoritmos genéticos.
El lenguaje de programación utilizado en este curso es Python, con especial énfasis en la resolución de problemas aplicados a la genómica y al agrupamiento. Siguiendo un enfoque de aprendizaje basado en problemas, los estudiantes escribirán sus propios scripts y/o utilizarán enfoques bioinformáticos preexistentes para diferentes desafíos. Fomentaremos el uso de bibliotecas de Python (para estadísticas y gráficos) y clases.
Profesorado
Responsable
-
Arnau Cordomí Montoya (
)
Otros
-
Donate Weghorn (
)
-
Emanuele Raineri (
)
-
Oscar Lao Grueso (
)
Resultados de aprendizaje
Resultados de aprendizaje
Conocimientos
-
K1 - Reconocer los principios básicos de la biología, desde la escala celular a la de organismo, y cómo estos se relacionan con los conocimientos actuales en los campos de la bioinformática, del análisis de datos y del aprendizaje automático; alcanzando así una visión interdisciplinar con especial énfasis en aplicaciones biomédicas.
-
K2 - Identificar los métodos estadísticos y computacionales y los modelos matemáticos que permiten resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y la genética de poblaciones.
-
K4 - Integrar los conceptos ofrecidos por los lenguajes de programación de mayor uso en el ámbito de las Ciencias de la Vida para modelar y optimizar estructuras de datos y construir algoritmos eficientes, relacionándolos entre sí y con sus casos de aplicación.
-
K7 - Analizar las fuentes de informaciones científicas, válidas y fiables, para fundamentar el estado de la cuestión de un problema bioinformático y poder abordar su resolución.
Habilidades
-
S1 - Integrar datos ómicos y clínicos para obtener una mayor comprensión y un mejor análisis de los fenómenos biológicos.
-
S2 - Analizar computacionalmente secuencias de ADN, ARN y proteínas, incluyendo análisis comparativos de genomas, usando la computación, las matemáticas y la estadística como herramientas básicas de la bioinformática.
-
S3 - Resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y la genética de poblaciones mediante la aplicación de métodos estadísticos y computacionales y modelos matemáticos.
-
S4 - Elaborar herramientas específicas que permitan la resolución de problemas sobre la interpretación de datos biológicos y biomédicos, incluyendo visualizaciones complejas.
-
S5 - Divulgar información, ideas, problemas y soluciones provenientes de la bioinformática y la biología computacional a un público general.
-
S7 - Implementar métodos de programación y análisis de datos orientados a partir de la elaboración de hipótesis de trabajo, dentro del área de estudio.
-
S8 - Enfrentarse a la toma de decisiones, y defenderlas con argumentos, en la resolución de problemas de las áreas de biología, así como, dentro de los ámbitos adecuados, las ciencias de la salud, las ciencias de la computación y las ciencias experimentales.
Competencias
-
C2 - Identificar la complejidad de los fenómenos económicos y sociales típicos de la sociedad del bienestar y relacionar el bienestar con la globalización, la sostenibilidad y el cambio climático para utilizar de forma equilibrada y compatible la técnica, la tecnología, la economía y la sostenibilidad.
-
C3 - Comunicarse de forma oral y escrita con otras personas, en lengua inglesa, sobre los resultados del aprendizaje, de la elaboración del pensamiento y de la toma de decisiones.
-
C4 - Trabajar como miembro de un equipo interdisciplinar, ya sea como un miembro más o realizando tareas de dirección, con el fin de contribuir a desarrollar proyectos (incluso empresariales o de investigación) con pragmatismo y sentido de la responsabilidad y principios éticos, asumiendo compromisos teniendo en cuenta los recursos disponibles.
Objetivos
-
Presentar su trabajo frente a sus compañeros
Competencias relacionadas:
C3,
-
Colaborar con otros estudiantes para realizar una tarea de proyecto.
Competencias relacionadas:
C4,
-
Desarrollo de modelos matemáticos para trabajar con secuencias biológicas durante las tareas prácticas utilizando el lenguaje de programación Python. Se proporcionarán diversas herramientas para visualizar los resultados.
Competencias relacionadas:
K2,
K4,
K7,
S1,
S2,
S3,
S4,
S5,
S7,
S8,
-
Desarrollando habilidades de programación óptimas para minimizar el tiempo computacional y la huella del cambio climático global.
Competencias relacionadas:
C2,
-
Comprender cómo el alineamiento de secuencias y la filogenética se pueden aplicar a la medicina.
Competencias relacionadas:
K1,
Contenidos
-
Contenido Teórico
T1. Introducción al alineamiento de secuencias
T2. Funciones de puntuación
T3. Alineamiento por pares global y local (programación dinámica)
T4. Herramienta básica de alineamiento local (BLAST)
T5. Programación dinámica avanzada
T6. Alineamiento múltiple de secuencias
T7. Tecnologías de secuenciación y fundamentos de la genómica computacional
T8. Alineamiento de lecturas cortas e indexación comprimida
T9. Algoritmos de ensamblaje de genomas
T10. Introducción a los árboles filogenéticos y a los algoritmos
T11. Métodos basados en distancias
T12. Métodos basados en caracteres
Actividades
Actividad
Acto evaluativo
Introducción al alineamiento de secuen
Objetivos:
3
Contenidos:
Alineadores de coincidencia aproximada de cadenas para lecturas cortas. Fundamentos de la Transformada Burrows-Wheeler. Introducción a la alineación de lecturas largas.
Alineadores de coincidencia aproximada de cadenas para lecturas cortas. Fundamentos de la Transformada Burrows-Wheeler. Introducción a la alineación de lecturas largas.
Objetivos:
3
Contenidos:
Ensamblaje de novo del genoma. Ensamblaje de lecturas cortas: gráfico de De Bruijn y consenso de superposición-layout. Ensamblaje de lecturas largas e híbrido. Andamiaje.
Ensamblaje de novo del genoma. Ensamblaje de lecturas cortas: gráfico de De Bruijn y consenso de superposición-layout. Ensamblaje de lecturas largas e híbrido. Andamiaje.
Objetivos:
3
Contenidos:
Tecnologías de secuenciación y fundamentos de la genómica computacional
Objetivos:
3
4
Contenidos:
Elementos básicos y algoritmos básicos en filogenias.
Elementos básicos y algoritmos básicos en filogenias.
Objetivos:
5
Filogenias basadas en distancias.
Filogenias basadas en distancias.
Objetivos:
3
5
Contenidos:
Métodos de filogenia basados en carácteres. Parsimonia, máxima verosimilitud y filogenia bayesiana.
Métodos de filogenia basados en carácteres. Parsimonia, máxima verosimilitud y filogenia bayesiana.
Objetivos:
3
4
5
Contenidos:
Proyecto grupal en algoritmos y aplicaciones bioinformáticas.
Proyecto grupal en algoritmos y aplicaciones bioinformáticas.
Objetivos:
1
2
4
Contenidos:
Alineamiento por pares global y local (programación dinámica)
Programación dinámica avanzada
Alineamiento múltiple de secuencias
Metodología docente
Enfoque de aprendizaje basado en problemas:
- Clases teóricas.
- Ejercicios prácticos de programación directamente relacionados con la teoría.
- Proyecto grupal en algoritmos y aplicaciones bioinformáticas.
Método de evaluación
- Evaluación continua (EC) 20%: Cuestionarios y entrega de ejercicios.
- Proyecto en grupo (PG) 20%: Evaluado mediante una rúbrica que se publicará en el Moodle de la asignatura.
- Exámenes 60%: Examen parcial (EP) 30%, Examen final (EF) 30%. Las rúbricas de evaluación de los exámenes se publicarán en el Moodle de la asignatura.
- Recuperación: Consta de dos exámenes (E1 y E2), correspondientes a cada uno de los bloques de la asignatura. La nota final tras la recuperación se calculará como: 20% EC + 20% PG + 30% max(EP, E1) + 30% max(EF, E2).
Bibliografía
Básica:
-
Biological sequence analysis : probabilistic models of proteins and nucleic acids -
Durbin, Richard... [et al.],
Cambridge University Press, 1998. ISBN: 0521629713
https://ebookcentral-proquest-com.recursos.biblioteca.upc.edu/lib/upcatalunya-ebooks/detail.action?pq-origsite=primo&docID=320915
-
Bioinformatics algorithms: an active learning approach -
Compeau, Phillip P; Pevzner, Pavel.,
Active Learning Publishers., 2015. ISBN: 9780990374619
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004091329706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
Problems and Solutions in Biological Sequence Analysis -
Borodovsky, Mark; Ekisheva, Svetlana,
Cambridge University Press, 2006. ISBN: 9780521612302
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004123449706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
-
The Phylogenetic Handbook: A Practical Approach to Phylogenetic Analysis and Hypothesis Testing -
Lemey,P; Salemi, M; Vandamme, A,
Cambridge University Press, 2009. ISBN: 9786612539510
https://www-cambridge-org.recursos.biblioteca.upc.edu/core/books/phylogenetic-handbook/A9D63A454E76A5EBCCF1119B3C56D766
Capacidades previas
Programación Aplicada I, II i III