Disciplina que integra biología, informática y estadística para analizar datos biológicos
¿Qué es la bioinformática?
Base de datos primaria de secuencias nucleotídicas mantenida por NCBI.
¿Qué es GenBank?
El alineamiento global compara:
Secuencias completas extremo a extremo.
Programa para búsqueda rápida de similitud local.
BLAST
Un árbol filogenético representa:
Relaciones evolutivas.
Proyecto que impulsó el desarrollo masivo de bases de datos biológicas en los 90s
¿Qué es el Proyecto Genoma Humano?
Base de datos de proteínas curada manualmente.
¿Qué es Swiss-Prot?
El alineamiento local busca:
Regiones de alta similitud.
Qué significa E-value.
Número esperado de coincidencias al azar.
Qué se necesita antes de construir un árbol filogenético.
Alineamiento múltiple.
Se deposita en una base pública la siguiente secuencia sin anotación: >Unknown_gene_X ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG ¿Es un dato primario o secundario? ¿Qué información falta para que sea secundaria?
Es dato promario. Falta curación/anotación funcional derivada (predicción de función, dominios, etc.).
Cual de los siguientes pertenece a UniProtKB/Swiss-Prot y cual a UniProtKB/TrEMBL.
A) Protein kinase ABC. Function: Putative kinase (predicted by homology). Evidence: Inferred from electronic annotation.
B) Protein kinase ABC
Function: Serine/threonine kinase
Evidence: Experimental evidence at protein level
Reference: PMID XXXXX
A Swiss-Prot curada manualmente
B TrEMBL anotación automática
Qué representa una matriz BLOSUM.
Probabilidades de sustitución observadas en bloques conservados.
Diferencia entre BLAST y MegaBLAST.
MegaBLAST es más rápido para secuencias altamente similares.
Método común de construcción de árboles basado en distancia.
Neighbor-Joining.
Un laboratorio secuencia un gen nuevo de bacteria y lo deposita en GenBank sin anotación funcional. ¿Esa información pertenece a una base primaria o secundaria? ¿Por qué?
Primaria, porque contiene datos experimentales originales sin curación funcional derivada.
Encuentras una proteína con función predicha automáticamente pero sin evidencia experimental. ¿En qué sección de UniProt es más probable encontrarla? ¿Por qué?
TrEMBL, porque contiene anotaciones automáticas no curadas.
Tienes dos proteínas de 1000 aa. Solo comparten un dominio conservado de 120 aa. ¿Usarías alineamiento global o local? Justifica.
Local, porque solo una región es homóloga.
Supongan que obtienen un hit con los siguientes parámetros: Identidad: 35%, Cobertura: 90%, E-value 1e-50, ¿Es significativo? Justifica tu respuesta.
Sí. El E-value extremadamente bajo indica alta significancia estadística pese a identidad moderada.
Construyes un árbol con secuencias mal alineadas. ¿Cómo afectará esto el resultado?
Relaciones evolutivas incorrectas por errores en posiciones homólogas.
En 1980 se quería comparar dos proteínas manualmente.
Explica por qué el desarrollo de algoritmos como Needleman-Wunsch cambió radicalmente la biología molecular.
Porque permitió comparación sistemática, reproducible y cuantificable de secuencias, base para automatización y análisis masivo.
Quieres estudiar dominios conservados en una proteína nueva. ¿Qué tipo de base de datos usarías y por qué no usarías solo GenBank?
Base secundaria como Pfam. GenBank solo almacena secuencia; no clasificación funcional de dominios.
Obtienes un alineamiento con muchos gaps dispersos. Menciona dos posibles causas biológicas o técnicas.
Inserciones/deleciones evolutivas reales. Parámetros de penalización mal ajustados
BLAST normal no detecta homólogos lejanos. ¿Qué herramienta usarías y qué cambia en el enfoque?
PSI-BLAST. Construye un perfil iterativo aumentando sensibilidad.
Quieres detectar homología entre proteínas con 20% identidad. ¿Alineamiento simple o perfil? ¿Por qué?
Perfil. Mayor sensibilidad para detectar homología lejana (zona twilight).