Análisis de genomas métodos para la predicción y anotación de la función de las proteínas

  1. Abascal Sebastián de Erice, Federico
Dirigida por:
  1. Alfonso Valencia Herrera Director/a

Universidad de defensa: Universidad Autónoma de Madrid

Fecha de defensa: 18 de noviembre de 2003

Tribunal:
  1. Francisco Montero Carnerero Presidente/a
  2. Federico Morán Abad Secretario
  3. Carlos Aguirre Maeso Vocal
  4. Joaquín Dopazo Blázquez Vocal
  5. José Castresana Villamor Vocal

Tipo: Tesis

Teseo: 104709 DIALNET

Resumen

La secuenciación de genomas supone un paso muy importante, pero aún estamos lejos de comprender la información que encierran estos libros de instrucciones. Análogamente a la piedra rosetta y los jeroglíficos egipcios, la comparación de genomas de distintos organismos será la que posiblemente nos dé algunas pistas. Para conseguirlo debemos encontrar los genes y predecir su función. También debemos organizar la información de un modo tal que sea posible relacionar datos de distinta naturaleza. Este trabajo se encuadra en un proyecto para el desarrollo de un sistema automático de análisis de genomas. El esqueleto de este robot, ORFandDB, es un esquema entidad-relación sobre el que se traduce la información procedente de fuentes heterogéneas: bases de datos públicas como Swiss-Prot, NCBI-Taxonomy, Pfam u otras, así como de los resultados de programas coo BLAST, PSI-BLAST o programas de identificación de genes. La contribución más relevante en esta tesis es la del desarrollo de un módulo para anotar de forma automática la función de las proteínas. El método se basa en la idea de que las proteínas con un mismo origen evolutivo tienen funciones similares. Para encontrar estas proteínas homólogas hemos investigado métodos de búsqueda como BLAST, PSI-BLAST o uno desarrollado por nosotros de búsqueda con secuencias intermedias. Una vez encontradas la proteínas homólogas, aplicamos un método de clustering o agrupamiento, basado en el corte normalizado de un grafo, para identificar grupos de ortólogos o subfamilias, en los que el rol de la proteína ancestral supuestamente se ha conservado a lo largo de la evolución. Las anotaciones de estos ortólogos que hay en las bases de datos son la fuentes de información que usamos para anotar las proteínas nuevas o desconocidas. Para ello realizamos un análisis léxico automático con el fin de evitar la propagación de anotaciones erróneas y de determinar qué descr