Herramientas eficientes para el análisis masivo de datos ómicos
- TABAS MADRID, DANIEL
- Carlos García Sánchez Director
- Alberto Pascual Montano Director/a
Universidad de defensa: Universidad Complutense de Madrid
Fecha de defensa: 21 de diciembre de 2017
- Francisco Tirado Fernández Presidente
- Concepcion Gil Garcia Secretaria
- Fátima Sánchez Cabo Vocal
- Javier de las Rivas Sanz Vocal
- Pedro María Carmona Sáez Vocal
Tipo: Tesis
Resumen
En los últimos años se han desarrollado técnicas en el campo de la biología que han revolucionado las áreas de la genómica y la proteómica. Estas técnicas (NGS, proteómica de Shotgun, etc) nos están permitiendo un mejor conocimiento del funcionamiento de las células, pudiendo ver qué ARN y proteínas están presentes en un momento puntual de las mismas, además de conocer mejor algunos mecanismos de regulación. Con el desarrollo de estas tecnologías, se están generando más datos de los que es posible procesar en una cantidad razonable de tiempo. Es necesario el desarrollo de herramientas que manejen este tipo de datos de una forma eficiente, haciendo uso de técnicas de computación de altas prestaciones. En esta tesis se realiza un abordaje integral del análisis de datos provenientes de estas técnicas con herramientas eficientes, empezando por el procesamiento de los mismos y obteniendo información de más alto nivel sobre expresión de genes y proteínas, enriqueciéndola con información relacionada de bases de datos de libre acceso, para finalmente generar informes que reflejen el funcionamiento celular asociado a toda esta información. También incluye el desarrollo de herramientas generadoras de hipótesis en el ámbito de la regulación génica, que sirvan a biólogos para el desarrollo de nuevos experimentos de validación. Este abordaje se ha concretado en el desarrollo de diferentes metodologías y herramientas. Se han desarrollado flujos de trabajo para análisis de RNA-Seq, Microarrays y proteómica de Shotgun de proyectos y bases de datos públicas tales como ENCODE, HPP, Illumina HBM o CCLE, enfocados para realizar estudios proteogenómicos, permitiendo detectar con exactitud los genes expresados sin necesidad de un control, o mezclar datos transcriptómicos y proteómicos para poder realizar una mejor detección de proteínas. Los resultados de estos flujos aplicados a los datos de los diferentes proyectos mencionados se han recogido en un panel web que permite su búsqueda y visualización interactiva. Se ha desarrollado también una nueva versión de una herramienta web de enriquecimiento modular de listas de genes, permitiendo su utilización con una gran cantidad de organismos y bases de datos de anotaciones, habiendo incluido en esta versión la posibilidad de comparar dos listas de genes, y habiendo mejorado además la eficiencia de la herramienta y la visualización de resultados. Se incluye además el desarrollo una nueva metodología de predicción de interacciones entre micro ARNs y mensajeros, basada en la combinación de información de bases de datos de predicciones existentes, calculando su precisión en base a las interacciones ya validadas y generando una nueva puntuación relacionada con la probabilidad de que una predicción pueda existir realmente. A partir de esta metodología se ha desarrollado además una herramienta web para poder acceder a la base de datos de interacciones generada a través de la misma. Otro de los métodos desarrollados consiste en un comparador de perfiles de expresión génica con una estadística de rangos que permite otorgar puntuaciones a las comparaciones. Este método se ha utilizado para comparar un perfil de expresión de entrada con los extraídos de diferentes bases de datos como GEO, CMap y DrugMatrix, los cuales han sido asociados con información de fármacos y enfermedades, que permiten finalmente hacer nuevas inferencias en el contexto del reposicionamiento de fármacos. A partir de esta metodología, y con la base de datos generada a partir del procesamiento de las tres bases de datos mencionadas, se ha desarrollado una herramienta web para poder realizar estas comparaciones. Por último, se ha creado una herramienta web que permite integrar información estructural y de secuencia de proteínas a partir de la información procedente de EMDB, PDB y Uniprot, pudiendo visualizar a nivel de estructura anotaciones de secuencias procedentes de diversas bases de datos públicas.