Desarrollo y optimización de aplicaciones de computación en la nube para el análisis bioinformático de datos de secuenciación masiva (rna-seq y rad-seq) de especies forestales leñosas

  1. Mora Márquez, Fernando
Dirigida por:
  1. José Luis Vázquez Poletti Codirector
  2. Unai López de Heredia Codirector/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 07 de junio de 2021

Tribunal:
  1. Federico Morán Abad Presidente
  2. Juan Carlos Sanz Nuño Secretario/a
  3. Sanna Elina Olsson Vocal
  4. Pablo Gonzalez Vocal
  5. Juan Antonio Clemente Barreira Vocal

Tipo: Tesis

Resumen

ANTECEDENTES La secuenciación masiva de alto rendimiento (Next-Generation Sequencing - NGS) permite secuenciar de una forma rápida y en paralelo millones de fragmentos de DNA de múltiples individuos. En el ámbito forestal, el uso de las metodologías que se basan en la secuenciación masiva se está empezando a utilizar de forma rutinaria para determinar la estructura del genoma de las especies forestales leñosas en un marco evolutivo y comparativo, la función de los genes y de las regiones reguladoras y las relaciones de los genotipos con los fenotipos. Las especies forestales leñosas presentan unas particularidades intrínsecas a sus genomas y a sus ciclos vitales y reproductivos, y una carencia generalizada de recursos genómicos de calidad, que hacen necesario el desarrollo y optimización de algoritmos, flujos de trabajo y aplicaciones especialmente adaptadas para el análisis bioinformático de los datos de secuenciación masiva a gran escala. OBJETIVO El desarrollo y el estudio de rendimientos de un sistema informático que ofrezca una plataforma global y unificada para el análisis de experimentos de dos de las técnicas NGS más populares (RNA-seq y RAD-seq) y la anotación funcional específicamente orientada a especies forestales leñosas de una forma eficiente, utilizando la computación en la nube como proveedor de recursos hardware. METODOLOGÍA El sistema informático, NGScloud2, se desarrolló utilizando el lenguaje de programación Python3 y otras librerías y aplicaciones de uso libre. La plataforma pública de computación en la nube Amazon Web Services proporciona, con disponibilidad inmediata, la infraestructura hardware del sistema informático, facilitando una gran cantidad de instancias con distintas configuraciones de número de CPUs y cantidad de memoria RAM, lo que permite ajustar el hardware y, por tanto, el coste, a las necesidades de los datos del experimento. NGScloud2 dispone de una plataforma local con una interfaz gráfica para el manejo amigable y sencillo de la infraestructura hardware y el control de procesos. Se puede instalar en los principales sistemas operativos: Linux, macOS y Microsoft Windows. También se puede arrancar en modo consola por si es necesario ejecutarla desde un servidor que no disponga de entorno gráfico. Los flujos de trabajo que incluye NGScloud2 están enfocados a las técnicas de RNA-seq de novo, RNA-seq basado en referencias, RAD-seq y anotación funcional. Cada flujo de trabajo está compuesto por tareas que analizan de forma optimizada ficheros de gran volumen mediante aplicaciones bioinformáticas de acceso abierto y uso generalizado por parte de la comunidad científica. La operatividad funcional completa de NGScloud2 se ha comprobado utilizando datos de secuenciación masiva tanto simulados como de experimentos reales. Así, mediante estudios de rendimientos, se han identificado los procesos más limitantes para el análisis bioinformático y se proponen soluciones y pautas de selección de instancias de hardware y de procedimientos de análisis para distintos tipos de conjuntos de datos. Adicionalmente, se han desarrollado y validado dos aplicaciones que incorporan nuevos algoritmos para el análisis bioinformático: (i) ddRADseqTools, una aplicación para del diseño de experimentos ddRADseq que puede ejecutarse de forma independiente o desde la etapa de diseño en el flujo de trabajo RAD-seq de NGScloud2; y (ii) TOA, una aplicación para la anotación funcional automática de especies forestales leñosas, extensible a otras especies vegetales, que se puede utilizar tanto de forma independiente como encapsulada en el flujo de trabajo de anotación funcional de NGScloud2. RESULTADOS Y DISCUSIÓN Se ha comprobado la plena operatividad funcional de NGScloud2 para los cuatro flujos de trabajo implementados: (i) RNA-seq de novo; (ii) RNA-seq basado en referencia; (iii) RAD-seq; y (iv) anotación funcional. Dentro de los flujos de trabajo de RNA-seq, se han identificado como procesos más limitantes para el análisis: el mapeo de lecturas a ensamblajes genómicos de referencia y, particularmente, el ensamblaje de novo de lecturas de RNA-seq. En el caso de los ensambladores de novo Trinity y SOAPdenovo-Trans los requerimientos de hardware crecen de forma lineal con el tamaño de los ficheros de lectura de entrada mientras que, en los tiempos de ejecución, esta evolución es lineal en el caso de Trinity y exponencial con SOAPdenovo-Trans. Además, se ha determinado que la selección de instancias bajo demanda es más eficiente para ejecutar estos procesos intensivos, mientras que para la práctica totalidad del resto de procesos es recomendable la utilización de instancias spot, con la consiguiente reducción en el coste del análisis. Los flujos de trabajos de RAD-seq en NGScloud2 permiten el análisis flexible y eficiente de distintos tipos de datos mediante flujos de trabajo integrales o bien mediante estrategias mixtas de mapeo a genomas y/o pseudogenomas de referencia. En particular, NGScloud2 incorpora una etapa de diseño de experimentos que incluye ddRADseqTools, aplicación diseñada específicamente para este cometido, que se adapta a una amplia gama de condiciones de experimentos de ddRADseq, como la construcción de bibliotecas de ddRADseq utilizando adaptadores con uno o dos índices y secuencias de nucleótidos degeneradas (DBRs) para la cuantificación de los duplicados de PCR. Las simulaciones generadas pueden usarse para estimar la combinación óptima del par de enzimas en la digestión en función del genoma implicado en el experimento y el rango de tamaño de los fragmentos que deben ser secuenciados. ddRADseqTools también permite simular escenarios para predecir el impacto en la cobertura y los datos perdidos de errores técnicos producidos por duplicados de PCR o por la pérdida de alelo. La anotación funcional desarrollada para secuencias generadas en experimentos NGS se ha implementado como la aplicación de escritorio TOA y como flujo de trabajo en NGScloud2. TOA está orientada a especies de plantas y destaca por la flexibilidad de las bases de datos genómicas que maneja y por la cantidad y calidad de los resultados de la anotación. TOA se puede utilizar con cualquier tipo de secuencias genómicas o transcriptómicas provenientes de experimentos de NGS, como ensamblajes genómicos y transcriptómicos, o como RAD-seq. TOA es una buena alternativa a otras aplicaciones existentes para mejorar la anotación funcional en plantas, especialmente en coníferas, o cuando los datos de la secuencia de entrada sean de baja calidad debido a un ensamblaje de novo genómico o transcriptómico defectuoso o pertenezcan a regiones de baja confianza debido a una cobertura de profundidad insuficiente. En comparación con otras plataformas de análisis bioinformático que utilizan computación en la nube, como Galaxy, NGScloud2 destaca por la inmediatez en la generación de recursos hardware prácticamente ilimitados, por su flexibilidad en la ejecución de flujos de trabajo y por la facilidad de uso a través de su interfaz gráfica, incluso para investigadores sin una fuerte base bioinformática o de computación en la nube.