Statistical methods for the integration analysis of –omics data (genomics, epigenomics and transcriptomics)an application to bladder cancer

  1. Silvia Pineda Sanjuan
Dirigida por:
  1. Núria Malats Riera Director/a
  2. Kristel van Steen Director/a

Universidad de defensa: Universidad Autónoma de Madrid

Fecha de defensa: 27 de octubre de 2015

Tribunal:
  1. Fernando Rodríguez Artalejo Presidente/a
  2. Alfonso Valencia Herrera Secretario/a
  3. Monika Stoll Vocal
  4. Mario Fernández Fraga Vocal
  5. Douglas Easton Vocal

Tipo: Tesis

Resumen

En las últimas décadas, la cantidad de datos –ómicos generados ha incrementado considerablemente y con ellos, se han realizado múltiples análisis considerando cada dato –ómico por separado. Este tipo de análisis ha revelado hallazgos significativos para entender mejor las enfermedades complejas, como el cáncer, pero la combinación de más de dos conjuntos de datos –ómicos puede revelar nuevos conocimientos biológicos que no se podrían encontrar de otra forma. Así, en los últimos cinco años, ha aparecido el concepto de integración de datos en el contexto de la biología de sistemas. No obstante, la integración de datos –ómicos requiere de técnicas estadísticas apropiadas para hacer frente a los principales retos que los datos de alto rendimiento (–ómicos) imponen. En esta tesis, proponemos diferentes aproximaciones estadísticas para integrar datos –ómicos (genómica, transcriptómica y epigenómica del tejido tumoral y la genómica de muestras en sangre) en individuos con cáncer de vejiga. Como primer enfoque, se propone un marco basado en una estrategia de etapas múltiples donde se analizan todas las posibles combinaciones por parejas utilizando los tres datos -ómicos medidos en el tejido tumoral (transcriptómica-epigenómica, eQTL y methQTL) para finalmente, combinar los resultados significativos en relaciones triples. Estas relaciones sugieren patrones y asociaciones biológicas "trans" muy interesantes. Como segundo enfoque, se propone un análisis multi-dimensional, donde los tres datos –ómicos se consideran conjuntamente en el mismo modelo. Para ello, se han aplicado métodos de regresión penalizada (LASSO y ENET), ya que pueden combinar los datos en una misma matriz de entrada haciendo frente a muchos de los retos que la integración de datos –ómicos impone. Además se propone un método basado en permutaciones MaxT para evaluar la bondad de ajuste a la vez que se corrige por test múltiples ya que precisamente estos son los inconvenientes principales de los métodos de regresión penalizada. Como resultado, hemos obtenido y validado en una base de datos externa, una lista de genes asociados con genotipos y metilación del ADN en relaciones "cis". Por último, este mismo enfoque se ha implementado para integrar los tres datos –ómicos en tumor con la genómica en las muestras de sangre en un análisis de integración de eQTLs y se ha comparado con una regresión en 2 etapas ya que es un método previamente utilizado para el análisis de integración de eQTLs. Nuestro enfoque muestra relevantes eQTLs además de las ya propuestas por la regresión en 2 etapas generando una lista de genes y eQTLs que pueden ser consideradas en análisis futuros. En general, esta tesis muestra lo necesarios que son los análisis de integración de datos –ómicos para encontrar información que todavía no conocemos. Además demostramos que la implementación de los métodos estadísticos más apropiados, nos proporciona la posibilidad de integrar toda la información disponible mostrando relaciones biológicas interesantes.