Contraste de hipótesis múltiples bajo la dependencia con aplicación a los Microarraysuna aproximación bayesiana

  1. Maria, Elisa Da Conceição José
Dirigida por:
  1. Isabel Salazar Mendoza Directora
  2. Luis Sanz San Miguel Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 18 de diciembre de 2020

Tribunal:
  1. Beatriz González Pérez Presidente/a
  2. Rosa Alonso Sanz Secretaria
  3. Jesús Santos del Cerro Vocal
  4. María Concepción Ausín Olivera Vocal
  5. Juan Miguel Marín Díazaraque Vocal
Departamento:
  1. Producción Animal

Tipo: Tesis

Resumen

Muchos experimentos requieren contrastar simultáneamente un elevado número de hipótesis. Un ejemplo son los experimentos con microarrays de ADN en el campo de la genómica, donde es habitual analizar simultáneamente un gran número genes con la finalidad de identificar cuáles de ellos se expresan de manera diferencial bajo dos condiciones experimentales. Uno de los problemas que se presentan en este contexto, además de la necesidad de contrastar simultáneamente un elevado número de hipótesis, uno para cada gen, es cómo modelar la dependencia que suele existir en el nivel de expresión entre los genes. El objetivo principal de esta tesis es la identificación de genes con expresión diferencial bajo dos condiciones de tratamiento distintas e independientes y bajo dependencia en el nivel de expresión de los genes. Para ello, se propone un procedimiento bayesiano en el que La dependencia se modela mediante funciones cópulas. El procedimiento se aplica a contrastes de igualdad de medias y los datos se supone que provienen de distribuciones marginales normales. La dependencia se modela, en primer lugar, mediante la cópula Gaussiana, considerando la matriz de correlación uniforme y, en segundo lugar, mediante la cópula de Clayton. La metodología que se propone se ilustra con datos simulados de una normal multivariante y con datos reales procedentes de experimentos con microarrays de ADN. En ambos casos, se comparan los modelos con cópulas Gaussianas y con cópulas de Clayton mediante el criterio de selección DIC, asimismo, se estima el valor del FDR con el objetivo de evaluar también la proporción de falsos positivos. A partir de los resultados obtenidos podemos concluir que, en cuanto a la estimación del parámetro de dependencia de ambas cópulas, el procedimiento es robusto frente a la elección de los parámetros de la distribución a priori de la probabilidad inicial de cada hipótesis nula. En cuanto al número de hipótesis nulas rechazadas y aceptadas, el procedimiento no es robusto respecto a la elección de dichas distribuciones, obteniendo un número mayor de aciertos cuando se utilizan distribuciones a priori betas sesgadas a la derecha. De acuerdo con el criterio DIC, el modelo con cópulas Gaussianas resultó ser más adecuado para los datos simulados que el modelo utilizando cópulas de Clayton, como se esperaba ya que los datos simulados se habían generado de una distribución normal. Además, con el modelo de cópulas Gaussianas el valor estimado del FDR se mantiene en niveles aceptables y es significativamente menor que el obtenido con el modelo de cópulas de Clayton. Por tanto, el procedimiento propuesto funciona bien, cuando la dependencia se modela mediante la función cópula más adecuada. Por otro lado, el procedimiento que se propone es flexible en la medida en que puede utilizarse con otras matrices de correlación, o con otras funciones cópulas para modelar la dependencia, así como con otras funciones de distribuciones marginales, por lo que el procedimiento que se propone en esta tesis resulta fundamental, especialmente en el campo de la genómica.