Contributions to approximate bayesian inference for machine learning

  1. Rodriguez Santana, Simon
Dirigida por:
  1. Daniel Hernández Lobato Director/a
  2. David Gómez-Ullate Oteiza Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 18 de enero de 2022

Tribunal:
  1. José Ignacio Hidalgo Pérez Presidente
  2. Juan Tinguaro Rodríguez González Secretario
  3. Pablo Martínez Olmos Vocal
  4. Ángela Fernández Pascual Vocal
  5. Maria Isabel Valera Martinez Vocal
Departamento:
  1. Física Teórica

Tipo: Tesis

Resumen

Los métodos de aprendizaje automático o machine learning (ML) son capaces de aprender a partir de datos y hacer predicciones en casos nunca vistos. Sin embargo, algunos de los métodos de ML más usuales no informan sobre la incertidumbre de sus predicciones, la cual puede ser crucial en diversas aplicaciones. La perspectiva Bayesiana proporciona un marco natural para ello, otorgando la capacidad de incorporar y reflejar diversas fuentes de incertidumbre en las distribuciones predictivas finales. Esta incertidumbre puede tener diferentes fuentes, como los datos, la selección del modelo y sus parámetros asociados, y todas estas contribuciones pueden agregarse adecuadamente usando las herramientas Bayesianas. Sin embargo, para la mayoría de métodos de ML, la inferencia Bayesiana exacta es intratable, teniendo que recurrir a aproximaciones de la misma. En esta tesis proponemos nuevos métodos de inferencia aproximada, con aplicaciones concretas para algunos de los métodos más populares en ML. En primer lugar introduciremos las redes neuronales (NNs), desde sus fundamentos básicos hasta algunas de sus arquitecturas más comunes, así como los procesos Gaussianos (GPs), importantes herramientas empleadas en diversos problemas de aprendizaje. Además, veremos cómo los sparse GPs alivian los problemas de escalabilidad de los GPs mediante la introducción de los puntos inducidos. En la segunda mitad de esta introducción describiremos los fundamentos de la inferencia Bayesiana y extenderemos la formulación de las NNs al marco Bayesiano para obtener NNs capaces de producir distribuciones predictivas. Veremos por qué la inferencia Bayesiana es intratable para muchos métodos de ML y revisaremos técnicas de aproximación basadas tanto en muestreos como en la optimización de parámetros. Además de esto, veremos las alfa-divergencias como una generalización de conceptos empleados en ciertos métodos de inferencia aproximada. Finalmente extenderemos la formulación de los GPs a los procesos implícitos (IPs), una clase más general y flexible de procesos estocásticos desde la cual podremos describir múltiples modelos útiles. Aunque prometedores, los métodos actuales basados en IPs no son capaces de explotar todas sus propiedades debido a las limitaciones de las aproximaciones empleadas. En la segunda parte de la tesis presentaremos nuestras contribuciones al campo de inferencia aproximada, con especial interés para las NNs Bayesianas y los IPs. Primero veremos un método para realizar inferencia aproximada usando alfa-divergencias con distribuciones aproximadas implícitas. El método resultante, minimización adversaria de alfa-divergencias (AADM), optimiza un objetivo más general que los anteriores basados en inferencia variacional o expectation propagation, y esto le otorga la capacidad de capturar patrones más complejos de los datos y mostrarlos en su distribución predictiva, la cual ya no estará restringida a ser Gaussiana. AADM incluye un nuevo parámetro que puede emplearse para optimizar diversas métricas en los resultados finales, y a través de numerosos experimentos se muestra que supera el rendimiento de métodos anteriores en el contexto de NNs Bayesianas. Por último, veremos una segunda contribución que hace uso de IPs para inferencia aproximada. Esta emplea optimización en el espacio de funciones, ya que el espacio de parámetros usual padece de problemas intrínsecos por su alta dimensionalidad y las interdependencias entre los mismos. Nuestro método, sparse IPs (SIP), es el primer sistema basado en IPs completamente general, capaz de ajustar su modelo de probabilidad a priori y de producir distribuciones predictivas flexibles simultáneamente. Además, debido al uso de la aproximación de puntos inducidos, SIP es escalable y eficiente para conjuntos grandes de datos con millones de instancias. En los experimentos SIP demuestra mejor rendimiento que los demás métodos, presentando además nuevas propiedades únicas entre los sistemas basados en IPs.