Explainable artificial intelligence (XAI) techniques based on partial derivatives with applications to neural networks

  1. Pizarroso Gonzalo, Jaime
Dirigida por:
  1. José Portela González Director/a
  2. Antonio Muñoz San Roque Codirector/a

Universidad de defensa: Universidad Pontificia Comillas

Fecha de defensa: 15 de diciembre de 2023

Tribunal:
  1. José Ramón Dorronsoro Ibero Presidente/a
  2. Sara Lumbreras Sancho Secretario/a
  3. Javier Arroyo Gallardo Vocal
  4. Bertha Guijarro-Berdiñas Vocal
  5. Mario Castro Ponce Vocal

Tipo: Tesis

Resumen

A medida que los modelos de Aprendizaje Automático (ML, por su nombre en inglés Machine Learning) y Aprendizaje Profundo (DL, por su nombre en inglés Deep Learning) continúan permeando diversos aspectos de la sociedad, existe una creciente demanda de interpretabilidad y transparencia en sus procesos de toma de decisiones. Esta demanda está alimentada por la necesidad de comprender, confiar y utilizar eficazmente estos complejos modelos de caja negra, particularmente en aplicaciones de alto riesgo donde las decisiones pueden tener consecuencias de gran alcance. Además, el avance de las técnicas de interpretabilidad es fundamental para adherirse a los emergentes requisitos éticos y legales concernientes al uso de los sistemas de Inteligencia Artificial (IA). La Inteligencia Artificial Explicable (XAI, por su nombre en inglés Explainable Artificial Intelligence) ha surgido como una solución a la opacidad de los modelos complejos, ofreciendo técnicas para hacer comprensibles y transparentes estos modelos. Sin embargo, la mayoría de las técnicas existentes de XAI enfrentan limitaciones con respecto a las suposiciones que deben hacer sobre las relaciones entre los datos, el costo computacional, la compensación entre la interpretabilidad y la precisión, o su capacidad para proporcionar explicaciones locales y globales. Para abordar estos problemas, esta tesis introduce nuevos métodos de XAI basados en derivadas parciales. A diferencia de los métodos existentes, estas técnicas proporcionan explicaciones detalladas, desde un nivel local hasta global, sin hacer suposiciones sobre las relaciones entre las entradas y las salidas. Las principales contribuciones de esta tesis residen en tres métodos recién desarrollados: Análisis de Sensibilidad, curvas-alfa y la aplicación del Invariante de Interacción diseñado en Alfaya et al. (2023) a modelos de ML, todos los cuales aprovechan las derivadas parciales para ofrecer interpretabilidad de los modelos de ML diferenciables. El Análisis de Sensibilidad estima la influencia de las variables de entrada en la salida del MLP, ofreciendo información sobre las variables más importantes. Las curvas-alfa proporcionan una visión detallada de la variación de la sensibilidad a través del espacio de entrada, ayudando a identificar regiones localizadas de alta sensibilidad. Por último, el Invariante de Interacción se centra en la detección de interacciones entre las variables de entrada, revelando relaciones complejas en los datos que pueden influir en la predicción del modelo. En conjunto, estos métodos ofrecen una comprensión integral de los modelos de Aprendizaje Automático, mejorando la transparencia de los sistemas de IA. La utilidad y efectividad de estos métodos se validaron a través de tres casos de uso del mundo real, que incluyen la predicción de emisiones de NOx, la progresión de la enfermedad de Parkinson y la vida útil restante de motores turbofan. Estas aplicaciones evidenciaron cómo los métodos desarrollados pueden mostrar información detallada sobre el comportamiento del modelo, superando las técnicas más utilizadas de explicabilidad de IA al proporcionar información coherente y relevante sobre el funcionamiento interno de los modelos.