Optimización de la regresión de mínimos cuadrados parciales con funciones Kernel

  1. Mello Román, Jorge Daniel
Dirigida por:
  1. Adolfo Hernández Estrada Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 15 de enero de 2021

Tribunal:
  1. María Teresa Ortuño Sánchez Presidenta
  2. Gregorio Tirado Domínguez Secretario
  3. Miguel García Torres Vocal
  4. Francisco Javier Nogales Martín Vocal
  5. Eduardo Ramos Méndez Vocal
Departamento:
  1. Economía Financiera, Actuarial y Estadística

Tipo: Tesis

Resumen

La regresión de mínimos cuadrados parciales (PLS) es un método lineal que busca predecir un conjunto de variables dependientes a partir de un conjunto de predictores, extrayendo factores ortogonales que maximizan la capacidad predictiva, también llamados componentes. Cuando las estructuras de datos exhiben variaciones no lineales, se recurre a la regresión de mínimos cuadrados parciales con kernel (KPLS), que transforma los conjuntos de datos originales a un espacio de características de dimensionalidad arbitraria donde sea posible la generación de un modelo lineal. Una dificultad recurrente al implementar la regresión KPLS es determinar el número de componentes y los parámetros de la función kernel que maximizan su desempeño. El objetivo de esta investigación doctoral es proponer un método para optimizar la capacidad predictiva de la regresión KPLS por medio de algoritmos metaheurísticos. En el proceso de investigación se llevan a cabo procedimientos de ajuste metaheurístico para estimar simultáneamente los parámetros de la función Kernel y el número de componentes. Se pone énfasis en la evaluación de algoritmos metaheurísticos debido a que los mismos obtienen mejores subconjuntos de búsqueda para determinar soluciones óptimas o aproximadas en el espacio transformado; además no requieren de supuestos, son flexibles y fáciles de implementar computacionalmente. Varias investigaciones han optado por utilizar algoritmos metaheurísticos para mejorar el desempeño de la regresión PLS o KPLS, aunque con propósitos y enfoques diferentes a los de esta tesis doctoral. El problema de optimización es planteado y se evalúa el rendimiento de varios agentes de optimización en términos de precisión, convergencia de las estimaciones y velocidad de cómputo, tales como: Algoritmos genéticos (GA), Optimización de enjambre de partículas (PSO), Algoritmo de luciérnagas (FFA), Algoritmo basado en el comportamiento de lobos grises (GWO), y Algoritmos Meméticos (MMA). Para validar los resultados y tener una medida de la eficiencia de los algoritmos metaheurísticos en el problema de optimización establecido, se evalúa también el desempeño de algoritmos determinísticos de búsqueda directa o libres de derivadas: Hooke-Jeeves (HJ) y Nelder¿Mead (NM). Se recurre a estos métodos debido a que utilizan únicamente valores de la función y no precisan de una expresión explícita de las derivadas de la misma. Los resultados experimentales indican que los algoritmos metaheurísticos permiten la estimación de valores óptimos aproximados de los parámetros de regresión del KPLS con una baja dispersión. Sin embargo, el costo computacional es elevado en comparación con otros algoritmos determinísticos. En general se logran los objetivos específicos de la tesis doctoral, una formulación novedosa del problema de optimización, la evaluación experimental del desempeño de diversos algoritmos metaheurísticos como agentes de optimización, y la creación de un paquete en el software R para la calibración de modelos de regresión KPLS con fines predictivos. A partir del contenido de esta tesis doctoral han sido publicados una acta de conferencia y un artículo en revista de alto impacto, ambos relacionados directamente con los objetivos de investigación.