Métodos de estimación penalizada en análisis de datos funcionales

AGUILERA MORILLO, MARÍA DEL CARMEN

Métodos de estimación penalizada en análisis de datos funcionales

AGUILERA MORILLO, MARÍA DEL CARMEN

Dirigida por:

Ana María Aguilera del Pino Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 18 de abril de 2013

Tribunal:

María José Valderrama Conde Presidenta
Patricia Román Román Secretario/a
María Luz Durbán Reguera Vocal
Gilbert Saporta Vocal
Jesús Navarro Moreno Vocal

Tipo: Tesis

Teseo: 342228 DIALNET DIGIBUG editor

Resumen

Una variable funcional se caracteriza porque sus observaciones son funciones que en la mayoría de los casos representan la evolución de una variable escalar en el tiempo (realizaciones de un proceso estocástico). Este es el caso de variables medioambientales tales como son la temperatura o el nivel de contaminación observados diariamente durante un periodo de tiempo, variables económicas tales como la evolución de las cotizaciones en bolsa o variables médicas como el nivel de estrés en pacientes. En otras áreas de aplicación, el argumento de las funciones observadas es una magnitud distinta al tiempo tal como pueden ser la localización espacial, la longitud de onda o la probabilidad. En quimiometría existen aplicaciones donde se disponen de observaciones del espectro NIR en una malla fina longitudes de onda. El análisis de datos funcionales (ADF) es un tema de actualidad en Estadística que cuenta con una gran actividad investigadora y que pretende resolver problemas relacionados con la modelización y la predicción estadística de datos funcionales. Una revisión completa sobre los principales métodos del ADF, aspectos computacionales relacionados con su aplicación práctica e importantes ejemplos con datos reales pueden verse en los libros pioneros de Ramsay y Silverman (2005, 2002); Ramsay et al. (2009). En Ferraty y Vieu (2006) se puede ver un estudio detallado sobre metodologías no paramétricas en ADF. Recientemente, en Horvath y Kokoszka (2012) se ha llevado a cabo inferencia estadística sobre distintos métodos del ADF. Los primeros trabajos sobre ADF se desarrollaron en el contexto de los procesos estocásticos en tiempo continuo, generalizando al caso funcional técnicas de reducción de la dimensión tales como el análisis en componentes principales (PCA) (Deville, 1974). Más tarde, las investigaciones estadísticas sobre ADF se centraron en la formulación y estimación de distintos modelos de regresión funcional. Uno de los primeros modelos de regresión extendidos al ámbito de los datos funcionales fue el modelo lineal funcional, que permite estimar una variable escalar a partir de un predictor funcional (Cardot et al., 1999, 2003). En Chiou et al. (2004) se estudió el caso concreto en que el predictor es un vector y la respuesta es funcional. Con objeto de modelizar la media de una variable respuesta funcional en términos de una variable categórica se introdujo el análisis de la varianza funcional (Cuevas et al., 2002, 2004). Por otro lado, en Yao et al. (2005b) y Ocaña et al. (2008) se estudió el modelo lineal funcional para el caso en que tanto la variable respuesta como las variables explicativas son funcionales. Los modelos de regresión en componentes principales, los cuales pueden ser vistos como una caso particular de los anteriores, se utilizaron por primera vez en Aguilera et al. (1997, 1999) para predecir un proceso estocástico en tiempo continuo sobre un intervalo futuro a partir de su pasado más reciente. Por otro lado, los modelo lineales generalizados también se extendieron para el caso de un predictor funcional (James, 2002; Müller, 2005). Un caso particular del modelo lineal generalizado funcional es el modelo de regresión logística funcional, cuyo objetivo es predecir una variable aleatoria binaria a partir de un predictor funcional (Ratcliffe et al., 2002; Escabias et al., 2004; Aguilera et al., 2008b). La estimación directa de la función parámetro asociada a un modelo de regresión funcional es un problema de difícil solución debido a la dimensión infinita de la variable funcional. Por otro lado, las curvas muestrales usualmente se observan en un conjunto finito de puntos muestrales que pueden ser desigualmente espaciados y diferentes para las distintas unidades muestales. Por ello, el primer paso en ADF es reconstruir la verdadera forma funcional de cada curva muestral a partir de un conjunto finito de observaciones discretas. Para resolver este problema se han utilizado distintas técnicas de aproximación, tales como la interpolación o la proyección en un espacio finito dimensional generado por funciones básicas. De este modo, la estimación de un modelo de regresión funcional se reduce a la estimación de un modelo de regresión multivariante equivalente con gran correlación entre las variables predictoras. Para obtener una estimación adecuada de los parámetros asociados a un modelo de regresión, usualmente se lleva a cabo una regresión sobre un conjunto de variables aleatorias incorreladas. El ACP funcional se ha utilizado en muchas ocasiones para reducir la dimensionalidad de un conjunto de datos y resolver el problema de multicolinealidad de diversos modelos de regresión funcional. Las componentes principales son combinaciones lineales generalizadas incorreladas de un predictor funcional con varianza máxima. Por ello, la principal crítica sobre la regresión en componentes principales es que los regresores se obtienen sin tener en cuenta la variable respuesta. Con objeto de resolver este problema, el criterio de mínimos cuadrados parciales (PLS) fue extendido al caso funcional para obtener un conjunto de combinaciones lineales generalizadas incorreladas de la variable predictora que tengan covarianza máxima con la variable respuesta (Preda and Saporta, 2005b). En muchas aplicaciones los datos son funciones suaves observadas con error. En este caso, los coeficientes de la representación básica de la trayectorias muestrales se aproximan mediante mínimos cuadrados con bases de B-splines. El problema es que las curvas muestrales aproximadas (splines de regresión) no controlan el grado de suavidad. Como consecuencia, las componentes principales estimadas y los parámetros funcionales asociados con los modelos de regresión funcional son difíciles de interpretar porque tienen mucha variabilidad y falta de suavidad. El objetivo general de esta tesis es mejorar la estimación de las metodologías del ADF para el caso de datos funcionales observados con error. Con objeto de resolver este problema, se proponen distintas aproximaciones basadas en la estimación penalizada mediante representación básica de las curvas muestrales con bases de B-splines. Este objetivo general se consigue mediante cinco objetivos específicos: 1. Revisión y comparación de los métodos existentes para la aproximación de curvas suaves con bases de B-splines. 2. Mejorar la estimación del PCA funcional introduciendo distintas aproximaciones basadas en la penalización spline. 3. Desarrollar distintas aproximaciones penalizadas para estimar el modelo logit funcional, utilizando una estimación spline penalizada del PCA funcional. 4. Proponer distintas estimaciones penalizadas para la regresión PLS funcional.