Árboles aleatorios borrosos de supervivencia, propuesta de los modelos Fuzzy Survival Tree (FST) y Fuzzy Random Survival Forest (FRSF)
- ANDRADE CIFUENTES, JORGE
- José Luis Valencia Delfa Director
Universidad de defensa: Universidad Complutense de Madrid
Fecha de defensa: 13 de septiembre de 2023
- Daniel Gómez González Presidente
- Rosario Espínola Vílchez Secretaria
- Carlos Gustavo Porcel Gallego Vocal
- María del Carmen Valls Martínez Vocal
- Jesús Serrano Guerrero Vocal
Tipo: Tesis
Resumen
La Ciencia de Datos viene cobrando mucho interés en el tratamiento de grandes volúmenes de datos y aplicaciones del mundo real. En este trabajo se juntan dos áreas del conocimiento como son el Análisis de Supervivencia y la Lógica Difusa o Borrosa para la estimación de la variable "tiempo al evento" en conjuntos de datos del sector seguros y de experimentos clínicos que contienen información imperfecta. Específicamente, el cambio regulatorio en el sector seguros obliga a la utilización de modelos y técnicas más precisas y además transparentes para determinar la situación financiera de una Compañía de seguros, así la modelización de variables como las tasas de caída de cartera tienen un efecto directo en la posición de solvencia y financiera de una compañía de seguros y reaseguros. Por otro lado, en los conjuntos de datos provenientes de experimentos clínicos se buscan obtener alternativas para resolver información imperfecta con buenos resultados. La presencia de conjuntos de datos con información imprecisa e incierta es común en todos los ámbitos y también en el análisis de supervivencia. La lógica difusa mediante el razonamiento aproximado utilizando la variable lingüística, concepto que intenta reproducir la naturaleza humana de razonamiento aproximado y cualitativo, brinda la flexibilidad para el tratamiento de información imprecisa. Los algoritmos de aprendizaje automático basados en árboles binarios son preferidos entre otras técnicas de aprendizaje automático debido a su fácil interpretabilidad de resultados y buen rendimiento. Además, la combinación de la lógica borrosa y los árboles de decisión o regresión ha sido propuesta en los años recientes con buenos resultados y en diversas aplicaciones. En esta memoria se propone incorporar la lógica borrosa en el árbol aleatorio de supervivencia, así como también en el bosque aleatorio de supervivencia, dos nuevas técnicas de aprendizaje automático supervisado son presentadas, el árbol aleatorio borroso de supervivencia - fuzzy survival tree (FST) y el bosque aleatorio borroso de supervivencia - fuzzy random survival forest (FRSF). Los nuevos algoritmos conservan los componentes de aleatoriedad de los árboles aleatorios binarios a la que se agrega, tanto en la etapa de aprendizaje como de estimación del algoritmo, la dinámica de los conjuntos borrosos mediante la región de solapamiento que tiene en cuenta los grados de similaridad entre los elementos cercanos al punto de corte y en el crecimiento del árbol permite que los elementos puedan continuar por más de un camino simultáneamente activando finalmente varios nodos terminales. Para obtener estos grados de similaridad el grado de pertenencia del elemento es acumulado desde el nodo raíz hasta el nodo en evaluación o el terminal. En el crecimiento del FST, la partición de cada nuevo nodo hijo se hace en dos etapas, en la primera de tipo nítida o crisp se busca un punto de corte mediante la maximización del índice-C y otra borrosa en la cual se determina una región de solapamiento alrededor del punto de corte. El FRSF se construye a partir de varios árboles FST que posteriormente son ensamblados, se presenta una estrategia de ensamble que obtiene resultados iniciales en cada árbol y éstos posteriormente son agregados para obtener el estimador final del bosque. Como conclusión general de este trabajo, cuando existe la presencia de datos missing, ruido o incertidumbre en los conjuntos de datos la modelización de la variable de "tiempo hasta el evento" con el FST y FRSF obtienen mejores resultados que los modelos actuales. También bajo ciertas condiciones muestran mejores resultados en conjuntos de datos sin información imperfecta. Los algoritmos propuestos FST y FRSF permiten el tratamiento automático de la información imperfecta, el código de programación fue desarrollado en su totalidad en lenguaje Python y es entregado como parte de este trabajo.