Métodos de muestreo para la mejora de rendimiento en clasificadores de aprendizaje automático
- Aceña Gil, Víctor Carlos
- Javier Martínez Moguerza Doktorvater/Doktormutter
- Isaac Martín de Diego Co-Doktorvater/Doktormutter
Universität der Verteidigung: Universidad Rey Juan Carlos
Fecha de defensa: 28 von Juni von 2023
- Rosa Elvira Lillo Rodríguez Präsidentin
- Antonio Alonso Ayuso Sekretär
- Francisco Javier Martín Campo Vocal
Art: Dissertation
Zusammenfassung
Esta tesis se lleva a cabo en colaboración con la empresa Madox Viajes, en el marco del proyecto Pharaoh, como parte de su estrategia de digitalización. La colaboración entre la empresa y la universidad se logra gracias a la financiación obtenida en la convocatoria de ayudas para Doctorados Industriales en la Comunidad de Madrid, que tiene como objetivo fomentar la colaboración entre el mundo académico y empresarial, facilitando la transferencia directa de conocimientos científicos generados en la universidad a las empresas. Madox Viajes, fundada en 2008, es una empresa de nicho en el segmento de viajes a medida. Con el fin de mantenerse competitiva en un mercado turístico cada vez más desafiante, la empresa apuesta por la innovación científica, las matemáticas y la tecnología. En este sentido, el proyecto Pharaoh busca proporcionar a Madox Viajes los recursos necesarios para innovar en sus operaciones, incorporando componentes tecnológicos y científicos en sus sistemas Enterprise Resource Planning (ERP), Customer Relationship Management (CRM) y eCommerce, adaptándose a un futuro donde el mercado convergerá hacia el modelo online y competirá en igualdad de condiciones con grandes proveedores. El objetivo empresarial de esta tesis en el proyecto Pharaoh es desarrollar un modelo de propensión de compra para el scoring de clientes utilizando aprendizaje basado en ejemplos. Para lograr esto, se desarrollarán modelos de aprendizaje automático centrados en mecanismos de muestreo que se adapten a cambios en el comportamiento de clientes y mercado, e identifiquen a los clientes que aporten más información en escenarios de baja tasa de conversión. El objetivo científico es investigar nuevas técnicas de muestreo para mejorar el rendimiento de modelos de Machine Learning (ML). En esta investigación, se explora la aplicación de distintas técnicas de muestreo en el ML dentro del marco del aprendizaje estadístico, abordando el aprendizaje incremental, el aprendizaje combinado y el análisis de complejidad de los datos. Se presenta una nueva metodología de reentrenamiento para Support Vector Machines (SVMs) basada en subconjuntos soporte, que permite una rápida y precisa actualización de modelos con nuevos datos, y un marco general de ensamblado llamado Minimally Overfitted Ensemble (MOE), que mejora la capacidad predictiva tanto de algoritmos base estables como inestables. Además, se introduce la medida de complejidad Dynamic Disagreeing Neighbors (DDN), que considera la dificultad de clasificar instancias en tres niveles: instancia, clase y conjunto de datos, y se basa en el cálculo de vecindarios dinámicos. A lo largo de esta tesis, se han llevado a cabo numerosos experimentos y análisis para validar las técnicas y modelos propuestos. Estos experimentos se han realizado utilizando conjuntos de datos reales y sintéticos, y los resultados obtenidos han sido comparados con enfoques y algoritmos del estado del arte. Los hallazgos de estos experimentos han permitido identificar las fortalezas y debilidades de las técnicas propuestas, y han servido como base para realizar ajustes y mejoras en los modelos. Estos resultados también han proporcionado información valiosa sobre cómo las técnicas de muestreo pueden aplicarse de manera efectiva en diferentes contextos y desafíos empresariales. La aplicación exitosa de técnicas de muestreo en distintos escenarios del ML en esta tesis tiene el potencial de impulsar el crecimiento y la competitividad de Madox Viajes. Los modelos desarrollados mejorarán la eficiencia y precisión en la clasificación de clientes, aumentando la tasa de conversión y optimizando la toma de decisiones. Además, ha proporcionado grandes avances científicos en los tres campos del ML donde se ha realizado la investigación que han dado lugar a diversas publicaciones científicas en revistas de gran impacto. Esta colaboración entre la universidad y Madox Viajes en el proyecto Pharaoh resalta cómo la transferencia de conocimientos científicos entre el mundo académico y empresarial puede generar beneficios mutuos e impulsar la innovación en la industria.