Un análisis comparativo de una svm y un modelo logit en un problema de clasificación de asegurados

  1. Heras Martínez, Antonio José
  2. Tolmos Rodríguez-Piñero, Piedad
  3. Hernández March, Julio
Revista:
Anales del Instituto de Actuarios Españoles

ISSN: 0534-3232

Año de publicación: 2010

Número: 16

Páginas: 85-110

Tipo: Artículo

Otras publicaciones en: Anales del Instituto de Actuarios Españoles

Resumen

Con este artículo se pretende realizar una aproximación a la clasificación de los asegurados de una cartera de una compañía del seguro del automóvil atendiendo a si han presentado o no siniestro en un año1. Para realizar la clasificación utilizaremos una técnica de Aprendizaje conocida como Máquina de Vectores Soporte. En aras de preservar la capacidad de generalización del clasificador, realizaremos además una selección de los factores de riesgo que describen a los asegurados de la cartera, escogiendo los más relevantes de cara a la siniestralidad. Para ello emplearemos de nuevo herramientas de Aprendizaje Máquina, esta vez Algoritmos Genéticos. Se ejecutarán varios experimentos, comparando la tasa de clasificación obtenida utilizando todos los factores de riesgo, y sólo los seleccionados. También se compararán los mejores resultados conseguidos con la clasificación lograda por el modelo logit, que nos permitirá analizar hasta qué punto son comparables las técnicas del Aprendizaje Máquina y los modelos estadísticos utilizados habitualmente en la resolución de este tipo de problemas. Aprovecharemos, además, la salida del logit para comparar los factores de riesgo que resultan más relevantes con los que se seleccionaron a través del Algoritmo Genético (AG). Los resultados obtenidos son alentadores, probando que las técnicas de aprendizaje, y las SVM en particular, pueden resultar muy útiles para resolver problemas de clasificación en seguros.

Referencias bibliográficas

  • Aldrich, J. & Nelson, F.D.. Linear Probability, Logit and Probit Models. Sage University Papers: Quantitative Applications in the Social Sciences. Berverly Hills: Sage Publications, 1986.
  • Bousoño Calzón, Heras Martínez, Tolmos Rodríguez-Piñero. Factores de Riesgo y Cálculo de primas mediante Técnicas de Aprendizaje. FUNDACIÓN MAPFRE, Madrid, Junio 2008.
  • Burges, C. J.: “A tutorial on Support Vector Machines for pattern recognition”, Knowledge Discovery and Data Mining, 2(2) (1998):121-167.
  • Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines. Software disponible en www.csie.ntu.edu.tw/~cjlin/libsvm.
  • Duda, R.O., Hart, P.E. Stork, D.G. (2001) Pattern Classification. John Wiley & Sons.
  • Greene, W.H.. Análisis Econométrico. Prentice Hall, 1998.
  • Heras Martínez, Bousoño Calzón, Tolmos Rodríguez-Piñero, Santiago Mozos. Selección de Factores de Riesgo y Predicción de Siniestros en el Seguro del Automóvil Mediante Métodos de Aprendizaje Máquina. Actas del Congreso RIESGO 2007.
  • Hernández-March, J. La Emancipación Juvenil: Un Análisis Estadístico Aplicado a la Comunidad de Madrid. [Recurso electrónico] Tesis Doctoral. [Madrid]: Universidad Complutense de Madrid, Servicio de Publicaciones, 2003.
  • Hernández-March, J., Tolmos, P. Un análisis comparativo de una SVM y un modelo Logit en un problema de clasificación de asegurados. Actas del Congreso RIESGO 2009.
  • Hosmer, D.W. & Lemeshow, S.. Applied Logistic Regression. New York: John Wiley (1989).
  • Liao, T.F.. Interpreting Probability Models: Logit, Probit and Other Generalized Linear Models. Sage University Papers: Quantitative Applications in the Social Sciences. Thousand Oaks: Sage Publications, 1994.
  • Melgar-Hiraldo M.C., Guerrero-Casas, F.M. Los siniestros en el seguro del automóvil: un análisis econométrico aplicado. Estudios de Economía Aplicada. Abril 2005 vol.23, número 001.
  • Salas-Velasco, M.. Graduates on the labor market: Formal and informal post-school training investments. Higher Education, 54(2), 227-246, 2007.
  • Salcedo-Sanz S.,De Prado-Cumplido M., Pérez-Cruz F., Bousoño-Calzón C. Feature Selection via Genetic Optimization. ICANN 2002: 547-552.
  • Salcedo-Sanz, S., Fernández-Villacañas J. L., Segovia-Vargas, M. J. and Bousoño-Calzón, C. 2005. Genetic programming for the prediction of insolvency in non-life insurance companies, Computers & OR 32: 749-765.
  • Segovia-Vargas MJ, Salcedo-Sanz S, Bousoño-Calzón C. Prediction of insolvency in non-life insurance companies using Support Vector Machines and genetic algorithms. In: Proceedings of X SIGEF Congress in Emergent Solutions for the Information and Knowledge Economy, León, Spain, 2003.
  • Shapiro, A. The merging of Neural Networks, fuzzi logic and genetic algorithms. 2002, Insurance: Mathematics and Economics 31 (2002) 115-131.
  • Tolmos Rodríguez-Piñero, P. Selección de Factores de Riesgo y Predicción de Siniestros en el Seguro del Automóvil Mediante Métodos de Aprendizaje Máquina. Tesis Doctoral. Universidad Rey Juan Carlos. Madrid 2007.
  • Vapnik V., Chervonenkis A. 1974. Theory of Pattern Recognition (in Russian) Nauka, Moscú.
  • Vapnik, V., Cortes, C. Support-Vector Networks. 1995. Machine Learning, 20, 273-297.
  • Weston, H., Mukherjee, S., Chapelle, O., Pontil, M., Poggio, T., and Vapnik, V. (2000): Feature Selection for SVMs, Advances in NIPS 12, MIT Press, 526-532.