Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos

Ojeda Magaña, Benjamin

Aportación a la extracción de conocimiento aplicada a datos mediante agrupamientos y sistemas difusos

Ojeda Magaña, Benjamin

Dirigida por:

Rubén Ruelas Lepe Director/a
Diego Andina de la Fuente Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 02 de noviembre de 2010

Tribunal:

Francisco Javier Montero de Juan Presidente
Antonio Alvarez Vellisco Secretario/a
Juan Bautista Grau Olivé Vocal
Antonio Vega Corona Vocal
Ascensión Gallardo Antolín Vocal

Tipo: Tesis

Teseo: 300444 DIALNET Archivo Digital UPM editor

Resumen

Resumen Los avances en la tecnología en los últimos años han propiciado que se generen y se recolecten grandes cantidades de datos principalmente numéricos, y hay un gran interés en procesarlos para extraer información y conocimiento de ellos, con el principal objetivo de hacer más eficientes los sistemas de donde se han obtenido estos datos. La información en una base de datos se encuentra implícita en los valores que representan los diferentes estados de los sistemas, mientras que el conocimiento está implícito en las relaciones entre los valores de los diferentes atributos o características presentes en las bases de datos. Dichas relaciones se identifican mediante grupos (estructura interna) que hay que descubrir y que describen las relaciones entre los estados de entrada y de salida. Para ello se han desarrollado diferentes técnicas, una de las cuales es mediante los algoritmos de agrupamiento particionales. En esta Tesis se propone una aportación a la extracción de información y de conocimiento a partir de bases de datos numéricas, usando para ello algoritmos de agrupamiento particionales híbridos difusos. La información se extrae mediante la agrupación y la caracterización de datos en típicos, atípicos y ruido, así como en la aplicación a la sub-segmentación de imágenes, donde se propone un nuevo enfoque con características interesantes para la detección de píxeles atípicos, que pueden ser relacionados a microcalcificaciones para la detección de cáncer de mama, o a los nudos en la madera para evaluar su calidad, ambos casos tratados en esta tesis, o en cualquier otra aplicación de salud o industrial por ejemplo, en donde no importa si los píxeles a encontrar están presentes en muy pequeñas cantidades. El conocimiento se extrae mediante el establecimiento de dos modelos difusos de tipo Takagi-Sugeno que permiten la clasificación y caracterización automática de datos nuevos. Con ello se tiene un sistema capaz de producir información acerca de los datos numéricos procesados con estos modelos. En este trabajo hemos utilizado principalmente el algoritmo de agrupamiento híbrido PFCM (Possibilistic Fuzzy c- Means) al que hemos incorporado una mejora, cuyo algoritmo hemos denominado GKPFCM (Gustafson-Kessel Possibilistic Fuzzy c-Means), y que permite encontrar grupos con formas más aproximadas a las distribuciones naturales de los grupos de datos. Esto queda de manifiesto en un aprendizaje no supervisado para la identificación de plátanos y tomates maduros y verdes que se presentan también en este documento. Entre los principales resultados obtenidos en el desarrollo de esta tesis podemos citar: Se propone un nuevo enfoque para la sub-segmentación de imágenes digitales, aquí basado en el algoritmo de agrupamiento PFCM. El propósito es poder determinar subgrupos de datos (píxeles) de interés que pueden ser los datos típicos o los atípicos, aunque en muchas aplicaciones, particularmente en diagnóstico, son estos últimos los de más interés. En esta tesis mostramos dos aplicaciones a casos reales. Se mejora el algoritmo PFCM (GKPFCM) al incorporar la distancia de Mahalanobis ya que los grupos encontrados tienen una mejor aproximación a la distribución natural de los datos. Asimismo, se propone la construcción de un clasificador que permite obtener automáticamente información de datos nuevos al clasificarlos y caracterizarlos como típicos, atípicos o ruido. El clasificador está basado en dos modelos difusos de tipo Takagi-Sugeno, el cual obtiene sus parámetros a partir de los resultados generados por el algoritmo GKPFCM.