Nuevos métodos para análisis visual de mapas auto-organizativo

  1. Rubio Sánchez, Manuel
Dirigida por:
  1. Víctor Giménez Martínez Director/a
  2. Karim Drouiche Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 28 de abril de 2004

Tribunal:
  1. Nieves Castro González Presidente/a
  2. Raquel Gonzalo Palomar Secretaria
  3. Francisco Marcellán Español Vocal
  4. Jaime Vinuesa Tejedor Vocal
  5. Andrei Martines Finkelshtein Vocal

Tipo: Tesis

Resumen

El mapa auto-organizativo (MAO) es un tipo de red neuronal artificial competitiva y no-supervisada. Ha sido utilizado tradicionalmente en tareas de ingeniería como herramienta de clasificación automática (clustering) y especialmente en tareas relacionadas con el análisis exploratorio de datos y la minería de datos, ya que su propósito principal es la visualización de relaciones no-lineales de datos multidimensionales. Sin embargo, a pesar de la importancia de la tarea de visualización, las técnicas gráficas para analizar MAO no son abundantes en la literatura. Esta tesis presenta varias técnicas nuevas que complementan, mejoran y facilitan el anáfisis visual de MAO de Kohonen, tanto desde el punto de vista del análisis exploratorio de datos, como desde el punto de vista de comprender el proceso de adaptación del MAO a una distribución de datos. La motivación para desarrollar técnicas de visualización nuevas surge por los siguientes motivos: IÍL relativa carencia de métodos destinados a la importante tarea de visualización, la necesidad de analizar MAO con diferentes métodos, la necesidad de mejorar varios métodos descritos en la literatura y la posibilidad de innovar desarrollando nuevas estrategias de visualización. De esta manera, se ha hecho hincapié en desarrollar técnicas generalmente no utilizadas con anterioridad en un intento por superar limitaciones de varios métodos descritos en la literatura. El primer nuevo método denominado "método de semejanza de triángulos" consiste en una estrategia de interpolación geométrica donde los patrones de una distribución de entrada son proyectados a un espacio de observación continuo. Está basado en la preservación de la semejanza geométrica entre varios triángulos formados por un patron y dos vectores de referencia del MAO en el espacio de los datos, y por un punto candidato y las dos correspondientes neuronas en el espacio de observación. El método encuentra la proyección minimizando una función de coste que mide distancias o errores entre varios triángulos. El método supera notablemente a otras estrategias de interpolación descritas en la literatura. Puede proyectar todos los datos de manera no-lineal, resulta adecuado cuando el tamaño del MAO es pequeño, es robusto y puede describir adecuadamente ciertos tipos de distribuciones difíciles de visualizar con la mayoría de métodos de visualización. Varios métodos de visualización de MAO generan imágenes monocromáticas las cuales son analizadas individualmente y aportan información específica sobre los datos. Se propone una estrategia para facilitar la labor del analista a la hora de combinar la información de varios métodos mediante una simple superposición de imágenes basada en un modelo aditivo de colores. Las imágenes son definidas con colores diferentes y combinadas mediante una simple suma de sus componentes de color. Las imágenes resultantes son más completas y robustas, especialmente cuando las imágenes a combinar aportan el mismo tipo de información. El estudio llevado a cabo se centra principalmente en la combinación de matrices de distancias con histogramas de datos. Una alternativa a las matrices de distancias, que generan imágenes monocromáticas y son los métodos más populares para visualizar la estructura de clusters de los datos, consiste en emplear estrategias que ilustren los diferentes clusters mediante colores diferentes. Una de estas estrategias consiste en utilizar modelos de contracción de neuronas. Se presenta un eficiente método de contracción, el "algoritmo de agrupación de neuronas", cuya estructura y filosofía es similar a la del algoritmo de entrenamiento de los MAO, donde los conceptos han sido invertidos para actualizar las posiciones de las neuronas en un mapa continuo en vez de los propios vectores de referencia del MAO. De esta manera, las neuronas son atraídas en el mapa en función de la distancia entre sus vectores de referencia en el espacio de los datos. Su principal ventaja es su bajo coste computacional que lo habilita para analizar MAO de tamaño elevado. Finalmente, el trabajo propone una técnica alternativa basada en la visualización explícita en el mapa o espacio de observación de grafos que unen neuronas cuyos vectores de referencia se hallan próximos en el espacio de los datos, como son el árbol generador mínimo o el "grafo Hebbiano" creado con el principio de aprendizaje Hebbiano competitivo. Las imágenes resultantes ayudan a analizar la dimensión intrínseca de los datos en cada zona del mapa y aportan una medida visual e intuitiva de la preservación de la topología del MAO.