Grafos de vinculación semántica a partir del definiens del DUE

  1. Ortega Martin, Miguel
Dirigida por:
  1. María Matesanz del Barrio Directora
  2. Enrique Bernárdez Sanchís Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 20 de julio de 2021

Tribunal:
  1. María Victoria Escandell Vidal Presidenta
  2. Ana Fernández-Pampillón Cesteros Secretaria
  3. Antonio Moreno Sandoval Vocal
  4. Javier Gómez Escribano Vocal
  5. Carlos Subirats Rüggeberg Vocal
Departamento:
  1. Lingüística, Estudios Árabes, Hebreos, Vascos y de Asia Oriental

Tipo: Tesis

Resumen

Este trabajo explora la relación asociativa entre palabras mediante el uso de grafos para la investigación semántica, en especial, para la investigación de la analogía conceptual en semántica computacional, a partir de los algoritmos propios de la teoría de grafos y del procesamiento de las definiciones lexicográficas del Diccionario de Uso del Español de María Moliner (DUE). El significado es un constructo mental compuesto por multitud de relaciones, fundamentalmente de naturaleza asociativa, marcadas por diferentes motivaciones a través del aprendizaje ofrecido por la experiencia. El diccionario, en este aspecto, representa un gran valor para el estudio del significado computacional, reflejando aquellas asociaciones compartidas por una comunidad de forma más o menos estable en el tiempo y de la manera más objetiva posible. El objetivo del trabajo aquí planteado es el estudio de cómo la estructura recursiva de la definición lexicográfica, en la cual un elemento se define a partir de otros elementos que, a su vez, se definen a partir de otros elementos diferentes, se puede usar para crear grafos de vinculación semántica, gracias a las relaciones que establecen algunos de los elementos del definiens con su definiendum, permitiendo así relacionar palabras en diferentes grados o distancias. De tal manera, esta investigación examina la analogía semántica en función de la distancia que separa dos conceptos a través de las relaciones que estos mantienen con los definidores que se contemplan en sus respectivas definiciones lexicográficas, y en los que, de manera sucesiva, se pueden descomponer, permitiendo diferentes análisis a partir de los denominadores comunes y la red de relaciones que se configura. Para toda palabra existe al menos otra con la que se relaciona mediante n-palabras intermedias en el grafo. Del mismo modo, cada palabra contemplada en el DUE establece diferentes relaciones con cada uno de los elementos de su definiens. Dichas palabras, a su vez, mantienen sus respectivas relaciones con sendos definidores. Como resultado, se ha obtenido un entramado de relaciones de vinculación semántica, reflejado gracias a la construcción de un grafo de propiedades etiquetadas (LPGM, por sus siglas en inglés), usando Neo4j como herramienta de estudio para analizar el significado y para establecer nuevas vías y nuevos parámetros para su comprensión. El establecimiento de distancias semánticas entre los nodos correspondientes a los conceptos procesados del DUE, a partir de las relaciones que estos adquieren con el resto de nodos del grafo, ha permitido aplicar algoritmos de similitud, de caminos más cortos, de centralidad y de comunidades, entre otros, ampliando y enriqueciendo las características del grafo. De tal manera, se ha construido un grafo que da cuenta de las relaciones que vinculan a las palabras entre sí en la medida en la que comparten los mismos definidores, y formando posteriormente nuevas relaciones entre los conceptos gracias a diversos algoritmos de grafos que han permitido enriquecer tanto el número como la calidad de las relaciones que unen cada nodo. Como consecuencia de la red de relaciones construida, el grafo permite generar campos lexicográficos de manera automática, y ofrece interesantes aplicaciones tanto para la Lingüística Teórica como para el Procesamiento del Lenguaje Natural, abriendo nuevas posibilidades para la clasificación automática de textos, la detección automática de temas, la generación de resúmenes automáticos, la desambiguación léxica, la resolución de referencias anafóricas, catafóricas y pronominales, o la resolución de acrónimos y abreviaturas, entre otros.