Reconocimiento y clasificación de entidades nombradas en documentos medievales (s. XIV)Libro Becerro de las Behetrías
- Iglesias Moreno, M Eugenia
- José Antonio Moreiro González Zuzendaria
- Pilar Azcárate Aguilar-Amat Zuzendarikidea
- Sonia Sánchez Cuadrado Zuzendarikidea
Defentsa unibertsitatea: Universidad Carlos III de Madrid
Fecha de defensa: 2017(e)ko iraila-(a)k 22
- Cristina Jular Pérez-Alfaro Presidentea
- Diego Navarro Bonilla Idazkaria
- Francisco Carlos Paletta Kidea
Mota: Tesia
Laburpena
El desarrollo de técnicas computacionales ha pasado a formar parte del escenario de investigación en las Humanidades. En el ámbito de estudio de los testimonios textuales de la época medieval, las técnicas de procesamiento del lenguaje natural (PLN) han transformado significativamente los métodos, abriendo la posibilidad de generar nuevas preguntas de investigación. El procesamiento del lenguaje natural (PLN) ofrece diferentes aplicaciones como la traducción automática, recuperación y extracción de información, reconocimiento del habla, minería de textos, entre otras. Dentro de la extracción de información (Information Extraction- IE) se define la subtarea de reconocimiento y clasificación de entidades nombradas EN (Named Entities- NE) cuyo objetivo es la identificación de nombres propios de personas, lugares y organizaciones principalmente. Los sistemas para el reconocimiento y clasificación de EN (NERC- Named Entity Recognition and Classification) utilizan habitualmente técnicas basadas en gramáticas lingüísticas, métodos estadísticos y gazetteers o listados de términos. En esta tesis se propone un método para la explotación de corpus de documentación medieval mediante sistemas de PLN, con el objetivo de la identificación y clasificación automatizada de las EN y sus relaciones para la posterior puesta a disposición, en abierto, de los datos extraídos a través de una plataforma web. Para ello, se ha llevado a cabo un estudio de caso utilizando la aplicación Freeling para español estándar y la variante diacrónica del español de los siglos XII al XVI en un corpus formado por los documentos que componen el Libro Becerro de la Behetrías de Castilla, del siglo XIV. Mediante el análisis de los problemas surgidos en la anotación automática se elabora una propuesta de adaptación para el etiquetado de las EN que no contienen triggers denominadas simples y se diseña una aplicación para la identificación de las entidades anidadas o complejas y sus relaciones. Para la evaluación de los resultados obtenidos fue necesaria la elaboración de un corpus anotado de forma manual que constituyese un gold standard, que con los niveles obtenidos de precisión, cobertura y medida F (F-measure), permitieron elaborar de forma semiautomática los gazetters de personas, lugares y organizaciones. Para su almacenamiento se diseñó una base de datos relacional en MySQL que permitiese su publicación en una plataforma web en PHP. Esta plataforma ofrece una interfaz de consulta para los usuarios en general e investigadores de diferentes disciplinas, que cuenta además con la opción de descarga de los programas desarrollados y gazetteers elaborados. Esto la convierte a su vez en una fuente de información para la reutilización e integración de los mismos en otros proyectos dentro de las Humanidades Digitales. Los resultados obtenidos en este estudio de caso ponen de manifiesto que la aplicación de este método abre las posibilidades de investigación, con otros sistemas de PLN, en corpus de documentación medieval para el reconocimiento y extracción de ENs.