Building corpora for the development of a dependency parser for Spanish using Maltparser

  1. Herrera, Jesús
  2. Gervás Gómez-Navarro, Pablo
  3. Moriano, Pedro J.
  4. Muñoz, Alfonso
  5. Romero, Luis
Aldizkaria:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Argitalpen urtea: 2007

Zenbakia: 39

Orrialdeak: 181-186

Mota: Artikulua

Beste argitalpen batzuk: Procesamiento del lenguaje natural

Laburpena

En el presente artículo se detalla el proceso de creación de corpora para el entrenamiento y pruebas de un generador de analizadores de dependencias (Maltparser). Se parte del corpus Cast3LB, que contiene análisis de constituyentes de textos en español. Estos análisis de constituyentes se transforman automáticamente en análisis de dependencias. Además se describe cómo se obtiene, experimentalmente y de manera semiautomática, un conjunto de etiquetas de funcionalidad sintáctica para etiquetar adecuadamente el corpus de entrenamiento. El proceso seguido ha permitido obtener un analizador de dependencias para el español con una precisión del 91% en la determinación de dependencias. obtener un analizador de dependencias para el español con una precisión del 91% en la determinación de dependencias.