Dumgupeyem: analizador y generador morfológico para el mapudungun

1 Jun

Como viene siendo habitual en nuestras reuniones anuales, en el pasado Encuentro de Morfólogos (celebrado en la Universitat Autònoma de Barcelona los días 7 y 8 de mayo de 2015) se presentaron diversos pósteres que mostraban trabajos en curso de jóvenes (y no tan jóvenes) investigadores.

Dado que se trata de trabajos en vías de realización –sometidos, por ello, a posibles críticas, sugerencias y comentarios de ayuda–, hemos considerado interesante dedicar un post individual para cada uno de los pósteres presentados. ¡Serán muy bienvenidos los comentarios de los lectores de este blog!

Hoy vamos con la segunda entrega…

2. CHANDÍA Poster Barcelona 2015

Dumgupeyem: analizador y generador morfológico para el mapudungun

Andrés Chandía

Universitat Pompeu Fabra

andres@chandia.net

Nuestra propuesta se enmarca en el ámbito de la lingüística computacional y tiene relación con el desarrollo de herramientas informáticas para lenguas minoritarias, la investigación sobre aplicaciones de ejecución no supervisada, y la definición de ciertas reglas de combinación entre raíces y sufijos en el mapudungun, el idioma de los mapuche, un pueblo aborigen de América del Sur que hoy habita territorios ubicados al sur de Chile y Argentina, aunque la migración a las ciudades ha restaurado su presencia en las zonas norteñas de ambos países; de todas maneras, los mapuche son más numerosos en el lado oeste de la Cordillera de los Andes, en Chile.

La cantidad de habitantes mapuche se estima en cerca de setecientas mil personas (los datos varían según los censos), de los cuales solo un 30%, aproximadamente, son hablantes, con diferentes grados de competencia, de mapudungun.

El mapudungun es una lengua de tipo polisintético aglutinante, es decir, tiene una estructura interna compleja, compuesta por una serie de morfemas que se combinan según pautas muy acotadas y, a su vez, estos morfemas son claramente segmentables. Otra característica importante de esta lengua es la incorporación de palabras completas, incluso series de palabras, en la estructura del verbo. Afortunadamente existen algunos estudios lingüísticos sobre el mapudungun, por lo que no se camina tan a ciegas al momento de desarrollar instrumentos informáticos que permitan la exploración de esta lengua. Sin embargo, todavía hay mucho por documentar sobre la lengua de los mapuche, situación que hemos comprobado al intentar definir, por ejemplo, qué tipo de raíces nominales y adjetivales son las que combinan con uno u otro tipo de sufijos verbalizadores, los que posibilitan que dichas raíces puedan generar un predicado verbal; esta situación se repite en otros ámbitos de la lengua que no han sido estudiados pormenorizadamente.

Creemos que el desarrollo de herramientas lingüístico-computacionales para el mapudungun pondrá al servicio de los lingüistas, y de quien quiera utilizarlas, medios valiosos para describir aquellos fenómenos que aún siguen sin ser comprendidos o estudiados. Dentro de la explosión actual en la cantidad de información y de los medios para acceder a ella, una buena parte del mundo ha quedado atrás porque la información se ha generado en las lenguas predominantes, sobre todo en inglés. Los miles de idiomas utilizados por las minorías tienen una representatividad mínima cuando no, nula. Concentrar esfuerzos en una lengua minoritaria como el mapudungun, tenemos la esperanza, rendirá frutos aplicables a otras lenguas minoritarias de la misma tipología, en general lenguas de la zona de América del Sur, que son incluso más desconocidas que la que nosotros tratamos.

El proyecto que proponemos es, según lo vemos, solo el principio de un desarrollo continuo de herramientas computacionales aplicadas al estudio de las lenguas. Nosotros comenzaremos con un MAG (Morphological Analizer and Generator) basado en FST. Este sistema ya hemos comenzado a ponerlo en práctica, y pensamos que llevamos un buen camino recorrido, hemos logrado incluir el análisis y generación del predicado verbal mapuche, el eje y parte más extensa y complicada de esta lengua, al menos en sus formas más elementales. Nos falta concluir y afinar el trabajo hecho sobre las formas verbales, incluir, por ejemplo, la movilidad de algunos sufijos, las estructuras verbales nominalizadas, y extenderlo a las otras partes de la lengua.

2. CHANDÍA. PÓSTER EN PDF. BARCELONA 2015

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: