Banco de Datos SenSem

12 Mar

logo

Información publicada en Infoling: http://www.infoling.org/informacion/RecursoL127.html

Este banco de datos incluye dos corpus, uno de español y uno de catalán (http://grial.uab.es/sensem/corpus) y sus dos respectivos léxicos verbales (http://grial.uab.es/sensem/lexico). El banco de datos SenSem constituye un recurso de gran valor por dos motivos principales. En primer lugar, en la actualidad no disponemos de muchos corpus ni léxicos del español, pero menos aún del catalán. En segundo lugar, este banco de datos incluye aspectos que no suelen venir representados en los corpus anotados y que tienen que ver con la semántica oracional.

Los dos bancos de datos SenSem de español y catalán contienen aproximadamente un millón de palabras y, de éstas, alrededor de medio millón han sido anotadas (455.905 y 391.267, respectivamente). El corpus del español contiene 25.075 oraciones (82,6%) que provienen de fuentes periodísticas y 5.299 (17,4%) que provienen del registro literario. El corpus del catalán engloba las traducciones de todas las oraciones del español de registro periodístico.

En estos dos corpus, las anotaciones, realizadas manualmente, van desde el nivel léxico hasta el nivel oracional. A nivel léxico, los verbos se desambiguan semánticamente y se anota su Aktionsart. Los complementos se anotan independientemente con información diversa: función semántica, categoría sintagmática y función sintáctica. El sintagma verbal también se describe en función de su telicidad y dinamismo. Por último, la oración se describe en función de los siguientes aspectos: topicalización o destopicalización de sujeto lógico, aspectualidad, modalidad y polaridad. La topicalización y destopicalización del sujeto lógico incluye la descripción de las construcciones prototípicas de estas lenguas: pasivas, anticausativas, reflexivas, recíprocas e impersonales, básicamente. Además también se describen otras construcciones pronominales menos habituales como las de dativo. En cuanto a la aspectualidad, se refleja la (im)perfectividad, la temporalidad de la estatividad y los casos de habitualidad (iteratividad de eventos). En la modalidad distinguimos entre oraciones asertivas y no asertivas y para estas últimas distinguimos los casos de futuro de los de pasado-presente, por su relevancia en la interpretación de la factualidad. La interfaz de búsqueda es una herramienta muy potente y permite realizar consultas a partir de distintos criterios para un solo lema, un solo sentido o para todos los verbos.

Los dos léxicos SenSem engloban 1.200 sentidos, de los cuales 1.000 están ejemplificados en el corpus. La descripción de los sentidos se lleva a cabo a través de las respectivas definiciones, el Aktionsart, las funciones semánticas y los esquemas de subcategorización. Dichos esquemas han sido extraídos de las oraciones anotadas del corpus y el usuario puede acceder a dichas frases y a su anotación, ya que los dos léxicos están conectados con el corpus. Para dichos esquemas formales se aporta información sobre la frecuencia y la semántica de la construcción. En el léxico español, estos sentidos están organizados en 250 lemas, que constituyen los verbos para los cuales se han seleccionado 100 frases de registro periodístico y 20 de registro literario. En el caso del catalán, el léxico contiene unos 70 lemas más, ya que se ha confeccionado a partir de la traducción del español y se han usado formas sinónimas en algunos casos. La interfaz de búsqueda de ambos léxicos permite realizar búsquedas por lema, por sentido o por grupos de verbos que comparten la clase aspectual o determinados roles semánticos.

Finalmente, en SenSem se ha construido otra herramienta para obtener el listado de todos los esquemas de subcategorización de cada lengua o aquellos asociados a una construcción determinada. Dicha herramienta está disponible en: http://grial.uab.es/sensem/subcats

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: