Como viene siendo habitual en nuestras reuniones anuales, en el pasado Encuentro de Morfólogos (celebrado en la Universidad Complutense de Madrid los días 5 y 6 de octubre de 2023) se presentaron diversos pósteres que mostraban trabajos en curso de jóvenes (y no tan jóvenes) investigadores.
Dado que se trata de trabajos en vías de realización –sometidos, por ello, a posibles críticas, sugerencias y comentarios de ayuda–, hemos considerado interesante dedicar un post individual para cada uno de los pósteres presentados.
¡Serán muy bienvenidos los comentarios de los lectores de este blog!
Hoy acabamos con…
A Distributional Semantics approach to competition
in Italian deadjectival verb formation
Nicola Cirillo, Maria Pina De Rosa, Alessandro Maisto, Flavio Pisciotta
Università degli Studi di Salerno
El póster describe las fases iniciales de un trabajo que pretende investigar la competición entre los mecanismos de formación de verbos deadjetivales en italiano a través de técnicas de Semántica Distribucional.
Los procesos disponibles para la formación de verbos a partir de adjetivos son la sufijación, la conversión (o derivación cero) y la parasíntesis. Los tres procesos permiten la codificación de eventos de cambio de estado, el tipo más comúnmente expresado por los verbos deadjetivales; las situaciones de tipo estativo o continuo, por otra parte, pueden codificarse mediante sufijación y conversión (cf. Panel 3 del poster). El objetivo del estudio es comprobar, a partir de datos de corpus, qué procesos (y patrones) forman verbos más similares desde el punto de vista de la distribución (tanto a nivel general como examinando los verbos formados por un mismo adjetivo) y arrojar luz sobre las condiciones de coexistencia de verbos co-radicales con el mismo significado.
Para valorar automáticamente la similaridad semántica entre pares de verbos formados a partir de una misma base (co-radicales) por procesos diferentes hemos empleado un modelo de Semántica Distribucional llamado Word2Vec. La Semántica Distribucional (SD) es una técnica computacional basada en el asunto que palabras semánticamente similares presentan contextos similares (Harris, 1954). Los modelos de SD colectan valores de co-ocurrencia entre palabras en enormes corpuses textuales, generando, por cada palabra un vector distribucional. Comparando dos vectores con algoritmos como la similaridad del coseno o la correlación de Pearson, es posible extraer un valor de similaridad que representa la similaridad entre las palabras representadas por el vector.
La investigación, basada en un dataset de 784 verbos (cf. Panel 4), ha constado de tres etapas.
- Como primer paso hemos extraído los vectores medios de los procesos morfológicos calculando la puntuación media de cada verbo formado por un determinado proceso. Comparando estos vectores con la Similaridad del Coseno, se han calculado los procesos más similares desde el punto de vista de la distribución. El Panel a contiene una tabla que muestra la similaridad entre vectores medios de procesos morfológicos y un espacio cartesiano con la representación gráfica de cada vector. Por ejemplo, como podemos observar, parasíntesis y conversión presentan vectores muy similares, que se refleja en la proximidad entre los dos vectores en el plano cartesiano.
- En segundo lugar, hemos extraído valores de similaridad semántica entre todos los pares de verbos formados por procesos diferentes a partir de la misma base (que son los que cabe esperar que compitan en primer lugar), calculando la similaridad media entre pares de verbos. En el Panel b podemos observar la similaridad media entre pares de co-radicales calculada automáticamente (tabla a la izquierda). Así pues, decidimos considerar más detenidamente la parasíntesis y la conversión porque: i) son los procesos que co-occurren con mayor frecuencia; ii) aunque por término medio los verbos convertidos y parasinteticos resultaron ser similares desde el punto de vista de la distribución, el análisis de las pares corradicales revela un grado de similaridad que no es tan alto como cabría esperar. A continuación hemos realizado una evaluación manual de la semántica de estos pares basándonos en los significados recogidos en el diccionario GRADIT. Observando el diagrama de caja, podemos notar que por término medio, los valores automáticos reflejan los juicios derivados de las definiciones lexicográficas.
- Por fin hemos examinado el caso de un par de verbos corradicales formados por conversión y parasíntesis, quietare y acquietare ‘calmar’, que son muy similares tanto desde el punto de vista semántico y distribucional como frecuencial, diferenciándose así de la mayoría de los pares, para los que una alta similitud distribucional se corresponde con una baja similitud en términos de frecuencia. Hemos generado un gráfico extrayendo las 20 palabras más similares a los dos verbos y las 5 palabras más cercana a cada una de esas veinte. El gráfico ha sido realizado por el software Gephi, empleando un algoritmo de clasificación llamado modularity para generar clases de palabras (diferenciadas por colores). La disposición de los elementos refleja el peso de los arcos, que en nuestro caso representa los valores de similaridad semántica extraídos por el vector distribucional. Para que la representación sea más clara también hemos generado el mismo gráfico (a la izquierda) para un par de verbos que, aunque formados a partir del mismo adjetivo, expresan significados completamente diferentes, uno literal y otro figurado: lucidare ‘limpiar, abrillantar’ y delucidare ‘elucidar’: los dos verbos generan palabras de ámbitos completamente diferentes y tienen un valor de similaridad muy bajo (0.51). En el gráfico de la derecha, por el contrario, se aprecian claros superposiciones en la red, dada la elevada similaridad (0,95). Sin embargo, esto no impide la existencia de nichos pertenecientes a uno solo de los miembros de el par.
Con este estudio, empezamos a explorar el potencial de un enfoque computacional y corpus-based para el estudio de la competición en la formación de palabras en italiano, un potencial que, al menos en lo que respecta a esta lengua, aún no se ha aprovechado plenamente.
8. GRUPO ITALIANO. PÓSTER EN PDF. UCM 2023