Corpus del Español: Two Billion Words

26 Nov

corpus-del-espanol-buscar-palabras

 

 

 

Información aparecida en Linguist LIST: http://linguistlist.org/issues/27/27-4531.html

 

From: Mark Davies mark_davies@byu.edu

 

Subject: Corpus del Español: Two Billion Words

 

Nos complace anunciarles que ya se puede acceder a la nueva versión del Corpus del Español en http://www.corpusdelespanol.org (y, desde esta semana, tanto la interfaz como los archivos de ayuda están disponibles en inglés y en español).

 

– El nuevo corpus contiene 2000 millones de palabras, lo que supone 100 veces más que la sección del siglo XX del Corpus del Español original.

– Las búsquedas que producían entre 15 y 20 resultados al consultar el antiguo corpus pasarían a ofrecer ahora entre 1.500 y 2.000 resultados.

– Además, los textos son más recientes (tomados de los últimos tres o cuatro años).

– Es posible comparar frecuencias de palabras, sintagmas y construcciones sintácticas entre los 21 países hispanohablantes incluidos en el corpus.

– También es posible hacer uso de los potentes “corpus virtuales” para crear y consultar corpus personalizados a partir del corpus principal (subcorpus sobre un ámbito específico de las ciencias, un deporte determinado o cualquier otra área de interés).

– Hemos implementado una nueva interfaz para este nuevo corpus, que también funciona con el Corpus del Español original. Esta interfaz tiene una apariencia mucho más “limpia”, con mejores archivos de ayuda y funciona muy bien con dispositivos móviles (tabletas e incluso celulares).

– Ambos corpus están ahora disponibles con la interfaz y los archivos de ayuda tanto en inglés como en español. (Gracias a Gerardo Cruz por su ayuda con las traducciones).

 

En definitiva, creemos que el nuevo corpus goza de grandes ventajas en relación con otros grandes corpus del español, como el CORPES (RAE) y los corpus del español de SketchEngine y Corpora on the Web (se puede consultar una comparativa en nuestra web).

 

 

************

espanol1

************

 

We are pleased to announce that a new addition to the Corpus del Español is now available at http://www.corpusdelespanol.org. (Note that while the new corpus has been online for a few weeks, the interface and help files are now available in both English and Spanish).

 

– The new corpus contains two billion words of data, which makes it 100x as large as the 1900s portion of the original Corpus del Español.

– So where you might have had just 15-20 tokens of a word or construction in the older corpus, you might now have 1,500-2,000 tokens.

– The texts are more recent as well – they are all from the last 3-4 years.

– You can compare the frequency of words, phrases, and syntactic constructions in the 21 different Spanish-speaking countries in the corpus.

– You can also use powerful “virtual corpora” to create and use customized corpora within the main corpus, such as a particular field of science, a certain sport, or any other area of interest.

– There is a new interface for the new two billion word corpus, as well as the original 100 million word Corpus del Español. This interface has a much “cleaner” interface, better help files, and they work great on mobile devices (tablets and even cell phones).

– As mentioned, both corpora are now available with an interface and help files in both English and Spanish. (Thanks to Gerardo Cruz for his help with the translations).

 

In summary, we believe that the new corpus has important advantages over other large corpora of Spanish, such as CORPES (RAE) and the Spanish corpora from Sketch Engine and Corpora on the Web (see comparisons online).

 

 

——————–

 

 

 

 

 

 
 

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: