Actualizan la versión digital del CORPES XXI
La más reciente versión digital se titula ‘CORPES XXI 0.91’
A+

La Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española (ASALE) publican una nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), un libro de referencia conformado por miles de novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos y discursos; con el objetivo de conocer el significado y características de palabras. La más reciente versión digital se titula ‘CORPES XXI 0.91’ y está disponible de manera gratuita en su portal web.

Dirigido por el académico Guillermo Rojo, el CORPES XXI cuenta en la actualidad con más de 285,000 documentos que suman cerca de 286 millones anotaciones, procedentes de textos escritos y de transcripciones de textos orales. Aproximadamente cuatro millones están constituidos por textos orales y se ofrece, en una parte de ellos, el sonido alineado correspondiente a la transcripción. Además, en varios casos es posible la descarga del archivo de audio o la visualización del vídeo del documento fuente.

Los textos procedentes de libros suponen más de 140 millones de formas. Por lo que respecta al bloque de ficción (novelas, guiones, relatos, obras de teatro) las formas del CORPES XXI sobrepasan los 81 millones, mientras que las contenidas en textos de no ficción (ciencias sociales, salud, política, artes, tecnología, entre otros) se acercan a los 207 millones. Por su parte, la prensa está representada con aproximadamente 142 millones de formas. Cinco millones más provienen de blogs, entrevistas digitales y miscelánea.

Cabe señalar que en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

PARÁMETROS

Los textos que integran el CORPES se seleccionan de acuerdo con una serie de parámetros, estipulados por la RAE, y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos.

Puedes encontrar más contenido como este siguiéndonos en nuestras redes sociales de Facebook y Twitter.