1.3 Descripción de corpus existentes

En esta descripción se buscará, en la medida de lo posible, describir el corpus conforme a la tipología dada en el punto anterior.

Historia de la lingüística de corpus:

1940    Concordancia de la obra de Santo Tomás de Aquino por el Padre Busa (CD-ROM en 1992).

1960    Survey of English Usage (SEU) de RAndolph Quirk, material transcrito en fichas de cartón.

1964    Brown University Corpus, con un millón de palabras de inglés USA (versión anotada en 1979).

1978    Lancaster-Oslo/Bergen Corpus (LOB), inglés británico (etiquetada en 1986).

1980    London-Lund Corpus of Spoken English, versión electrónica del SEU.


Información adicional sobre distintos corpus se encuentra en:

1.3.1 Corpus Diacrónico del Español (CORDE)

El Corpus diacrónico del español (CORDE) es un corpus textual de todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1975, en que limita con el Corpus de referencia del español actual. El CORDE está diseñado para extraer información con la que estudiar las palabras, sus significados, la gramática y su uso a través del tiempo.

Su andadura comenzó en 1994, cuando la Real Academia Española se planteó la posibilidad de aplicar las nuevas técnicas informáticas para construir un banco de datos que mejorara la calidad de sus materiales de trabajo y el acceso a estos. Hasta octubre de 2001 cuenta en la actualidad con más de 136 millones de registros. Este volumen de información es el mayor conjunto de registros de la historia de la lengua española.

El corpus recoge textos escritos de muy diferente género. Se distribuyen estos en prosa y verso y, dentro de cada modalidad, en textos narrativos, líricos, dramáticos, científico-técnicos, históricos, jurídicos, religiosos, periodísticos, etc. Se pretende recoger todas las variedades geográficas, históricas y genéricas para que el conjunto sea suficientemente representativo.

Hoy es fuente obligada para cualquier estudio diacrónico relacionado con la lengua española. La Academia utiliza sistemáticamente el CORDE para documentar palabras, para calificarlas de anticuadas o en desuso, para saber el origen de algunos términos, su tradición en la lengua, primeras apariciones de palabras. Pero uno de los cometidos fundamentales del Corpus diacrónico será servir de material básico para la confección del Diccionario histórico.

El CORDE es un corpus textual ya que solo recogerá textos, también es un corpus general ya que abarcará varios temas como los históricos, jurídicos, etc., es un corpus monolingüe ya que solo será para el español.

1.3.2 Corpus de Referencia del Español Actual (CREA)

El Corpus de referencia del español actual (CREA), constituido por la Real Academia Española, es un banco de datos del español contemporáneo, es decir, un conjunto de textos de diversa procedencia, almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sus significados y contextos.

El CREA cuenta hasta octubre de 2001 con 130 millones de registros, que está previsto vayan aumentando hasta conseguir al menos 160 millones, a finales de 2004. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta la actualidad. Los textos escritos, procedentes tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, procedentes, en su mayor parte, de la radio y la televisión.

El CREA es, hoy por hoy, la única herramienta lingüística de gran magnitud existente para lengua española. Debe ser el punto de partida forzoso para investigaciones de diverso tipo, principalmente aquellas estrictamente lingüísticas, pero también pertenecientes a campos tan dispares como el de la publicidad, la terminología o la sociología, así como para la elaboración de una enorme cantidad de productos derivados: gramáticas, diccionarios, tesauros, correctores ortográficos, métodos de didáctica del español, desarrollos informáticos de traducción automática, etc.

El CREA es un corpus general, un corpus de referencia, es un corpus especializado ya que se quiere extraer información para estudiar las palabras, sus significados y contextos, es un corpus monolingüe por que solo será del español.

1.3.3 Corpus del Español Mexicano Contemporaneo(CEMC)

El Corpus del Español Mexicano Contemporaneo(CEMC) es un corpus de referencia constituido específicamente como base para la contrucción del Diccionario del Español de México (DEM), elaborado en El Colegio de México bajo la dirección de Luis Fernando Lara, iniciado en 1973 La información sobre el CECM se encuentra en el libro Investigaciones Lingüísticas en Lexicografía[1].

1.3.4 Corpus del Español de Mark Davies

El Corpus del Español de Mark Davies, de la Universidad de Brigham Young, contiene 100 millones de palbras delespañol de los siglos XIII a XX. Cuenta con un buscador que permite búsquedas complejas.

1.3.5. Corpus del Grupo de Ingeniería Lingüística (GIL)

El Grupo de Ingeniería Lingüística, en el Instituto de Ingeniería de la UNAM, cuenta con tres corpus en desarrollo: el Corpus Lingüístico en Ingeniería (CLI), el Corpus Histórico del Español de México (CHEM) y el Corpus de las Sexualidades en México (CSMX).

1.3.6 Archivo de textos hispánicos (ARTHUS)

El Archivo de textos hispánicos de la Universidad de Santiago de Compostela contiene en la actualidad textos pertenecientes a diferentes etapas de la historia del español. Todos ellos han sido introducidos en ordenador mediante escáner y programas de reconocimiento óptico de caracteres, están en formato ASCII y tienen una codificación mínima en formato COCOA que permite, con los programas de recuperación adecuados, conocer texto, página y línea en que se encuentran los ejemplos buscados.

La parte contemporánea comprende en la actualidad treinta y cuatro textos narrativos, teatrales, ensayísticos, periodísticos y orales procedentes de España e Hispanoamérica con un total aproximado de 1,450,000 formas.

El corpus incluye textos de diferentes períodos de la historia de la lengua española y correspondiente a distintos géneros literarios y periodísticos, así como también transcripciones de textos orales.

ARTHUS es un corpus textual, así mismo es un corpus específico ya que solo contiene textos históricos, es un corpus monolingüe por que solo abarca al español, es un corpus codificado.

1.3.7 Proyecto Corpus Resources and Terminology Extraction (CRATER)

El proyecto europeo CRATER (Corpus Resources and Terminology Extraction) es un corpus de textos técnicos consistente en textos de la ITU (International Telecommunications Union), etiquetado morfológicamente e incluye el alineamiento de frases con sus equivalentes francés e inglés; este corpus está disponible en la Universidad Autónoma de Madrid.  Para este proyecto fue creado un etiquetador part-of-speech en español.

Generado este recurso el proyecto rectificó errores en las versiones inglesas y francesas una vez existente el corpus, así mismo los errores alejados del corpus en español.  El corpus contiene un millón de palabras que ha demostrado ser de beneficio para proyectos en el área de traducción automática,  la lingüística computacional y corpus en general.

Una aportación final del proyecto fue el de crear un juego de herramientas para la recuperación del corpus, y examinar las alineaciones de términos o palabras entre los distintos idiomas que lo conforman.

El corpus CRATER es un corpus textual, así como, un corpus específico ya que sólo fue creado para la ITU, es un corpus multilingüe ya que abarca tres lenguajes: español, inglés y francés; es un corpus codificado ya que fue etiquetado morfológicamente. 

1.3.8 Proyecto Corpus: Corpus textual especializado plurilingüe

El proyecto Corpus es el proyecto de investigación prioritario del IULA (Instituto Universitario de Lingüística Aplicada) de la Universidad Pompeu Fabra, Barcelona. Recopila textos escritos en cinco lenguas diferentes (catalán, castellano, inglés, francés y alemán) de las áreas de especialidad de la economía, el derecho, el medio ambiente, la medicina y la informática. A través del establecimiento del corpus, se intentan inferir las leyes que rigen el comportamiento de cada lengua en cada área. Este corpus es el soporte principal de las actividades de investigación y docencia del IULA. 

Las investigaciones previstas sobre el corpus son las siguientes: detección de neologismos y términos, estudios sobre variación lingüística, análisis sintáctico parcial, alineación de textos, extracción de datos para la enseñanza de segundas lenguas, extracción de datos para la construcción de diccionarios electrónicos, elaboración de tesaurus, etc. 

Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas (derecho, economía, medio ambiente, medicina e informática). Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el "Corpus Encoding Standard” (CES) de la iniciativa EAGLES.

El procesamiento de los textos del corpus sigue los siguientes pasos: 

  • marcaje estructural
  • preproceso (detección de fechas, números, locuciones, nombres propios...) 
  • análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintacticos diseñados en el IULA.
  • desambiguación lingüística y/o estadística
  • almacenamiento en una base de datos textual

El proyecto corpus es un corpus textual, también es un corpus específico debido a que abarca sólo áreas de especialidad como la economía, el derecho, el medio ambiente, la medicina y la informática.  Es un corpus multilingüe porque abarcará catalán, castellano, inglés, francés y alemán.  Es un corpus codificado porque es con una anotación estructural.

1.3.9 Archivo Gramatical de la Lengua Española (AGLE)

El Archivo Gramatical de la Lengua Española de Salvador Fernández Ramírez, orientado hacia los estudios gramaticales, está constituido por más de 100,000 fichas de texto escrito y oral recogidas durante alrededor de 50 años por el gramático español Salvador Fernández Ramírez (1896-1983). El Archivo ilustra una serie de construcciones sintácticas del español, y está ordenado de manera equivalente al de una gramática.

Actualmente se está editando y anotando en el Instituto Cervantes para ser consultado de manera ágil, gracias a una base de datos para clasificar la información. El Archivo en su primera entrega consta de unos 75 ficheros, cada uno de los cuales contiene alrededor de 1,500 fichas a las que el autor se refiere siempre como cédulas. No todos los ficheros poseen el mismo grado de ordenación interna ni todos poseen una articulación similar. Los ficheros seguían aproximadamente el orden que el autor tenía previsto para su Gramática, pero aun así eran muy numerosas las fichas que se agrupaban en apartados como VARIOS o SIN CLASIFICAR. La intención de este archivo es de respetar las clasificaciones establecidas, ordenar las partes menos articuladas, clasificar las fichas que el autor no llegó a ordenar, y completar, sin añadir ni una sola papeleta, los bloques temáticos existentes tomando siempre como guía el criterio que hubiera sido el de su gramático.

1.3.10 Base de datos ETDEWEB

La base de datos ETDEWEB contiene la colección más grande del mundo de la literatura sobre energía.  Con más de 3.8 millón archivos abstraídos.  El banco de datos contiene referencias bibliográficas  y artículos de periódico, informes, conferencias, libros, y otros tipos de documentos. El banco de datos cubre varios aspectos medioambientales del uso y producción de energía y políticas de energía y planeación de ésta, así como las ciencias básicas que apoyan investigación de energía y desarrollo.  

El banco de datos contiene citas publicadas mundialmente considerando áreas como la: nuclear, carbón, y la información de cambio de clima global.  Los usuarios del Banco de datos de Energía de ETDEWEB son tan diversos como los temas que se cubren en ésta: científicos, ingenieros, bibliotecarios, líderes de industria, y estudiantes. El Banco de datos de Energía de ETDEWEB está disponible a cualquier país miembro de ETDEWEB (México, Estados Unidos, Japón, entre otros) y para cualquier organización, biblioteca, o institución de algún país miembro. Esto beneficia llevando oportunidades inestimables para aquéllas áreas comerciales y académicas, así como para organizaciones gubernamentales.

ETDEWEB está públicamente disponible vía Internet como ETDEWEB, y en varios formatos a través de los organizadores del online comerciales y en productos de CD-ROM.

El banco de datos ETDEWEB es un corpus textual, lo referente a la especificidad de los textos es un corpus especializado o específico, ya que solo trata temas relacionados con la energía.

1.3.11 María

María es el corpus de una niña, desde el año y medio a los cuatro años, interactuando con sus padres, en sesiones de 30 minutos. Transcrito por Susana López Ornat, de la Universidad Complutense de Madrid, con información lingüística (etiquetas morfológicas) y psicolingüística. Se codificó con información ortográfica.

1.3.12 Corpus del Derecho Ambiental Mexicano (CDAM)

Compilación de leyes, reglamentos y Normas Oficiales Mexicanas en materia de ecología, en un archivo de 576,686 palabras (5.7 Mb) y una clasificación conforme a las fuentes. Este corpus fue recopilado por Elena Bogomilova Lozanova del Centro de Estudios Lingüísticos y Literarios, El Colegio de México, para la identificación de la terminología en Derecho Ambiental.

1.3.13 British National Corpus (BNC)

El British National Corpus contiene unos 100 millones de palabras de textos hablados (10%) y escritos (90%) en inglés británico. El proyecto fue realizado de 1991 a 1994 por un consorcio formado por prestigiosas editoriales, centros de investigación, universidades, la Librería Británica y patrocinadores de la industria. Se buscó tener una buena representatividad de los textos (por ejemplo, para las grabaciones de los textos orales se usaron conversaciones informales de voluntarios de diferente edad, sexo, región y clase social, así como lenguaje hablado de reuniones gubernamentales, programas de radio, llamadas telefónicas, etc.) y usar las normas internacionales para la codificación y etiquetado del corpus, a fin de garantizar su empleo para múltiples propósitos (reconocimiento y síntesis de voz, lexicografía, estudios literarios, e inteligencia artificial, entre otros).

1.3.14 Otros

·        El Corpus de verificación del sistema de diccionarios y gramáticas electrónicos del español (CorVerifSDGEE). Un corpus textual directamente relacionado con el Sistema de Diccionarios y Gramáticas Electrónicos del Español, con el fin de verificar la cobertura léxica de los diccionarios y la fiabilidad de los programas de tratamiento automático de la información textual.

·        SISCOOR (Sistema de consultas coordinadas). La Universidad Politécnica de Valencia, en el marco de este proyecto, desarrolló un corpus que contiene textos científicos y técnicos, así como la trascripción de texto oral de medios de comunicación, con el objetivo de abordar diversos problemas sintácticos. La segunda versión está en desarrollo.

·    El Corpus del español de la República Argentina y el Corpus Chileno de Referencia. Son dos corpus de carácter general, disponibles en la Universidad Autónoma de Madrid, que abarcan una gran variedad de tipos de textos del español escrito, si bien están restringidos a dos áreas geográficas específicas.

·        Corpus de la IBM España. Contiene a una gran variedad de tipos de textos y cuya finalidad ha sido la extracción de datos estadísticos para el modelo de lenguaje utilizado en el proyecto TANGORA.  Este proyecto se trata de un sistema dependiente del locutor para grandes vocabularios. Su principal interés es un proceso de adaptación a un nuevo locutor que requiere 20 minutos para leer 100 frases de 1,200 palabras, 700 de las cuales son distintas.

·        CUMBRE. Es un conjunto de datos lingüísticos representativos del uso del español contemporáneo, recogidos por la editorial SGEL, S.A., bajo la supervisión de A. Sánchez (Universidad de Murcia); aunque sus fines son gramaticales y lexicográficos, se puede clasificar como un corpus con fines generales, dada la diversidad de materiales que incluye.