1.2 Tipología y Clasificación de corpus

En la figura 1 se muestra una tabla que facilita la clasificacion y la distincion entre los diferentes tipos de corpus.

Fig. 1

Tipología y Clasificación de corpus
Corpus Orales Corpus oral sonoro  
Corpus oral transcrito Fonéticas y Fonológicas
Ortográficas
Corpus Textuales    
Premeditado    
No Premeditado    
Simple Sin codificación  
Diversos formatos  
Codificado o Anotado Textual Estructura Textual
Tipología Textual
Ortográfica
Morfológica Lematización
Tokenización
POS Tagging
Morfosintáctico
Sintáctica Chunking
Parsing
Semántica Características Semánticas
Ontológica
Relaciones Semánticas
Fónica Fonética
Fonológica
Prosódica
Discursiva Anafórica y Referencial
Pragmática  
Generales    
Especializados o Específicos Literarios Ensayo
Narración
Poesía
Teatro
Epístola
Informativo Periodístico
Científico
Académico
Técnico
Genérico (De un Género Literario)    
Canónico (Textos de un Sólo Autor)    
Sincrónico Contemporáneo  
Periódico  
Diacrónico Cronológico  
Histórico  
Multipropósito De referencia  
Para propósitos específicos De estudio  
De entrenamiento  
Monolingüe Según la variedad dialectal  
Multilingüe Elementos en distintos idiomas  
Comparables  
Paralelos  
Grande    
De referencia    
Léxico    
Pequeño    
Monitor    
Equilibrado Piramidal  
Desequilibrado    
Público Comerciales  
No Comerciales
Privado    
Documentado    
No documentado    
Representativo    
Oportunista    


Mayor información sobre la clasificacion de corpus puede encontrarse en el artículo de:

 

1.2.1 Según el origen de los textos (Modo)
Se puede hablar de dos diferentes tipos de corpus según el origen; corpus textuales y corpus orales. Los corpus textuales consisten, como su nombre lo indica, en todo lo relacionado con lo que esta escrito, mientras que los orales pueden dividirse en orales sonoros y orales transcritos. Los orales sonoros son los que están formados por grabaciones de cualquier tipo, mientras que los orales transcritos son las transcripciones de lengua oral. Entre los ejemplos de corpus orales se encuentran el corpus DIME, en espanol, y el London-Lund corpus, para el inglés. De corpus textuales, se encuentran el Lancaster Oslo/Bergen corpus (LOB), en inglés. Asimismo, es posible encontrar corpus que contienen tanto textos orales como escritos, como es el caso del CREA, en espanol, y del British National Corpus (BNC), en inglés.


1.2.2 Según su espontaneidad


La espontaneidad es la premeditación con la que un hablante produce lengua. Por eso tanto los corpus textuales como los orales pueden clasificarse de acuerdo con su espontaneidad. Así, un corpus oral sonoro que conste de grabaciones de personas que leen algo previamente escrito (como un discurso o una conferencia) se clasifica como premeditado. De la misma forma, un corpus del mismo tipo que contenga grabaciones de pláticas no premeditadas (como puede ser una conversación por teléfono) se clasificará como no premeditado. Por consiguiente, un corpus textual que contiene varias conversaciones hechas a través de un chat se clasifica como espontáneo, ya que ese tipo de conversaciones, en su mayoría, no son premeditadas y otro corpus textual, que conste de artículos de periódico será premeditado.


1.2.3 Según su codificación y anotación


También existe una clasificación de corpus según la codificación y anotación. Dentro de ella, encontramos el corpus simple y el corpus codificado o anotado. El corpus simple es el que ha sido guardado en un formato ASCII y que no tiene una codificacion para ninguno de sus aspectos. Mientras que el corpus codificado o anotado, es aquel corpus que está formado por textos a los cuales se ha añadido electrónica o manualmente, etiquetas para reconocer algunos de sus elementos en los documentos. Ahora bien, un corpus es la representación de una lengua y, como tal, puede utilizarse para analizar cualquiera de los niveles de ésta.


Cada nivel de la lengua exige un determinado tipo de anotación. Para ejemplificar esto, veamos una parte del cuadro de clasificación de corpus en la figura 2:


Fig.2

Codificación y Anotación
Simple Sin codificación  
Diversos formatos  
Codificado o Anotado Textual Estructura Textual
Tipología Textual
Ortográfica
Morfológica Lematización
Tokenización
Morfosintáctico POS Tagging
Sintáctica Chunking
Parsing
Semántica Características Semánticas
Ontológica
Relaciones Semánticas
Fónica Fonética
Fonológica
Prosódica
Discursiva Anafórica y Referencial
Pragmática  

 

1.2.4 Según la especificidad de los textos


Existen, también, clasificaciones de los corpus según la especificidad de los textos. Así, tendremos corpus generales y corpus especializados o también llamados especificos. Los generales se encargan de recoger todo tipo de géneros y son útiles para describir la lengua común de una colectividad. Los corpus especializados, al contrario de los generales, recogen material que puedan aportar datos para la descripción de un área o tema en particular. Dentro de los específicos, podemos colocar dos clasificaciones más; los que contienen textos literarios y los que se conforman de textos informativos.


1.2.5 Según su Autoría


La autoría es otro parámetro para clasificar corpus. Si todos los textos del corpus corresponden a un género literario, se tratará de un corpus genérico, mientras que, si todos los textos son de un solo autor, será un corpus canónico. Por otro lado, si los textos no comparten alguno de los criterios anteriores, será un corpus de autoría variada.


1.2.6 Según su Tiempo


En primer lugar, para especificar el tiempo de un corpus debemos decir si es Sincrónico o Diacrónico. Llamamos sincrónico a un corpus que contiene textos de un momento específico en el tiempo, mientras que por corpus diacrónico, entendemos al que compara, confronta o relaciona muestras linguísticas a través de varios peridos de tiempo. Ahora bien, no debemos confundir un corpus diacrónico con un corpus de documentos antiguos ni uno sincrónico con el que contenga documentos actuales. Puede haber, entonces, un corpus sincrónico que contenga documentos antiguos y, de la misma forma, puede existir un corpus diacrónico del habla del siglo XX.

De esta forma puede haber, dentro de los sincrónicos, corpus contemporáneos y corpus periódicos. Los primeros se componen de textos actuales, mientras que los periódicos comprenden textos de un tiempo pasado específico.

Por otro lado, los corpus diacrónicos pueden ser históricos o cronológicos. Los históricos contienen textos de determinados momentos de tiempo, sin perder nunca su característica de comparación entre ellos. Por otro lado, los cronológicos, se componen de textos de diversos periodos de tiempo ordenados en forma cronológica.

1.2.7 Según el propósito del corpus


La constitución de un corpus depende del propósito al que va destinado. El corpus se diseñará dependiendo del tipo de análisis y de información que se espere obtener. En general, los córpora están construidos con un proposito específico, para realizar investigaciones concretas. Por el contrario, algunas instituciones buscan crear córpora que sean utilizables por otras instituciones. Para ello, el diseño del corpus está pensado no para un propósito en particular, sino para que satisfaga varios propósitos. De esta manera, podemos hablar de corpus para propósitos específicos, en oposición a corpus multiproposito.


1.2.8 Según el lenguaje


En lo referente a la clasificación según el lenguaje, existen dos tipos de corpus, el corpus monolingue y el corpus multilingue. El primero se refiere a que los textos que contiene se encuentran en un solo idioma, como puede ser un corpus de lengua inglesa, española, etc. Mientras que el segundo, a diferencia del primero, hará referencia a textos en más de una lengua.
Los textos monolingues pueden ser originales del idioma o traducciones de otros idiomas, como es el caso del Translational English Corpus, que contiene más de 6 millones de palabras de textos traducidos al inglés.
Jose Abaitua (2002), en Tratamiento de corpora bilingues divide los corpus multilingues en tres tipos:

1.2.9 Según la cantidad de texto


Según la cantidad de texto que se recoge para el corpus, tenemos corpus grande, corpus de referencia, corpus léxico, corpus monitor y corpus pequeño. Se considera corpus grande a uno que contiene una "cantidad considerable" de documentos. El corpus de referencia es aquel que sólo toma fragmentos de los documentos, en este tipo de corpus son muy importantes los aspectos de equilibrio y representatividad cuando se hace la seleccion de los fragmentos. Un corpus de referencia es aquel que está diseñado para proporcionar información exhaustiva acerca de una lengua en un momento determinado de su historia y, por tanto, ha de ser lo suficientemente extenso para representar todas las variedades relevantes de la lengua en cuestión. Un corpus léxico es un sistema con información léxica de uno o varios lenguajes.  El interés principal de este corpus es recoger fragmentos de textos pequeños y de longitud definida, que no necesariamente tiene que ser fija. El corpus monitor es un corpus que contiene un volumen textual constante pero que se actualiza con frecuencia.  Esta acción ofrece la posibilidad de tener un corpus dinámico. Para la inclusión y exclusión de textos se establecen pautas con vigencia temporal.  Se trata de corpus de tamaño constante en el que se van incluyendo nuevos materiales al mismo tiempo que se eliminan los más antiguos. Y, finalmente, un corpus pequeño es aquel que no satisface necesidades informáticas y estadísticas por la pequeña cantidad de texto recogido en él. Sin embargo, puede sernos muy útil  para fines lingüísticos determinados.


1.2.10 Según la distribución del tipo de texto


Esta clasificación toma en cuenta la distribución y el porcentaje escogido de los diferentes tipos de texto que lo componen. Puede ser corpus equilibrado en oposición al corpus no equilibrado, así como corpus piramidal. Un corpus equilibrado contiene una variedad de documentos que se encuentran distribuidos en proporciones parecidas para cada una de los tipos de documentos. De esta variedad se puede tener la zona geografica, el tipo de documento, el año, etc. Vease, por ejemplo, la distribucion de textos del CREA en su documentación. En oposición al anterior, el corpus desequilibrado contiene documentos cuyas cantidades no son proporcionales entre sí. Ahora bien, los corpus piramidales contienen textos que están distribuidos en diferentes niveles:  el primero, que recoge pocas variedades temáticas pero con muchos textos en cada variedad; el segundo que contiene mayor variedad de textos pero menos cantidad en cada una de ellas; el tercero compuesto por mucha variedades pero con pocos textos en cada una y así sucesivamente hasta un numero de estratos opcional.
En esta clasificación, Catherine Ball incluye los corpus oportunistas, que son aquellos en los que no existe ningún criterio de selección de los textos, sino que se obtienen a partir de los textos que se van encontrando en soporte electrónico. Si bien este tipo de corpus más bien pueden ser considerados como colecciones de archivos electrónicos, pueden servir de base para la construcción de otros corpus. En nuestro caso, consideramos los corpus oportunistas dentro de la clasificación según la representatividad.


1.2.11 Según la accesabilidad del corpus


Una clasificación que puede hacerse sobre corpus es en función de la accesabilidad o disponibilidad del mismo para poder usarlo. Aquí podemos tener una primera clasificación en dos tipos; según si el corpus es de dominio publico, como el CREA, o de uso privado o restringido a un grupo de investigación. Los corpus de dominio público pueden, a su vez, contar con otra clasificación; en corpus comerciales, de forma que es necesario pagar una cuota para su utilización, o no comerciales. Para estos últimos puede tenerse un acceso restringido, o bien pueden ser de acceso libre. La restricción a ciertos corpus se debe a que son construidos en instituciones públicas de investigación y buscan asegurarse que el material será utilizado sin fines de lucro. Para ello, es necesario establecer convenios específicos y comprometerse a usar el corpus para fines de investigación. Estos convenios, además, permiten asegurar a la institución que creo el corpus, justificar su utilización y conseguir recursos.

La accesibilidad a un corpus depende del soporte electrónico para el que fueron diseñados. Puede tenerse un corpus disponible para su uso en línea (online) a través de una direccion URL en Internet, o puede bajarse a traves de servidores ftp. Asimismo, puede estar disponible en discos flexibles o en CD-ROMs. Para corpus orales sonoros, tambien se cuentan los videos y grabaciones electrónicas.


1.2.12 Según la documentación del corpus


Esta clasificación depende de si se tiene documentación o no de los textos que componen el corpus. Por tanto, se dividen en corpus documentados cuando se tiene registro de la documentación de los textos y, además, es posible usar dicha documentacion, ya sea para hacer una busqueda específica o para conocer de donde provienen los textos. Por el contrario, un corpus no documentado adolece de registros documentales de los textos.


1.2.13 Según la representatividad

Por último, aunque podemos sobreentender que un corpus tiene que ser representativo, podemos hacer una clasificación según la representatividad. En este caso, la clasificación obligada será la de representativo, aunque, además, existen los corpus oportunistas. Éstos no son necesariamente representativos de toda una lengua, pero pueden serlo de un fenómeno en específico. En estos corpus se recogen muestras, según el recopilador las lea, las escuche o las encuentre de diversas maneras, de ahí el nombre de Oportunista.