Conteo de palabras

4. Herramientas y técnicas

4.1 Conteo de palabras

Preguntas (Tareas)

Mayor información en:

Capítulo 3, "Examining the catch: the use of frequency list", del libro de Geoff Barnbrook, Language and Computers.

4.1.1 Listas de palabras

Diferencia entre token y type

Token es cada una de las formas que aparecen en el texto, sin importar cuántas veces ocurra cada una. El número total de tokens definirá el tamaño del corpus.
Type se refiere a cada una de las formas o palabras diferentes que aparecen en un texto. Se acostumbra indicar la frecuencia absoluta de cada una de los types.
La suma de las frecuencias de todos los types será la suma de todos los tokens de un corpus.

Lista de palabras

Definiremos lista de palabras al listado de los types o formas que se escriben diferente en el corpus.
A cada palabra le acompaña al menos su frecuencia absoluta, esto es, el número de veces que se repite dicha palabra en el corpus.
Adicionalmente se puede acompañar de la frecuencia relativa, que es el número de veces que ocurre la palabra en relación con el total de palabras en el corpus. Su valor es igual a la frecuencia absoluta entre el número total de tokens (o la suma de las frecuencias absolutas).
En el caso de corpus anotados con partes de la oración, se puede acompañar a cada type la categoría gramatical que le corresponde. Palabras homónimas con distinta categoría gramatical se presentarán en diferentes líneas.

Diferentes listas de palabras

Lista de palabras simple. Esta es la lista más común de todas. Aquí en cada línea se presenta un type diferente, normalmente acompañado de su frecuencia en el corpus. Sus aplicaciones son muy diversas.
Lista de formas canónicas. Esta lista está ordenada alfabéticamente por cada uno de las formas canónicas o entradas de un diccionario, y a cada línea le suceden las palabras que le corresponden a dicha forma canónica. Como ejemplo, el trabajo de Juan López Chávez y Marina Arjona de Lexicometría y fonometría del Primero Sueño de Sor Juana Inés de la Cruz.
Lista de lemas. Aquí, de manera parecida a la lista de formas canónicas, se encuentra ordenada por lemas o raíces, sin importar la parte de la oración de la que se trate la palabra. Por ejemplo, ante el lema nación se pueden agrupar naciones, nacionales, nacionalizar, nacionalmente y nacionalización.
Listas de dos o más palabras. En estas listas no se presentan palabras simples, sino pares, tercetas, etc. de palabras que ocurren contiguamente. De igual manera, cada una se acompaña de su frecuencia. Su importancia radica en la localización de unidades multiléxicas.
Lista de partes de la oración. Si bien en las anteriores listas, excepto en la de dos o más palabras, se puede indicar la categoría gramatical a la que pertenece cada unidad, se puede tener una lista que nada más traiga las distintas partes de la oración, con el fin de tener una referencia de las catergorías gramaticales para fines estadísticos.

Orden de la lista de palabras

Orden alfabético. La lista de palabras ordenadas de manera alfabética, normalmente ascendente, resulta útil, en primera instancia, para localizar más fácilmente las palabras de la lista. Además, se puede visualizar las palabras que empiezan con la misma raíz y, de esa manera, agrupar palabras que contengan la misma raíz.
Orden por frecuencias. En este apartado, las palabras de la lista se encuentra en orden decreciente, generalmente, de acuerdo con la frecuencia absoluta de cada una las palabras.
- Esta presentación permite conocer las palabras más frecuentes de un texto y comparar las palabras con otras listas.
- En corpus de referencia, equilibrados y balanceados, se puede observar las palabras más frecuentes. Su aplicación es muy diversa; por ejemplo, en el terreno de la lexicografía (Diccionario Básico del Español de México y Longman), la enseñanza de idiomas, el desarrollo de prototipos (traducción automática, sistemas de búsqueda de información, etc.).
- A menos que se ocupe una stoplist como filtro, las palabras más frecuentes serán palabras funcionales.
- Con el empleo de una stoplist, aplicado a un corpus técnico, se puede conocer la terminología mediante la comparación de las palabras de contenido de ese corpus contra las de un corpus de otro tema ajeno.
Orden alfabético inverso. Este orden alafabético a partir de la primera letra del lado derecho puede sercir para el análisis de las flexiones de una lengua o como un diccionario de rimas.
Orden de aparición. Aquí se ordenan las palabras según van apareciendo en el texto. Esto es diferente al texto mismo, pues solo se muestra una sola vez cada palabra, acompañada con el valor de su frecuencia. Sirve para conocer la distribución y organización de las palabras en el texto. Por ejemplo, las palabras que ocurren con frecuencia similar, pero que aparecen por primera vez en diferentes lugares del texto, indican un cambio del tema o del tipo de vocabulario empleado.
Orden por longitud de las palabras. Aquí las palabras van ordenadas de manera ascendente según el número de caracteres de cada palabra, de manera que en primer lugar aparecen las palabras de una letra, después de las de dos letras y así consecutivamente hasta llegar a la más larga. Cada grupo se ordenará además en orden alfabético.
Orden por categoría gramatical. Aquí se presenta la lista de palabras ordenadas según las diferentes partes de la oración. Para cada categoría se pueden presentar las palabras ordenadas alfabéticamente o por frecuencias.

Las listas de palabras, cualesquiera que sea su tipo o su orden, no nos permitirá identificar los diferentes sentidos de las palabras. Para hacer este trabajo, normalmente recurrimos a las concordancias, que es nuestro siguiente objetivo.

4.1.2 Problemas en las listas de palabras

Se presentan los siguientes problemas en las listas de palabras:

Identificación de los tokens. Si bien en la sección 3.3.2 ya se habló de la identificación de palabras para el etiquetado morfosintáctico, conviene retomar los principales puntos, pues no necesariamente se tendrá un etiquetado morfosintáctico en nuestro corpus. En una lista de palabras pueden aparecer los siguientes errores al respecto:
- Los guiones (cortos o largos) son normalmente eliminados del conteo de palabras, por lo que las palabras separadas con guiones a fin de línea son consideradas dos palabras erróneamente.
- En general, los signos de puntuación son eliminados. Por ello, en las listas llegan a aparecer letras sueltas o sin ningún sentido que pertenecen a otras palabras o que son partes de contracciones (por ejemplo, don y t en don't).
- Los números grandes separados por comas y puntos se convertiran en dos o más palabras a contarse.
- Al perderse los signos de puntuación, se llega a confundirse el significados de las palabras (por ejemplo, la letra s de Gerardo's, s.s.s., y m/s).
Eliminación de cifras. Es común que las cifras sean eliminadas del conteo de palabras, pues al menos no se consideran palabras como tales; no aparecen en la lista, pues no proporcionan información relevante.
- De esta forma, se eliminan no solo los números que indican los capítulos y secciones, sino otras cifras que pueden ser significativas, como las fechas.
- Por otro lado, hay que considerar que no acostumbran eliminarse los números cuando aparecen escritos, lo cual es contradictorio.
- Los números escritos de varias palabras acostumbran contarse cada una por separado (por ejemplo, cuarenta y tres mil setecientos sesenta y tres.
Eliminación de mayúsculas. En la mayoría de la lista de palabras se acostumbra convertir todas las letras a minúsculas, a fin de no contar como diferentes types a dos palabras iguales, pero de las cuales una es incial de párrafo o después de punto, y la otra no. Sin embargo, hay que tener ciertas consideraciones:
- Muchas siglas que normalmente van con todas sus letras en mayúsculas, al ser cambiadas llegan a ser confundidas o desconocidas.
- Hay palabras que tienen diferente significado cuando van con inicial mayúscula, como el caso de Papa y papa.

Entre las soluciones a los problemas:

Pre-procesamiento del corpus. Entre las etapas de digitalización del texto y de etiquetado se tiene una etapa de preproceso.
- En el preproceso se pueden diferenciar las partes del texto que quieren hacerse distinguir de las demás, como son los nombres propios, números, fechas, siglas, abreviaturas, etc., mediante etiquetas especiales, las cuales podrán ser tratadas de manera especial por los programas de conteo y lista de palabras.
- De igual forma se pueden transformar las palabras, en particular los acortamientos, en las unidades significativas que las componen (como el caso de don't). Para ello, hay que marcar en el texto tanto la palabra original como las transformadas, e indicar al programa si se consideran las primeras o las segundas.
- Se puede hacer uso de expresiones regulares para realizar el preproceso de manera automática.
Versatilidad del programa. Cuando no se desea o no se puede cambiar el corpus por alguna razón, así como para los casos en que se quiere diseñar una herramienta para hacer conteos y listas de palabras de diferentes corpus, entonces se puede pensar en diseñar un programa versatil, adaptable a diferentes circunstancias.
- Así, el programa podrá contar o no los números, y en el primer caso considerará las cifras como una sola unidad (275,376.25); podrá conservar las mayúsculas en nombres propios y siglas, etc.
- El programa puede ofrecer la serie de opciones que puede realizar, para que el investigador decida las que mejor se ajustan a sus análisis.
- Se pueden utilizar expresiones regulares para que se haga una especie de preproceso automático al corpus antes de correr el programa.
- Se puede seleccionar y correr los programas que, como subrutinas, realicen los cambios requeridos.