El archivo de frecuencias es un archivo separado por comas (CSV), el cual contiene una matriz en donde cada fila representa un archivo y cada columna representa un marcador estilométrico.
Los marcadores estilométricos están representados de la siguiente forma: código_características
En la siguiente tabla se puede ver cada marcador estilométrico con su código, características y un ejemplo.
Marcador estilométrico | Código | Características [1] [2] [3] | Ejemplo |
---|---|---|---|
Signos de puntuación | PUNCT | Etiqueta EAGLES del signo de puntuación analizado. | PUNCT_fat : signos de puntuación (!). |
Distribución de longitud de oraciones y palabras | LEX | sl - sentence length o longitud de oración wl - Word length o longitud de palabra ttr - type token ratio es la relación entre el número de palabras diferentes y el total de palabras. hapax - hápax legómenon es la relación entre el número de palabras que solo tienen una repetición con el total de palabras. |
LEX_sl_21-30 : longitud de oración de 21 a 30 palabras. |
Categoría gramatical al inicio de la oración | POSBEG | <s> que representa el inicio de la oración, seguido por la etiqueta EAGLES de la categoría gramatical encontrada. | POSBEG_<s>::z : la oración inicia con un numeral. |
Categoría gramatical al final de la oración | POSEND | La etiqueta EAGLES de la categoría gramatical con que inicia la oración, seguida de </s>. | POSEND_p::</s> : la oración finaliza con un pronombre. |
Unigramas de palabras funcionales | FUNC1 | Palabra funcional. | FUNC1_ser : unigrama de la palabra ser. |
Bigramas de palabras funcionales | FUNC2 | Grupo de dos palabras funcionales. | FUNC2_ser::quien : bigrama de las palabras ser y quien. |
Trigramas de palabras funcionales | FUNC3 | Grupo de tres palabras funcionales. | FUNC3_ser::quien::tener : trigrama de las palabras ser, quien y tener. |
Bigramas de palabras funcionales con hasta 2 huecos | FUNC2G | Grupo de dos palabras funcionales con hasta dos huecos entre ellas. | FUNC2G_uno::<stop/>::sin : bigrama de las palabras uno y sin con un hueco entre ellas. |
Trigramas de palabras funcionales con hasta 2 huecos | FUNC3G | Grupo de tres palabras funcionales con hasta dos huecos entre ellas. | FUNC3G_para::<stop/>::<stop/>::lo::<stop/>::en : trigrama de las palabras para, lo y en con dos huecos entre para y lo y un hueco entre lo y en. |
Unigramas de etiquetas POS | POS1 | Palabra con su etiqueta EAGLES de parte de la oración. | POS1_pp3cpd00 : unigrama de pronombre personal tercera persona género común plural dativo |
Bigramas de etiquetas POS | POS2 | Grupo de dos palabras con su etiqueta EAGLES de parte de la oración. | POS2_vmis3s0::di0ms0 : bigrama de verbo principal indicativo pasado tercera persona singular sin género y determinante indefinido no posesivo masculino singular referente a tercera persona |
Trigramas de etiquetas POS | POS3 | Grupo de tres palabras con su etiqueta EAGLES de parte de la oración. | POS3_vmn0000::dp3cp0::ncmp000 : trigrama de verbo principal infinitivo, determinante posesivo tercera persona común plural y nombre común masculino plural |
Unigramas de etiquetas POS no fino | POSSH1 | Palabra con su etiqueta EAGLES de categoría. | POSSH1_n : unigrama de nombre |
BIgramas de etiquetas POS no fino | POSSH2 | Grupo de dos palabras con su etiqueta EAGLES de categoría. | POSSH2_s::p : bigrama de preposición y pronombre |
Trigramas de etiquetas POS no fino | POSSH3 | Grupo de tres palabras con su etiqueta EAGLES de categoría. | POSSH3_p::s::v : trigrama de pronombre, preposición y verbo |
Bigramas de caracteres | CHAR2 | Grupo de dos caracteres. | CHAR2_eb : bigrama de los caracteres e y b |
Trigramas de caracteres | CHAR3 | Grupo de tres caracteres. | CHAR3_leo : trigrama de los caracteres l, e y o |
Los valores numéricos representan el porcentaje de frecuencia de apariciones de tokens entre el total de tokens en su categoría.
Este documento contiene una matriz simétrica que representa la distancia que existe entre cada par de textos. Dependiendo del número de archivos seleccionados N, es el tamaño de la matriz (NxN).
[1] La documentación sobre etiquetas EAGLES se puede encontrar en: Documentación EAGLES
[2] El separador entre dos características es doble dos puntos (::)
[3] Los huecos se representan con <stop/>