3.2 Anotación textual
Lenguaje de marcado XML
3.2.1 Conceptos básicos de SGML/XML
Entidad de marcaje (markup entity)
- Una entidad de marcaje es cualquier objeto concreto del texto que sea de interés para marcar, tales como:
- un caracter o conjunto de caracteres;
- una palabra o una serie de palabras;
- una línea
- un párrafo;
- un dibujo, gráfica, tabla, etc.;
- una nota de pié de página o a fin de documento;
- una capítulo entero;
- el documento completo
- Cada entidad tiene un nombre o posee una referencia.
- Las entidades pueden estar compartidas por distintos documentos.
- Las entidades se encuentra organizadas en el texto mediante una estructura lógica y jerarquizada.
Referencia de entidad
- SGML utiliza los caracteres con base en el estándar ASCII (American Standard Coding for the Interchange of Information).
- Los caracteres especiales como letras diferentes al inglés (á, ü, ñ), símbolos matemáticos, signos ($, &, '), letras griegas,
etc., se transformen en representaciones ACII y se llaman referencias de entidad.
- Una referencia de entidad sirve como nombre único para una pieza de datos.
- Las referencias de entidades están compuestas por un ampersand (&) y un punto y coma (;).
- Una lista amplia de referencias de entidad lo proporciona el W3C, (Massachusetts Institute of Technology,
Institut National de Recherche en Informatique et en Automatique, Keio University). http://html.conclase.net/w3c/html401-es/sgml/entities.html
Elemento de marcaje
- El elemento de marcaje es un concepto abstracto que sirve para denominar a los elementos del documento que nos interesa anotar.
Por ejemplo, el nombre "fecha" es un elemento de marcaje.
- Los elementos de marcaje están delimitados por una etiqueta de apertura <elemento> y una etiqueta
de cierre </elemento>.
Atributo de marcaje
- El atributo de un elemento de marcaje proporciona información adicional dependiente de un elemento de marcaje.
- Los atributos tienen un nombre y un valor.
- Los nombres de los atributos se separan del elemento de marcaje con un espacio en blanco.
- Los valores de los atributos se introducen con un signo igual.
Comentarios
- Los comentarios se usan en un documento SGML/XML para presentar información que técnicamente no forma parte del
contenido de ese documento.
- Los comentarios se usan para proporcionar descripciones de datos de documentos para provecho del usuario.
- Los comentarios se pueden utilizar en cualquier parte de un documento en la que aparezcan datos de caracteres analizados sintácticamente.
- Los comentarios empiezan con <!- y terminan con ->. La única limitación a los comentarios es que no se pueden incluir guiones altos (-)
en un comentario, ya que entrarían en conflicto con la sintaxis de comentarios.
Definición de tipo de documento (DTD)
- Se conoce principalmente como DTD = Document Type Definition (término más usado) y Document Type Declaration (término usado en la ISO),
o en español Definición (Declaración) del Tipo de Documento.
- La DTD define las reglas correspondientes a las etiquetas que se han creado para un corpus.
- Una DTD define los nombres de las etiquetas y el modelo de contenido (por ejemplo, el orden de las ocurrencias y las reglas de anidación
para una implementación SGML particular).
- La DTD se escribe en SGML y se representa como un simple archivo en el sistema.
- La DTD consta generalmente de tres partes: una etiqueta inicial, el contenido y una etiqueta final.
El nombre del elemento aparece en las etiquetas inicial y final.
- Se acostumbra usar un editor estructurado con un analizador sintáctico para ir validando e indicando las inconsistencias
de las etiquetas que se van anotando en el documento con relación a la DTD.
- Ejemplos de DTD:
Reglas básicas
- Documento válido: El documento debe cumplir la estructura predefinida en el DTD.
- Documento bien formado: Documento que es sintácticamente correcto.
3.2.2 Estructura de documentos
Un documento SGML/XML consta de dos partes:
- El DTD o descripción del documento.
- El documento etiquetado. A su vez, el documento consta de un encabezado
y del texto del documento.
El encabezado puede describir los siguientes rubros:
- Descripción bibliográfica del documento. Esta información permite ubicar el documento.
Aquí se incluye la información bibliográfica del documento y el tamaño aproximado del texto.
- Metodología de la codificación. Contiene información relevante sobre la
relación que existe entre el texto anotado y las fuentes originales, además de los
métodos y principios editoriales que se siguieron durante la transcripción del corpus.
TEI distingue seis componentes:
- Descripción del proyecto y del propósito por el que fue codificado el texto.
- Descripción narrativa de los métodos usados en la creación del corpus.
- Descripción detallada de los principios y prácticas editoriales aplicados durante la codificación.
- Información detallada sobre las etiquetas aplicadas al corpus.
- Especificación de las referencias canónicas construidas para el texto.
- Definición de los códigos de clasificación para el texto dentro del corpus.
- Caracterización bibliográfica del texto (perfil). Proporciona información sobre los diferentes aspectos que
describen a un texto, como: datos de la creación de un texto, los idiomas que aparecen en el texto y
el tema del texto conforme a un tesauro o clasificación estándar.
- Descripción de la revisión. Registra los cambios realizados en el texto.
El texto del documento contiene:
- Body. Es el cuerpo del documento y es la información básica y obligatoria.
- Front. La información que precede al cuerpo del documento,
como portada, índice, dedicatorias, etc.
- Back. Información posterior al body, como apéndices, bibliografía, índices temáticos, etc.
Ejemplos de codificaciones