31 May

LENGUAJES DOCUMENTALES

1. Lenguajes Documentales

Los lenguajes documentales se encargan de gestionar y recuperar la información, lo que los convierte en un recurso muy valioso.

¿Qué constituye un lenguaje documental?

Un lenguaje documental se compone de palabras y reglas que, combinadas, evitan la ambigüedad en la representación de la información. De todas las palabras disponibles, se seleccionan algunas, conocidas como palabras clave. De estas, las más relevantes se convierten en descriptores o términos de indización. Es importante destacar que todas estas palabras provienen del lenguaje natural.

Los términos de indización son las palabras clave elegidas para representar la información, mientras que los descriptores son sinónimos de los términos de indización.

– Palabra clave: palabras seleccionadas del lenguaje natural. Se usan para:

  • Encontrar noticias
  • Caracterizar los mismos temas
  • Recuperar la información

– Términos de indización: palabras clave elegidas para representar noticias o cualquier documento.

– Descriptores: los términos de indización también se llaman así.

– Exhaustividad: se refiere a la amplitud de la búsqueda de documentos.

– Precisión: se refiere a la cantidad de documentos recuperados que realmente se ajustan a nuestra búsqueda.

Los conjuntos de noticias se representan con normalización. La normalización consiste en convertir una palabra clave en un descriptor, lo que permite identificar perfectamente cada ítem.

  • Normalización de autores (nombre y los dos apellidos (con guion))

Existen diferentes tipos de lenguajes documentales:

  • De acuerdo a sus funciones
  • Y su complejidad

– Rasgos comunes de los lenguajes documentales de acuerdo a sus funciones y complejidad:

  • Consisten en conjuntos previamente determinados de términos (palabras clave)
  • Dado el uso, se denominan genéricamente, términos de indización
  • Contemplan ciertas reglas sobre la forma preferida de los términos
  • Se utilizan con fines de representación y recuperación de información

– Se usan para caracterizar:

  1. El contenido de las distintas noticias
  2. Las necesidades de información de los usuarios
  3. Las opciones disponibles en los diferentes menús del sitio

2. Lista de Términos, Taxonomías, Tesauros y Ontologías

– Lista de términos:

Las listas de términos son el tipo de lenguaje documental más sencillo. Pueden ser una simple lista de palabras o abreviaturas. Se trata de un conjunto de términos:

  • Disponibles a priori para asignar a documentos
  • Representan los documentos de forma sintética
  • Puede ser actualizada

Ejemplos:

  • Biblioteca → Indicar las materias de los libros
  • Medio de comunicación → Obtener etiquetas para caracterizar las noticias

En las listas de términos no existen relaciones de:

  • Especificidad
  • Asociación

Opción de términos y morfología:

  • Términos: terremotos en lugar de movimientos sísmicos
  • Morfología: plural en vez de singular

– Taxonomías:

Las taxonomías son clasificaciones jerárquicas de términos, organizadas de mayor a menor importancia. Se basan en relaciones verticales, organizando la información en categorías y subcategorías.

  • Términos articulados:
    • Categorías de primer nivel
    • Subniveles

Ejemplo: Bibliotecas →

  • Organización: libros del mismo tema
  • Recuperación: obras del tema de interés

Una taxonomía puede disponer de:

  • Componentes
  • Reglas

Ejemplo: Clasificación decimal universal

Una taxonomía es otro nombre para una clasificación:

  • Procedente de la biología
  • Utilizado en informática y gestión

WordPress habla siempre de taxonomías:

  • Verticales: categorías
  • Horizontales: etiquetas

Categorías son una taxonomía: subcategorías

Etiquetas no lo son: no subetiquetas

– Tesauros:

Los tesauros son lenguajes documentales más sofisticados y complejos que las listas de términos y las taxonomías. Incluyen relaciones verticales (jerárquicas) y horizontales (por igualdad, sinonimia), lo que proporciona mayor información y un mayor nivel de normalización.

Para construir un tesauro se puede partir de una clasificación (o una taxonomía):

  • Se deben definir con precisión las relaciones entre los términos

Postcoordinación:

  • Se asignan al mismo nivel todas las palabras clave que representen temas presentes en el documento, noticia…

Una taxonomía a la cual se han añadido, al menos, estas relaciones:

  • Sinonimia o preferencia: término preferido o descriptor y no preferido
  • Jerárquicas o tipo partitivo: términos más amplios y los más específicos
  • Asociativas: términos relacionados

Pueden tener notas de aclaración y tantos índices y formas de presentación como se considere necesario: alfabéticos, gráficos, sistemáticos…

Para elaborar el tesauro es necesario:

  • Reglas relativamente sofisticadas para representar cada concepto

Reglas para determinar las relaciones:

  • Jerárquicas: ave/loro
  • De sinonimia: terremoto/movimiento sísmico
  • De asociación: catástrofes naturales/personas desplazadas

– Ontologías:

Las ontologías son el tipo de lenguaje documental más complejo. Representan un salto cualitativo con respecto a los anteriores.

  • Definición: especificación explícita de una conceptualización, siendo esta una visión abstracta y simplificada del mundo que queremos representar con algún propósito.

Continuidad con los anteriores lenguajes documentales:

  • Se componen de colecciones de términos – lista de términos
  • Y de sus relaciones entre ellos – taxonomías – tesauros

Discontinuidad:

  • Debe estar codificado en un formato – tiene que procesarlo un software
  • En concreto un programa que pueda realizar inferencias

Para realizar inferencias:

  • [sujeto] > [propiedad] > [valor]: forma lógica
  • [Android] > [tipo de sistema operativo] > [dispositivos móviles]: el sujeto Android tienen una propiedad que consiste en ser un tipo de sistema operativo para dispositivos móviles.

Los anteriores lenguajes documentales pueden existir impresos en papel, las ontologías no, ya que:

  • Están codificadas en un lenguaje que pueda interpretar un procesador informático.
  • Un sistema informático debe procesarla y, en su caso, realizar inferencias.

A menudo se usa el término ontologías cuando se debería hablar de clasificaciones o tesauros. Si las relaciones entre los términos no están expresadas de forma lógica y codificadas mediante un lenguaje normalizado para crear ontologías, entonces no son ontologías.

  • Nivel superior: tesauro
  • Nivel medio: taxonomías
  • Nivel inferior: lista de términos

Recomendación:

  • Usar al menos un lenguaje documental tipo taxonomía o tesauro
  • Al menos, en dos niveles

Con relación a la navegación:

  • Navegación estructural
  • Navegación semántica

Con relación a la recuperación:

  • Descriptores de un tesauro
  • Términos de una taxonomía
  • Búsqueda de información

No tienen necesariamente la misión de indizar documentos

Lo que las ontologías quieren es reducir los falsos positivos (documentos no relevantes recuperados) y el silencio (documentos relevantes no recuperados) en las búsquedas.

Deja un comentario