31 May
LENGUAJES DOCUMENTALES
1. Lenguajes Documentales
Los lenguajes documentales se encargan de gestionar y recuperar la información, lo que los convierte en un recurso muy valioso.
¿Qué constituye un lenguaje documental?
Un lenguaje documental se compone de palabras y reglas que, combinadas, evitan la ambigüedad en la representación de la información. De todas las palabras disponibles, se seleccionan algunas, conocidas como palabras clave. De estas, las más relevantes se convierten en descriptores o términos de indización. Es importante destacar que todas estas palabras provienen del lenguaje natural.
Los términos de indización son las palabras clave elegidas para representar la información, mientras que los descriptores son sinónimos de los términos de indización.
– Palabra clave: palabras seleccionadas del lenguaje natural. Se usan para:
- Encontrar noticias
- Caracterizar los mismos temas
- Recuperar la información
– Términos de indización: palabras clave elegidas para representar noticias o cualquier documento.
– Descriptores: los términos de indización también se llaman así.
– Exhaustividad: se refiere a la amplitud de la búsqueda de documentos.
– Precisión: se refiere a la cantidad de documentos recuperados que realmente se ajustan a nuestra búsqueda.
Los conjuntos de noticias se representan con normalización. La normalización consiste en convertir una palabra clave en un descriptor, lo que permite identificar perfectamente cada ítem.
- Normalización de autores (nombre y los dos apellidos (con guion))
Existen diferentes tipos de lenguajes documentales:
- De acuerdo a sus funciones
- Y su complejidad
– Rasgos comunes de los lenguajes documentales de acuerdo a sus funciones y complejidad:
- Consisten en conjuntos previamente determinados de términos (palabras clave)
- Dado el uso, se denominan genéricamente, términos de indización
- Contemplan ciertas reglas sobre la forma preferida de los términos
- Se utilizan con fines de representación y recuperación de información
– Se usan para caracterizar:
- El contenido de las distintas noticias
- Las necesidades de información de los usuarios
- Las opciones disponibles en los diferentes menús del sitio
2. Lista de Términos, Taxonomías, Tesauros y Ontologías
– Lista de términos:
Las listas de términos son el tipo de lenguaje documental más sencillo. Pueden ser una simple lista de palabras o abreviaturas. Se trata de un conjunto de términos:
- Disponibles a priori para asignar a documentos
- Representan los documentos de forma sintética
- Puede ser actualizada
Ejemplos:
- Biblioteca → Indicar las materias de los libros
- Medio de comunicación → Obtener etiquetas para caracterizar las noticias
En las listas de términos no existen relaciones de:
- Especificidad
- Asociación
Opción de términos y morfología:
- Términos: terremotos en lugar de movimientos sísmicos
- Morfología: plural en vez de singular
– Taxonomías:
Las taxonomías son clasificaciones jerárquicas de términos, organizadas de mayor a menor importancia. Se basan en relaciones verticales, organizando la información en categorías y subcategorías.
- Términos articulados:
- Categorías de primer nivel
- Subniveles
Ejemplo: Bibliotecas →
- Organización: libros del mismo tema
- Recuperación: obras del tema de interés
Una taxonomía puede disponer de:
- Componentes
- Reglas
Ejemplo: Clasificación decimal universal
Una taxonomía es otro nombre para una clasificación:
- Procedente de la biología
- Utilizado en informática y gestión
WordPress habla siempre de taxonomías:
- Verticales: categorías
- Horizontales: etiquetas
Categorías son una taxonomía: subcategorías
Etiquetas no lo son: no subetiquetas
– Tesauros:
Los tesauros son lenguajes documentales más sofisticados y complejos que las listas de términos y las taxonomías. Incluyen relaciones verticales (jerárquicas) y horizontales (por igualdad, sinonimia), lo que proporciona mayor información y un mayor nivel de normalización.
Para construir un tesauro se puede partir de una clasificación (o una taxonomía):
- Se deben definir con precisión las relaciones entre los términos
Postcoordinación:
- Se asignan al mismo nivel todas las palabras clave que representen temas presentes en el documento, noticia…
Una taxonomía a la cual se han añadido, al menos, estas relaciones:
- Sinonimia o preferencia: término preferido o descriptor y no preferido
- Jerárquicas o tipo partitivo: términos más amplios y los más específicos
- Asociativas: términos relacionados
Pueden tener notas de aclaración y tantos índices y formas de presentación como se considere necesario: alfabéticos, gráficos, sistemáticos…
Para elaborar el tesauro es necesario:
- Reglas relativamente sofisticadas para representar cada concepto
Reglas para determinar las relaciones:
- Jerárquicas: ave/loro
- De sinonimia: terremoto/movimiento sísmico
- De asociación: catástrofes naturales/personas desplazadas
– Ontologías:
Las ontologías son el tipo de lenguaje documental más complejo. Representan un salto cualitativo con respecto a los anteriores.
- Definición: especificación explícita de una conceptualización, siendo esta una visión abstracta y simplificada del mundo que queremos representar con algún propósito.
Continuidad con los anteriores lenguajes documentales:
- Se componen de colecciones de términos – lista de términos
- Y de sus relaciones entre ellos – taxonomías – tesauros
Discontinuidad:
- Debe estar codificado en un formato – tiene que procesarlo un software
- En concreto un programa que pueda realizar inferencias
Para realizar inferencias:
- [sujeto] > [propiedad] > [valor]: forma lógica
- [Android] > [tipo de sistema operativo] > [dispositivos móviles]: el sujeto Android tienen una propiedad que consiste en ser un tipo de sistema operativo para dispositivos móviles.
Los anteriores lenguajes documentales pueden existir impresos en papel, las ontologías no, ya que:
- Están codificadas en un lenguaje que pueda interpretar un procesador informático.
- Un sistema informático debe procesarla y, en su caso, realizar inferencias.
A menudo se usa el término ontologías cuando se debería hablar de clasificaciones o tesauros. Si las relaciones entre los términos no están expresadas de forma lógica y codificadas mediante un lenguaje normalizado para crear ontologías, entonces no son ontologías.
- Nivel superior: tesauro
- Nivel medio: taxonomías
- Nivel inferior: lista de términos
Recomendación:
- Usar al menos un lenguaje documental tipo taxonomía o tesauro
- Al menos, en dos niveles
Con relación a la navegación:
- Navegación estructural
- Navegación semántica
Con relación a la recuperación:
- Descriptores de un tesauro
- Términos de una taxonomía
- Búsqueda de información
No tienen necesariamente la misión de indizar documentos
Lo que las ontologías quieren es reducir los falsos positivos (documentos no relevantes recuperados) y el silencio (documentos relevantes no recuperados) en las búsquedas.
Deja un comentario