26 Ene

Segunda Generación de la Lingüística de Corpus

Las características más destacadas de los corpus de estas décadas son:

a) La Presencia del Ordenador

Solo en los años sesenta los ordenadores alcanzaron una potencia de procesamiento y una capacidad de almacenamiento suficientes para poder albergar grandes cantidades de texto, aunque en un principio no todos los proyectos para recopilar corpus se concebían pensando en su informatización. No obstante, el vínculo entre los corpus y los ordenadores ya había sido establecido a finales de los cuarenta por R. Bussa (McEnery 2003:452).

b) Carácter Representativo de los Datos

La mayoría de los proyectos de elaboración de corpus pretendía agrupar textos escritos que dieran cuenta del estado de la lengua en ese momento. Durante la década de los cincuenta, A. Juilland estableció los conceptos de marco de la muestra, representatividad y equilibrio, básicos en el concepto actual de corpus.

c) Tendencia a Desfavorecer los Datos Orales

Se observa una tendencia a desfavorecer los datos orales por las dificultades técnicas y de transcripción. Predominan los corpus de textos escritos, aunque con notables excepciones.

d) Tamaño

Un millón de palabras.

Podemos destacar algunos corpus de este período como:

  • En Inglaterra, Quirk sentó en 1959 las bases para la elaboración del Survey of English Usage Corpus (SEU), corpus amplio y variado estilísticamente. Empezó a recopilarse en 1961 con la intención de servir base para una descripción sistemática del inglés británico hablado y escrito.
  • No obstante, el mérito de ser el primer corpus concebido específicamente para tener un formato electrónico hay que otorgárselo al trabajo que llevaron a cabo N. Francis y H. Kučera en EE.UU., conocido de forma abreviada como Brown Corpus. Este se trata de un corpus de un millón de palabras, creado con el objetivo de dar cuenta del inglés americano escrito en prosa.
  • Además, el diseño de este corpus sirvió de modelo para otros corpus compilados con posterioridad, como el LOB (Lancaster-Oslo/Bergen Corpus), de inglés británico, o el Kolhapur, de inglés de la India, que seguían los mismos parámetros con el fin de comparar variedades de la lengua.

Renacer de la Lingüística de Corpus

Características de un Corpus

Se cree conveniente que los corpus cumplan los siguientes requisitos:

1. Textos en Formato Electrónico

Un corpus, para ser una herramienta útil al lingüista, debe estar informatizado, es decir, los textos de que consta tienen que estar en formato electrónico (corpus informatizado o automatizado). El hecho de que para los primeros corpus no se pudiera disponer de ordenadores motivó la crítica de las pseudo-técnicas. Sin embargo, el empleo del ordenador permite automatizar tareas tales como:

  • Búsqueda de información
  • Recuperación de información
  • Cómputo de la frecuencia de aparición de una palabra, secuencia de palabras, etc.
  • Clasificación de los datos contenidos en el corpus según diferentes criterios (orden alfabético, frecuencia de aparición, autor, procedencia geográfica, tema, medio de publicación, etc.).

2. Autenticidad de los Datos

Los textos recogidos en el corpus deben ser muestras reales de uso de la lengua objeto de estudio.

3. Criterios de Selección

Los textos que forman parte del corpus deben haber sido elegidos de acuerdo con unos determinados criterios –lingüísticos y/o extralingüísticos– para la finalidad concreta que persiga el corpus.

4. Representatividad

La selección de los textos, además de a unos criterios adecuados, debe responder a parámetros estadísticos que garanticen que los textos representan la variedad de lengua objeto de estudio (muestra representativa). Esta variedad puede referirse a la obra de un autor determinado, a un período de tiempo, a un género, etc.

Cuando lo que nos interesa es la lengua en su conjunto, la opción de reunir en un corpus todas las muestras de esta se hace impracticable, a diferencia, por ejemplo, de lo que ocurre si queremos recoger todas las obras de Cervantes, que son un universo cerrado. La única solución posible, entonces, es tomar una muestra más pequeña de esa lengua, que refleje, a pequeña escala, el funcionamiento del todo que es la lengua. Como Chomsky criticó con acierto, los corpus corren el riesgo de ser sesgados. Para subsanar este problema se recurre a la selección, según criterios estadísticos, de textos de diversos géneros, tipologías, temas, medios de publicación, etc.

5. Tamaño

Por lo general, los corpus constan de un tamaño finito, que se suele medir en millones de palabras (o formas) y que se fija antes de empezar la recogida de los textos (por ejemplo, un millón de palabras); una vez alcanzado ese número, se da por terminada la recopilación del corpus, que no es más que el primer paso de todo el proceso. En el pasado se pensaba que el tamaño era muy importante: mientras mayor fuera el corpus, más posibilidades de reflejar el funcionamiento real de la lengua en todas sus variedades, pero en la actualidad priman los criterios de diseño, es decir, el tamaño solo es importante en la medida en que así lo exija la finalidad del corpus.

Deja un comentario