16 Oct
Codificación Predictiva
Mediante la decorrelación de los datos de entrada:
- Se elimina la memoria de la fuente (los símbolos ya no dependen entre sí).
- Se gana eficiencia en la codificación (se puede encontrar códigos más cortos para fuentes sin memoria).
Predicción Inter
Es el método más simple de predicción. Se basa en imágenes ya emitidas y consiste en calcular la diferencia directa entre 2 imágenes consecutivas (cuanto mejor la predicción, menor información hay que enviar). Se consigue aprovechar la redundancia temporal. A mayor distancia temporal, menor correlación.
Codificación Predictiva
- Entra una nueva imagen (imagen actual). El emisor (codificador) realiza una predicción de ella, a partir de la imagen anterior (decodificada de la misma manera que en el receptor), y envía información de movimiento.
- El receptor (decodificador) efectúa una predicción de la imagen a llegar, a partir de la imagen anterior almacenada y la información de movimiento recibida.
- El emisor (codificador) envía el error de la predicción.
- El receptor (decodificador) añade la información recibida a la predicción, obteniéndose la imagen actual decodificada.
Nota: Para que las imágenes anteriores sean iguales, el emisor tiene el decodificador incorporado.
Predicción de Movimiento = Estimación + Compensación
Estimación de Movimiento: Se define como el proceso de obtención de la información de movimiento percibida (velocidad aparente) a través de la información de las imágenes. Normalmente, se realiza a partir de una imagen anterior reconstruida y la imagen que se desea transmitir. El resultado es un conjunto de vectores de movimiento, que serán convenientemente codificados para su transmisión, ya que estos no pueden ser obtenidos en el receptor debido a que se necesita el conocimiento de la imagen original que se va a transmitir.
Compensación de Movimiento: Tiene como objetivo la generación de una imagen virtual (llamada imagen de predicción) a partir de una (o varias) imágenes anteriores reconstruidas (imágenes de referencia) y de la información de movimiento obtenida en la estimación. Por lo tanto, mediante la compensación de movimiento, se obtiene una estimación de la imagen actual. Este proceso permite reducir la correlación temporal presente en las secuencias de imágenes en direcciones no paralelas al eje de tiempos. La diferencia entre la imagen estimada y la imagen que se desea transmitir es lo que se denomina error de predicción.
Codificador Híbrido
- Realiza una predicción del contenido espacial en el dominio temporal (basada en movimiento).
- Reduce la redundancia temporal aplicando por bloques: predicción de movimiento = estimación + compensación.
- Reduce la redundancia espacial en la imagen error de predicción aplicando la DCT.
- La predicción final es más eficiente: error menor.
- Se usan en MPEG-1, 2, 4, DivX, Xvid, WMV, etc.
Imagen Intra
- Imagen que se codifica con datos obtenidos solo de ella: solo datos de imagen con DCT + VLC como JPEG.
- Imagen tipo I (intracodificada), no utiliza ninguna referencia.
Imagen Inter
- Se codifica con datos obtenidos no solo de ella sino de otras imágenes anteriores y/o posteriores.
- Solo se codifican vectores de movimiento y errores de predicción.
- Se recompone la imagen mediante compensación de movimiento.
- Imágenes tipo P (predictiva): Utiliza predicción con compensación de movimiento a partir de la referencia pasada) y B (bi-direccional predictiva): Puede utilizar predicción con compensación de movimiento a partir de la referencia pasada y/o futura).
Proceso Completo de Codificación Predictiva
La primera imagen de una secuencia de video (instante t0) se codifica en modo INTRA. Para esto, se transforma aplicando la DCT. Después se cuantifican y codifican los coeficientes obtenidos. Los índices entran en los procesos de decuantificación y transformación inversa al final de la cual se obtiene la misma imagen que obtendrá el receptor. Esta imagen se almacena en la memoria y sirve de referencia para la codificación de la siguiente imagen en modo INTER. La imagen del instante t1 entra en un módulo de estimación de movimiento en el que se obtendrán para cada macrobloque un vector de movimiento que indica cuál es el bloque más parecido en la imagen de referencia. Después, en el módulo de compensación de movimiento, se crea una imagen de predicción de la imagen actual que se resta de la imagen original. Esta resta, llamada imagen residual, se transforma, se cuantifican sus coeficientes y se codifican para su transmisión. Como antes, los coeficientes cuantificados entran en los procesos de decuantificación y transformación inversa para obtener la misma imagen error que el receptor. Esta imagen se suma a la imagen de predicción anteriormente creada para generar la nueva imagen de referencia, igual que en el receptor. Esta nueva imagen de referencia se queda en la memoria para el siguiente instante de codificación.
Block Matching
Funcionamiento: Calculan el desplazamiento horizontal y vertical de un bloque de píxeles respecto a una imagen de referencia mediante los vectores de movimiento (MV). Un MV indica la posición relativa (dx, dy) de un bloque respecto a su posición en la imagen de referencia. Se calcula el MV en Y, luego se deduce para Cb y Cr.
Razones de uso:
- Simplicidad y regularidad de cálculos: Hardware.
- No se pretende buscar el movimiento real, solo disminuir el error de predicción: búsqueda de trozos más parecidos.
- Por ser grupos de píxeles próximos es mejor frente al ruido (lo promedia).
- Se adapta a codificar el error por MB con DCT como se hacía para las imágenes tipo Intra.
- Se reduce la cantidad de información a enviar, solo los bloques en movimiento.
Tipos Especiales
Block Matching FS (Full Search):
- Examinar cada localización posible dentro del área definida.
- Da igual el orden de examinaciones.
- MV = dónde se minimiza la distancia.
Ventaja: Exactitud, se encuentra el mínimo (mejor acierto) seguro.
Desventaja: Alto coste computacional, no es práctico para aplicaciones en tiempo real.
Fast Block Matching: Tipos de Búsqueda
Búsqueda en espiral: Desplazamiento en círculo alrededor de la posición del MB. La búsqueda termina en un mínimo local. Búsqueda menos costosa, pero puede que no encuentre el mínimo global.
Búsqueda Jerárquica o Piramidal (HS):
- Reducen a la vez: el número de posiciones en que hay que evaluar la distancia entre los bloques y el número de píxeles empleados en el cálculo.
- Trabajan con distintas resoluciones espaciales: Cada nivel que se sube en la pirámide se reducen a la mitad las muestras de la imagen, de los MB y de las áreas de búsqueda respecto al anterior. Se empieza en el nivel más alto (con menor resolución) y a partir de los resultados se van bajando un nivel con área de búsqueda 1 en cada dirección.
Componentes de la Estructura MPEG
Secuencia, GOP, Imagen, Slice, Macrobloque, Bloque.
Secuencia
Conjunto de imágenes con los mismos parámetros de codificación.
- Va precedida por cabecera de secuencia (SEQ) y cabecera de extensión de secuencia (SEE).
- Contiene información general sobre la señal MPEG: tamaños, frecuencia de cuadro, etc. Básica para que el decodificador se configure y se envíe periódicamente.
GOP
- Es un conjunto de cuadros consecutivos que comienza con: los cuadros B anteriores a un cuadro I, un cuadro I (típicamente comienzo de secuencia) y termina con el cuadro P anterior al siguiente I.
- Las primeras imágenes (en orden de presentación) son B. Si estas B solo tienen predicción BW: no hacen referencia a imágenes del GOP anterior, solo hacen referencia a la imagen I de este GOP (BW), el GOP está cerrado (basta con observar las primeras B). En orden de codificación, la primera siempre es una I.
- Si no hay B, todos los GOP son independientes.
Imagen
- Cada imagen es o bien: un cuadro de una secuencia progresiva, un cuadro con dos campos entrelazados: imagen entrelazada en modo cuadro, un campo de dos entrelazados: imagen entrelazada en modo campo.
- La estructura del entrelazado afecta a la estimación y compensación de movimiento y al cálculo de la DCT.
Slice
- Tira de macrobloques horizontal, altura un MB, anchura número entero de MB.
- Cubren toda la imagen (tiras restringidas) o no. Un MB no puede ser mencionado en dos tiras. Los MB no incluidos en ninguna tira no se codifican.
- Unidad inferior a la imagen para protección frente a errores y escalabilidad.
- Fijar en su cabecera parámetros específicos de codificación para una zona de la imagen.
- En la práctica, en MPEG2 no se usan.
Macrobloque
- Cabecera con datos propios del macrobloque: modo de codificación del macrobloque, modo de estimación de movimiento y cálculo DCT, vectores de movimiento (de 1 a 4), según formato de muestreo incluyen datos de imagen (intra) o error de predicción (inter).
- Solo en caso de que una señal entrelazada se codifique en modo cuadro, dos posibilidades: DCT de cuadro: cada bloque está compuesto por muestras de los dos campos alternativamente (vista), DCT de campo: se desentrelazan las muestras del MB separando los dos campos: cada bloque está compuesto exclusivamente por muestras de un campo.
- En una secuencia progresiva siempre se hace la DCT de cuadro.
DCT con Codificación de Cuadro
Se utiliza cuando hay poco movimiento o la señal viene de una fuente progresiva e interesa: preserva mejor las frecuencias verticales.
DCT con Codificación de Campo
Se utiliza cuando hay mucho movimiento y la señal viene de una fuente entrelazada; en estos casos, suele ser conveniente usar alternate_scan = 1 para el recorrido de los coeficientes AC de la luminancia.
Deja un comentario