Experiencias de multimedia audiovisual sobre redes 5G

Por David Jiménez, profesor ayudante doctor en la Universidad Politécnica de Madrid
El incremento de capacidades ofrecidas por la evolución de las redes de comunicaciones proporciona un conjunto de posibilidades más allá de la explotación directa de las mejoras de ancho de banda, latencia, alta densidad y escalabilidad. Este nuevo horizonte, que se puede caracterizar a muy alto nivel por la integración de inteligencia en la red, incorpora la capacidad de gestionar los recursos de red de forma dinámica, atendiendo a diferentes criterios de servicio, y la maximización del uso de las posibilidades de computación en el Edge y Cloud.
Dentro de las potenciales aplicaciones, las de multimedia audiovisual se encuentran entre las más exigentes, siendo muy demandantes de capacidad de red y de recursos computacionales. Para los servicios de contenidos, la descentralización que permite la flexibilidad de las nuevas redes, junto con la potencia de desplegar servicios en el Edge, proporciona la capacidad real de modificar flujos de trabajo clásicos, acercando los procesados ligados a la distribución de contenidos al punto de adquisición de los mismos, dotando, mediante los mecanismos de virtualización, de la capacidad de desplegar de forma dinámica los procesos ligados a los servicios, y finalmente, apoyándose en la programabilidad de las redes, la adecuación de las mismas para satisfacer la demanda concreta derivada de los mismos, pudiendo adaptarse a posibles modificaciones en momentos puntuales e incluso integrar, para garantizar el servicio, de sistemas de control de calidad en tiempo real que permiten anticipar la toma de decisiones sobre la forma en que los servicios son proporcionados, o los recursos asignados a los mismos.
En esta línea, desde el Grupo de Aplicación de Telecomunicaciones Visuales (GATV) de la Universidad Politécnica de Madrid (UPM), se ha trabajado en el despliegue de pruebas de concepto que permitiesen valorar la capacidad real de prestar servicios de contenidos audiovisuales de alto nivel aprovechando el conjunto de capacidades anteriormente mencionado: la virtualización de funciones de red (NFV, Network Function Virtualisation), las redes definidas por software (SDN, Software Defined Networks) y la computación en el extremo de la red de acceso múltiple (MEC, Multiaccess Edge Computing). Sobre esta base se modela la arquitectura y los servicios dentro de la red de comunicaciones. Mediante la virtualización de las funciones de red se implementan diferentes funciones de red por software (VNF, Virtualised Network Functions), típicamente sobre una infraestructura de virtualización de funciones de red (NFVI, Network Function Virtuaization Infrastructure), lo que desacopla las funciones de red del hardware, aumentando la flexibilidad de la infraestructura y reduciendo los gastos de operación y de equipamiento.
Adicionalmente, las funciones de red físicas (PNF, Physical Network Functions) son cajas de hardware que brindan una funcionalidad específica.
Por otro lado, las SDN gestionan las funciones de enrutamiento y reenvío en el software de dispositivos de red. El uso de SDN ofrece tres claves importantes: separa el plano de control del plano de datos, proporciona una gestión centralizada y, finalmente, convierte toda la red en una entidad programable. Con SDN y NFV, se reduce la complejidad del diseño de los dispositivos, se logra una configuración de red eficiente y el contexto de trabajo puede reaccionar a los cambios de estado mucho más rápido que con los enfoques convencionales, lo que brinda una gran flexibilidad y rentabilidad en la implementación de los servicios, en este caso, los servicios de distribución de contenidos audiovisuales.
Finalmente, la implementación en el MEC permite la migración de recursos de procesado y de almacenamiento más cerca de los usuarios demandantes, lo que reduce la latencia y la agregación de tráfico requerida por los servicios de multimedia audiovisual. NFV, SDN y MEC son tecnologías complementarias que lideran la evolución de la arquitectura de red, ofreciendo nuevos servicios, en este caso, explotados para la provisión de servicios de contenidos.
Uno de estos pilotos, se realizó en el marco del proyecto 5G-Media Programmable edge-to-cloud virtualization fabric for the 5G Media industry, que pretendía la creación de un entorno flexible basado en una plataforma de servicio con un kit de desarrollo de software (SDK, Software Development Kit) que facilitase a usuarios agnósticos de la red el despliegue de soluciones, en forma de funciones de red virtualizadas, para la puesta en marcha de servicios de multimedia audiovisual sobre el Edge. El principal objetivo de este piloto fue comprobar la viabilidad de realizar producción remota virtualizada sobre redes 5G en tiempo real, experiencia que se realizó en las naves de Matadero (Madrid), en colaboración con Radio Televisión Española (RTVE) y Telefónica, sobre la emisión de Radio 3 de “La vida es sueño”, mostrando cómo los avances tecnológicos en el dominio 5G y la computación en el extremo de la red eran capaces de facilitar el potencial suficiente para ofrecer servicios de contenidos audiovisuales de alta calidad a través de una asignación de recursos dinámica y eficiente. Ofreciendo, de esta manera, una alternativa a los problemas asociados a los servicios y aplicaciones de multimedia audiovisual que van más allá de los requisitos de capacidad, latencia y ancho de banda ofrecidos por la red.
Hoy en día, la producción profesional de eventos para su transmisión se caracteriza, mayoritariamente por una gran inversión de recursos: dinero, grandes equipos desplazados, unidades móviles y largos tiempos de preparación y verificación de la instalación. Además, se establecen conexiones dedicadas entre el lugar del evento y el sitio de la emisora para garantizar el alto rendimiento y la calidad de transmisión requeridos, con el consiguiente coste asociado, al ser los requisitos de ancho de banda para una producción de televisión convencional del orden de varios gigabits por segundo. Todo sumado, da un orden de la magnitud de la cobertura de un evento y la inversión asociada a su producción.
En contraposición con esa aproximación, las tecnologías 5G plantean un nuevo paradigma para la gestión de servicios distribuidos y desplegados en el Edge, garantizando la calidad del servicio, generalmente evaluado como calidad de la experiencia del usuario, incluso para los requisitos de servicios de contenidos en red más estrictos y exigentes.
El piloto de producción remota presentaba como objetivo la producción en vivo de un evento desde una ubicación distinta al mismo. Para ello, se aprovecha la capacidad de la red 5G para hacer llegar las señales de cámara, audio y control a una sala de producción, permitiendo que no se necesite desplazar ese equipamiento durante la realización, ni a las personas encargadas de la misma. La arquitectura empleada se detalla a continuación.
La adquisición se realizó mediante tres cámaras de SONY, dos PMW-500 y una PDW-700, que entregan una señal de 1280×720 píxeles con profundidad de 10 bits por canal RGB, 50 cuadros por segundo y con escaneo progresivo, conforme a la norma SMPTE 296M. Esas señales se introducen en el Edge sin compresión empleando el estándar SMPTE ST 2110 Professional Media Over Managed IP Networks, trabajando con el vídeo, el audio y los datos auxiliares en flujos elementales separados. Esto permite que se puedan procesar de forma independiente y generar para cada uno de ellos el flujo de trabajo deseado, permitiendo incluso su gestión en diferentes puntos. SMPTE ST 2110 también permite el envío del área de la imagen activa con ahorros cercanos al 40%. Estas tramas se embebieron con un dispositivo de Embrionix que permiten empotrar dos flujos sin procesar diferentes.
El hardware elegido para esta tarea es un dispositivo SMPTE ST 2110 de Embrionix [27] que está controlado por software y permite incluir 2 flujos sin procesar diferentes, y una gestión a partir de un programa propio que facilita la configuración de la red y los parámetros de enrutamiento, y el archivo de protocolo de descripción de sesión (SDP, Session Description Protocol) que contiene la configuración y las señales que se envían al MEC para manejar las señales de vídeo IP. Para gestionar estas señales IP, que son muy exigentes en términos de ancho de banda requerido, la red de área local (LAN, Local Area Network) necesaria en el lugar se crea mediante un conmutador configurado con un transceptor de factor de forma pequeño (SFP, Small Form-factor Pluggable transceiver) y conectado a la red del proveedor de servicios a través de una conexión de 10 Gbps.

Figura 1
Una visión esquemática de la arquitectura se puede apreciar en la Figura 1.
Los VNF desplegadas en el Edge parten de código abierto. Son flexibles, escalables y capaces de evolucionar más fácilmente que las redes tradicionales, y pueden emplearse tanto para producción en directo como en diferido. Permiten automatizar tareas, y crear flujos de trabajo adaptados empleando sistemas inteligentes, agregando capacidad donde y cuando sea necesario. Además, la actualización es más sencilla que en sus equivalentes físicos.
Los VNF desarrollados en el marco del piloto son las siguientes:
• vUnpacker: permite el uso del protocolo UDP en el estándar IP SMPTE ST 2110. Permite la decodificación de vídeo RTP sobre IP, creando un flujo de trabajo TCP regular en formato matroska en la salida. Como entrada, las funciones utilizan una adaptación del archivo SDP.
• Media Process Engine (vMPE): permite modificar y mezclar señales de vídeo. La señal final del programa (PGM) se produce cerca del lugar para aprovechar la potencia de computación del extremo de la red. Para el piloto, su función era permitir alternar entre las tres fuentes de señal de entrada, así como la creación de una composición entre dos fuentes diferentes. El MPE se divide en dos módulos:
– Servidor: es la VNF que despliega el núcleo del editor. Proporciona dos tipos de salidas: las vistas previas y señal de programa (PGM). Las señales de vista previa se envían a la aplicación cliente en baja resolución (con compresión muy alta). Para esta compresión, el servidor utiliza M-JPEG. La señal PGM está compuesta por la selección de fuente o por la composición de fuentes seleccionada por el realizador y la ofrece como una señal en bruto con un muestreo 4:2:0 (empaquetada en formato matroska).
– Cliente: es la interfaz gráfica para la producción de la señal del programa. En el caso desarrollado, el realizador está ubicado en las instalaciones centrales y no desplazado al evento. Para la comunicación entre servidor y cliente, las funciones utilizan un protocolo TCP simple basado en línea de comandos, con tres tipos principales de operaciones: comandos de cliente a servidor, errores en respuesta a comandos y señales de vista previa del servidor.
• vCompressor: se encarga de codificar las señales de audio/vídeo para reducir su ancho de banda utilizando el estándar H.264. Se basa en técnicas de codificación de código abierto y bibliotecas incluidas en ffmpeg. La compresión introduce latencia en la transmisión de la señal y puede ser crítica en algunos casos, por eso, la implementación de funciones virtuales en el extremo de la red es una ventaja para reducir la latencia.
Como resumen final del flujo de trabajo del piloto, la señal de vídeo en banda base de la cámara se transporta vía HD-SDI y se convierte a IP usando el estándar SMPTE 2110. Después de eso, las VNF descritas anteriormente interactúan con la señal. El vUnpacker obtiene un vídeo en bruto sobre la señal IP, el vMPE actúa como conmutador de vídeo controlado por el realizador desde las instalaciones de transmisión (donde puede ver las señales de vista previa de cada fuente) y finalmente, el vCE comprime el PGM (programa) señal, utilizando un formato de codificación H.264. La señal de salida es la empleada finalmente en la transmisión.
Los resultados globales del piloto fueron altamente satisfactorios. En lo referente al ancho de banda utilizado, el ancho de banda empleado para las tres señales de monitorización fueron 4,93 Mbps, y de 10 Mbps para la señal PGM. La latencia, que es tremendamente crítica para cualquier servicio de multimedia audiovisual, se controló mediante una aplicación de tiempo GPS, y el promedio medido fue de 500 ms. Finalmente, respecto al uso de recursos virtualizados, se ha medido el uso de procesadores (CPUs), memoria, almacenamiento en disco gestionado con la NFVI. La asignación mayor se hizo al compresor 8 CPUs y 4 GB de memoria, y la carga sobre las mismas en funcionamiento variaba entre el 50 y el 75% de su capacidad.
La tabla resume los principales indicadores de impacto comparados entre los dos modelos, y la mejora que aporta la producción remota basada en 5G.