HomeEn portadaLa inteligencia artificial y las empresas de radiodifusión (II)

La inteligencia artificial y las empresas de radiodifusión (II)

Este artículo es continuación del publicado en el número anterior de la revista sobre inteligencia artificial y las empresas de radiodifusión. En esta segunda y última entrega presentamos otras cuatro organizaciones: Radiotelevisió ValencianÀ Punt, Atresmedia, Movistar Plus + y OBS (Olympic Broadcasting Services). Profesionales de las mismas nos han hecho saber sus experiencias en el pasado, presente e ideas de futuro en relación con la inteligencia artificial (IA).

Por Luis Sanz, Consultor Audiovisual

 

À Punt

Con la participación de Higinio Añó Sanz (Director de Explotación e Ingeniería) y Pau Peiró Sendra (Técnico en Comunicación Multimedia, Jefe de Proyecto).

 

Primera época

Al año de empezar las emisiones, se planteaban unas carencias que, dadas las limitaciones de personal y del proyecto empresarial, podíamos superar mediante herramientas de Machine Learning (ML) y de desarrollos gracias a la inteligencia artificial. Este interés siempre se ha enfocado para mejorar la accesibilidad de los contenidos audiovisuales, que es una prioridad en la Corporació Valenciana de Mitjans de Comunicació (CVMC). También se hace uso de herramientas externas que permiten un mejor rendimiento en la redacción de informativos.

Por ejemplo, el primer desarrollo que se ha implementado en la CVMC es la integración de procesos de reconocimiento automático del habla (ASR), sistemas basados en arquitecturas de redes neuronales profundas recurrentes y transformers (modelo de procesamiento del lenguaje publicado por Google en 2017, es la base tecnológica de los GPTs (Generative Pre-trained Transformer), como ChatGPT. En suma, nos permite convertir una fuente sonora a texto con un acierto de más del 85% en valenciano. Estos sistemas ASR se construyen con software desarrollado en la Universitat Politècnica de València (UPV) y otras herramientas de código abierto como TensorFlow (Google) y Fairseq (Meta/Facebook), así como un corpus de más de 7.000 horas de audio transcrito.

El corpus significa aplicar métodos y desarrollos de Deep Learning (DL) para que se mejore el aprendizaje de la lengua estándar y sus casos de uso en la CVMC. Esto implica no solo aplicar reglas gramaticales, sino aplicar también filtros de expresión, corrigiendo los errores del habla, denominaciones de origen y acepciones que este modelo requiera (tanto en su registro formal —escrito— como en el oral). A partir de ese corpus se podrán implementar muchos desarrollos que conjuguen nuevas tecnologías para mejorar la accesibilidad en cualquier ventana de la corporación.

En los últimos años, dado que el impacto de la inteligencia artificial está siendo profundo y transversal en muchas herramientas del sector, es obvio comentar que, desde las suites como Adobe y Microsoft, hasta un número importante de aplicaciones web, todas integran alguna funcionalidad inteligente que facilita las tareas rutinarias y, en algunos casos, las creativas de bajo perfil.

 

Subtitulación

En 2019 se realizó una jornada en las instalaciones de À Punt donde un equipo interno de ingeniería propuso una serie de retos vinculados con el Machine Learning y Deep Learning. El objetivo era mejorar y optimizar los flujos de trabajo de À Punt.

En octubre de 2020 se materializó el primer convenio con el equipo de investigación MLLP (Machine Learning and Lenguage Processing), que pertenece al instituto VRIAN (Valencian Research Institute de la Universitat Politécnic de València (UPV)).

 

CMS Gestiosbt. Representa el historial de los trabajos, con la leyenda de los diferentes estados posibles que cada clip de vídeo debe o puede pasar durante el proceso de la subtitulación (para la TDT y la OTT) y de la transcripción, que utilizamos para www.apuntsdellengua.es (web para aprender y practicar la lengua valenciana)

 

Con ellos, conseguimos implementar tecnologías de reconocimiento de voz (ASR), para aplicar los procesos conocidos como conversión de voz a texto (Speech to Text, S2T) aplicando procesamientos de lenguaje natural (NLP). De esta manera, obtenemos transcripciones y subtítulos automáticos que ayudan a los técnicos de subtitulación a mejorar la calidad y condiciones de trabajo (menos estrés cuando se trabaja en tiempo real) y aumentar en volumen (conforme se alimenta el corpus, la calidad y el acierto del servicio hacen rendir más a los lingüistas encargados de realizar los subtítulos).

 

Interfaz para los editores CMS. Cuando la media se ingesta y se visualiza en el historial, tenemos una interfaz de trabajo para los lingüistas que subtitulan, en modo offline, contenido enlatado (series, películas, concursos, reportajes, etc.; todo lo que no es en directo, es susceptible de analizarse por el sistema).

 

En 2020, gracias a la colaboración con la UPV y los diferentes retos que planteamos, el instituto VRAIN mostró prototipos de desarrollo que daban paso a clasificar y generar contenidos de la mano de la IA. Por ejemplo, se obtuvieron ejemplos de calidad tanto en la conversión de voz a texto (transcripción/subtitulación automática), como en la conversión de texto a voz (síntesis de voz), usando voces clonadas a partir de muestras de audio de profesores e investigadores de la UPV.

 

Traductor offline. Esta funcionalidad, aunque la tenemos habilitada, todavía no le hemos dado uso. Se espera aplicarla en la plataforma de aprendizaje del valenciano y, en breve, del inglés, www.apuntsdellengua.es . Se trata de que, en el mismo proceso Speech to Text, se realice una capa de traducción entre tres idiomas posibles (catalán, castellano e inglés). Permite corregir al mismo tiempo tanto la subtitulación y adecuación, como la traducción propuesta por el sistema.

 

Gestiosbt es la herramienta que hemos desarrollado gracias al proyecto de colaboración con el MLLP-UPV. Se trata de una herramienta de subtitulación, con interfaz de edición web, en la que, previamente a la edición realizada por el técnico lingüista, los materiales audiovisuales son procesados por un sistema de reconocimiento de voces (un ASR propio de la UPV que analiza castellano y valenciano en el mismo proceso), a cuyo resultado se le aplican las reglas y lógicas del aprendizaje previo del corpus valenciano de la CVMC. Esto quiere decir que su resultado se adapta y actualiza según se determina en el manual de estilo de À Punt.

 

Interfaz de edición, subtítulos offline. El sistema propone los subtítulos, detecta las marcas temporales, y el editor corrige sobre el campo de edición. Las correcciones no son tanto ortográficas sino de adecuación para las normas UNE de subtitulación (caracteres por segundo, identificación de diálogos, etc…).

 

En la salida del proceso de un registro sonoro se muestra una transcripción en una línea temporal, con las marcas de cada inicio y fin de los subtítulos. A este mismo resultado se le aplica una conversión aplicando la norma UNE, para la subtitulación general y la infantil para la televisión, y conversión automática para el entorno multimedia, web y aplicaciones.

El sistema ASR y la actualización del Corpus (ML) se realiza por parte de la UPV. El sistema de gestión y soporte de la interfaz de usuario, ha sido un desarrollo propio de la CVMC, que se integra con los flujos entre el MAM de Dalet y los sistemas de subtitulado y su multiplexación para la emisión por la TDT de los subtítulos, así como la integración para habilitar los subtítulos en nuestra OTT.

Interfaz de transcripción offline. La misma interfaz de edición, la podemos tener en modo de transcripción, del mismo contenido. Esta interfaz es utilizada para los contenidos de www.apuntsdellengua.es y para el personal de la redacción de informativos que buscan la literalidad de las frases para realizar extractos y lecturas rápidas

 

Gestiosbt ya está plenamente en producción, y, además de generar los subtítulos de lo que se habla en la imagen, también puede realizar transcripciones de voz a texto, para, por ejemplo, seguir eventos importantes en directo, de forma que un periodista pueda publicar su contenido rápidamente en redes sociales.

Actualmente, el convenio con la UPV ya ha finalizado. Ahora estamos en proceso de renovación para los próximos cuatro años. En el nuevo convenio se plantean nuevas investigaciones que permitan la creación de voces sintéticas, la catalogación masiva de contenidos radiofónicos y audiovisuales, y mejoras en materia de accesibilidad a los sitios web que mantiene À Punt, apuntmedia.es y apuntsdellengua.es, y a su OTT.

En este nuevo convenio, para la creación de voces sintéticas nos vamos a apoyar en el corpus único del valenciano ya desarrollado para modelar el lenguaje natural de las voces. Sin el corpus no sería posible.

 

Corrección online. Se observa a una lingüista subtituladora que utiliza nuestro sistema de Machine Learning para la subtitulación en tiempo real. Nuestro sistema da soporte externo vía API y, en este caso, se enlaza con el sistema Fingertext de Anglatècnic para hacer uso de la herramienta en los directos. La lingüista corrige o adecua la propuesta del sistema. Esto permite desestresar al técnico que trabaja con muy pocos segundos para adecuar lo escuchado al texto.

 

Aplicaciones externas

A partir de 2022, comenzaron a integrarse en À Punt varias herramientas de inteligencia artificial. Entre ellas:

Languagetool, corrector y generador alternativo de frases que incorpora el valenciano.

Esta aplicación funciona como una extensión del navegador web, de forma que en nuestro CMS cuando redactamos una noticia, el corrector nos indica los errores, la comprensión y si hay dudas sobre el significado del contexto, también lo indica. Es bastante útil. En la figura se observa en un subtítulo que, según el acento tónico valenciano, su significado es muy diferente, en «estándar», o «estandarte «.

 

LANGUAGETOOL

 

Adobe Firefly,  IA generativa gratuita para el personal creativo.

Utiliza sencillas instrucciones de texto en más de 100 idiomas para crear imágenes impresionantes, transformar textos, jugar con los colores y mucho más.

 

Canva

Se usa casi en exclusiva por el departamento digital. Permite con cierta agilidad crear plantillas inteligentes, generar imágenes y textos.

 

Metricool

Para creación de contenidos adaptados a las redes sociales, con pautas de automatización en la creación de listas periódicas…

 

PIXLR

Para automatizaciones y operaciones como borrado de objetos, redimensiones y rellenado de fondos, es un sencillo editor de fotos sobre navegador web que se utiliza por parte del equipo de realización para los vídeowalls de los informativos.

 

CapCut

Software de edición de TikTok, facilita muchas herramientas de procesado visual y de accesibilidad.

 

Notion

Es un espacio de trabajo que conecta notas, documentos y tareas.

 

Copilot

Es un ChatGPT específico para lenguajes de programación. Introduce un chatbot para ayudar a los programadores a escribir código de manera ágil, así como automatizar pruebas en la depuración del código.

 

Áreas y usuarios

Las herramientas señaladas se usan en diferentes departamentos de À Punt. La utilización es la siguiente.

Gestiosbt se utiliza en:

–              El departamento de subtitulación para TDT y OTT.

–              El equipo de apuntsdellengua subtitula y entrega las transcripciones automáticas de todos los contenidos audiovisuales.

–              La entrega de transcripciones al equipo digital para que pueda realizar extractos y resúmenes de contenidos, tales como entrevistas que se realizan en la TDT y que desean destacar en redes sociales, etc.

En el departamento digital hacen uso de herramientas externas como LanguageTool, Canva, Metricool, CapCut y la Suite Creative Cloud de Adobe, tanto para la web, como para la OTT y las redes sociales.

El departamento de grafismo y realización, aparte de la suite de Adobe, también hace uso del software PIXLR, para realizar composiciones que se plasman en el videowall del estudio 3.

Periodistas, redactores ENG, seo manager y resto del equipo de digital, gestores de contenidos y lingüistas, grafistas y ayudantes de realización son los usuarios de las herramientas de IA, junto con ingeniería, desarrolladores y personal técnico multimedia. En el archivo, los operadores de equipos y documentalistas validarán cada análisis que el servicio externo de ML nos ofrecerá.

En la actualidad podemos decir que en la redacción de informativos puede ser utilizada la IA por parte del equipo de digital, de grafismo y de realización. Este uso varía según las habilidades del personal y sus intereses, pero no está estandarizado ni existe un protocolo de uso.

À Punt no desarrolla aplicaciones de IA Generativa, si bien enfoca sus investigaciones para mejorar la accesibilidad, los flujos de trabajo y las herramientas para asistir a la redacción y la parte técnica. Pero, se dispone de licencias con herramientas externas que sí disponen IA Generativa, que se integran en los servicios de Adobe, PIXLR y/o GitHub Copilot, para rellenar composiciones visuales que han de cambiar su resolución, o rellenar/optimizar métodos de código, por ejemplo.

En relación con las aplicaciones de IA para generar imágenes y vídeos, tipo Dall-E, Midjourney, etc., no se está haciendo propaganda en la redacción, ni proponiendo su uso, pero no podemos, ni queremos impedir que un realizador o un redactor recurra a alguna de estas aplicaciones para generar una imagen que incluya en su noticia redactada. Son iniciativas particulares de los profesionales.

 

Futuro

Para el futuro, se prevé un proyecto para la mejora del archivo audiovisual. Se desea recatalogar partedel archivo generado de informativos, mediante el análisis de un reconocimiento facial de personajes públicos relevantes. Esto permitirá mejorar la metadata de los archivos mediante que un proceso basado en Machine Learning (ML) que identificará a partir de catálogos públicos de Internet estas personalidades. Este proyecto se prevé externalizar y poner en marcha tan pronto como sea posible. El archivo audiovisual gestionado por CulturArts, del cual hace uso la CVMC, tendrá una mejora cualitativa.

También está previsto presentar un proyecto junto con la Universidad Pompeu Fabra a los fondos europeos Next Generation, para construir la prueba de concepto de un avatar que interprete la lengua de signos en valenciano.

 

Incidencia empresarial

En lo relativo a la subtitulación, nos ha permitido aumentar la cuota de contenidos accesibles, con la misma masa laboral. Además, se ha creado y se mantiene un corpus que permitirá acelerar el uso de otras tecnologías que a su vez nos permitirán ser más accesibles y de manera sistematizada, por ejemplo, la tecnología “Text2Speech”, para convertir texto a voz  y servir los audios en la web (pensando en las noticias).

En cuanto a las herramientas IA de terceros, requieren una formación con una curva de aprendizaje relativamente corta, si pensamos en los beneficios que a largo plazo suponen para la corporación.

No se prevé una incidencia laboral negativa, dado que el uso que realizamos de la IA está bajo capas de interfaz en las que el usuario no realiza sobresfuerzo alguno. La tecnología se enfoca como una asistencia al equipo humano y, externamente, mejora el servicio a la ciudadanía.

El uso de la inteligencia artificial es y será positivo en términos de productividad y eficacia. La CVMC desde sus inicios empezó su andadura con una relación de puestos de trabajo, muy ajustada a todas las actividades y servicios que realiza. Y las herramientas que vamos interiorizando van en la línea de asistir más y mejor todas las tareas que realizamos.

 

Informaciones falsas

Hay métodos de validación informática que permiten averiguar ciertas técnicas usadas en las redes neuronales generativas antagónicas. Por ejemplo, la complejidad del parpadeo y delmovimiento de los párpados en los vídeos. Pero, cada vez más, es realmente difícil cribar falsos contenidos que son difundidos en las redes sociales. Por tanto, la comprobación y la búsqueda de más de una fuente que confirmen los hechos son fundamentales en las tareas informativas.

Un conocimiento actualizado de las herramientas que están al alcance de la mayoría de la población también nos permite descifrar y evaluar. Por ejemplo, cómo se usan las máscaras faciales que están a disposición pública, bien sea en Google Colab, por ejemplo con  Face Fusion by CrishxExtrem, como se puede ver en TikTok) o repositorios similares, o bien, en las posibilidades y usos que promueven empresas pioneras como Synthesia o Yepic.

En este sentido, ser un medio de comunicación que informa en valenciano nos ha protegido del uso y engaño que se ha realizado con otras lenguas, como el castellano o el inglés. Nos ha dado cierta ventaja ver los malos usos en otros medios para estar en preaviso.

 

Agradecimientos

À Punt quiere agradecer la colaboración y ayuda en el desarrollo de las aplicaciones mencionadas en este artículo de las siguientes entidades:  Societat Anónima de Mitjans de Comunicació, Universitat Politécnica de València y Acadèmia Valenciana de la Llengua.

 

Atresmedia

Con la participación de José María Martínez Marcos (Director de Producción y División Técnica)

 

ATRESMEDIA. CAPTURAS PAUTA ÚNICA.

 

El principio y su evolución

En Atresmedia se trabaja con aplicaciones de IA desde hace aproximadamente diez años en ejecución de proyectos, si bien en las diferentes convenciones tecnológicas mundiales (no solo NAB e IBC, sino también CES, MWC y otras) ya se habían empezar a seguir y evaluar soluciones. Desde entonces hasta nuestros días, la incorporación de herramientas de inteligencia artificial ha sido progresiva y constante, incluyendo las funciones generativas desde el primer minuto que estuvieron disponibles.

Las aplicaciones iniciales fueron, aunque no en orden cronológico, pero sí por el impacto que tuvo en la compañía:

  • Una solución de análisis de contenidos y determinación de puntos óptimos de inserción publicitaria, integrado con los sistemas de playout. Se trata de un sistema desarrollado y patentado por nosotros, hace unos nueve años, denominado “Método de Emisión de Contenidos Audiovisuales”, y que se convirtió en su momento en referencia en mercados específicos a nivel europeo. Hace reconocimiento y análisis de imagen. Se estuvo entrenando durante un par de años con personas que verificaban el resultado automático y está plenamente operativo desde entonces para nuestra pauta única.
  • Atresmedia tiene un sistema de documentación propio y hemos ido incorporando módulos, desarrollados externamente, que incluyen un sistema de etiquetado y catalogación automática de contenidos, integrado con las aplicaciones de gestión documental. Este sistema recibió el premio a la excelencia de la Federación Internacional de Archivos de Televisión (FIAT/IFTA) por el uso de algoritmos y herramientas de IA y su contribución al cambio de paradigma en el trabajo de los documentalistas de televisión.
  • Un sistema de control automático de calidad y verificación automática del cumplimiento del código de autorregulación. Es un desarrollo comercial externo de Interra Systems, que hemos parametrizado y entrenado para mejorar las detecciones. Se ha complementado el sistema con uno adicional de desarrollo propio para control de doblajes y se ha integrado con el sistema AVID.
  • Sistemas de traducción simultánea para contenidos.

 

GESTIÓN DOCUMENTAL

 

En el año 2016/17 vimos el primer sistema de traducción simultánea automático y empezamos a colaborar con empresas que tenían sistemas genéricos, no especialmente para la televisión y contactando con sus desarrolladores, decidimos poner en marcha un piloto para traducir nuestros informativos para el canal internacional.

  • Aplicaciones de control para seguridad informática. Son herramientas comerciales.

 

CONTROL DE CALIDAD REPORTE Y DIAGRAMA

 

La política de Atresmedia ha sido digitalizar toda la organización, automatizar tareas, incorporar IA en muchos procesos y para nosotros la seguridad informática ha sido fundamental y básica. Hemos priorizado en las inversiones para tener redes aisladas y mecanismos eficaces, para que cualquier anomalía o uso no habitual de una red genere una alarma.

  • Remasterización y adecuación de formatos de contenidos. Utilizamos diferentes herramientas externas. Tenemos gran cantidad de material en SD y estamos haciendo una remasterización de ciertos contenidos que son de gran importancia para elevar la definición, mediante IA generativa, hasta incluso 4K. El proceso es muy lento pero el resultado es espectacular.
  • Aplicaciones de asistencia a la gestión de la compañía.

Atresmedia está inmersa en un proyecto global de IA. Hay una parte que no solo es aplicable a empresas de comunicación, como es la IA aplicada a recursos humanos, a finanzas, al puesto de trabajo ofimático, etc. Y hay otra parte más aplicable a nuestro sector, como las aplicaciones vistas anteriormente y otras que están en fase muy piloto. Por ejemplo, para ayudar en el puesto de trabajo del redactor, estamos con la versión liberada del sistema ADA de AVID, en la que ha integrado IA para optimizar el trabajo de redacción y edición.

Otra aplicación se refiere a las pruebas que estamos haciendo, como betatesters, para el seguimiento automático de los presentadores de un programa que se mueven por el estudio, utilizando los pedestales de cámara de Vinten y su sistema integrado de autotracking por IA Vega, que reconoce la imagen de los presentadores. Se está utilizando en el programa “La Ruleta de la Suerte”.

 

AUTOTRACKING EN EL PROGRAMA LA RULETA DE LA SUERTE

 

En algunos casos se ha partido de herramientas existentes desarrolladas por empresas especializadas en IA, y se ha reenfocado su funcionamiento integrándolas como módulos o aplicaciones internas para cubrir los casos de uso necesarios para Atresmedia.

El resultado del trabajo es aprovechado de manera directa o indirecta por todas áreas, las más relevantes emisiones, comercial, producción o documentación.

El uso de las herramientas de IA se está extendiendo de manera paulatina a todos los profesionales de la compañía. En buena parte de las aplicaciones, los sistemas de IA trabajan en back, integrados en los procesados automáticos y flujos de contenidos, ofreciendo el resultado directamente a los usuarios en sus aplicaciones de gestión de emisión y gestión documental habituales.

Para el personal, la transición está siendo de tal forma que no se están dando cuenta que están en una transición, ya que con la IA los cometidos son los mismos, pero se realizan con más rapidez y eficacia.

 

IA generativa

Aunque la etiqueta de “generativa” no estaba aún popularizada, experiencias piloto con sistemas de resúmenes automáticos de contenidos y de realización automática se efectuaron hace más de siete años.

Desde entonces hasta hoy se ha mantenido una línea de trabajo constante de evaluación y aplicación de soluciones y en la actualidad, hay dos líneas de implementación: incorporación directa a los procesos de trabajo de prestaciones de IA que se van incorporando a herramientas comerciales y desarrollos internos de aplicaciones a medida apoyadas en IA generativa para casos de negocio específicos.

Las grandes empresas proveedoras de software, tanto para funciones empresariales como para funciones de producción broadcast, están incorporando prestaciones de IA generativa en sus productos. Atresmedia está en contacto con ellas y, a través de las diferentes líneas de acuerdo y trabajo, las está incorporando al día al día: Adobe, Avid, Microsoft, SAP, Oracle, … Trabajamos desde el principio como “early adopters” de soluciones que valoramos pueden tener impactos relevantes.

Por otro lado, también se emplean o prueban herramientas o aplicaciones específicas independientes para diferentes casos de uso. Todo se está salpicando de inteligencia artificial, desde los paquetes de Office hasta los asistentes para desarrollo de código para aplicaciones como Atresplayer.

 

RECOMENDADOR ATRESPLAYER

 

Todos los perfiles profesionales y niveles de la organización se encuentran afectados en mayor o menor medida por las herramientas de IA generativa, al igual que lo han estado en el pasado por la digitalización y con otros tipos de avances tecnológicos. En líneas generales, a corto y medio plazo, la IA aportará funciones de asistentes o ayudantes, y permitirá mejorar la productividad de las personas en los diferentes puestos de trabajo.

No sólo se trata de una evolución tecnológica, sino de una transformación empresarial que va mucho más allá.

 

Punto de vista empresarial

A lo largo de los últimos años todos los profesionales de Atresmedia han recibido formación certificada en Transformación Digital en la cual se incluían fundamentos de inteligencia artificial. En la actualidad, hay un programa activo de formación y divulgación de IA que irá llegando a todas las áreas de la compañía, motivado especialmente por las posibilidades de la IA generativa.

El primer pronóstico que se puede hacer acerca del impacto en la fuerza laboral es que nos va a permitir hacer proyectos que hasta hace poco eran impensables.

El correcto uso de la nueva tecnología debe ir siempre orientado a mejorar productividad, incrementar eficacia, reducir costes y/o incrementar ingresos. Aunque hay un nivel elevado de expectativas, el grado de incidencia real es algo que está por medir, aunque todo apunta a que el impacto será muy positivo.

 

Deep Fakes

El pasado 1 de febrero tuvo lugar la jornada anual de Uteca, bajo el título “El valor de los medios de comunicación en el nuevo orden tecnológico mundial. Periodismo y empresas.” En una de las mesas y conferencias, titulada “Responsa-bilidad vs Desinformación” representantes de diferentes medios, incluyendo Atresmedia, pudieron abordar esta cuestión específicamente.

El compromiso de Atresmedia en su papel de servicio informativo para la sociedad española con el trabajo activo de más de 700 periodistas será ayudar a proporcionar fuentes de información veraces y contrastadas, y poner aún más en valor el papel de las cabeceras editoriales.

Serán necesarias, en todo caso, varias líneas: la primera y fundamental, regulación por parte de las autoridades competentes a nivel europeo y nacional; la segunda concienciación a la sociedad, y en este apartado Atresmedia también tiene iniciativas como Metafuturo o mentes AMI que juegan un papel activo en el desarrollo de espíritu crítico y uso responsable de la tecnología; y la tercera, también soluciones tecnológicas que asistan a la identificación, alertado y neutralización de los “Deep fakes”, de la misma manera que existen para la identificación de contenido no apto para todos públicos.

En cualquier caso, no sólo con los “deep fakes”, la adaptación de las normativas y protocolos al uso de la IA probablemente sea el reto más importante al que nos enfrentamos.

 

MOVISTAR Plus+

Con la participación de Manuela Martínez (Jefe de Ingeniería y Mantenimiento), José Luis García Sánchez (Gerente de Explotación), Javier Saavedra (Jefe de Documentación) y Julio Morales (Director del canal Vamos)

 

Prehistoria

Ya en los inicios del nuevo centro de Tres Cantos, hace 22 años, se empezaron a conocer herramientas de procesos automáticos como la transcripción de audio a texto. También, ya en aquel tiempo, se extraían los “key frames” de la señal de vídeo en baja resolución que se generaba a partir del vídeo de producción. Esta extracción no era muy eficaz para la elección de puntos de acción en un deporte, pero en el caso de otros géneros como informativos era correcta en los cambios de secuencia.

Respecto a la subtitulación, cuando nació Canal Satélite Digital, en 1996, se incorporó el subtitulado opcional, no quemado en el vídeo. El subtitulado de películas se hacía y se hace con traductores, no con ningún sistema automatizado, y no se subtitula en directo.

En estos años hemos intentado aplicar automatización en cada proceso. Por ejemplo, desde hace ya mucho tiempo incorporamos a nuestros programas de deporte datos estadísticos que entregan en nuestras instalaciones y en tiempo real empresas especializadas con estadísticas de cada disciplina deportiva.

 

DATOS ESTADÍSTICOS PARA ENRIQUECER PROGRAMAS

 

Programas

Se realizan muchos gráficos para deportes y desde hace más de diez años utilizamos sistemas de análisis o sports enhancements como  LiberoVision  de la compañía Vizrt, para análisis de jugadas con seguimiento de la imagen y reconocimiento de los jugadores. También se han incorporado técnicas de publicidad virtual, para sustituir en los estudios a la publicidad fija, con tecnologías de varios fabricantes, empleando realidad aumentada en nuestro estudio virtual de deportes, al que se va a incorporar este año otro estudio específico para baloncesto, donde se hacen las retransmisiones y programas de NBA o Euroliga. También en el plató denominado ‘Michael Robinson‘ —en honor a nuestro emblemático periodista— se utiliza realidad aumentada en programas como ‘Deporte Plus’. En este se efectúa el análisis deportivo de la jornada de fútbol en Movistar Plus+ con Lucía Villalón y Juanma Castaño.

 

EJEMPLO DE REALIDAD AUMENTADA DURANTE LA GRABACIÓN DEL PROGRAMA “’EL DÍA  DESPUÉS”’

 

En las retransmisiones de LaLiga que emitimos en nuestros canales se incluyen datos de IA que LaLiga incorpora a sus señales, generados por Microsoft y que nos permiten, por ejemplo, estimar el porcentaje de probabilidades que tiene un jugador de marcar un gol dependiendo de la posición.

 

ANÁLISIS DE JUGADAS DE LALIGA

 

También se utiliza Libero. En la final de la Copa del Rey de baloncesto, en los previos de cada partido, uno de nuestros analistas estudia con Libero cada jugada.

 

IMAGEN DE LIBEROVISION DURANTE LA RETRANSMISIÓN DE LA COPA DEL REY ACB 2024

 

Estamos explorando el mercado con diferentes empresas, para ver todas las posibilidades que pueden ser aplicables a las diferentes áreas de Telefónica en relación con la inteligencia artificial.

Se está trabajando individualmente con diferentes empresas para revisar todos los procesos que pueden ser automatizables: deportes, documentación, generación de trailers automáticos, generación de carátulas para el interfaz de abonado, etc. Estamos todavía en una fase de investigación.

Para el subtitulado, estamos contactando con empresas muy específicas, relacionadas con la subtitulación para televisión, y estamos viendo que están muy cerca de lo que necesitamos.

Estamos investigando la generación de subtítulos en todas sus vertientes, tanto para programas en directo, como para programas que tengamos que subtitular en las lenguas cooficiales. No está todavía implementado, estamos esperando una decisión para ponerlo en producción.

 

Inteligencia artificial

En general, se está analizando la integración de herramientas de IA prácticamente en todos los departamentos. Como ejemplo, en grafismo ya están probando las últimas licencias de Adobe porque ya genera imágenes con IA. Avid también está incorporando IA en sus soluciones. En nuestro propio MAM, Media 360, se acaban de implementar módulos que tienen que ver con el machine learning, para que los documentalistas puedan clasificar por voz y con etiquetas. Para el etiquetado, estamos probando aplicaciones.

 

ETIQUETADO AUTOMÁTICO DE SEGMENTOS OBTENIDOS POR PALABRAS CLAVE (MEDIA 360)

 

Otra posible área de aplicación es el QC (control de calidad) en los ficheros que nos llegan de proveedores externos. Queremos que se revise que los subtítulos que nos llegan estén sincronizados con el vídeo.

 

MINUTADOS EN MEDIA 360 – HERRAMIENTAS DE DICTADO POR COMANDOS Y TEXTO  DOCUMENTAL

 

IA generativa

No estamos utilizando ninguna herramienta de IA para generar contenidos. En el proceso creativo, tenemos conocimiento de que existen oportunidades de generación de contenidos realizados por aplicaciones externas, pero de momento confiamos todavía en el ser humano. Estamos convencidos de que las máquinas no van a producir una pieza con el ingenio de un humano, además de que esos trabajos tienen que ser supervisados por personas. Oficialmente, los periodistas de Movistar Plus+ no usan la IA para realizar resúmenes o sinopsis de las noticias.

La idea no es la de crear, sino automatizar y optimizar procesos, delegando en las herramientas externas los procesos menos productivos, enfocándonos en los procesos más importantes relacionados con los contenidos que emitimos. En otras áreas de la organización, se está valorando la ayuda de nuevas herramientas, por ejemplo, para la recomendación de contenidos. Realizan sinopsis y usan imágenes para presentar el contenido al público. Con recursos y desarrollo propios, utilizando herramientas de IA, hemos realizado la composición final de la escaleta de emisión a partir de ciertas reglas y términos. Otros departamentos como recursos humanos, finanzas, legal, están abiertos a probar soluciones de IA. Para muchas de estas iniciativas se buscan sinergias con otras áreas de Telefónica, como el uso de Business Inteligence para la utilización de algoritmos en la recomendación de contenidos, la creación de perfiles de usuario, etc.

Queremos simplificar los procesos repetitivos para dedicar más tiempo a las cuestiones más relevantes, las que aportan más valor al producto que ofrecemos. El objetivo principal es ser más eficientes empresarialmente en algún aspecto, ya sea económico, en tiempo u operativo. Se trata de hacer más producto, hacerlo mejor y reducir el número de errores posibles.

Respecto a los productos que ofrecemos a los espectadores, pretendemos evitar incidencias negativas, enfocarnos más en los contenidos premium, dedicándoles más trabajo y destinando los procesos automáticos al resto de los contenidos del catálogo.

Dentro de Telefónica, el desarrollo de la IA conllevará cierta transformación de procesos y por ello en Movistar Plus+ vamos de la mano de sus equipos de recursos humanos, porque en ocasiones hay que hacer recapacitación y reciclaje de ciertos perfiles profesionales.

Con respecto a los contenidos falsos (deepfakes) que puedan producirse, el origen de nuestros contenidos suele ser bastante estándar y las películas, series y deportes que producimos tienen bastante supervisión, no es como en los informativos. En cualquier caso, hay que tener un control de calidad y creemos que se debería hacer una alianza global entre todos los actores de la industria audiovisual para conseguir que haya un uso responsable de la inteligencia artificial.

 

OBS (Olympic Broadcasting Services)

Con la participación de Isidoro Moreno (Jefe de Ingeniería y Operaciones Técnicas) y Guillermo Jiménez (Director de Ingeniería de Broadcast).

 

Los inicios

En unos Juegos Olímpicos hay un proceso de planificación muy largo. Desde el principio de la operación olímpica, siempre hemos utilizado herramientas que podían facilitar todos los procesos de planificación. A continuación, con esa planificación, hablando con los radiodifusores, empezamos a recibir los miles de peticiones de servicios que OBS tiene que dar, los implementamos y finalmente operamos.

En estas fases, se empezó a utilizar implícitamente la IA en los procesos de decisión automática, cuando se comienza a usar bases de datos con herramientas de planificación de proyectos.

En el departamento de ingeniería siempre se ha ido un poco por delante del resto de la compañía, ya que por su perfil más técnico los ingenieros están más acostumbrados a automatizaciones con macros o automatizaciones con decisiones más lógicas. En los temas corporativos y de planificación, hemos empezado a utilizar herramientas de gestión de proyectos, desde el momento mismo en que hemos conocido su existencia, cuando se tenían que tomar decisiones y costes asociados. También tenemos nuestra propia herramienta de planificación de personal, desarrollada por OBS, GRPS (Games Resources Planing System), que es el sistema de planificación de recursos para los Juegos. En la base de datos hay miles de personas y las decisiones se tienen que tomar automáticamente. Cuando ingresa una persona en la herramienta, automáticamente lanza flujos de trabajo para iniciar los procesos de generación de billetes de avión, alojamiento, localizaciones, transporte, etc.

 

ÁREA DE TRABAJO DE OBS EN EL CONTROL CENTRAL DE LOS JUEGOS

 

Estas herramientas de planificación afectan a la organización corporativa. Cuando se está proyectando la cobertura de los Juegos, se considera un periodo de instalación, en el que se dispara el personal que mueve la organización, y que prevé que el personal de producción llegue a la localización no antes de que la instalación esté terminada. Todo ello se ingresa en la base de datos del GRPS.

Tenemos otra herramienta, el Production Plan, que incluye todo el plan de producción de los Juegos. Es un desarrollo interno de OBS, realizado a partir de los datos externos que el Comité Organizador incluye en el Games Plan (Plan de los Juegos) que desarrolla con las federaciones, determinando qué deportes van, en qué localizaciones, en qué fechas y en qué horas, porque hay que tener en cuenta que, al ser un proyecto multinacional, es muy importante el prime time de cada país en función del interés que tengan en sus deportes preferidos.

Con el Plan de Juegos desarrollamos el plan de producción, seleccionando el deporte, cuándo se va a producir, cuándo se va a emitir y qué recursos se necesitan, técnicos y humanos, ingresándolos en la base datos del GRPS.

Las aplicaciones comentadas, tanto en el Plan de Recursos como en el Plan de Producción, son usadas por diverso personal de la organización: personal de ingeniería para ver los recursos técnicos necesarios, personal de los servicios de logística técnica para el movimiento de equipos, personal de producción dentro de los servicios de logística de personal para el movimiento de personas, y finanzas para ver los recursos económicos necesarios para llevar a cabo el plan.

En relación con la inteligencia artificial, observábamos desde hace tiempo que sería de interés poder utilizar de una manera inteligente los metadatos de la producción de los Juegos de ediciones anteriores, al disponer de la ingente cantidad de información que se genera en su transcurso (cronogramas, resultados, tiempos, relojes, etc.), que se embebe dentro de la señal de vídeo, y poder analizarlos.

Hace unos ocho años se comenzaron a hacer pruebas con aplicaciones propietarias para el análisis de los metadatos de acuerdo con las soluciones disponibles en el mercado en ese momento. Había empresas que hacían detección automática de eventos, analizando jugadas de fútbol o de baloncesto. Con estas empresas se hicieron pruebas de concepto, sin implementarlas en los Juegos. En resumen, en OBS hemos hecho pruebas internas con IA, no para uso con los radiodifusores.

 

ÁREA DE TRABAJO DE OBS EN EL CONTROL CENTRAL DE LOS JUEGOS

 

Herramientas de IA

Realmente no hemos visto en el mercado ninguna solución de IA que fuera aplicable a la producción de las 32 disciplinas deportivas para verano y 8 para invierno contempladas en unos Juegos. Hay aplicaciones para fútbol, hockey, fútbol americano, pero no para un conjunto de deportes. No es posible dar resultados automáticos para todos los deportes.

 

SISTEMA MULTICÁMARA CON IA EN UNOS JUEGOS

 

Las últimas herramientas de IA las hemos probado en el momento en que salieron, viendo su utilidad fundamentalmente para los departamentos administrativos, de gestión de recursos y planificación y, aunque estas herramientas permiten la generación de imágenes, no las hemos generado directamente, ya que nuestro grafismo es muy particular, está homologado para cada deporte y aprobado por un comité internacional. No tenemos las necesidades de los departamentos creativos de una televisión.

OBS adquiere contenidos encargados a empresas externas, como por ejemplo una cabecera para los Juegos, y es muy posible que esas empresas hayan utilizado IA generativa para crear algunas imágenes.

 

Catalogación

En relación con la catalogación de contenidos, durante los últimos cuatro o cinco años hemos estado investigando cómo complementar y, en algunos casos, sustituir las “key words”, el logging que hacemos del vídeo que ingestamos, por IA. Hemos tenido resultados dispares. Lo más importante es que no podemos utilizar técnicas de reconocimiento facial, no podemos hacer el uso más obvio, que sería la identificación de atletas en la imagen, y no lo podemos hacer por la ley europea de Protección de Datos, que impide la utilización de datos biométricos para identificar una cara. No podemos procesarlos, ni adquirirlos, ni almacenarlos.

OBS hace logging en vivo de las imágenes, tenemos 70 loggers, 70 personas que documentan las imágenes en tiempo real. Por ejemplo, si es fútbol, cuando se produce un gol, el logger marca en el código de tiempo donde se ha producido el gol, pero cuando es una maratón, la imagen es un plano general de una calle en la que se ven 25 atletas corriendo. La persona que documenta no tiene tiempo físico en los 2 ó 3 segundos que está la imagen en la pantalla para identificar a los corredores. Con reconocimiento facial sí se podría hacer, pero no está permitido.

La razón es que cuando se hace un análisis biométrico de la cara, se está produciendo una huella digital, que se podría utilizar para detectar al sujeto en cualquier otra situación, y eso es lo que no permite la protección de datos. Para intentar obviarlo, hemos propuesto distintas soluciones como crear una base de datos de reconocimiento facial de vida limitada, que se pueda utilizar durante el evento, borrándola una vez finalizado, o anonimizando datos, pero tampoco lo admiten.

Hoy en Europa está prohibido el reconocimiento facial sin consentimiento expreso del sujeto. La ley europea de protección de datos solo admite algunas excepciones, como personas que hacen manifiestamente público sus datos personales, como podría ser el caso de las celebridades.

 

Speech to text

Desde hace seis años, hemos empezado a utilizar herramientas de speech to text para disponer del texto de lo que se dice en las imágenes. Se empezó con las entrevistas que se realizan en las zonas mixtas, que normalmente se hacen en el lenguaje materno del atleta entrevistado. Simultáneamente se transcribe a inglés para enviar la entrevista de forma genérica a todos los interesados.

Antes de pasar a producción real, se hicieron pruebas internas para determinar los errores que se cometían en la trascripción. Finalmente se comprobó que, si el resultado de aplicar las herramientas IA se complementaba con un control humano, la transcripción se completaba con calidad. Se utilizaron herramientas de diferentes proveedores. Se usa también para nuestros comentaristas en vivo, no para hacer subtitulado en directo, porque no queremos emitir algo de lo que no estamos muy seguros. Lo utilizamos para hacer sumarios, identificar momentos relevantes, emociones…etc, que luego ayuden a los productores y realizadores en la edición, complementado las marcas de los loggers con lo descrito por el comentarista.

Se están haciendo pruebas de concepto con varias empresas, para el uso de sus aplicaciones en OBS, sobre todo para grabaciones ENG que hacemos en otros eventos, grabaciones con cámara autónoma, que generan gran cantidad de contenido bruto, y poder analizar las imágenes para catalogarlas sería fundamental. En ello estamos, pero con la limitación del reconocimiento facial es complicado.

 

Futuro

Un planteamiento desde el principio fue cómo personalizar el suministro de información y datos para cada radiodifusor. Con 32 deportes diferentes y cientos de radiodifusores con intereses diferentes, hoy por hoy no es posible personalizar, aunque hubiera una legión de productores obteniendo metadatos o highligths para los radiodifusores.

Con inteligencia artificial se puede hacer, se parametrizan algunos datos, como la nacionalidad, los atletas que han obtenido medallas, etc…, y con ellos se busca dentro del contenido archivado haciendo una selección que permita hacer un resumen de forma automática.

El uso de las herramientas de IA a través del lenguaje natural va a revolucionar la forma de obtener resultados. Ya no es necesario conocer a fondo la herramienta, el usuario se puede dirigir a ella simplemente hablando y ejecuta las acciones que le pide. Esperamos poder utilizarla pronto.

A nivel visual, en grafismo hacemos mucha realidad aumentada, posicionamos gráficos identificando, por ejemplo, la velocidad de un atleta o la trayectoria de una pelota de golf, etc. La IA podría predecir por detrás donde puede ir la flecha de un arquero.

Otro tema importante de futuro va a ser el análisis de comportamiento de los radiodifusores respecto al contenido que van reclamando o a la selección de contenido que van produciendo, lo cual nos va a permitir proponerles contenidos como hacen las plataformas para recomendar películas o series.

 

Punto de vista empresarial

En relación con la productividad, con los servicios que ofrecemos y las herramientas de IA hoy podemos suministrar a los radiodifusores con el mismo personal una cantidad de contenido un 70 % superior al que entregábamos hace tres o cuatro ediciones de los Juegos.

Con personal similar, se produce más, mejor y mucho más personalizado para cada radiodifusor, y les damos productos terminados que ellos solo tienen que emitir. En esa línea están servicios que ofrecemos, como el Estudio Virtual, puesto a disposición de los radiodifusores para que lo utilicen, antes tenían que ponerlo ellos.

Por tanto, el incremento de eficiencia en OBS se traslada a nuestros clientes, que disponen de más tiempo y necesitan menos medios para la producción de sus eventos en los Juegos.

Avid lanza sus innov
RTVE optimiza su pla