Inmersivo de la Torre de la Cautiva: un proyecto de Fotogrametría que apunta al Patrimonio Digital

Elaborado por Anto Benítez, profesor en el Departamento de Comunicación de la Universidad Carlos III de Madrid y realizador; y Miguel García-Villaraco, artista VFX en Miopía FX.
La palabra “fotogrametría” suena extraña incluso en la profesión. Amenazante y poco intuitiva. A la ligera, puede tomarse como asunto de científicos, lejano a espíritus creativos dedicados al audiovisual. Su esencia consiste en medir a distancia sin tocar el objeto o el escenario. No se trata de nada nuevo. Ya se conocía por ese nombre alrededor de la mitad del s. XIX, y existe una veterana asociación -fundada en 1910-, que trata de organizar los conocimientos y avances en la materia. Como cualquiera puede ver en su página web, desde 1980 se denomina a sí misma International Society for Photogrammetry and Remote Sensing (ISPRS, Sociedad Internacional para la Fotogrametría y Sensores Remotos). Antes de aquello era conocida simplemente como ISP.
En una traducción más o menos libre, la asociación define su actividad como “el arte, la ciencia y la tecnología de obtener información fiable a partir de sistemas de imagen y otros sensores sin contacto sobre la tierra y su entorno y otros objetos físicos y de procesos de registro, medición, análisis y representación”. Mientras que en sus comienzos se empleaban principalmente las cámaras fotográficas, hoy día existen un buen número de sensores capaces de asumir estas tareas. Los sensores a utilizar pueden ser activos, por su capacidad de producir o emitir la energía que propiciará la medida, como los de ultrasonidos o los láseres LiDAR por ejemplo; o pasivos, como las cámaras térmicas, las de espectro fotónico o simplemente las cámaras de fotografía, que recogen la energía que refleja o emite la escena.
El objetivo de la fotogrametría consiste, entonces, en tomar medidas de escenas u objetos reales sin contacto y en ayudar a obtener, a partir de estos datos, resultados tales como curvas de nivel, mapas, ortofotografías, mallas y modelos en 3D; sean en alambre, geometrías en sketch o fotorrealistas, secciones en 2D, registros que permitan comparativas de posición forma y tamaño y, por supuesto, productos puramente audiovisuales, personajes o gestos para animaciones, piezas en realidad virtual, componentes de realidad aumentada, assets o escenarios… En términos muy sencillos, la clave consiste en obtener puntos de la escena real a partir de cuya representación, por ejemplo fotográfica, pueda servir de guía a la medida deseada. Aquí son precisas las matemáticas con cálculos geométricos complejos y laboriosos para exprimir el potencial de la técnica. En este caso los puntos homólogos, -los que aparecen en distintas fotografías representando el mismo lugar en la escena real-, permiten, mediante procedimientos de geometría, averiguar la alineación de las distintas posiciones de cámara, a partir de la cual resulta posible restituir la escena. La necesidad de utilizar al menos dos puntos de vista emparentó la fotogrametría con la fotografía estereoscópica desde sus inicios.
Las aplicaciones son muy numerosas en campos muy distintos entre sí. Sin querer resultar exhaustivos, seguro que nos son familiares los usos cartográficos que nos permiten navegar por paisajes naturales o urbanos, igualmente para la geografía en general, las geociencias o los navegadores. O los que se relacionan con arquitectura y arqueología. Se utiliza en la gestión del medio ambiente, para control de cosechas o de plagas, por ejemplo, o para controlar los cambios en el litoral. Tiene usos en medicina, especialmente en diagnósticos, y en biomedicina entre otras especialidades. En seguridad, vigilancia, gestión de catástrofes e investigación forense. En medios audiovisuales: en animación, creación de contenidos, simulaciones o videojuegos. En técnica y táctica deportivas, control de redes de distribución, o de calidad en la industria… Y, por supuesto, en lo que motiva estas líneas, que es ayudar a la gestión del patrimonio y herencia cultural, tanto en lo que tiene que ver con su conservación como en procedimientos de divulgación imaginativos que son capaces, al mismo tiempo, de entretener.
Un amigo relataba una vivencia durante la estancia con su familia en París, en la cola de acceso a Notre Dame, a finales de agosto de 2018. Avanzaba la tarde, la fila de la entrada parecía ir retrocediendo en lugar de avanzando y sus hijos, de corta edad, se impacientaban. Al final declinaron entrar pese a que abandonaban París la mañana siguiente, y se consolaban diciendo: “al fin y al cabo, Notre Dame seguirá estando aquí cuando podamos regresar otra vez de turismo”… Ningún presagio hacía suponer el desastre que iba a tener lugar unos meses más tarde, en abril de 2019.
El profesor Andrew Tallon trabajó durante años utilizando la fotogrametría para obtener datos confiables sobre la geometría y las texturas superficiales de Notre Dame. Estas pruebas permitirían la conservación y su restauración futuras. Hay quien dice que se obtuvieron más de 1000 millones de puntos útiles, aunque en la empresa Faro la cual proporcionaba los aparatos láser para el proyecto, indican que se tomaron medidas desde 150 posiciones para un total de 3 a 5 mil millones de puntos. Tallon murió unos meses antes de la catástrofe de Notre Dame. La catástrofe sucedió en pleno proceso de restauración a partir de métodos de Building Information Modeling (BIM) que utilizaban los datos que Tallon había tomado. Art Graphique & Patrimoine y Autodesk formaban parte del proyecto o consorcio que se ocupaba de la intervención. Precisamente su trabajo previo podrá guiar la reconstrucción de forma precisa.
Además de este tipo de accidentes, o de otros provocados por la acción del ser humano, los desastres naturales también ocasionan, más o menos frecuentemente, pérdidas patrimoniales irrecuperables. También es tiempo de pensar en patrimonio digital en paralelo a la posibilidad de expansión de contenidos que ofrecen las nuevas redes y herramientas con idea, no solo de salvaguardar el tangible, sino de proporcionar divulgación universal al virtual.

Figura 1. Representación de la nube de puntos de la sala exterior de la Torre de la Cautiva, con la ubicación de las cámaras utilizadas en la toma. Imagen de Miguel García-Villaraco a partir del software Reality Capture.
El proyecto de la Torre de la Cautiva
En 2018, la empresa GVAM, líder en España de aplicaciones de guiado al patrimonio turístico, cultural y natural; Miopía FX, una de las más pujantes empresas de Efectos Visuales de las radicadas en España; y el grupo TECMERIN de la Universidad Carlos III de Madrid se plantearon el objetivo de levantar un modelo 3D de la Torre de la Cautiva de la Alhambra con la aquiescencia del Patronato de la Alhambra y el Generalife. Asumieron tres retos: servir de ayuda a los departamentos de conservación y de restauración cuando el modelo estuviese disponible y navegable, producir una pieza piloto de vídeo interactivo estereoscópico para hacer posible que el público hiciese inmersión en esta zona que normalmente se halla cerrada a las visitas, y establecer como patrón de calidad del resultado una estética fotorrealista, aunque la toma se planease a partir de equipos de fotografía de calidad media.
Una planificación adecuada permite que programas conocidos en el sector, entre otros Agisoft Metashape (antes Agisoft Photo-scan) o Reality Capture (de la empresa Capturing Reality, que se ha integrado recientemente en el ecosistema de Unreal Engine, a través de Epic Games) reciban las fotografías y puedan devolver, entre otras posibilidades, una nube de puntos o malla para crear escenas 3D y ficheros de texturas en formatos gráficos habituales. El software se ocupa de todas las tareas que se deben resolver con cálculos matemáticos: calibrar cámaras, marcar y fijar puntos homólogos, alinear posiciones de cámara, determinar ángulos, ejes y planos y, también, de presentar un modelo geométrico integrado en un espacio controlable. Gracias a su intervención, los artistas quedan liberados de esta meticulosa labor.
Hace unos años, obtener información a partir de la toma de datos conseguida por los sensores en escena exigía la intervención de un colectivo especializado en restitución. Gracias al actual estado de la tecnología y al de estos programas o plataformas, un equipo de producción estrictamente audiovisual puede planear una sesión de toma de fotografías con la suficiente minuciosidad como para asegurar que cada punto de la escena, una vez determinada la escala en la que se pretende tener detalle, aparezca al menos en dos fotografías (para que pueda ser localizado sin ninguna duda y restituido). De esta manera ese equipo podrá obtener la información básica para poder crear una escena en 3D (Figuras 1 y 2).

Figura 2. Vista de la nube de puntos en la sala interior de la Torre de la Cautiva, con indicación de la posición de las cámaras. Imagen de Miguel García-Villaraco a partir del software Reality Capture.
GVAM es la actual concesionaria de los servicios de guiado en la Alhambra y, por lo tanto, están habilitados para proponer este tipo de intervenciones dentro de su contrato con el Patronato de la Alhambra y el Generalife. El contacto durante la elaboración del guion determinó que las modificaciones que se iban estableciendo en ese guion se aproximasen más o menos fielmente a las épocas que se intentaban recrear; siempre con un margen abierto y controlado para recoger, como inspiración, la herencia cultural de pinturas y otros elementos gráficos y literarios que artistas y escritores de distintas épocas habían, a su vez, tomado como inspiración o habían imaginado.
El guion de la pieza otorgaba especial valor al escenario y proponía, por tanto, su protagonismo. En él se incluyeron figuras sin animar y caracterizadas de época y elementos decorativos que ayudasen a ambientar cada etapa de las que se mostraba. Se planteaban cuatro escenas con este esquema: una que mostrase con cierto rigor el estado actual del interior de la Torre de la Cautiva; una que permitiese proponer qué aspecto podría tener en los tiempos en los que estuviesen en procesos de decoración; otra que recrease la vida en tiempos de dominio nazarí y una más en la que se pudiesen demostrar las posibilidades de simular efectos atmosféricos o de iluminación. La adquisición de imágenes iba a tener lugar, entonces, en tres líneas simultáneas: la que tiene que ver con los escenarios, la de los personajes, y finalmente la de los assets (Figura 3).

Figura 3. Imágenes de las escenas “Actual”, “Artesano” y “Romántica”, en distintas pruebas a lo largo del proceso de layout. Imágenes de Miguel García-Villaraco a partir del software Maya.
Con idea de no complicar mucho la producción, se convino un flujo de trabajo, con grandes similitudes al habitual de la producción en vídeo o cinematográfica, en las tres líneas paralelas según los elementos escenario-personajes-assets (Esquema 1).

Esquema 1. Visión global del orden de procesos del proyecto. Está dividido en bloques definidos por actividades principales. La salida final se procesó para gafas Oculus Rift a partir de una salida de edición en códec mp4 sin comprimir.
En este caso, el proyecto asumía algunas circunstancias que limitaban la captura de datos: se tomarían fotografías durante una sola jornada, no se trabajaría en exteriores, no se utilizarían estructuras complejas (por lo que no se podría ganar mucha altura en los objetivos de las cámaras), y no se iba a iluminar, proyectar ni colocar marca o señal alguna en la Torre. Esta última asunción entrañaba dificultades adicionales, pues el artesonado apenas presentaba resaltes ni relieves, la iluminación que se iba a encontrar en el momento de la adquisición podía resultar débil y variable y la propia forma del techo complicaba establecer rigurosamente el foco (Figura 4).

Figura 4. Fotogramas de las primeras versiones de las salas exterior (arriba) e interior (abajo) a lo largo del proceso. Las imágenes son en 360 grados. Imagen de Miguel García-Villaraco a partir del software Clarisse.
Había que tomar datos de dos salas. La sala interior, de acceso, era mucho más oscura y tenía dificultades distintas en cuanto a geometría.
Uno de los objetivos cruciales en la fase de toma de datos consiste en tratar de evitar las oclusiones que puede ocasionar el propio relieve del escenario a base de capturar esos lugares problemáticos desde distintos puntos de vista; el software, en caso contrario, dejaría huecos que no podrían interpretarse [ver Figura 4, página siguiente]. Las oclusiones también pueden tener que ver con la geometría del motivo o pueden producirse por falta de luz. Por ejemplo, un elemento de la superficie arroja sombra sobre determinados puntos y de esta forma “desaparecen” para el software. Las posibles soluciones en este caso, sin posibilidad de iluminar adecuadamente, tienen dos vertientes: utilizar tomas en alto rango dinámico (HDR) o técnicas de horquillado (bracketing) para asegurar información en las zonas límite. O bien, tomar las imágenes en formato RAW y adaptar los valores de exposición para las zonas inciertas, considerando también que tan negativo sería para el resultado proporcionar fotografías con puntos sin información por subexposición como por sobreexposición.
Volviendo a la realidad del proyecto, en la toma de datos se concibieron estrategias diferentes para ambas salas. Los soportes disponibles se adaptaron a la escala y a la maniobrabilidad. Se consideró, en primer lugar, la rapidez de operación, imprescindible para su viabilidad. En la sala exterior se empleó un rig vertical con cuatro cámaras Canon (tres EOS 1200D disparaban en perpendicular a la pared con objetivo 18-55 fijado en 18mm y una EOS 60D lo hacía hacia el techo en ángulo con una distancia focal de 28mm). Una Canon 5D se tomaba como referencia y se apoyaba en posiciones clave. Se distribuyeron las tomas para que tres fotógrafos pudiesen actuar simultáneamente. Las cámaras de los rigs iban sincronizadas con un disparador de infrarrojos. Los rigs verticales se desplazaban a lo largo de trayectorias preestablecidas en perpendicular a los paramentos y a distancias calculadas proporcionalmente.
Los datos de exposición para la sala exterior fueron, con todos los ajustes en manual, 100 ISO, f/8 de apertura -para estar seguros de tener la suficiente profundidad de campo (muy superior a los relieves de los paramentos)-, ⅙ de segundo de exposición y balance de blancos manual. El fichero RAW de cada fotografía, utilizado como se ha mencionado para obtener cierto margen de exposición como recurso y para ajustar a partir de tomas de cartas de color, ocupaba unos 30 Mb, mientras que los JPG se quedaban en unos 8Mb. En la sala interior se optó por trabajar con prioridad de diafragma (el mismo f/8) y se llegaron a alcanzar exposiciones de 20 segundos en momentos en los que en el exterior había un nublado denso. Una quinta Canon 60D se añadió para esta sala, con un objetivo 28mm.
Después de una jornada maratoniana, se obtuvieron más de 3000 instantáneas. De ellas se emplearon unas 2500 para el modelo a una resolución de 5184×3456 píxeles, unos 18MPix.
Se pudo constatar que, en este tipo de escenarios, un dispositivo robotizado hubiese facilitado mucho la tarea; tanto en el traslado como para asegurar estabilidad, sincronización de disparo, exposición y foco. Una suerte de ingenio capaz de tomar decisiones inteligentes poco a poco, aprendiendo de cada escenario y de las circunstancias y trazando las rutas y rutinas de toma más eficientes. Sin duda un reto evidente para la inteligencia artificial.
En el procesado de fotogrametría se planteó una escena única con las 2500 fotos en Reality Capture versión 1.3. Debido a la buena preparación y a las lógicas secuenciales del trazado de la toma, el sistema pudo localizarlas y ubicarlas automáticamente en el espacio sin problema. Tan solo se ajustaron unas 25 imágenes de forma manual con un resultado, además, que no variaba sustancialmente del ofrecido inicialmente por el software. Un primer procesado dio como resultado unos dos millones de puntos homólogos. A partir de ahí, el cálculo de la primera nube densa obtuvo unos 22 millones de puntos. Después, vino una fase para recuperar información de imágenes complicadas de emparejar. Una vez limpia la escena, se creó una malla de unos 80 millones de triángulos por sala. Pero este número supuso la evaluación de la complicación añadida de manejarlas y el diferencial (a veces inapreciable) de calidad, decidiendo que toda la escena tendría unos 50 millones de triángulos, finalmente (Esquema 2).

Esquema 2. Generalidades del flujo de trabajo de la fotogrametría: desde las fotografías retocadas hasta la escena 3D.
En estos procesos se desveló la estructura interior de la Torre y se incluyó por comparación de las medidas en el mismo modelo con los muros externos. Este paso es notable desde el punto de vista de los visitantes, pues se trata de una estructura que no es posible contemplar con tal volumen en la realidad (Figura 5).

Figura 5. Representación del interior construido de la Torre de la Cautiva. Esta imagen es imposible de contemplar en la realidad, evidentemente, y contrasta con el cubo de piedra que se aprecia desde el exterior. Imagen de Miguel García-Villaraco a partir del software Clarisse.
Aquí se abre una etapa que interesa en función de la calidad que se quiera o necesite. Esta etapa consiste en simplificar la malla, pues es posible que a veces sea más conveniente, en los contextos en los que las geometrías son sencillas, que lo más complejo sea la estructura en el lugar de la malla. Después de muchas pruebas, unas quince versiones distintas de la escena, finalmente quedó en 200.000 polígonos.
Mediante la retopología se simplifica el modelo, optimizándolo. En este proceso se restauran ciertas zonas con pocos detalles o con ausencia de ellos y, después, se pueden crear imágenes UV limpias que permitan crear máscaras y ampliar la resolución de las texturas con multi-UDIM. El cálculo original de la fotogrametría proporcionaba un mapa general de cada sala en 8K. Al generar las texturas UDIM se pudo multiplicar ese mapa por el número de UDIMS aplicados, en este caso por 27. Aquí se incluye distintos elementos para un planteamiento completo del desarrollo visual: mapa de albedo, máscaras para distintas zonas, mapas de desplazamiento, mapa de rugosidad y mapa especular (Figura 6).

Figura 6. UDIMs con los 27 UVs distintos de las superficies de la Torre. Arriba las máscaras y abajo las texturas. Todo preparado para la iluminación. Imagen de Miguel García-Villaraco a partir del software ZBrush.
Se realizó la retopología de las dos salas. Fue una tarea compleja, sobre todo por la parte de los arcos, donde hay muchos detalles que es necesario conservar. Las últimas actualizaciones contienen nuevos algoritmos que permiten realizar una retopología automática bastante decente, sobre todo para modelos estáticos, pero en este caso se hizo todo a mano. El proceso de retopología completo ocupó unas tres semanas limpiando y reconstruyendo partes que eran mejorables con respecto al resultado de la fotogrametría, como las vigas de madera o el interior de algunos arcos. Tanto la retopología como la restauración de las áreas sin detalle se llevaron a cabo con ZBrush. También se empleó este software para el modelado y el look-dev de los assets para las escenas (Esquema 3).

Esquema 3. La bien conocida secuencia de procesos en el trabajo en 3D. En este caso la entrada se produce en obj y tiffs, y la salida en secuencias de exr para intentar reducir al máximo los problemas producidos por pasos que supusieran compresión con pérdidas.
La malla se pasó al programa de 3D, inicialmente Clarisse, para las primeras pruebas de visualización. El trabajo de layout, o de composición y disposición de los elementos de la escena, implica también reunir los distintos assets para preparar la ambientación y decoración. En total se llegaron a emplear más de 100 escenas.
Con la escena estructurada, puede trabajarse con materiales y texturas para el look-dev. Simultáneamente, se pueden ir haciendo pruebas de ubicación de cámaras o animación e iluminación, aunque este último aspecto siempre irá fuertemente ligado a la texturización y a los efectos atmosféricos. En este caso estas decisiones son especialmente importantes, pues se trata de simulaciones que no deberían resultar contradictorias con un cierto rigor histórico. Más adelante se trabajó en Maya, debido a la necesidad de compartir tareas para acelerar los procesos.
Las primeras pruebas de render se lanzaron con Arnold, pero, a 4K, cada imagen tardaba alrededor de tres o cuatro horas en procesarse con el filtro óptimo. Por esta razón, tuvieron que buscarse alternativas. Finalmente se optó por Houdini con Octane render, un motor basado en GPU. Con las optimizaciones finales, se consiguieron velocidades de render de 25 minutos por imagen en 4K en una máquina con dos GPU NVIDIA 2080TI (Figura 7).

Figura 7. Un fotograma de la escena “Romántica” con la disposición de algunos elementos en el layout. Imagen de Miguel García-Villaraco a partir del software Houdini.
En paralelo, se fue trabajando con los personajes después de un medido casting. Las tomas pudieron llevarse a cabo gracias a un dispositivo ideado por Miguel Garcia-Villaraco de MiopíaFX. El dispositivo consiste en un array de quince cámaras montadas en rigs verticales (tres gajos x cinco rodajas), un giratutto y un sistema de iluminación sincronizado con los disparos de las cámaras diseñado por él mismo sobre Arduino.
Los supuestos contemplados en el guion, ya se ha dicho que el protagonismo debía centrarse en el escenario, no incluían animación. De este modo, se tuvo especial cuidado con el posado, la caracterización y el estilismo de cada figura. Se tomaron en total quince posados de siete personajes con sus respectivas caracterizaciones.
Además, también en paralelo, se elaboraron los assets. Aquí tuvo especial relevancia la actividad de los estudiantes del Máster en Efectos Visuales de Miopía, en la Escuela de Artes Digitales Voxel School. Bajo la supervisión de los artistas de la productora, los estudiantes asumieron como parte de su aprendizaje los procesos de modelado, texturizado y shading de distintas las piezas que contemplaba la eventual versión del guion, que en ese momento todavía se encontraba en desarrollo. La elaboración de los assets debía partir de una tarea de investigación con el criterio suficiente para evitar asincronismos. En total se modelaron y se desarrolló el look-dev de unos treinta assets y de cuatro personajes, de los que se utilizaron tres.
El vídeo final pesa unos 400GB, a pesar de durar apenas 5 minutos. La edición y composición se llevó a cabo en DaVinci Resolve. El formato de salida fue en mp4 sin compresión y la calidad se mantuvo en una resolución de 4096×4096 estereoscópico con una profundidad de color de 10 bits, 4:2:2. La idea era tratar de llegar al último procesado, inevitable, para poder ser reproducido por las gafas o HMD (Head Mounted Display). Se tomaron de referencia las, ya mencionadas, Oculus Rift. De momento, el proyecto conserva valores de mayor calidad de los que pueden observarse con este tipo de HMD. En un futuro podrían volcarse acabados con mayor resolución o profundidad de color para aproximar a estos dispositivos de inmersión lo que puede llegar a apreciarse al fotorrealismo conseguido en la escena 3D. El trabajo final estará a disposición de los visitantes de la Alhambra en los smartphones operados por GVAM que sirven de audioguía del monumento. Además, se publicará en los principales markets de experiencias inmersivas.
En conclusión, ha sido un trabajo apasionante que ha tenido mucho de descubrimiento o, mejor explicado, de investigación y desarrollo de procesos muy diferentes, pero todos ellos conocidos dentro del sector audiovisual. Los avances de la tecnología nos impulsan y motivan a encontrar nuevos usos a técnicas y conceptos que han pasado por muchas vicisitudes; o a aplicaciones como esta para acrecentar el patrimonio digital, que cada vez resultan más evidentes y necesarias. No queda nada para que vengan en nuestra ayuda la robótica, la inteligencia artificial y, cómo no, los motores de render para ayudarnos a construir un fructífero campo de actuación con resultados socialmente muy relevantes.