15 Mayo 2025

En astrofísica, los datos son un bien muy preciado. Son la materia prima de los científicos, su punto de partida, su patio de juegos. Aquí, los datos comienzan con imágenes del cielo, de galaxias lejanas, de estrellas en movimiento. De cada imagen, los científicos extraen una gran cantidad de información, como el brillo, la posición, la velocidad y el color. El principio es simple: observar más cantidad de cielo, y con mayor frecuencia, aumenta las posibilidades de descubrir los fenómenos más inusuales y fugaces del Universo.

En astrofísica, los datos son un bien muy preciado. Son la materia prima de los científicos, su punto de partida, su patio de juegos. Aquí, los datos comienzan con imágenes del cielo, de galaxias lejanas, de estrellas en movimiento. De cada imagen, los científicos extraen una gran cantidad de información, como el brillo, la posición, la velocidad y el color. El principio es simple: observar más cantidad de cielo, y con mayor frecuencia, aumenta las posibilidades de descubrir los fenómenos más inusuales y fugaces del Universo.

A finales de 2025, el Observatorio Vera C. Rubin de NSF-DOE, comenzará un ambicioso proyecto que será conocido como la Investigación del Espacio-Tiempo como Legado para la posteridad (LSST por sus siglas en inglés). Para eso, el observatorio contará con la cámara digital más grande del mundo, construida en el Laboratorio Nacional del Acelerador SLAC del DOE. La Investigación LSST será el estudio del cielo más amplio, rápido y detallado jamás realizado. Cada noche, el telescopio escaneará el cielo con una precisión milimétrica y su cámara tomará imágenes de 3.200 megapíxeles cada 40 segundos, generando fotografías de 8 gigabytes cada una. En solo tres noches, el telescopio volverá a observar la misma zona del cielo, creando un registro continuo del Universo, en cámara rápida, que se irá construyendo durante 10 años.

El Observatorio Vera C. Rubin de NSF-DOE está financiado conjuntamente por la Fundación Nacional de Ciencias (NSF) y la Oficina de Ciencia del Departamento de Energía (DOE/SC), ambos de Estados Unidos. El Observatorio Rubin es un Programa conjunto de NOIRLab de NSF y el Laboratorio Nacional del Acelerador SLAC del DOE, que operarán Rubin de forma cooperativa.

Pienso en el Observatorio Rubin como la ‘dashcam’ (cámara de vehículos) del cielo”, dice Yusra AlSayyad, investigadora de la Universidad de Princeton que supervisa los algoritmos de procesamiento de imágenes de Rubin. “Las observaciones de campo amplio realizadas hasta la fecha sólo nos han proporcionado imágenes individuales. Pero el cielo no es algo estático, está vivo”. Al igual que con una dashcam, el valor de la Investigación LSST, que durará diez años, no sólo reside en ver lo que sucede, sino también en poder volver atrás. “Si aparece algo extraño, como una explosión o un objeto que desaparece, podremos rebobinar y ver qué lo provocó”, afirma.

Pero una gran ambición conlleva un gran volumen. Las cifras son asombrosas: 20 terabytes de imágenes sin procesar cada noche; 60 petabytes al final del estudio. Y eso es sólo el principio… Una vez que los datos hayan sido procesados, analizados y catalogados, el volumen total de la información reunida por la Investigación LSST alcanzará los 500 petabytes, una cantidad de datos tan enorme que equivale a todo lo que la humanidad ha escrito en su historia.

Para gestionar este aluvión de datos, Rubin necesita innovaciones que, hace sólo dos décadas, aún no estaban disponibles. “Este tipo de tecnología simplemente no existía hace veinte años. Los mismos avances que hicieron posibles servicios como el ‘streaming de video’ también hacen posible la Investigación LSST: avances en el almacenamiento más abundante, un procesamiento de datos más rápido y paralelo, las redes para mover grandes volúmenes de datos a largas distancias y los algoritmos”, afirma AlSayyad.

Veamos esto más de cerca.

Apenas 7 segundos después de tomar cada fotografía, las imágenes se transfieren desde la cima de la montaña en Chile al Centro de Datos de EE. UU. (USDF) en SLAC, en Menlo Park, California. Allí comienza el procesamiento inicial: se compara cada nueva imagen con una de referencia, se marcan las diferencias y se emiten alertas cuando aparece algo nuevo.

Cada noche se generan hasta 10 millones de alertas, siendo cada una de ellas un posible evento cósmico. Estas alertas se envían a un ecosistema de software especializado —conocido como “brokers” y basado en algoritmos de clasificación de aprendizaje automático—, que clasifica y distribuye las alertas a científicos de todo el mundo. Estos sistemas de respuesta rápida son esenciales para los investigadores que estudian eventos transitorios, como una explosión de rayos gamma (que puede durar sólo unos segundos), una supernova (que evoluciona a lo largo de días o semanas), o incluso la identificación temprana de asteroides potencialmente peligrosos. La capacidad de detectar en tiempo casi real un evento como estos, es lo que hace posible la observación de seguimiento.

En un plazo de 24 horas, se publicarán catálogos de los eventos detectados. Tras 80 horas, las imágenes se transfieren a los servidores del Centro de Datos de Francia (FrDF) en el Centro de Computación IN2P3/CNRS y al Centro de Datos del Reino Unido (UKDF), donde se duplican y almacenan. Para ello, el equipo puede recurrir a la experiencia en física de partículas. “Estamos utilizando un software desarrollado originalmente para el experimento ATLAS en el CERN, que se enfrentaba a desafíos similares: manejar enormes volúmenes de datos y decenas de miles de millones de objetos individuales distribuidos en múltiples sitios”, explica Wei Yang, Especialista en Sistemas de Información de SLAC, responsable de implementar el catálogo de datos basado en software para Rubin.

Y entonces comienza la verdadera magia.

Cada año se publicará un catálogo con todas las imágenes nuevas. Tras ser procesadas por los tres centros de datos, cientos de imágenes individuales se fusionarán en imágenes compuestas ultraprofundas. “Apilas y vuelves a apilar las imágenes del cielo. Se juntan todas y crean una imagen increíblemente profunda”, explica Eli Rykoff, Científico de SLAC, responsable de la calibración de imágenes de Rubin. Posteriormente, los científicos realizarán una nueva ronda de mediciones, ampliando aún más los límites de detección y generando aún más datos.

“Una vez que se obtiene la imagen detallada, se puede retroceder a cualquier fotograma de la imagen”, explica Rykoff. “Entonces podrías preguntarte: “¿Cómo era la luz en este punto, en este preciso momento?”. Repitiendo este proceso para todas las imágenes, podemos reconstruir las curvas de luz y seguir la evolución del brillo de un objeto a lo largo del tiempo”. Esta técnica permitirá realizar estudios que mapeen la Vía Láctea y mejoren la comprensión de los agujeros negros supermasivos. También conducirá al descubrimiento de millones de supernovas de tipo Ia, las explosiones cósmicas que trazan el contenido de materia y energía del Universo y ayudan a desentrañar los misterios de la energía oscura.

Al final de la Investigación LSST, todo este procesamiento creará un conjunto de datos astronómicos sin precedentes. Será un catálogo de miles de millones de objetos, cada uno de ellos “rastreable” a lo largo del tiempo y etiquetado con docenas de características físicas. Manejar un tesoro tan enorme de información es un gran desafío, por eso creamos desde cero la extensa Plataforma de Ciencia de Rubin, que permite a los científicos acceder a este océano de datos y les proporciona un amplio conjunto de herramientas para explorar, analizar y plantear sus preguntas más ambiciosas sobre el Universo, y buscar las respuestas.

En estos momentos, el sistema de procesamiento de datos está en medio de sus pruebas finales. Los científicos están procesando datos reales de estudios anteriores y los tomados por la Cámara de pruebas de LSST a través de todos los pipelines de datos, de principio a fin, para garantizar que todo funciona bien con el gran volumen de datos que generará Rubin. “Tenemos que mover datos de un lado a otro, procesarlos, almacenarlos y hacer un seguimiento de ellos. A esta escala, hay que lidiar constantemente con desafíos relacionados con la fiabilidad y la eficiencia del sistema”, afirma Yang.

Pero no se trata sólo de hardware y software. “Este tipo de procesamiento distribuido requiere una comunicación excelente, entre sistemas, pero también entre personas. Es un esfuerzo de colaboración a escala global”, enfatiza Yang.




Historias de NOIRLab