El pasado mes de diciembre, en la reunión de otoño de la AGU en San Francisco, presenté un póster que no contenía ni una pizca de ciencia nueva. Sin embargo, podría resultar ser la presentación de mayor impacto que he hecho.
Con el póster, varios colegas y yo presentamos WALDO al mundo. WALDO, o Worldwide Archive of Low-frequency Data and Observations (Archivo Mundial de Datos y Observaciones de Baja Frecuencia), es un gran y creciente acervo de datos de radio de baja frecuencia (de 0,5 a 50 kilohercios) recogidos durante décadas en lugares de todo el mundo. Mark Golkowski de la Universidad de Colorado Denver (CU Denver) y yo gestionamos conjuntamente la base de datos.
Estos datos tienen todo tipo de usos en geofísica, incluyendo la detección y caracterización de rayos, la teledetección de fenómenos ionosféricos y magnetosféricos, y la detección de erupciones solares, destellos de rayos gamma y ondas gravitacionales. Sin embargo, hasta hace poco, los datos de WALDO se han acumulado y almacenado principalmente en decenas de miles de DVD, y por lo tanto han sido en gran medida inaccesibles para cualquier persona interesada en utilizarlos.
Nuestro objetivo con WALDO es transferir y organizar estos datos históricos, aumentados con la recopilación de datos en curso, en un único repositorio estandarizado basado en la nube para que los científicos de hoy y en el futuro puedan acceder a ellos y ponerlos en uso en los estudios de los rayos, la ionosfera, la magnetosfera, el clima espacial, y más.
La ciencia de ELF/VLF
Cada uno de los millones de relámpagos que se producen cada día en la Tierra libera un intenso pulso de aproximadamente 1 milisegundo de duración de energía radioeléctrica de frecuencia extremadamente baja a muy baja (ELF/VLF) conocido como sférico. Estos sféricos se reflejan en la ionosfera inferior (60-90 kilómetros de altitud) y en el suelo, lo que les permite viajar -y ser detectados- a nivel mundial. Un puñado de receptores VLF repartidos por todo el mundo puede geolocalizar la mayoría de los relámpagos con una increíble precisión kilométrica. La detección sférica también puede utilizarse para caracterizar las propiedades eléctricas de la ionosfera inferior entre la fuente y un receptor distante.
Las balizas de banda estrecha utilizadas por la Marina estadounidense, nominalmente para las comunicaciones de los submarinos, también transmiten en la banda de frecuencias ELF/VLF, proporcionando otro medio de teledetección ionosférica. Aunque estos mensajes están encriptados por seguridad, las señales de radio en sí mismas son un útil diagnóstico ionosférico que puede captarse en cualquier lugar de la Tierra. Los cambios en las condiciones ionosféricas, es decir, la densidad de electrones, se manifiestan como cambios en la amplitud o la fase de las señales recibidas. A su vez, la ionosfera puede utilizarse como sensor para controlar todo tipo de fenómenos geofísicos, como las erupciones solares, la precipitación de electrones desde la magnetosfera, los eclipses solares, el calentamiento relacionado con los rayos, los rayos gamma cósmicos, las ondas gravitacionales y mucho más. Cada uno de estos fenómenos perturba las señales VLF que se propagan bajo la ionosfera de diferentes maneras -afectando a la rapidez con la que comienza y termina una perturbación, por ejemplo- y estas firmas permiten distinguirlas unas de otras. Algunas perturbaciones ionosféricas son muy fiables y repetibles, como el efecto de la salida y puesta del Sol.
Algunas energías ELF/VLF también se escapan a la magnetosfera (como ondas de plasma generadas por los rayos, llamadas whistlers), donde pueden interactuar con electrones energéticos atrapados en el cinturón de radiación de la Tierra y desencadenar la precipitación de electrones en la atmósfera. Las ondas ELF/VLF también se generan y aceleran en la magnetosfera (en forma de ondas denominadas chorus y hiss) como resultado de las interacciones entre ondas y partículas y, por tanto, desempeñan un papel en la dinámica de la meteorología espacial en la Tierra. El estudio de las ondas de radio ELF/VLF nos permite tanto estudiar y comprender mejor estos procesos como reconstruir los misterios de lo que ocurre durante los fenómenos meteorológicos espaciales y las tormentas geomagnéticas.
Estos usos de los datos de ELF/VLF, revisados por, por ejemplo, Barr et al. , Inan et al. , y Silber y Price , se han desarrollado desde finales del siglo XIX, cuando las señales naturales de ELF/VLF podían oírse acopladas en largas líneas telegráficas. Pero también han surgido recientemente otras aplicaciones ajenas a los usos tradicionales de los datos de ELF/VLF. Por ejemplo, la detección de objetos dentro de cajas metálicas mediante ondas ELF/VLF podría utilizarse para descubrir un alijo de armas escondido dentro de un contenedor de transporte.
En colaboración con un grupo de investigación sobre ciberseguridad del Instituto Tecnológico de Georgia (Georgia Tech), mis colegas y yo también estamos utilizando los datos de ELF/VLF para reforzar la seguridad de la red eléctrica frente a los ciberataques, como el gran ataque perpetrado en Ucrania en diciembre de 2015, en el que los piratas informáticos inutilizaron múltiples subestaciones eléctricas. Los datos ELF/VLF detectados por los receptores de radio pueden utilizarse para supervisar las señales de la red eléctrica en busca de irregularidades. Estos datos también están repletos de esfericidades procedentes de los relámpagos de todo el mundo, que llegan a los receptores en momentos casi aleatorios cuando se producen. La naturaleza proporciona así un generador de números aleatorios eficaz y detectable que, dado que los relámpagos no pueden predecirse de antemano, nos permite validar la integridad de otros datos detectados por los receptores.
Desarrollo de WALDO
La base de datos WALDO -actualmente de unos 200 terabytes y que crece a diario- ya contiene o contendrá pronto datos que podrían enriquecer los estudios de todos los fenómenos y aplicaciones mencionados. Gran parte de los datos fueron recogidos por los receptores ELF/VLF de la Universidad de Stanford y, más recientemente, por los nuevos emplazamientos desplegados por Georgia Tech y CU Denver.
.
.
WALDO también incluye grabaciones de ELF/VLF de experimentos llevados a cabo como parte del Programa de Investigación Auroral Activa de Alta Frecuencia (HAARP) en Alaska , que ha estado realizando experimentos para estudiar la ionosfera de alta latitud desde mediados de la década de 1990. Incluye muchos años de datos de la estación Palmer, en la Península Antártica. Y finalmente incluirá muchos datos del famoso experimento ELF de la Estación Siple, que funcionó de 1973 a 1988 para estudiar la amplificación y activación de las señales ELF en la magnetosfera utilizando una antena de 42 kilómetros en la Antártida. Para finales de año, prevemos tener entre 500 y 1.000 terabytes de datos disponibles.
El esfuerzo por compilar estos conjuntos de datos dispares en una única base de datos comenzó en otoño de 2018, cuando el espacio de la Universidad de Stanford en el que se almacenaban físicamente estos datos -en unos 80.000 DVD y CD y en un servidor muy dañado- tuvo que ser limpiado. Los discos, algunos de los cuales estaban dañados tras décadas de almacenamiento, se empaquetaron y se enviaron a Georgia Tech o a CU Denver, donde se utilizan robots lectores de DVD que pueden extraer una pila de 300 discos a la vez para trasladar los datos a discos duros. Mientras tanto, John DeSilva, en Stanford, ha extraído lentamente el contenido del antiguo servidor y ha colocado esos datos en un almacenamiento temporal en la nube para que podamos recuperarlos.
Tras la recuperación, los datos pasan por un esquema de clasificación digital que actualiza el formato para que todo sea consistente y luego coloca los datos en carpetas ordenadas. Hemos desarrollado una interfaz en línea que permite un fácil acceso a los datos, que también puede compartirse con cualquier persona que tenga una cuenta de Google si lo solicita. A través del sitio web, los usuarios pueden ver gráficos de vista rápida generados automáticamente para facilitar la búsqueda de los datos disponibles, por ejemplo, mapas de los sitios receptores de los que se dispone de datos de un día determinado, calendarios anuales que muestran la disponibilidad de los datos y gráficos de resumen de los datos día a día.
El valor de los datos polvorientos
El trabajo de conservación de los datos es duro y requiere mucho tiempo, pero también es gratificante. Lo hemos comprobado en muchos campos. Los conjuntos de datos históricos y a largo plazo han sido fundamentales en los estudios sobre el clima y los ecosistemas, por ejemplo, arrojando luz no sólo sobre las condiciones pasadas sino también sobre el presente y el futuro. Y gracias a los esfuerzos de preservación, tenemos la suerte de contar con datos de manchas solares que se remontan a más de 400 años, datos que subyacen a los primeros descubrimientos críticos de la dinámica del clima espacial.
Como estudiante de primer año en Stanford, en enero de 2002, me acerqué a uno de mis profesores, Umran Inan, y le pregunté si podía participar en la investigación. Sospecho que no esperaba mucho de un estudiante que acababa de sacar un aprobado en su clase. Días más tarde me encontré en un almacén polvoriento y casi abandonado, cerca del Stanford Dish, rebuscando entre cintas magnéticas Betamax y Ampex de hace 15 años llenas de datos de radio ELF/VLF. Las cintas seguían metidas en sus cajas de cartón originales y estaban alineadas en estanterías apiladas a 5 metros de altura en varias filas, cada una de ellas probablemente de 30 metros de largo. ¿Por qué estaba allí?
En 1994, se descubrieron por casualidad desde el espacio unas ráfagas de rayos gamma de alta energía denominadas destellos de rayos gamma terrestres (TGF). Parecía que los TGFs se originaban con los rayos, pero eso era prácticamente todo lo que sabíamos sobre ellos. Los datos de ELF/VLF pueden utilizarse para caracterizar los relámpagos que causaron el fenómeno, pero los científicos sólo tenían a mano dos ejemplos de TGF que podían relacionarse directamente con los relámpagos a través de los datos de ELF/VLF. Mi trabajo consistía en encontrar más ejemplos escondidos en los datos de todas esas cintas.
Mientras quitaba las telarañas, pensaba en todo el trabajo que había hecho la gente para mantener esas cintas Betamax (un formato obsoleto desde hace tiempo, incluso para entonces). Los datos que estaba consultando fueron grabados en la Estación Palmer, en la Antártida, por un receptor montado en un glaciar cambiante que era cuidadosamente vigilado por un técnico científico a tiempo completo y revisado cada año por un estudiante del grupo. Con cada viaje en barco desde la estación, las cintas se enviaban en grandes cajas, que luego se apilaban y almacenaban en este espacio infestado de roedores, todo ello financiado con el dinero de los contribuyentes estadounidenses a través de la National Science Foundation. Y este tipo de recopilación de datos se había llevado a cabo durante décadas en lugares de todo el mundo mantenidos por este grupo de investigación.
Conjuntos de datos vivos
«¿Mereció la pena?». pensé mientras me afanaba en ese almacén. La respuesta, como llegué a descubrir, es un sí inequívoco (y no sólo porque estos datos dieron lugar a mis primeros artículos de investigación revisados por pares y me ayudaron a poner el pie en la puerta de la investigación). Aprendí que los conjuntos de datos geofísicos están vivos y que su valor intelectual cambia a medida que lo hacen nuestras prioridades científicas.
Cuando se obtuvieron las mediciones grabadas en esas cintas Betamax, nadie preveía necesitarlas finalmente para estudiar los TGF; las mediciones se recogieron originalmente por otros motivos. Habría sido fácil tirar los datos antes de que resultaran útiles para el estudio de los TGF, o incluso después. Tras el uso de cintas Betamax, pasamos a grabar los datos digitales en CD, luego en DVD, después en discos duros externos, luego en un gran servidor de datos y ahora los estamos trasladando a la nube. En cada paso, hemos tenido que arrastrar todos los datos acumulados de los antiguos soportes a la actualidad. Pero como esos datos no se han descartado, siguen estando disponibles hoy en día para estudiar numerosos fenómenos y procesos naturales.
Es justo preguntarse si merece la pena dado el gasto y el esfuerzo. Yo creo que sí. Nunca se sabe cómo se pueden utilizar estos datos. Nunca habría esperado que los datos geofísicos sobre rayos tuvieran un impacto en el mundo de la ciberseguridad, por ejemplo. Hoy en día vemos cómo la informática de alto rendimiento y el aprendizaje automático revelan nuevos conocimientos a partir de datos antiguos, y los proyectos interdisciplinarios suelen encontrar usos sorprendentes para conjuntos de datos históricos. En un futuro no muy lejano, sospecho que a alguien se le ocurrirá una nueva forma de analizar los datos de ELF/VLF recogidos hace una década. Pero, ¿seguirán estando disponibles los datos?
Se lo debemos a los futuros científicos -y a los contribuyentes estadounidenses, que han financiado gran parte de este trabajo- para garantizar que estén disponibles. Desde que anunciamos WALDO en diciembre, hemos recibido varias consultas y notificaciones de personas que utilizan la base de datos. Nuestra esperanza es que al preservar estos datos en WALDO, abriremos las puertas a descubrimientos sorprendentes e inesperados.