En décembre dernier, lors de la réunion d’automne de l’AGU à San Francisco, j’ai présenté un poster qui ne contenait pas une once de nouvelle science. Pourtant, il pourrait s’avérer être la présentation la plus importante que j’ai faite.

Avec cette affiche, plusieurs collègues et moi-même avons présenté WALDO au monde. WALDO, ou Worldwide Archive of Low-frequency Data and Observations (archives mondiales de données et d’observations sur les basses fréquences), est une mine importante – et croissante – de données radio à basse fréquence (0,5 à 50 kilohertz) recueillies pendant des décennies sur des sites du monde entier. Mark Golkowski de l’Université du Colorado Denver (CU Denver) et moi-même gérons conjointement cette base de données.

Ces données ont toutes sortes d’utilisations en géophysique, notamment pour la détection et la caractérisation des éclairs, la télédétection des phénomènes ionosphériques et magnétosphériques, et la détection des éruptions solaires, des flashs de rayons gamma et des ondes gravitationnelles. Jusqu’à récemment, cependant, les données sur WALDO ont été amassées et stockées principalement sur des dizaines de milliers de DVD – et ont donc été en grande partie inaccessibles à toute personne intéressée à les utiliser.

Notre objectif avec WALDO est de transférer et d’organiser ces données historiques, augmentées de la collecte de données en cours, dans un dépôt unique et normalisé basé sur le cloud afin que les scientifiques d’aujourd’hui et de demain puissent y accéder et les mettre à profit dans les études sur la foudre, l’ionosphère, la magnétosphère, la météo spatiale, et plus encore.

La science de l’ELF/VLF

Chacun des millions d’éclairs par jour sur Terre libère une impulsion intense, d’environ 1 milliseconde, d’énergie radioélectrique d’extrêmement basse fréquence à très basse fréquence (ELF/VLF) connue sous le nom de sferic. Ces sferics se réfléchissent dans la basse ionosphère (60-90 kilomètres d’altitude) et sur le sol, ce qui leur permet de voyager – et d’être détectés – dans le monde entier. Une poignée de récepteurs VLF dispersés sur le globe peuvent géolocaliser la plupart des éclairs avec une incroyable précision kilométrique. La détection Sferic peut également être utilisée pour caractériser les propriétés électriques de la basse ionosphère entre la source et un récepteur distant.

Une antenne VLF/LF montée sur le R/V Ronald H. Brown de la National Oceanic and Atmospheric Administration
Une antenne VLF/LF se tient sur le R/V Ronald H. Brown de la National Oceanic and Atmospheric Administration, alors que le navire était à quai à Porto Rico. Crédit : Morris Cohen

Les balises à bande étroite utilisées par la marine américaine, nominalement pour les communications sous-marines, transmettent également dans la bande de fréquence ELF/VLF, fournissant un autre moyen de télédétection ionosphérique. Bien que ces messages soient cryptés pour des raisons de sécurité, les signaux radio eux-mêmes constituent un diagnostic ionosphérique utile qui peut être capté partout sur Terre. Les modifications des conditions ionosphériques, à savoir la densité électronique, se manifestent par des changements d’amplitude ou de phase des signaux reçus. À son tour, l’ionosphère peut être utilisée comme un capteur pour surveiller toutes sortes de phénomènes géophysiques, y compris les éruptions solaires, les précipitations d’électrons de la magnétosphère, les éclipses solaires, le chauffage lié à la foudre, les rayons gamma cosmiques, les ondes gravitationnelles et bien d’autres encore. Chacun de ces phénomènes perturbe les signaux VLF se propageant sous l’ionosphère de différentes manières – en affectant la vitesse à laquelle une perturbation commence et se termine, par exemple – et ces signatures permettent de les distinguer les uns des autres. Certaines perturbations ionosphériques sont très fiables et répétables, comme l’effet du lever et du coucher du Soleil.

Une partie de l’énergie ELF/VLF s’échappe également dans la magnétosphère (sous forme d’ondes de plasma générées par la foudre et appelées siffleurs), où elle peut interagir avec des électrons énergétiques piégés dans la ceinture de radiation de la Terre et déclencher la précipitation d’électrons dans l’atmosphère. Les ondes ELF/VLF sont également générées et accélérées dans la magnétosphère (sous forme d’ondes appelées chorus et hiss) à la suite d’interactions ondes-particules et jouent donc un rôle dans la dynamique de la météorologie spatiale sur Terre. L’étude des ondes radio ELF/VLF nous permet à la fois d’étudier et de mieux comprendre ces processus et de reconstituer les mystères de ce qui se passe lors des événements météorologiques spatiaux et des tempêtes géomagnétiques.

Ces utilisations des données ELF/VLF, passées en revue par exemple par Barr et al, Inan et al, et Silber et Price, ont été développées depuis la fin des années 1800, lorsque des signaux ELF/VLF naturels pouvaient être entendus en se couplant dans de longues lignes télégraphiques. Mais un certain nombre d’autres applications en dehors des utilisations traditionnelles des données ELF/VLF ont également fait leur apparition récemment. Par exemple, la détection d’objets à l’intérieur de boîtes métalliques à l’aide d’ondes ELF/VLF pourrait être utilisée pour découvrir une cache d’armes à feu dissimulée dans un conteneur d’expédition.

En partenariat avec un groupe de recherche sur la cybersécurité au Georgia Institute of Technology (Georgia Tech), des collègues et moi-même utilisons également les données ELF/VLF pour renforcer la sécurité du réseau électrique contre les cyberattaques, comme l’attaque majeure survenue en Ukraine en décembre 2015, au cours de laquelle des pirates ont désactivé plusieurs sous-stations électriques. Les données ELF/VLF détectées par les récepteurs radio peuvent être utilisées pour surveiller les signaux du réseau électrique à la recherche d’irrégularités. Ces données sont également parsemées de sferics provenant des éclairs du monde entier, qui arrivent aux récepteurs à des moments quasi-aléatoires lorsque la foudre se produit. La nature fournit ainsi un générateur de nombres aléatoires efficace et détectable qui, parce que les éclairs ne peuvent pas être prédits à l’avance, nous permet de valider l’intégrité des autres données détectées par les récepteurs .

Développement de WALDO

La base de données WALDO – actuellement d’environ 200 téraoctets et qui augmente quotidiennement – contient déjà ou contiendra bientôt des données qui pourraient enrichir les études de tous les phénomènes et applications ci-dessus. La plupart des données ont été collectées par les récepteurs ELF/VLF de l’Université de Stanford et, plus récemment, par de nouveaux sites déployés par Georgia Tech et CU Denver.
.

Carte partielle des sites VLF qui ont, ou collectent encore, des données incluses dans la base de données WALDO
Cette carte montre une sélection de sites d’antennes VLF qui ont, ou collectent encore, des données incluses dans la base de données WALDO. Crédit : Morris Cohen

.
La base de données WALDO comprend également des enregistrements ELF/VLF provenant d’expériences menées dans le cadre du programme de recherche active sur les aurores à haute fréquence (HAARP) en Alaska , qui mène des expériences pour étudier l’ionosphère à haute latitude depuis le milieu des années 1990. Il comprend de nombreuses années de données provenant de la station Palmer sur la péninsule Antarctique. Il comprendra également de nombreuses données provenant de la célèbre expérience ELF de la station Siple, qui a été menée de 1973 à 1988 pour étudier l’amplification et le déclenchement des signaux ELF dans la magnétosphère à l’aide d’une antenne de 42 kilomètres en Antarctique. D’ici la fin de l’année, nous prévoyons d’avoir 500 à 1 000 téraoctets de données disponibles.

L’effort de compilation de ces ensembles de données disparates en une seule base de données a commencé à l’automne 2018, lorsque l’espace de l’Université de Stanford où ces données étaient physiquement stockées – sur environ 80 000 DVD et CD et sur un serveur gravement corrompu – a dû être vidé. Les disques, dont certains étaient endommagés après des décennies de stockage, ont été emballés et expédiés soit à Georgia Tech, soit à CU Denver, où des robots de lecture de DVD capables de déchirer une pile de 300 disques à la fois sont utilisés pour déplacer les données sur des disques durs. Pendant ce temps, John DeSilva, à Stanford, a lentement extrait le contenu de l’ancien serveur et placé ces données dans un stockage temporaire en nuage pour que nous puissions les récupérer.

Après récupération, les données sont passées par un schéma de tri numérique qui met à jour le formatage pour que tout soit cohérent, puis place les données dans des dossiers triés. Nous avons développé une interface en ligne qui permet un accès facile aux données, qui peuvent également être partagées avec toute personne possédant un compte Google sur demande. Par le biais du site Web, les utilisateurs peuvent consulter des graphiques à affichage rapide générés automatiquement pour faciliter la recherche de ce qui est disponible, par exemple, des cartes des sites récepteurs à partir desquels les données d’un jour donné sont disponibles, des calendriers annuels indiquant la disponibilité des données et des graphiques récapitulatifs des données au jour le jour.

La valeur des données poussiéreuses

Le travail de préservation des données est difficile et prend du temps, mais il est également gratifiant. Nous en avons vu la preuve dans de nombreux domaines. Les ensembles de données historiques et à long terme ont été essentiels dans les études sur le climat et les écosystèmes, par exemple, éclairant non seulement les conditions passées mais aussi le présent et l’avenir. Et grâce aux efforts de préservation, nous avons la chance de disposer de données sur les taches solaires remontant à plus de 400 ans – des données qui sous-tendent les premières découvertes cruciales sur la dynamique de la météorologie spatiale.

En tant que junior à Stanford en janvier 2002, j’ai approché l’un de mes professeurs, Umran Inan, et lui ai demandé si je pouvais m’impliquer dans la recherche. Je suppose qu’il n’attendait pas grand-chose d’un étudiant qui venait d’obtenir un C dans sa classe. Quelques jours plus tard, je me suis retrouvé dans un entrepôt poussiéreux, presque abandonné, près du Stanford Dish, à fouiller dans des bandes magnétiques Betamax et Ampex vieilles de 15 ans, remplies de données radio ELF/VLF. Les bandes étaient encore fourrées dans leurs boîtes en carton d’origine et étaient alignées sur des étagères empilées à 5 mètres de haut sur plusieurs rangées, chacune faisant probablement 30 mètres de long. Pourquoi étais-je là ?

Une antenne radio très basse fréquence (VLF) se trouve au sommet d'un glacier en 2006 (en haut) près de la station Palmer sur la péninsule Antarctique (en bas).
Une antenne radio très basse fréquence se trouve au sommet d’un glacier en 2006 (en haut) près de la station Palmer sur la péninsule Antarctique (en bas). Crédit : Morris Cohen (en haut) ; Christopher Michel (en bas), CC BY 2.0

En 1994, des salves de rayons gamma de haute énergie appelées flashs gamma terrestres (TGF) ont été découvertes fortuitement depuis l’espace. Il semblait que les TGF provenaient de la foudre, mais c’est à peu près tout ce que nous savions à leur sujet. Les données ELF/VLF peuvent être utilisées pour caractériser l’éclair à l’origine du phénomène, mais les scientifiques n’avaient en main que deux exemples de TGF pouvant être directement liés à l’éclair via les données ELF/VLF. Mon travail consistait à trouver d’autres exemples cachés dans les données de toutes ces bandes.

Alors que je toussais les toiles d’araignée, je pensais à tout le mal que les gens s’étaient donné pour faire circuler ces bandes Betamax (un format obsolète depuis longtemps, même à cette époque). Les données que je consultais avaient été enregistrées à la station Palmer, en Antarctique, par un récepteur monté sur un glacier en mouvement qui était soigneusement surveillé par un technicien scientifique à plein temps et entretenu chaque année par un étudiant du groupe. À chaque voyage en bateau depuis la station, les bandes étaient expédiées dans de grandes boîtes, puis empilées et stockées dans cet espace infesté de rongeurs – le tout financé par l’argent des contribuables américains via la National Science Foundation. Et ce genre de collecte de données se poursuivait depuis des décennies sur des sites du monde entier entretenus par ce groupe de recherche.

Living Data Sets

« Cela en valait-il la peine ? ». Je me suis demandé en travaillant dur dans cet entrepôt. La réponse, comme je suis venu à le découvrir, est un oui sans équivoque (et pas seulement parce que ces données ont conduit à mes premiers articles de recherche évalués par des pairs et m’ont aidé à mettre le pied dans la porte de la recherche). J’ai appris que les ensembles de données géophysiques sont vivants et que leur valeur intellectuelle évolue en fonction de nos priorités scientifiques.

Lorsque les mesures enregistrées sur ces bandes Betamax ont été obtenues, personne n’envisageait d’en avoir éventuellement besoin pour étudier les TGF ; les mesures ont été initialement recueillies pour d’autres raisons. Il aurait été facile de jeter les données avant qu’elles ne s’avèrent utiles pour l’étude des TGF – ou même après. Après avoir utilisé des cassettes Betamax, nous sommes passés à l’enregistrement de données numériques sur des CD, puis sur des DVD, puis sur des disques durs externes, puis sur un grand serveur de données – et maintenant nous les transférons dans le nuage. À chaque étape, nous avons dû faire glisser toutes les données accumulées sur les anciens supports vers le présent. Mais comme ces données n’ont pas été jetées, elles sont encore disponibles aujourd’hui pour étudier de nombreux phénomènes et processus naturels.

On peut se demander si cela en vaut la peine compte tenu des dépenses et des efforts. Je pense que oui. On ne sait jamais comment ces données peuvent être utilisées. Je ne me serais jamais attendu à ce que les données géophysiques sur les éclairs aient un impact dans le monde de la cybersécurité, par exemple. Aujourd’hui, nous voyons le calcul haute performance et l’apprentissage automatique révéler de nouvelles perspectives à partir de données anciennes, et les projets interdisciplinaires trouvent souvent des utilisations surprenantes pour des ensembles de données historiques. Dans un avenir pas trop lointain, je soupçonne que quelqu’un trouvera une nouvelle façon d’examiner les données ELF/VLF recueillies il y a dix ans. Mais ces données seront-elles toujours disponibles ?

Nous devons aux futurs scientifiques – et aux contribuables américains, qui ont financé une grande partie de ce travail – de nous assurer qu’elles sont disponibles. Depuis l’annonce de WALDO en décembre, nous avons reçu plusieurs demandes de renseignements et notifications de personnes utilisant la base de données. Notre espoir est qu’en préservant ces données dans WALDO, nous ouvrirons des portes pour des découvertes surprenantes et inattendues.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.