Sismogrammes et métadonnées

par Philippe Cosentino

L’enseignant de SVT est souvent amené à manipuler des données structurées, que ce soit des séquences de nucléotides, des IRM, des modèles moléculaires ou encore des données issues de capteurs.

Bien souvent, ces données sont accompagnées d’informations complémentaires que l’on qualifie de métadonnées. Or, force est de constater que ces métadonnées sont souvent ignorées, ou mal distinguées des données.

A travers l’exemple des sismogrammes, et plus particulièrement des fichiers au format .SAC (fichiers utilisés dans des logiciels tels que Sismolog, Seisgram ou Tectoglob3D), nous vous proposons de faire le point sur ce que sont les métadonnées.

Mais avant cela, revenons sur les données présentes dans un fichier SAC.

Les données

Contrairement aux (très) vieux sismographes qui traçaient en continu leur enregistrement sur des rouleaux de papier ou des cylindres couverts de noir de fumée (traitement analogique du signal), les sismomètres modernes échantillonnent les données (traitement numérique) issues de capteurs sensibles aux accélérations, et ce sur les 3 axes de l’espace.

Un capteur sismique (triaxial)

Les données contenues dans un fichier SAC sont ainsi une série de valeurs, qui correspondent aux accélérations mesurées par un capteur (un fichier SAC par axe, on parle aussi de canal ou de voie, il faut donc 3 fichiers SAC pour avoir les tracés en x, y et z).

En voici un extrait (10 premières valeurs) :

-1,531.10^-7; -3,294.10^-7; -2,822.10^-7; -3,212.10^-7; -4,673.10^-7; -3,355.10^-7; -2,784.10^-7; -1,352.10^-7; -1,045.10^-7; -1,608.10^-7

Si la période d’échantillonnage est de 100 ms, et que l’enregistrement dure 1h, le sismogramme sera ainsi constitué de 36 000 valeurs, matérialisés à l’écran par une courbe constituée d’autant de points.

Sismogramme affiché dans Seisgram2K

 

La structure globale d’un fichier SAC

Prenons l’exemple (téléchargeable à la fin de l’article) du fichier SAC “2019_SLTI_SHZ.SAC”. Les données de ce sismogramme comportent 14 401 valeurs, codées sur 32 bits (4 octets par valeur).

Sachant qu’un fichier SAC est dans un format binaire non compressé, l’ensemble de ces données occupe donc un volume de 57 604 octets (4 x 14 401).

Or, si on inspecte les propriétés du fichier d’un clic droit, on constate que ce dernier occupe en tout 58 236 octets). Vous l’avez compris, les 632 octets supplémentaires correspondent … aux métadonnées !

Les métadonnées sont regroupées au début du fichier (on parle parfois de “header” ou “d’en-tête”), et les données se trouvent à la fin. La structure globale d’un fichier SAC peut donc se schématiser ainsi :

Si la structure du bloc de données est facile à comprendre (les valeurs se suivent dans l’ordre de leur acquisition), celle du “header” contenant les métadonnées est fort complexe. Pour ceux qui souhaitent en savoir plus, je recommande la consultation de ce site.

 

Que contiennent les métadonnées ?

S’agissant de données binaires, il n’est pas aisé de consulter le contenu des métadonnées avec un outil généraliste (tel qu’un éditeur de texte).

Avec le logiciel Seisgram2K, il suffit de charger un sismogramme et d’ouvrir l’éditeur d’en-tête (Utilitaires/Editeur d’en-tête). Il est même possible de modifier les métadonnées.

Capture d’écran de Seisgram2K

L’opération est également aisée avec Tectoglob3D ; pour accéder aux métadonnées associées à un sismogramme, il suffit de :

  • charger le sismogramme dans Tectoglob3D (Fichier/Importer/Importer un ou plusieurs sismogrammes)
  • cliquer sur l’icône située en haut à droite du tracé dans la fenêtre de résultats

Capture d’écran de Tectoglob3D

Les métadonnées sont organisées en champs de tailles variables, qui peuvent correspondre à des valeurs entières, des valeurs réelles ou encore des chaînes de caractères. Tectoglob3D en énumère une partie (tous ne sont pas utilisés par le logiciel) dans une fenêtre de ce type (la liste est longue, il faut la faire défiler avec l’ascenseur vertical situé à droite) :

Capture d’écran de Tectoglob3D

Dans notre exemple, le champ MAG, situé à 156 octets du début du fichier, a pour valeur 5. Il contient la valeur de la magnitude de l’événement.

De même le champ DIST, qui vaut ici 992,23 correspond à la distance entre la station et l’épicentre du séisme. STLA et STLO correspondent à la latitude et la longitude de la station, DELTA correspond à la période d’échantillonnage etc.

Comme on peut le voir, certaines de ces métadonnées renseignent sur les conditions dans lesquelles a été réalisé l’enregistrement : les coordonnées de la station, l’heure du début de l’enregistrement, la période d’échantillonnage etc.

Mais on y trouve également des informations qui sont le résultat des travaux des scientifiques étudiant l’événement, des déductions, des interprétations, et non pas des valeurs factuelles : les coordonnées de l’épicentre (EVLA, EVLO), la profondeur du foyer (EVDP), la magnitude. Ces valeurs ne peuvent pas être déduites de l’enregistrement seul ; elles ont été déterminées a posteriori, en recoupant des enregistrements provenant de différentes stations. Bref, c’est l’ingénieur, le technicien ou le chercheur à l’origine du fichier SAC qui les a saisies, bien après l’enregistrement.

C’est pour cette raison, entre autres, qu’il faut prendre garde à distinguer les données, qui représentent ce qui se rapproche le plus des valeurs issues des capteurs (bien que des traitement, inévitables, les ont forcément déjà modifiées entre le moment où elles ont été numérisées, et le moment où elles sont enregistrées dans le fichier), des métadonnées qui les accompagnent, et qui peuvent être bien moins “factuelles”.

Éduquer les élèves à cette distinction nous semble également important, d’autant plus que les données structurées entrent dans les programmes de SNT et d’enseignement scientifique de terminale, où des enseignants de SVT peuvent être amenés à intervenir.

 

Que faire de ces métadonnées ?

Comme on vient de le voir, ces métadonnées sont bavardes, trop bavardes parfois, car elles nous en disent bien plus que ce que l’on ne pourrait déduire de la seule étude des données.

Une partie de ces métadonnées est indispensable à l’exploitation des données. C’est par exemple le cas de la période d’échantillonnage. Sans cette information, le logiciel serait incapable d’afficher la moindre information temporelle sur le sismogramme (lorsqu’on survole un sismogramme, l’heure exacte et le temps écoulé depuis t0 apparaissent à côté du pointeur).

D’autres sont très utiles au logiciel, et sont utilisées, dès l’ouverture du sismogramme, pour par exemple positionner la station sur le globe.

C’est grâce aux métadonnées STLA (latitude) et STLO (longitude) que Tectoglob3D parvient à placer automatiquement la station sur le globe.

Mais certaines métadonnées pourraient, si elles sont trop facilement accessibles, représenter un obstacle au scénario pédagogique de l’enseignant.

C’est le cas par exemple de la métadonnées DIST (distance à l’épicentre), ou, pire, des métadonnées EVLA et EVLO qui donnent … les coordonnées de l’épicentre. Quel est l’intérêt de faire trouver à l’élève la distance à l’épicentre à partir du temps mis par les ondes P pour parvenir à la station, si cette distance est déjà affichée ?

Il existe heureusement des solutions, du côté de l’enseignant (changer ses consignes, changer ses attentes, demander à l’élève de vérifier par le calcul et non de deviner), mais également du côté du développeur de l’application (possibilité de personnaliser l’affichage des métadonnées).

Ces stratégies seront développées dans un article à venir.

 

En résumé :

  • Dans un sismogramme, les données correspondent aux valeurs issues des capteurs sismiques
  • Les métadonnées qui accompagnent les données sismiques informent sur les conditions de leur obtention
  • Ces métadonnées comportent aussi des informations moins factuelles, telles que des interprétations ou des déductions issues des travaux des scientifiques
  • Certaines métadonnées peuvent contrarier le scénario pédagogique en dévoilant précocement un résultat, mais des stratégies permettent de surmonter cela

 

Fichier SAC de démonstration (à dézipper) :

2019_SLTI_SHZ

Liens :

Fichier SAC de démonstration (à dézipper) : 2019_SLTI_SHZ

Article présentant Tectoglob3D

Seisgram2K version école

Autres articles en relation avec les métadonnées (TRAAMs 2019-2020)