Données et métadonnées: quelques exemples utilisés en SVT

La révolution numérique des vingt dernières années a considérablement modifié les conditions d’accès à l’information. L’accès aux savoirs ne constitue plus en lui-même un obstacle. Il est même tellement facilité qu’il est parfois subi, tant nous sommes continuellement bombardés de données.

Figure 1: Les données fiables sont toujours accompagnées de métadonnées. Elles informent l’utilisateur sur la façon dont elle a été recueillie, sur son organisation, sa validité et peuvent déjà proposer certains résultats. (Figure : Fabrice Mourau)

I- Des élèves, des données et des métadonnées :

Le rôle de tri des informations et de sélection des documents en consultation, qui était autrefois du ressort des bibliothèques,  n’est plus joué par personne sur le web et repose désormais sur chaque utilisateur.
Les pratiques pédagogiques se sont adaptées à ce monde en perpétuelle évolution et de nombreux exercices, tels la recherche documentaire, l’exposé ou la présentation orale se sont métamorphosés.
L’exercice ne réside plus désormais dans l’accès à une connaissance bibliographique mais dans la façon dont elle va être triée et organisée par l’élève pour répondre à une
problématique. Si l’exercice est beaucoup plus formateur et intelligent qu’une simple restitution bibliographique, il est notoirement plus complexe et nécessite l’apprentissage d’outils spécifiques. Les métadonnées (cf. figure 1), littéralement les données sur les données, sont sans doute les plus importantes d’entre-elles.

II- Différents types de métadonnées

Les métadonnées sont les informations qui accompagnent toute donnée, quelle que soit sa forme (texte, image, fichier tableur…). On peut distinguer plusieurs types différents de métadonnées. Certaines sont renseignées « à la main » par l’auteur, d’autres sont automatiquement enregistrées par l’instrument de mesure.

  • Les métadonnées descriptives :
    Elles renseignent sur la façon dont la donnée a été enregistrée : par quels instruments, par qui, quand et à quel endroit. Elles permettent d’identifier clairement le propriétaire de la donnée, l’instrument utilisé et l’implantation géographique de la mesure, de la photographie. Pour l’élève, elles sont fondamentales car elles font référence à l’auteur et elles vont lui permettre de porter une réflexion approfondie sur la source et donc la fiabilité du document qu’il étudie.Du point de vue de la méthodologie scientifique, l’identification de l’instrument et de son éventuel numéro de série permettent un suivi précis des données affichées et la mise en œuvre de corrections liées à la machine elle-même. Par exemple, on peut appliquer en post-traitement un correctif si on connaît le décalage d’un capteur par rapport à une référence connue, comme sur les sondes Reefnet. 
  • Les métadonnées structurelles :
    Ces informations renseignent sur la façon dont la donnée est affichée dans le fichier. Il peut s’agir des unités utilisées ou de l’organisation des colonnes dans un fichier tableur (figure 3).
  • Les métadonnées « qualité » :
    Comme leur nom l’indique, elles renseignent l’utilisateur sur le crédit qui doit être porté aux valeurs enregistrées. Cette qualité peut-être directement corrélée à la qualité de l’instrument utilisé (une station météorologique Oregon 300 n’est pas une Davis vantage pro, un sismomètre TC1 ou Vibrato n’est pas une station sismologique Guralp…). L’indicateur de qualité peut également être un indicateur statistique calculé par l’instrument ou par l’auteur, c’est le R2 des Calitoo par exemple.
  • Prétraitement des résultats :
    L’auteur peut fournir à l’utilisateur des résultats déjà calculés à partir de la donnée. Par exemple, les fichiers .sac contiennent une distance épicentrale, les coordonnées de l’épicentre ou la profondeur du foyer. Pour les Calitoo, outil de mesure des aérosols dans l’air, c’est le coefficient d’Angström (a) qui est calculée par la machine à partir des vraies données mesurées (coordonnées géographiques, intensité lumineuse (R,G et B) et pression barométrique).

III ) Les métadonnées, boussoles dans l’océan de l’information scientifique.

Les données scientifiquement fiables sont accompagnées de leur lot de métadonnées. Leur absence, à elle seule, suffit à totalement discréditer un fichier de mesure qui sera systématiquement rejeté par les universitaires. La recherche de la présence des « méta(s) » est un réflexe fondamental de validation préalable et les élèves doivent l’acquérir. Mais où trouver ces fameuses métadonnées ?

A ) Où trouver les métadonnées ? 

1er exemple : la mise en évidence des métadonnées dans un fichier météo

Parmi tous les sites qui proposent des données didactisées à destination des élèves, celui de l’observatoire EDUMED de l’Université de Côte d’Azur est exemplaire dans la façon dont il présente la métadonnée.
La figure 2 ci-dessous présente l’en-tête d’un fichier météorologique téléchargé sur le site.

Figure 2 : fichier .csv issu du Data Center d’Edumed. Les 20 premières lignes du fichier sont dédiées aux métadonnées. Elles sont descriptives (1), structurelles (2) et donnent des indications quant à leur fiabilité (3). (Figure Fabrice Mourau)

2ème Exemple: les métadonnées dans un fichier sismo

Les fichiers de données sismiques (.sac) contiennent de nombreuses métadonnées. Le logiciel Seisgram2K, créé par Anthony Lomax, permet de les faire apparaître. Pour cela, il faut cliquer sur le point d’interrogation bleu à droite de chaque tracé (figure 3).

Figure 3 : Comme dans l’exemple précédent, on retrouve des métadonnées descriptives (1), des structurelles mais également  des résultats issus du traitement des données. Ces derniers sont souvent réalisés par les sismologues et ils sont ajoutés en post-traitement avant de mettre les données  en ligne. (Figure : Fabrice Mourau)

Les résultats inclus dans la donnée sont intéressants car ils permettent aux élèves les plus jeunes de directement travailler à partir du fichier, sans avoir à réaliser un traitement qui serait inadapté à leur niveau scolaire. Ainsi, tous les enseignants qui font localiser l’épicentre par la méthode des cercles, travaillent (souvent sans le savoir) à partir des métadonnées et non pas des données (voir l’article dédié “Exploiter des sismogrammes en SNT” sur le site académique).

Ces pré-traitements sont également utilisés par le logiciel Tectoglob3D , créé par Philippe Cosentino, quand on double-clique sur un sismogramme.

(A noter : il est aussi possible d’afficher les métadonnées associées à un sismogramme dans Tectoglob3D comme l’explique cet article qui détaille le cas des métadonnées associées aux fichiers .SAC)

 

3ème exemple : Les métadonnées dans le Calitoo; instrument de mesure de la qualité de l’air
Le Calitoo est un photomètre solaire développé par le CNES et la société Tenum. C’est un instrument qui sert à caractériser la taille des particules solides ou liquides en suspension dans l’atmosphère : les aérosols.
Le Calitoo est un instrument complexe qui contient 4 types de capteurs :

  • Un photomètre qui mesure une intensité lumineuse
  • Un GPS
  • Un baromètre
  • Un thermomètreLes données issue de l’instrument sont donc le résultat de la lecture des valeurs mesurées, soit l’intensité lumineuse pour 3 longueurs d’onde, les coordonnées géographiques en 3D (XYZ), la température et la pression atmosphérique (figure 4):

Figure 4 : Le Calitoo, un instrument de mesure et de quantification des aérosols (Figure : Fabrice Mourau)

Ainsi, les épaisseurs atmosphériques (AOT : Atmosphere Optical Thickness), les profondeurs atmosphériques (AOD : Aerosols Optical Depth ) et le coefficient d’Angström (alpha) sont issus d’un traitement mathématique complexe réalisé à partir des données.
On peut les qualifier de métadonnées issues d’un prétraitement des données brutes. Enfin, l’instrument calcule également le R2 qui est un indicateur statistique qualitatif des résultats obtenus. Il doit être au moins égal à 0.95 pour que les résultats lus soient considérés comme valides.

B) Enseigner les métadonnées

1er exemple : découverte des métadonnées

Nous l’avons bien compris, données et métadonnées sont indissociables quand on se place dans le champ de l’enseignement des sciences. Déjà, les élèves doivent savoir qu’elles existent. Sa présence validera au moins un certain niveau de qualité dans le document qui est mis à leur disposition. Dans cet exemple, l’exercice s’adresse à des élèves de cycle 4 qui n’ont à priori jamais rencontré de fichier de données. Celui-ci leur est fourni directement par l’enseignant. Afin de simplifier le traitement à réaliser par les élèves, l’enseignant a copié les métadonnées dans une feuille séparée.
L’activité présentée est réalisée tôt dans l’année scolaire, l’objectif est de montrer aux élèves les différences de température entre une ville située sur l’équateur (Libreville, Gabon) et une ville du sud de la France (Le Luc, Var). L’activité peut être réalisée en EPI en collaboration avec le collègue de mathématiques qui abordera avec les élèves les notions de moyenne et la saisie de formule dans un logiciel tableur.

Figure 5: Activité avec les métadonnées en cycle 4, en utilisant un tableur et des données de températures dans 2 villes très éloignées: Libreville et Le Luc (Document de travail de Fabrice Mourau).

Pour l’enseignant de Sciences, les notions abordées sont la température, les métadonnées et les erreurs électroniques (glitch). L’objectif en termes de capacité est la réussite d’une légende complète du diagramme, en s’aidant des métadonnées descriptives pour le sous-titre.
Du point de vue méthodologique, la valeur aberrante observée dans la série de Libreville donnera lieu à une discussion sur l’œil critique que nous devons garder dans l’analyse des données, la prudence scientifique vis-à-vis d’un seul résultat de mesure et des propositions pour valider ou invalider la mesure.

De nombreuses autres perspectives s’ouvrent: on peut imaginer que ce soit les élèves aux même qui créent leurs propres données et métadonnées, et qu’ils l’exploitent en fonction de leur objectif… !

Lien :

Autres articles en relation avec les métadonnées (TRAAMs 2019-2020)

Article rédigé par Fabrice Mourau et édité par Diane Carrer