Utiliser l’intelligence artificielle pour transformer une trace écrite en cours audio auprès d’un public d’élèves non-voyants

par Eric Villar

Cet article présente un usage de l’intelligence artificielle pour transformer une trace écrite en cours audio, une démarche similaire à celle décrite ici : https://www.pedagogie.ac-nice.fr/svt/?p=5178, mais réalisée avec d’autres outils et testée auprès d’un public d’élèves non-voyants.

La création du dialogue

À partir d’une IA générative (ici, Copilot), j’ai simplement demandé : « Génère-moi un dialogue entre un journaliste et une scientifique à partir de ce texte pour des élèves de niveau 4ᵉ ». J’ai ensuite copié-collé le passage suivant :

« Les modifications de notre environnement (lumière, température, odeurs…) sont des stimulations pour notre organisme et, en particulier, pour nos organes des sens. Les récepteurs de ces organes reçoivent les stimulations et les transmettent aux centres nerveux (moelle épinière, encéphale contenant le cerveau) grâce aux nerfs sensitifs sous forme de messages nerveux sensitifs. Puis, en provenance des centres nerveux, les organes effecteurs du mouvement (les muscles) reçoivent les messages nerveux moteurs, grâce aux nerfs moteurs. La commande du mouvement est donc assurée par le système nerveux qui met en relation les organes sensitifs (récepteurs) et les muscles (effecteurs). »

 

L’IA a généré le dialogue suivant :

« Journaliste : Bonjour et merci d’être avec nous aujourd’hui ! Nous allons parler des interactions entre notre organisme et l’environnement. Pouvez-vous nous expliquer comment des éléments comme la lumière, la température et les odeurs influencent notre corps ?

Scientifique : Oui évidemment, Tout d’abord bonjour et merci pour l’invitation. Donc notre environnement joue un rôle majeur sur notre organisme. La lumière, la température et les odeurs sont des stimulations autrement appelés des stimuli. Ce sont eux qui activent nos organes des sens. Ces stimuli nous permettent de percevoir ce qui nous entoure et d’adapter nos réactions.

Journaliste : Alors, comment ces stimuli sont-ils détectés par notre corps ?

Scientifique : Nous possédons des récepteurs sensoriels, qui sont des cellules spécialisées situées dans nos organes des sens, comme les yeux, la peau et le nez. Lorsqu’un stimulus est détecté, il est transformé en un message nerveux sensitif, qui voyage à travers les nerfs sensitifs jusqu’aux centres nerveux.

Journaliste : Quels sont ces centres nerveux ?

Scientifique : Eh bien, ce sont des organes nerveux qui comprennent principalement l’encéphale, qui contient le cerveau, et la moelle épinière qui entrent en jeu. Ces structures analysent les informations, mettent en place une représentation de l’environnement qui nous entoure et déterminent la réponse appropriée à apporter à la situation vécue.

Journaliste : D’accord, mais une fois que la réponse est produite par les centres nerveux, que se passe-t-il ?

Scientifique : Alors, une fois l’information traitée, les centres nerveux envoient une réponse sous forme de messages nerveux moteurs. Ces messages voyagent via les nerfs moteurs jusqu’aux muscles, qui sont les organes effecteurs du mouvement. Ils vont alors réaliser la réponse motrice et répondre à la situation donnée.

Journaliste : Donc, si je comprends bien, le système nerveux contrôle nos mouvements ?

Scientifique : Exactement ! Le système nerveux permet la coordination entre les récepteurs sensoriels, qui perçoivent l’environnement, et les muscles, qui réalisent les mouvements. C’est lui qui nous permet de réagir, par exemple, en retirant rapidement notre main lorsqu’on touche un objet brûlant.

Journaliste : C’est fascinant de voir à quel point tout cela fonctionne rapidement et efficacement. Merci pour ces explications claires ! A bientôt pour un nouveau podcast !

Scientifique : Avec plaisir ! Comprendre le fonctionnement du corps humain nous permet de mieux apprécier toutes les interactions entre notre organisme et son environnement. »

 

Synthèse vocale du dialogue et montage

Pour cette étape, j’ai utilisé l’application « Clipchamp », un outil gratuit de Microsoft. Elle permet de générer une synthèse vocale et d’assurer le montage final. Connexion internet obligatoire.

Après avoir « Ajouter un dossier », dans l’onglet « Enregistrer et créer » (1), on accède à la synthèse vocale (2) en sélectionnant langue et voix (3). Pour garder la cohérence des personnages, j’ai découpé le dialogue en deux blocs correspondant à chaque interlocuteur, et collé (4) leurs répliques respectives l’une après l’autre. Cela garantit que les paramètres de voix restent constants pour chacun.

Une fois la synthèse obtenue, j’ai procédé au montage (5).

Exportation et diffusion

Clipchamp (ci-dessus) n’exportant qu’en .mp4, j’ai dû convertir le fichier en .mp3 à l’aide du lecteur « VLC ». Voici la procédure :

  1. Ouvrir VLC et aller dans « Média » → « Convertir/Enregistrer » ;
  2. Cliquer sur « Ajouter » pour sélectionner le fichier à convertir ;
  3. Cliquer sur « Convertir/Enregistrer » ;
  4. Dans la section « Profil », choisir « Audio – MP3 », puis sélectionner un emplacement de sauvegarde ;
  5. Cliquer sur « Démarrer ».

 

Pour diffuser le podcast, je l’ai mis en ligne sur mon espace ELEA (ex-MOODLE) pour mes élèves. J’ai également testé un dépôt sur l’application de stockage « Nuage » (Apps Education) et partagé le lien suivant :  https://nuage03.apps.education.fr/index.php/s/aYN6cBFLe4PJkf5.

 

Bilan

La production du podcast s’est avérée assez rapide, notamment grâce à l’appui de l’IA et à la prise en main plutôt intuitive de Clipchamp. Les élèves non-voyants, qui étaient les destinataires premiers de cette ressource, ont accueilli le podcast avec un réel enthousiasme. Ils ont particulièrement apprécié le fait de pouvoir l’écouter facilement, à tout moment, ce qui a été souligné à plusieurs reprises. Cela leur a également offert une alternative complémentaire à la lecture du braille, diversifiant ainsi leurs supports d’apprentissage.

L’enthousiasme manifesté par les autres élèves m’a convaincu d’élargir la diffusion : d’abord aux élèves déficients visuels, puis aux élèves voyants.

Quelques limites sont toutefois à relever, notamment la nécessité d’utiliser trois outils distincts (Copilot pour la rédaction ; Clipchamp pour la synthèse vocale et le montage ; VLC pour la conversion en mp3). On peut aussi s’interroger sur le risque que ce type de support, s’il devenait trop systématique, ralentisse l’apprentissage du braille chez certains élèves non-voyants.

 

Aller au contenu principal