BIG DATA_algorithmes et recommandations des médias sociaux
*Ce projet s’insère dans le projet du GROUPE TRAAM EMI ACADÉMIQUE
*Projet officiel de l’académie
Rendre nos élèves citoyens de leur écosystème d’information
Problématique générale:
*Comment amener les élèves à devenir des citoyens éclairés, autonomes dans leurs choix et acteurs de la démocratie à travers l’usage accompagné des plateformes numériques ? Il s’agira de construire avec eux une compréhension des enjeux à l’œuvre dans cet écosystème.
Axe 3:
Éthique de l’information et des données (fake news, démocratie numérique, protection de ses données ou géopolitique du web). On voit naître beaucoup de problèmes éthiques liées à la manipulation de l’information, aux enjeux environnementaux (serveurs, ondes, fabrication des technologies) ou aux effets de certaines technologies de la surveillance (géo-localisation, reconnaissance faciale, données médicales). Il est important de répondre à ces interrogations pour enrichir le parcours citoyen des élèves.
Thème : Ethique de l’intelligence artificielle (et des bulles informationnelles)
Synthèse courte :
Développement d’un parcours de médiation scientifique en partenariat avec Terra Numerica dans le cadre de l’institut d’intelligence artificielle installé à Sophia Antipolis. L’objectif est de permettre à un public adolescent de comprendre le fonctionnement des bulles informationnelles et des algorithmes de recommandation.
Partenariat avec Terra Numerica (https://terra-numerica.org/presentation/) :
Un projet fédérateur émanant du CNRS, d’Inria et Université Côte d’Azur, regroupant l’Éducation Nationale et un grand nombre de partenaires importants. Le but de Terra Numerica est d’accroître le capital de compétences numériques (dans son acceptation la plus large) de tous les citoyens (dont les scolaires), à travers une audience des plus vastes et diversifiées. Il se doit de répondre au besoin urgent de compréhension et d’appropriation des sciences du numérique par la société, de la sensibiliser et la responsabiliser aux forts enjeux sociétaux qui en découlent ainsi que de développer la pensée scientifique et de susciter les vocations.
Le projet Terra Numerica est porté par un ensemble de membres aux compétences diverses et complémentaires. Ils ont tous une expertise dans la médiation scientifique, la création d’expériences et dispositifs interactifs, la recherche en sciences de l’éducation, l’organisation d’événements, la communication, la formation, etc. Il regroupe des spécialistes qui souhaitent développer la pensée scientifique et susciter des vocations.
Animé par la conviction que la science doit aller à la rencontre de tous les citoyens, Terra Numerica développe un dispositif original, attractif et unique de diffusion, de partages, de rencontres, de convivialité entre les acteurs du numérique. Il comprend :
- un futur lieu emblématique avec des supports très ambitieux et uniques;
- un ensemble de parcours pédagogiques et d’ateliers au sein de la Maison de l’Intelligence Artificielle;
- différents Espaces Partenaires Terra Numerica (EPTN) à travers tout le territoire (établissements scolaires, laboratoires, médiathèques, associations, etc.) et le développement d’actions pérennes au sein de ces EPTN;
- le partage des retours d’expériences au sein du réseau des EPTN
- des actions hors les murs (e.g. Fête de la Science) sur tout le territoire;
- des espaces en ligne pour découvrir les sciences du numérique.
Terra Numerica soutient la création et l’animation de lieux partenaires de médiation scientifique et numérique, via des collaborations pérennes
Le collège Sidney Bechet est l’un des 6 EPTN scolaires parmi les 10 EPTN que compte le réseau en mai 2021.Scientifiques associés au projet :
Anne Combe (Inria)
Frédéric Giroire (CNRS)
Dorian Mazauric (Inria)
Brigitte Trousse (Inria)
Equipe enseignante :
Sylvain Etienne (professeur de mathématiques) ,
Géraldine Rouard (professeur documentaliste)
Niveau : 3e
Modalités pédagogiques : présentiel
Mots clés : Algorithme, big data, CRCN informations et données, déontologie des médias, diffusion sélective de l’information, TraAM, traces numériques, systèmes de recommandations,
Compétences CRCN
Domaine | Compétences et niveaux de maîtrise | Lien avec les programmes |
4. Protection et sécurité ; chaque enseignant s’interroge sur le niveau de maîtrise des compétences de ses élèves pour la formalisation d’un scénario pédagogique | Niveau 5 :
Protéger les données personnelles et la vie privée Prendre conscience des enjeux économiques, sociaux, politiques et juridiques de la traçabilité Comprendre les incidences concrètes des conditions générales d’utilisation d’un service. Évaluer la pertinence d’une collecte de données par un service en ligne et en comprendre les finalités |
EMI
|
Compétences du socle C4
Domaine 3 : la formation de la personne et du citoyen
Ce domaine fait appel :
– à l’apprentissage et à l’expérience des principes qui garantissent la liberté de tous, comme la liberté de conscience et d’expression, la tolérance réciproque, l’égalité, notamment entre les hommes et les femmes, le refus des discriminations, l’affirmation de la capacité à juger et agir par soi-même ;
– à des connaissances et à la compréhension du sens du droit et de la loi, des règles qui permettent la participation à la vie collective et démocratique et de la notion d’intérêt général .
Domaine 4 : les systèmes naturels et les systèmes techniques
Responsabilités individuelles et collectives : l’élève connaît l’importance d’un comportement responsable vis-à-vis de l’environnement et de la santé et comprend ses responsabilités individuelles et collectives
– les grandes caractéristiques des objets et systèmes techniques et des principales solutions technologiques.
Points du programme de Mathématiques abordés :
- Algorithmique et programmation (programmation par bloc, programmation en langage naturel)
- Probabilités (marche aléatoire)
- Résolution de problèmes atypiques
Piste proposée aux scientifiques :
Faire comprendre à un public adolescent le phénomène des bulles informationnelles.
Le partenariat avec Terra Numerica est acté. Nous sommes Territoire du Numérique en lien avec la Maison de l’intelligence artificielle de Sophia Antipolis. Les scientifiques ont adhéré à notre proposition sur l’éthique de l’intelligence artificielle et des bulles informationnelles.
Nous avons esquissé ensemble un programme pour l’année scolaire 2020-2021 comme suit et
Avec une classe de 3e, sur le cours de mathématiques, chaque session durera environ 1h30 et fera intervenir des spécialistes du domaine pour une activité branchée débranchée:
•Une phase introductive générale pour appréhender quelques notions importantes en sciences du numérique : les algorithmes, Page Rank de google
•Ensuite, une session sur la notion de bulle informationnelle, en lien avec des algorithmes utilisés par Google ou Facebook. Il sera question de recommandation dans les réseaux sociaux ou encore de “comment garder les gens le plus longtemps possible ».
•Dans un troisième temps, une intervention sur la protection des données (e.g. dans le domaine de la recherche sciences du numérique pour la santé), sur l’évaluation des risques légaux et éthiques en science et dans la recherche en particulier. Nous parlerons de l’application tousanticovid (d’un point de vue technique pour que chaque élève se fasse son opinion).
Détail des séances
En amont des séances, les enseignants ont pu se rendre à la Maison de l’Intelligence Artificielle. Le contexte sanitaire n’a malheureusement pas permis d’y amener la classe concernée par le projet en amont. Il est prévu de réaliser la 3ème séance à la Maison de l’Intelligence Artificielle.
Séance 1 :
Introduction du projet et du contexte
Présentation du thème : Ethique des données
Définition d’une donnée :
—> distinction données déclaratives et traces numériques, actions de l’internaute;
—> outils utilisés et aspects de recommandation.
Intervention de Dorian Mazauric (Inria) :
– Introduction : qu’est ce que la pensée informatique ?
– Découverte des notions de graphes, réseaux, de modélisation, d’algorithmes.
– Exemples de fonctionnement d’algorithmes dans la vie quotidienne : pour faire des crêpes, pour trouver un mot dans un dictionnaire, pour trouver le plus court chemin dans un réseau de transport, pour déterminer l’importance d’une page Web (algorithme Page Rank de Google).
– Découverte de la notion de degré d’un graphe.
Voici un lien avec les diapositives : https://hal.inria.fr/hal-01383665/
Séance 2 :
Intervenant Frédéric Giroire CNRS, expert réseaux / algorithmes / réseaux sociaux…
Frédéric Giroire (inria.fr)
L’idée est de présenter la modélisation d’un réseau social et de contenu et ensuite de présenter différents algorithmes de recommandation en partant des plus simples tout en discutant leurs implications sociétales.
L’idée principale ici est de fournir de petits exemples de graphes sociaux et leur proposer de faire des recommandations aux utilisateurs de différentes façons tout en discutant les algorithmes et les implications sociétales de chaque algorithme.
L’objectif est de présenter rapidement aux élèves comment est modélisé un réseau social comme un graphe avec des attributs.
* On peut présenter deux types de représentation, celle dans laquelle les sommets sont les utilisateurs seulement et celle où les nœuds peuvent être des utilisateurs et des contenus.
1- – A partir des degrés. Compétences : savoir calculer les degrés des nœuds.
2- – A partir du Page Rank. Ici, en fonction du niveau des élèves, on peut :
- soit discuter les différentes notions de centralité dans un graphe : degré ou Page Rank (métrique qui a rendu Google populaire) par exemple
- soit leur fournir le graphe avec le Page Rank déjà calculé sur les noeuds et leur demander de comparer avec les degrés (par exemple, un sommet de degré 10 connectés à 2 sommets de degré 10 aura un Page Rank supérieur à une sommet de degré 12 connectés qu’à des sommets de degré 2).
* soit leur faire calculer le Page Rank sur des petits graphes de façon itérative. L’algorithme n’est pas compliqué, mais il y a un peu de calculs (en gros à chaque étape, le Page Rank d’un sommet est une combinaison linéaire de son propre Page Rank et de celui de ces voisins)
—> notion de degré dans un graphe;
—> Il s’agit d’un algorithme simple de recommandation : par exemple la personne la plus connectée est la plus vue (sur twitter), la vidéo la plus vue sur youtube;
—> Les contenus/articles/pages les plus centraux seront ceux recommandés * les contenus les plus populaires;
—> Implication sociale : même recommandation pour tous, mesure de centralité;
—> algorithmes de recommandation les plus simples qui ne dépendent pas de l’utilisateur auquel on fait la recommandation.
Ensuite, on discutera du fait que ces algorithmes donneraient des résultats cocasses dans pas mal de situations, par exemple, si le dernier clip de rap ou autre est recommandé à leurs grands-parents. Les plateformes utilisent donc aussi d’autres types d’algorithmes de recommandation.
3 – A partir des triangles ouverts dans lequel un sommet est impliqué. Potentiellement ici, on peut aussi discuter d’algorithmes simples de calculs des triangles dans le graphe.
—> Algorithmes de recommandation qui dépendent de l’utilisateur :
* les contenus les plus populaires chez ses amis. On expliquera ici :
– les notions de triangles ouverts et fermés utilisés pour la recommandation par Facebook par exemple
(8 de vos amis sont amis avec Y, êtes-vous amis avec Y ?)
(7 de vos amis ont lu cet article, celui-ci pourrait vous intéresser ?)
– On peut présenter ici des algorithmes simples de calculs de triangles ouverts et fermés dans un graphe. Discussion de la notion de complexité algorithmique.
—> Notion de recommandation ciblée en triangle;
—> exemple de Facebook qui propose en amis les personnes qui sont amis avec plusieurs de nos amis;
—> Impact social 1 : satisfaction plus grande de l’utilisateur;
—> Impact social 2 : éloignement, divergence.
4 – A partir des clusters du graphes. On ne fait des recommandations que de nœuds à l’intérieur de son cluster :
- cela amènera à des discussions sur la notion de coefficient de clustering et sur une famille d’algorithmes d’apprentissage automatique sur les graphes : la prédiction de liens.
- des algorithmes de recommandation à base de clustering (autre famille d’algorithmes d’apprentissage automatique). On recommande à un utilisateur les contenus les plus populaires dans sa communauté.
Ici encore, on peut :
- soit directement donner des graphes avec les clusters indiqués et en discuter
- *soit les faire construire avec par exemple l’algorithme de Louvain ou un algorithme de propagation de labels.
On pourrait expliquer ici un algorithme classique de construction des clusters (par exemple, l’algorithme de Louvain qui est assez simple).
—> création de groupes d’intérêts (ex : fan des Rolling stones);
—> l’algorithme conseille ce qu’aiment les gens qui aiment les mêmes choses que nous;
—> début des bulles informationnelles —> chacune est divisée;
—> exemple de la politique : si l’algorithme nous a classé démocrate, il n’envoie que des informations pro démocrate et anti républicain —> on est coupé de l’autre parti;
—> accentuation de l’impact social et des différences.
* On aura ensuite une discussion sur l’implication sociétale. Les utilisateurs sont mis dans des groupes et ne reçoivent plus de contenus que destinés à ces groupes.
Cela amène aux notions de bulles informationnelles et de polarisation.
5 – Pour aller plus loin : On pourrait potentiellement discuter des algorithmes de recommandation supervisés utilisant des réseaux de neurones et leur demander de construire l’entrée de l’algorithme soit quels sont les champs qu’ils trouvent importants pour essayer de deviner si un contenu doit être recommandé à un utilisateur (degré, cluster, nombre de clics, ….)
La principale difficulté pour un public de collège est la notion d’arête orientée.
Le lien vers les exercices programmés en Scratch :
https://scratch.mit.edu/projects/509905197/
https://scratch.mit.edu/projects/524332525
Séance 3 :
Intervenant : Anne Combe, Délégué à la protection des données – Inria
La protection des données (ex des données de santé)
Intervention sur la protection des données (e.g. dans le domaine de la recherche en sciences du numérique pour la santé), sur l’évaluation des risques légaux et éthiques en science et dans la recherche en particulier. Nous aborderons enfin l’application tousanticovid (d’un point de vue technique pour que chaque élève se fasse son opinion).
Intervention moins technique mais plus éthique sur l’utilité de faire attention aux données personnelles.
Intervention réalisée après la rédaction du projet à la Maison de l’Intelligence Artificielle.
Questionnaire :
réalisé en amont de la 3eme intervention en collaboration enseignants/scientifiques
Quels outils utilisez-vous ? Quelles données livrez-vous ?
Reseaux-sociaux-questionnaire Reseaux-sociaux-questionnaire
Parcours Pix : Campagne Pix proposée aux élèves
*2.4. S’insérer dans le monde numérique
Maîtriser les stratégies et enjeux de la présence en ligne, et choisir ses pratiques pour se positionner en tant qu’acteur social, économique et citoyen dans le monde numérique, en lien avec ses règles, limites et potentialités, et en accord avec des valeurs et/ou pour répondre à des objectifs (avec les réseaux sociaux et les outils permettant de développer une présence publique sur le web, et en lien avec la vie citoyenne, la vie professionnelle, la vie privée, etc.).
THÉMATIQUES ASSOCIÉES
Identité numérique et signaux ; e-Réputation et influence ; Codes de communication et netiquette ; Pratiques sociales et participation citoyenne ; Modèles et stratégies économiques ; Questions éthiques et valeurs ; Gouvernance d’internet et ouverture du web ; Liberté d’expression et droit à l’information
lien prochainement
*4.2. Protéger les données personnelles et la vie privée
Maîtriser ses traces et gérer les données personnelles pour protéger sa vie privée et celle des autres, et adopter une pratique éclairée (avec le paramétrage des paramètres de confidentialité, la surveillance régulière de ses traces par des alertes ou autres outils, etc.).
THÉMATIQUES ASSOCIÉES
Données personnelles et loi ; Traces ; Vie privée et confidentialité ; Collecte et exploitation de données massives
–> Il s’agit ici de faire le lien avec les compétences numériques acquises et de faire réfléchir les élèves aux actions à conduire pour sécuriser leur environnement numérique.
Supports de présentation :
–> Genially de présentation :
https://view.genial.ly/5ed60bd20328130d9fa22454/guide-big-data-algorithmes-et-recommandations
Source de l’image d’illustration pour l’article : https://pixabay.com/fr/vectors/m%C3%A9dias-sociaux-connexions-3846597/?download