binaire

06 septembre 202406 septembre 2024

[DA]vid contre Gol[IA]th : Quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?

Billet d’introduction: L’expression “David contre Goliath” n’a jamais semblé aussi pertinente que lorsqu’il faut décrire le combat des artistes contre les GAFAM. Cette expression souvent utilisée pour décrire un combat entre deux parties prenantes de force inégale souligne une réalité : celle de la nécessité qu’ont ressenti des artistes de différents milieux et pays de se défendre face à des géants de la tech de l’IA générative pour protéger leur oeuvres, leur passion et leur métier, pour eux et pour les générations futures. Si la Direction Artistique porte le nom de [DA]vid, alors l’IA sera notre Gol[IA]th… C’est parti pour une épopée 5.0 !

Julie Laï-Pei, femme dans la tech, a à cœur de créer un pont entre les nouvelles technologies et le secteur Culturel et Créatif, et d’en animer la communauté. Elle nous partage ici sa réflexion au croisement de ces deux domaines.

Chloé Mercier, Thierry Vieville et Ikram Chraibi Kaadoud

Comment les artistes font-ils face au géant IA, Gol[IA]th ?

« David et Goliath » – Gustave Doré passé dans Dall-e – Montage réalisé par @JulieLaï-Pei

A l’heure d’internet, les métiers créatifs ont connu une évolution significative de leur activité. Alors que nous sommes plus que jamais immergés dans un monde d’images, certains artistes évoluent et surfent sur la vague, alors que d’autres reviennent à des méthodes de travail plus classiques. Cependant tous se retrouvent confrontés aux nouvelles technologies et à leurs impacts direct et indirect dans le paysage de la créativité artistique.

Si les artistes, les graphistes, les animateurs devaient faire face à une concurrence sévère dans ce domaine entre eux et face à celle de grands acteurs du milieu, depuis peu (on parle ici de quelques mois), un nouveau concurrent se fait une place : l’Intelligence artificielle générative, la Gen-IA !

C’est dans ce contexte mitigé, entre écosystème mondial de créatifs souvent isolés et puissances économiques démesurées que se posent les questions suivantes :

Quelle est la place de la création graphique dans cet océan numérique ? Comment sont nourris les gros poissons de l’intelligence artificielle pour de la création et quelles en sont les conséquences ?

L’évolution des modèles d’entraînement des IA pour aller vers la Gen-AI que l’on connaît aujourd’hui

Afin qu’une intelligence artificielle soit en capacité de générer de l’image, elle a besoin de consommer une quantité importante d’images pour faire le lien entre la perception de “l’objet” et sa définition nominale. Par exemple, à la question “Qu’est-ce qu’un chat ?” En tant qu’humain, nous pouvons facilement, en quelques coup d’œil, enfant ou adulte, comprendre qu’un chat n’est pas un chien, ni une table ou un loup. Or cela est une tâche complexe pour une intelligence artificielle, et c’est justement pour cela qu’elle a besoin de beaucoup d’exemples !

Ci dessous une frise chronologique de l’évolution des modèles d’apprentissage de l’IA depuis les premiers réseaux de neurones aux Gen-IA :

En 74 ans, les modèles d’IA ont eu une évolution fulgurante, d’abord cantonnée aux sphères techniques ou celle d’entreprises très spécialisées, à récemment en quelques mois en 2023, la société civile au sens large et surtout au sens mondial.

Ainsi, en résumé, si notre IA Gol[IA]th souhaite générer des images de chats, elle doit avoir appris des centaines d’exemples d’images de chat. Même principe pour des images de voitures, des paysages, etc.

Le problème vient du fait que, pour ingurgiter ces quantités d’images pour se développer, Gol[IA]th mange sans discerner ce qu’il engloutit… que ce soit des photos libres de droit, que ce soit des oeuvres photographiques, des planches d’artwork, ou le travail d’une vie d’un artiste, Gol[IA]th ne fait pas de différence, tout n’est “que” nourriture…

Dans cet appétit gargantuesque, les questions d’éthique et de propriétés intellectuelles passent bien après la volonté de développer la meilleure IA générative la plus performante du paysage technologique. Actuellement, les USA ont bien de l’avance sur ce sujet, créant de véritables problématiques pour les acteurs de la création, alors que l’Europe essaie de normer et d’encadrer l’éthique des algorithmes, tout en essayant de mettre en place une réglementation et des actions concrètes dédiées à la question de la propriété intellectuelle, qui est toujours une question en cours à ce jour.

Faisons un petit détour auprès des différents régimes alimentaires de ce géant…

Comment sont alimentées les bases de données d’image pour les Gen-AI ?

L’alimentation des IA génératives en données d’images est une étape cruciale pour leur entraînement et leur performance. Comme tout bon géant, son régime alimentaire est varié et il sait se sustenter par différents procédés… Voici les principales sources et méthodes utilisées pour fournir les calories nécessaires de données d’images aux IA génératives :

Les bases de données publiques

Notre Gol[IA]th commence généralement par une alimentation saine, basée sur un des ensembles de données les plus vastes et les plus communément utilisés: par exemple, ImageNet qui est une base de données d’images annotées produite par l’organisation du même nom, à destination des travaux de recherche en vision par ordinateur. Cette dernière représente plus de 14 millions d’images annotées dans des milliers de catégories. Pour obtenir ces résultats, c’est un travail fastidieux qui demande de passer en revue chaque image pour la qualifier, en la déterminant d’après des descriptions, des mot-clefs, des labels, etc…

Entre autres, MNIST, un ensemble de données de chiffres manuscrits, couramment utilisé pour les tâches de classification d’images simples.

Dans ces ensembles de données publics, on retrouve également COCO (à comprendre comme Common Objects in COntext) qui contient plus de 330 000 images d’objets communs dans un contexte annotées, pour l’usage de la segmentation d’objets, la détection d’objets, de la légendes d’image, etc…

Plus à la marge, on retrouve la base de données CelebA qui contient plus de 200 000 images de visages célèbres avec des annotations d’attributs.

« Sample Imagesliath » – CelebA – http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

La collecte de données en ligne (web scraping)

Plus discutable, Gol[IA]th peut également chasser sa pitance… Pour ce faire, il peut utiliser le web scraping. Il s’agit d’un procédé d’extraction automatique d’images à partir de sites web, moteurs de recherche d’images, réseaux sociaux, et autres sources en ligne. Concrètement, au niveau technique, il est possible d’utiliser des APIs (Application Programming Interfaces) pour accéder à des bases de données d’images: il s’agit d’interfaces logicielles qui permettent de “connecter” un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités. Il en existe pour Flickr, pour Google Images, et bien d’autres.

Ce procédé pose question sur le plan éthique, notamment au sujet du consentement éclairé des utilisateurs de la toile numérique : Est-ce qu’une IA a le droit d’apprendre de tout, absolument tout, ce qu’il y a en ligne ? Et si un artiste a choisi de partager ses créations sur internet, son œuvre reste-t-elle sa propriété ou devient-elle, en quelque sorte, la propriété de tous ?

Ces questions soulignent un dilemme omniprésent pour tout créatif au partage de leur œuvre sur internet : sans cette visibilité, il n’existe pas, mais avec cette visibilité, ils peuvent se faire spolier leur réalisation sans jamais s’en voir reconnaître la maternité ou paternité.

Il y a en effet peu de safe-places pour les créatifs qui permettent efficacement d’être mis en lumière tout en se prémunissant contre les affres de la copie et du vol de propriété intellectuelle et encore moins de l’appétit titanesque des géants de l’IA.

C’est à cause de cela et notamment de cette méthode arrivée sans fanfare que certains créatifs ont choisi de déserter certaines plateformes/réseaux sociaux: les vannes de la gloutonnerie de l’IA générative avaient été ouvertes avant même que les internautes et les créatifs ne puissent prendre le temps de réfléchir à ces questions. Cette problématique a été aperçue, entre autres, sur Artstation, une plateforme de présentation jouant le rôle de vitrine artistique pour les artistes des jeux, du cinéma, des médias et du divertissement. mais également sur Instagram et bien d’autres : parfois ces plateformes assument ce positionnement ouvertement, mais elles sont rares ; la plupart préfèrent enterrer l’information dans les lignes d’interminables conditions d’utilisation qu’il serait bon de commencer à lire pour prendre conscience de l’impact que cela représente sur notre “propriété numérique”.

Les bases de données spécialisées

Dans certains cas, Gol[IA]th peut avoir accès à des bases de données spécialisées, comprenant des données médicales (comme les scans radiographiques, IRM, et autres images médicales disponibles via des initiatives comme ImageCLEF) ou des données satellites (fournies par des agences spatiales comme la NASA et des entreprises privées pour des images de la Terre prises depuis l’espace).

Les données synthétiques

Au-delà des images tirées du réel, l’IA peut également être alimentée à partir d’images générées par ordinateur. La création d’images synthétiques par des techniques de rendu 3D permet de simuler des scénarios spécifiques (par exemple, de la simulation d’environnements de conduite pour entraîner des systèmes de conduite autonome), ainsi que des modèles génératifs pré-entraînés. En effet, les images générées par des modèles peuvent également servir pour l’entraînement d’un autre modèle. Mais les ressources peuvent également provenir d’images de jeux vidéo ou d’environnement de réalité virtuelle pour créer des ensembles de données (on pense alors à Unreal Engine ou Unity).

Les caméras et les capteurs

L’utilisation de caméras pour capturer des images et des vidéos est souvent employée dans les projets de recherche et développement, et dans une volonté de sources plus fines, de capteurs pour obtenir des images dans des conditions spécifiques, comme des caméras infrarouges pour la vision nocturne, des LIDAR pour la cartographie 3D, etc.

Toutes ces différentes sources d’approvisionnement pour Gol[IA]th sont généralement prétraitées avant d’être utilisées pour l’entraînement : normalisation, redimensionnement, augmentation des données, sont des moyens de préparation des images.

En résumé, il faut retenir que les IA génératives sont alimentées par une vaste gamme de sources de données d’images, allant des ensembles de données publiques aux données collectées en ligne, en passant par les images synthétiques et les captures du monde réel. La diversité et la qualité des données sont essentielles pour entraîner des modèles génératifs performants et capables de produire des images réalistes et variées. Cependant cette performance ne se fait pas toujours avec l’accord éclairé des auteurs des images. Il est en effet compliqué – certains diront impossible – de s’assurer que la gloutonnerie de Gol[IA]th s’est faite dans les règles avec le consentement de tous les créatifs impliqués… Un sujet d’éducation à la propriété numérique est à considérer!

Mais alors, comment [DA]vid et ses créatifs subissent cette naissance monstrueuse ?

Les métiers créatifs voient leur carnet de commande diminuer, les IA se démocratisant à une vitesse folle. [DA]vid, au delà de perdre des revenus en n’étant plus employé par des revues pour faire la couverture du magazine, se retrouve face à une concurrence déloyale : l’image générée a le même style… voir “son style”… Or pour un créatif, le style est l’œuvre du travail d’une vie, un facteur différenciant dans le paysage créatif, et le moteur de compétitivité dans le secteur… Comment faire pour maintenir son statut d’acteur de la compétitivité de l’économie alors que les clients du secteur substituent leur commande par des procédés éthiquement questionnables pour faire des économies ?

Gol[IA]th mange sans se sentir rompu, qu’il s’agisse de données libres ou protégées par des droits d’auteur, la saveur ne change pas. L’espoir de voir les tribunaux s’animer, pays après pays, sur des questionnements de violation, ou non, des lois protégeant les auteurs, s’amenuise dans certaines communautés. En attendant, les [DA]vid créatifs se retrouvent livrés à eux-mêmes, lentement dépossédés de l’espoir de pouvoir échapper au géant Gol[IA]th. Alors que l’inquiétude des artistes et des créateurs grandit à l’idée de voir une série d’algorithmes reproduire et s’accaparer leur style artistique, jusqu’à leur carrière, certains s’organisent pour manifester en occupant l’espace médiatique comme l’ont fait les acteurs en grève à Hollywood en 2023, et d’autres choisissent d’attaquer le sujet directement au niveau informatique en contactant Ben Zhao et Heather Zheng, deux informaticiens de l’Université de Chicago qui ont créé un outil appelé “Fawkes”, capable de modifier des photographies pour déjouer les IA de reconnaissance faciale.

Exemple de photos originales et de leurs versions “masquées” par Fawkes. (© Sand Lab/Université de Chicago)

La question s’imposant étant alors :

“Est-ce que Fawkes peut protéger notre style contre des modèles de génération d’images comme Midjourney ou Stable Diffusion ?”

Bien que la réponse immédiate soit “non”, la réflexion a guidé vers une autre solution…

“Glaze”, un camouflage en jus sur une oeuvre

Les chercheurs de l’Université de Chicago se sont penchés sur la recherche d’une option de défense des utilisateurs du web face aux progrès de l’IA. Ils ont mis au point un produit appelé “Glaze”, en 2022, un outil de protection des œuvres d’art contre l’imitation par l’IA. L’idée de postulat est simple : à l’image d’un glacis ( une technique de la peinture à l’huile consistant à poser, sur une toile déjà sèche, une fine couche colorée transparente et lisse) déposer pour désaturer les pigments “Glaze” est un filtre protecteur des créations contre les IAs.

“Glaze” va alors se positionner comme un camouflage numérique : l’objectif est de brouiller la façon dont un modèle d’IA va “percevoir” une image en la laissant inchangée pour les yeux humains.

Ce programme modifie les pixels d’une image de manière systématique mais subtile, de sorte à ce que les modifications restent discrètes pour l’homme, mais déconcertantes pour un modèle d’IA. L’outil tire parti des vulnérabilités de l’architecture sous-jacente d’un modèle d’IA, car en effet, les systèmes de Gen-AI sont formés à partir d’une quantité importante d’images et de textes descriptifs à partir desquels ils apprennent à faire des associations entre certains mots et des caractéristiques visuelles (couleurs, formes). “Ces associations cryptiques sont représentées dans des « cartes » internes massives et multidimensionnelles, où les concepts et les caractéristiques connexes sont regroupés les uns à côté des autres. Les modèles utilisent ces cartes comme guide pour convertir les textes en images nouvellement générées.” (- Lauren Leffer, biologiste et journaliste spécialisée dans les sciences, la santé, la technologie et l’environnement.)

“Glaze” va alors intervenir sur ces cartes internes, en associant des concepts à d’autres, sans qu’il n’y ait de liens entre eux. Pour parvenir à ce résultat, les chercheurs ont utilisé des “extracteurs de caractéristiques” (programmes analytiques qui simplifient ces cartes hypercomplexes et indiquent les concepts que les modèles génératifs regroupent et ceux qu’ils séparent). Les modifications ainsi faites, le style d’un artiste s’en retrouve masqué : cela afin d’empêcher les modèles de s’entraîner à imiter le travail des créateurs. “S’il est nourri d’images « glacées » lors de l’entraînement, un modèle d’IA pourrait interpréter le style d’illustration pétillante et caricatural d’un artiste comme s’il s’apparentait davantage au cubisme de Picasso. Plus on utilise d’images « glacées » pour entraîner un modèle d’imitation potentiel, plus les résultats de l’IA seront mélangés. D’autres outils tels que Mist, également destinés à défendre le style unique des artistes contre le mimétisme de l’IA, fonctionnent de la même manière.” explique M Heather Zheng, un des deux créateurs de cet outil.

Plus simplement, la Gen-AI sera toujours en capacité de reconnaître les éléments de l’image (un arbre, une toiture, une personne) mais ne pourra plus restituer les détails, les palettes de couleurs, les jeux de contrastes qui constituent le “style”, i.e., la “patte” de l’artiste.

Quelques exemples de l’utilisation de Glaze *arXiv:2302.04222*

Bien que cette méthode soit prometteuse, elle présente des limites techniques et dans son utilisation.

Face à Gol[IA]th, les [DA]vid ne peuvent que se cacher après avoir pris conscience de son arrivée : dans son utilisation, la limite de “Glaze” vient du fait que chaque image que va publier un créatif ou un artiste doit passer par le logiciel avant d’être postée en ligne.. Les œuvres déjà englouties par les modèles d’IA ne peuvent donc pas bénéficier, rétroactivement, de cette solution. De plus, au niveau créatif, l’usage de cette protection génère du bruit sur l’image, ce qui peut détériorer sa qualité et s’apercevoir sur des couleurs faiblement saturées. Enfin au niveau technique, les outils d’occultation mise à l’œuvre ont aussi leurs propres limites et leur efficacité ne pourra se maintenir sur le long terme.

En résumé, à la vitesse à laquelle évoluent les Gen-AI, “Glaze” ne peut être qu’un barrage temporaire, et malheureusement non une solution : un pansement sur une jambe gangrenée, mais c’est un des rares remparts à la créativité humaine et sa préservation.

Il faut savoir que le logiciel a été téléchargé 720 000 fois, et ce, à 10 semaines de sa sortie, ce qui montre une véritable volonté de la part des créatifs de se défendre face aux affronts du géant.

La Gen-AI prend du terrain sur la toile, les [DA]vid se retrouvent forcés à se cacher… Est-ce possible pour eux de trouver de quoi charger leur fronde ? Et bien il s’avère que la crainte a su faire naître la colère et les revendications, et les créatifs et les artistes ont décidé de se rebeller face à l’envahisseur… L’idée n’est plus de se cacher, mais bien de contre-attaquer Gol[IA]th avec les armes à leur disposition…

“Nightshade”, lorsque la riposte s’organise ou comment empoisonner l’IA ?

Les chercheurs de l’Université de Chicago vont pousser la réflexion au delà de “Glaze”, au delà de bloquer le mimétisme de style, “Nightshade” est conçu comme un outil offensif pour déformer les représentations des caractéristiques à l’intérieur même des modèles de générateurs d’image par IA…

« Ce qui est important avec Nightshade, c’est que nous avons prouvé que les artistes n’ont pas à être impuissants », déclare Zheng.

Nightshade ne se contente pas de masquer la touche artistique d’une image, mais va jusqu’à saboter les modèles de Gen-AI existants. Au-delà de simplement occulter l’intégrité de l’image, il la transforme en véritable “poison” pour Gol[IA]th en agissant directement sur l’interprétation de celui-ci. Nightshade va agir sur l’association incorrecte des idées et des images fondamentales. Il faut imaginer une image empoisonnée par “Nightshade” comme une goutte d’eau salée dans un récipient d’eau douce. Une seule goutte n’aura pas grand effet, mais chaque goutte qui s’ajoute va lentement saler le récipient. Il suffit de quelques centaines d’images empoisonnées pour reprogrammer un modèle d’IA générative. C’est en intervenant directement sur la mécanique du modèle que “Nightshade” entrave le processus d’apprentissage, en le rendant plus lent ou plus coûteux pour les développeurs. L’objectif sous-jacent serait, théoriquement, d’inciter les entreprises d’IA à payer les droits d’utilisation des images par le biais des canaux officiels plutôt que d’investir du temps dans le nettoyage et le filtrage des données d’entraînement sans licence récupérée sur le Web.

Image issue de l’article de Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-specific poisoning attacks on text-to-image generative models. arXiv:2310.13828

Ce qu’il faut comprendre de « Nightshade » :

Empoisonnement des données: Nightshade fonctionne en ajoutant des modifications indétectables mais significatives aux images. Ces modifications sont introduites de manière à ne pas affecter la perception humaine de l’image mais à perturber le processus de formation des modèles d’IA. Il en résulte un contenu généré par l’IA qui s’écarte de l’art prévu ou original.
Invisibilité: Les altérations introduites par Nightshade sont invisibles à l’œil humain. Cela signifie que lorsque quelqu’un regarde l’image empoisonnée, elle apparaît identique à l’originale. Cependant, lorsqu’un modèle d’IA traite l’image empoisonnée, il peut générer des résultats complètement différents, pouvant potentiellement mal interpréter le contenu.
Impact: L’impact de l’empoisonnement des données de Nightshade peut être important. Par exemple, un modèle d’IA entraîné sur des données empoisonnées pourrait produire des images dans lesquelles les chiens ressemblent à des chats ou les voitures à des vaches. Cela peut rendre le contenu généré par l’IA moins fiable, inexact et potentiellement inutilisable pour des applications spécifiques.

Ci-dessus, des exemples d’images générées par les modèles SD-XL empoisonnés de Nightshade.arXiv:2310.13828

Voici alors quelques exemples après de concepts empoisonnés :

Ci-dessus, des exemples d’images générées par les modèles SD-XL empoisonnés de Nightshade et le modèle SD-XL propre, lorsqu’ils sont invités à utiliser le concept empoisonné C. arXiv:2310.13828

Plus précisément, « Nightshade transforme les images en échantillons ’empoisonnés’, de sorte que les modèles qui s’entraînent sur ces images sans consentement verront leurs modèles apprendre des comportements imprévisibles qui s’écartent des normes attendues, par exemple une ligne de commande qui demande l’image d’une vache volant dans l’espace pourrait obtenir à la place l’image d’un sac à main flottant dans l’espace », indiquent les chercheurs.

Le « Data Poisoning » est une technique largement répandue. Ce type d’attaque manipule les données d’entraînement pour introduire un comportement inattendu dans le modèle au moment de l’entraînement. L’exploitation de cette vulnérabilité rend possible l’introduction de résultats de mauvaise classification.

« Un nombre modéré d’attaques Nightshade peut déstabiliser les caractéristiques générales d’un modèle texte-image, rendant ainsi inopérante sa capacité à générer des images significatives », affirment-ils.

Cette offensive tend à montrer que les créatifs peuvent impacter les acteurs de la technologie en rendant contre-productif l’ingestion massive de données sans l’accord des ayant-droits.

Plusieurs plaintes ont ainsi émané d’auteurs, accusant OpenAI et Microsoft d’avoir utilisé leurs livres pour entraîner ses grands modèles de langage. Getty Images s’est même fendu d’une accusation contre la start-up d’IA Stability AI connue pour son modèle de conversion texte-image Stable Diffusion, en Février 2023. Celle-ci aurait pillé sa banque d’images pour entraîner son modèle génératif Stable Diffusion. 12 millions d’œuvres auraient été « scrappées » sans autorisation, attribution, ou compensation financière. Cependant, il semble que ces entreprises ne puissent pas se passer d’oeuvres soumises au droit d’auteur, comme l’a récemment révélé OpenAI, dans une déclaration auprès de la Chambre des Lords du Royaume-Uni concernant le droit d’auteur, la start-up a admis qu’il était impossible de créer des outils comme le sien sans utiliser d’œuvres protégées par le droit d’auteur. Un aveu qui pourrait servir dans ses nombreux procès en cours…

Ainsi, quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?

En résumé, dans sa gloutonnerie, Gol[IA]th a souhaité engloutir les [DA]vid qui nous entourent, qui ont marqué l’histoire et ceux qui la créent actuellement, dans leur entièreté et leur complexité : en cherchant à dévorer ce qui fait leur créativité, leur style, leur patte, au travers d’une analyse de caractéristiques et de pixels, Gol[IA]th a transformé la créativité humaine qui était sa muse, son idéal à atteindre, en un ensemble de données sans sémantique, ni histoire, ni passion sous-jacente.

C’est peut être un exemple d’amour nocif à l’heure de l’IA, tel que vu par l’IA ?

Sans sous-entendre que les personnes à l’origine de l’écriture des IA génératives ne sont pas des créatifs sans passion, il est probable que la curiosité, la prouesse et l’accélération technologique ont peu à peu fait perdre le fil sur les impacts que pourrait produire un tel engouement.

A l’arrivée de cette technologie sur le Web, les artistes et les créatifs n’avaient pas de connaissance éclairée sur ce qui se produisait à l’abri de leurs regards. Cependant, les modèles d’apprentissage ont commencé à être alimentés en données à l’insu de leur ayant-droits. La protection juridique des ayant-droits n’évoluant pas à la vitesse de la technologie, les créatifs ont rapidement été acculés, parfois trop tard, les Gen-AI ayant déjà collecté le travail d’une vie. Beaucoup d’artistes se sont alors “reclus”, se retirant des plateformes et des réseaux sociaux pour éviter les vols, mais ce choix ne fut pas sans conséquence pour leur visibilité et la suite de leur carrière.

Alors que les réseaux jouaient l’opacité sur leurs conditions liées à la propriété intellectuelle, le choix a été de demander aux créatifs de se “manifester s’ils refusaient que leurs données soient exploitées”, profitant de la méconnaissance des risques pour forcer l’acceptation de condition, sans consentement éclairé. Mais la grogne est montée dans le camp des créatifs, qui commencent à être excédés par l’abus qu’ils subissent. “Glaze” fut une première réaction, une protection pour conserver l’intégrité visuelle de leur œuvre, mais face à une machine toujours plus gloutonne, se protéger semble rapidement ne pas suffire. C’est alors que “Nightshade” voit le jour, avec la volonté de faire respecter le droit des artistes, et de montrer qu’ils ne se laisseraient pas écraser par la pression des modèles.

Il est important de suivre l’évolution des droits des différents pays et de la perception des sociétés civiles dans ces pays de ce sujet car le Web, l’IA et la créativité étant sans limite géographique, l’harmonisation juridique concernant les droits d’auteur, la réglementation autour de la propriété intellectuelle, et l’éducation au numérique pour toutes et tous, vont être – ou sont peut-être déjà – un enjeu d’avenir au niveau mondial.

Rendons à César ce qui est à césar

L’équipe du « Glaze Project »

Instagram du Glaze project

Profil X du Glaze project

Lien officiel : https://glaze.cs.uchicago.edu/

Pour avoir davantage d’informations sur Glaze et Nightshade : page officielle

Article Glaze : Shan, S., Cryan, J., Wenger, E., Zheng, H., Hanocka, R., & Zhao, B. Y. (2023). Glaze: Protecting artists from style mimicry by {Text-to-Image} models. In 32nd USENIX Security Symposium (USENIX Security 23) (pp. 2187-2204). arXiv preprint arXiv:2302.04222

Article Nightshade : Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-specific poisoning attacks on text-to-image generative models. arXiv preprint arXiv:2310.13828.

A propos de l’autrice : Julie Laï-Pei, après une première vie dans le secteur artistique et narratif, a rejoint l’émulation de l’innovation en Nouvelle-Aquitaine, en tant que responsable de l’animation d’une communauté technologique Numérique auprès d’un pôle de compétitivité. Femme dans la tech et profondément attachée au secteur Culturel et Créatif, elle a à coeur de partager le résultat de sa veille et de ses recherches sur l’impact des nouvelles technologies dans le monde de la créativité.

https://creativhight.wixsite.com/creativity-and-tech

30 août 202430 août 2024

La vision par ordinateur à votre service

Un nouvel entretien autour de l’informatique.

Gérard Medioni est un informaticien, professeur émérite d’informatique à l’université de Californie du Sud, vice-président et scientifique distingué d’Amazon. Il a des contributions fondamentales à la vision par ordinateur, en particulier à la détection 3D, à la reconstruction de surfaces et à la modélisation d’objets. Il a travaillé sur des questions fondamentales comme : Comment déduire des descriptions d’objets à partir d’images ? Comment « reconnaître » des objets que nous n’avons jamais vus ? Ses recherches ont inspiré nombre d’inventions qu’il a porté dans des startups puis chez Amazon.

Binaire : Peux-tu nous raconter brièvement comment tu es devenu professeur d’informatique à l’Université de Californie du Sud ?

GM : J’ai un parcours classique en France, en passant par le lycée Saint-Louis puis Télécom Paris. J’ai découvert l’informatique à Télécom. J’y ai écrit mon premier programme sur un ordinateur, un Iris 80. Il dessinait des figures de Moiré. J’ai découvert alors que les images pouvaient parler à tous.

Figure de Moiré, Wikipédia Commons (cliquer sur le lien pour voir l’animation)

J’étais attiré par la Californie, un peu à l’image de la chanson de Julien Clerc. J’ai candidaté dans des universités californiennes. J’ai été accepté à l’Université de Californie du Sud, à Los Angeles, dans le département d’Electrical Engineering. J’ai eu une bourse du gouvernement français. Quand je suis arrivé, le département d’informatique, minuscule alors avec seulement 3 professeurs, est venu me proposer de rejoindre ce département en tant qu’assistant.

Je me suis retrouvé assistant du Professeur Nevatia, pour le cours d’Intelligence Artificielle, un sujet qui m’était totalement étranger. J’avais deux semaines d’avance sur les étudiants. J’ai découvert alors que le meilleur moyen d’apprendre un sujet était de l’enseigner. De fil en aiguille, je suis devenu prof dans ce département.

Partition de « La Californie », musée Sacem

Binaire : Peux-tu nous parler de ta recherche académique à l’Université de Californie du Sud ?

GM : Quand j’étais à Télécom, un grand professeur américain, King-Sun Fu, est venu faire un séminaire. Il nous a présenté l’image d’un cube, et nous a demandé comment un ordinateur pouvait comprendre cette image. Je ne comprenais même pas la question. Et puis, en y réfléchissant, j’ai fini par réaliser la distance qui existe entre une image, un tableau de pixels, et notre perception d’une scène en tant qu’éléments sémantiques, objets, personnes et relations ; nous reconnaissons peut-être un objet, un animal. Comment notre cerveau réalise-t-il cela ? Comment un algorithme peut-il le faire ? J’ai passé ma vie à répondre à ces questions. Elle est assez complexe pour me garantir à vie des sujets de recherche passionnants.

Le sujet est donc la vision par ordinateur qui s’intéresse à donner du sens à des images, des films, à comprendre la sémantique présente dans des nuages de points. Pour y arriver, on a développé toute une gamme de techniques. Par exemple, en observant une même scène en stéréo avec deux caméras qui capturent des images en deux dimensions à partir de points de vue légèrement différents, on peut essayer de reconstruire la troisième dimension.

Binaire : l’intelligence artificielle a-t-elle transformé ce domaine ?

GM : Elle l’a véritablement révolutionné. La vision par ordinateur obtenait de beaux résultats jusqu’en 2012, mais dans des domaines restreints, dans des environnements particuliers. Et puis, on a compris que le deep learning* ouvrait des possibilités fantastiques. Depuis, on a obtenu des résultats extraordinaires en vision par ordinateur. Je pourrais parler de cela quand on arrivera à mon travail sur Just walk out d’Amazon.

Binaire : Tu fais une belle recherche, plutôt fondamentale, avec de superbes résultats. Tu aurais pu en rester là. Qu’est-ce qui te motive pour travailler aussi sur des applications ?

GM : On voit souvent un professeur d’université comme quelqu’un qui invente un problème dans sa tour d’ivoire, et lui trouve une solution. Au final, son problème et sa solution n’intéressent pas grand monde. Ce n’est pas mon truc. J’ai toujours été attiré par les vrais problèmes. Quand les ingénieurs d’une équipe industrielle sont bloqués par un problème, qu’ils n’arrivent pas à le résoudre, ce n’est pas parce qu’ils sont médiocres, c’est souvent parce que le problème est un vrai défi, et que le cœur du sujet est un verrou scientifique. Et là, ça m’intéresse.

Aide visuelle pour les aveugles (Source G. Médioni)

Pour prendre un exemple concret, j’ai travaillé plusieurs années sur l’aide à la navigation de personnes aveugles. Le système consistait en une caméra pour étudier l’environnement et de micro-moteurs dans les vestes des personnes pour leur transmettre des signaux. On a réalisé un proof of concept (preuve de concept), et cela a été un franc succès. Et puis, j’ai reçu un courriel d’une personne aveugle qui me demandait quand elle pourrait utiliser le système. Je n’ai pas pu lui répondre et j’ai trouvé cela hyper déprimant. Je voulais aller jusqu’au produit final. Pour faire cela, il fallait travailler directement avec des entreprises.

Binaire : Cela t’a donc conduit à travailler souvent avec des entreprises. Pourrais-tu nous parler de certains de tes travaux ?

GM : J’ai beaucoup travaillé avec des entreprises américaines, israéliennes, ou françaises. J’ai participé au dépôt de nombreux brevets. Une de mes grandes fiertés est d’avoir participé au développement d’une camera 3D qui se trouve aujourd’hui dans des millions de téléphones. J’ai travaillé, pour une entreprise qui s’appelait Primesense, sur une caméra très bon marché qui équipait un produit que vous connaissez peut-être, le Microsoft Kinect. Kinect est rentré dans le Guinness des records comme le consumer electronics device (appareil électronique grand public) le plus rapidement vendu massivement. Primesense a été rachetée ensuite par Apple, et aujourd’hui cette technologie équipe les caméras des Iphones. Je suis fier d’avoir participé au développement de cette technologie !

Senseur Primesensense intégré dans l’iPhone (Source G.Médioni)

Et puis, un jour Amazon m’a contacté pour me proposer de m’embaucher pour un projet sur lequel ils ne pouvaient rien me dire. Je leur ai répondu que j’aimais mon travail de prof et que je ne cherchais pas autre chose. Ils ont insisté. Je les ai rencontrés. Et ils ont fini par me parler d’Amazon Go, des boutiques sans caissier. C’était techniquement fou, super complexe. C’était évidemment tentant. Je leur ai posé sans trop y croire des conditions dingues comme de pouvoir recruter plein de chercheurs, de monter un labo de R&D en Israël. Ils ont dit oui à tout. Je bosse pour Amazon depuis 10 ans, et j’aime ce que j’y fais.

Binaire : Pourrais-tu nous en dire un peu plus sur Amazon Go, et sur le projet suivant Just Walk Out ? Quelles étaient les difficultés ?

GM : Avec Amazon Go, le client entre dans un magasin, prend ce qu’il veut et ressort. Il ne s’arrête pas à la caisse pour payer. Les vidéos de caméras placées dans tout le magasin sont analysées en permanence. Le client présente un mode de paiement à l’entrée, auquel une signature visuelle est associée. Ainsi, le système permet de le localiser dans le magasin, de détecter quand il prend ou qu’il pose un objet, quel est cet objet. Un reçu virtuel est mis à jour automatiquement. Quand le client sort du magasin, le reçu virtuel devient un reçu définitif et le paiement s’effectue. On a testé Amazon Go en 2017 dans des magasins pour les employés d’Amazon, et puis on a ouvert au public en 2018.

Une difficulté est qu’il faut que ça fonctionne tout le temps, et pour tous les clients, avec un très bon niveau de précision. On a très peu droit à l’erreur si on ne veut pas perdre la confiance des clients.

Plutôt que de créer des magasins avec tout le métier que cela représente, Amazon a choisi dans un deuxième temps de proposer cette techno à des magasins existants pour les équiper. On est passé à Just Walk Out, il y a deux ans. On équipe aujourd’hui plus de 160 points de vente, notamment dans des stades et des aéroports.

Binaire : Pourrait-on parler maintenant du deep learning et de sa place dans ce projet ?

GM : Au début du projet, Amazon Go n’utilisait pas le deep learning. Et autour de 2012, nous avons été convaincus que cette techno apporterait des améliorations considérables. Cela a un peu été comme de changer le moteur de l’avion en plein vol. Nos équipes travaillaient avant sur des modules séparés que l’on combinait. Mais chaque modification d’un module était lourde à gérer. On est passé avec le deep learning et le end-to-end learning** à un seul module. L’apprentissage permet d’améliorer toutes les facettes de ce module en même temps. Cela n’a pas été simple de faire évoluer toutes les équipes. On y est arrivé, et cela fonctionne bien mieux, plus efficacement.

Binaire : Pourquoi cette technologie ne s’est-elle pas installée sur plus de supermarchés ?

GM : Un problème est que, dans des grandes surfaces, certains produits sont difficiles à gérer : les fruits et légumes au poids, les fleurs, le vrac… La techno s’est donc déployée dans des domaines où l’attente des clients est un vrai problème comme les évènements sportifs et culturels.

Binaire : Tu participes ensuite à la création du service d’identité biométrique Amazon One, pour faciliter le paiement et d’autres fonctions. Pourrais-tu nous dire en quoi cela consiste ?

GM : À Amazon, un souci constant est de résoudre les problèmes de nos clients. Pour Just Walk Out, c’était très clair, personne n’aime faire la queue à la caisse. Avec Amazon One, le problème est celui de valider son identité. Pour faire cela, de nombreuses méthodes peuvent être considérées : ADN, empreinte digitale, iris, etc. Nous avons choisi d’utiliser la paume de la main. On est arrivé à faire plus que de la vérification : de l’identification. On peut trouver une personne parmi des millions dans une base de données, ou détecter qu’elle n’y est pas.

Pour réaliser cela, on prend deux images : une de la surface de la paume de la main et une autre en infrarouge du réseau sanguin. Ces informations indépendantes se complémentent et identifient une personne avec une surprenante précision, 1000 fois plus précis que le visage, et 100 fois plus que les 2 iris des yeux !

Binaire : En vieillissant, ma paume ne va-t-elle pas changer ?

GM : Oui, lentement et progressivement. Mais, à chaque fois que vous utilisez le service, la signature est mise à jour. Si vous ne vous servez pas du service pendant deux ans, on vous demande de vous réidentifier.

Binaire : Et aujourd’hui, sur quoi travailles-tu ?

GM : Je travaille pour le service Prime Video d’Amazon. Nous cherchons à créer de nouvelles expériences vidéos pour le divertissement.

Binaire : Tu es resté lié à des chercheurs français. Pourrais-tu nous dire comment tu vois la différence entre la recherche en informatique aux US et en France ?

GM : L’éducation française est extraordinaire ! La qualité des chercheurs en informatique en France est excellente. Mais l’intelligence artificielle change la donne. La France avec des startups comme Mistral est à la pointe du domaine. Mais, pour rester dans la course, une infrastructure énorme est indispensable. Cela exige d’énormes investissements. Est-ce qu’ils sont là ?

Les talents existent en France. Il faut arriver à construire un cadre, des écosystèmes, dans lesquels ils puissent s’épanouir pour créer de la valeur technologique.

Binaire : Aurais-tu un conseil pour les jeunes chercheurs ?

GM : Le monde de la publication a changé fondamentalement. Les publications dans des journaux ont perdu de leur importance, car elles prennent trop de temps. Et même aujourd’hui, une publication dans une conférence arrive tard. Si on ne suit pas les prépublications comme sur arXiv, on n’est plus dans le coup.

Personne n’avait vu venir le deep learning, les large language models… On vit une révolution technologique incroyable de l’informatique et de l’intelligence artificielle. La puissance des outils qu’on développe est fantastique. Tous les domaines sont impactés, médecine, transport, agriculture, etc.

Les chercheurs vont pouvoir faire plus, beaucoup plus vite. Les jeunes chercheurs vont pouvoir obtenir des résultats dingues. Mais, il va leur falloir être très agiles !

Serge Abiteboul, Inria, & Ikram Chraibi Kaadoud, Inria

(Serge Abiteboul a étudié avec Gérard Médioni à Télécom et USC. Ils sont amis depuis.)

Pour aller plus loin

Le parcours de Gérard Médioni en vidéo.

(*) Le deep learning ou « apprentissage profond » est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes.

(**) L’end-to-end learning ou « apprentissage de bout en bout » est un type de processus d’apprentissage profond dans lequel tous les paramètres sont mis au point en même temps, plutôt que séparément.

https://www.lemonde.fr/blog/binaire/les-entretiens-de-la-sif/

19 juillet 202421 juillet 2024

Binaire fait sa pause estivale

Pour un été non binaire : partez avec binaire dans vos favoris.

Nous faisons notre pause estivale avant de revenir partager avec vous des contenus de popularisation sur l’informatique !

À la rentrée nous parlerons à nouveau aussi bien de technologie que de science, d’enseignement, de questions industrielles, d’algorithmes, de data… bref, de tous les sujets en lien avec le monde numérique qui nous entoure …

D’ici là, vous pouvez tout de même passer l’été avec binaire en profitant de nos collections qui contiennent sûrement de beaux articles que vous n’avez pas encore eu le temps de lire*, comme par exemple «Femmes et numérique inclusif par la pratique».

Et que diriez vous de nous dire ce que vous pensez et souhaitez de binaire ?

Bienvenue dans notre petit sondage (4 minutes)

©Catherine Créhangeundessinparjouravec sa gracieuse autorisation.

(*) Voici aussi quelques lectures coup de cœur en lien avec nos sujets :

– Vive les communs numériques ! où des logiciels libres en passant par Wikipédia et la science ouverte, on nous explique tout sur ces ressources partagées, gérées et entretenues par une communauté, pour en faire un bien commun.

– Ada & Zangemann : un joli conte vivant sur l’informatique libre, la camaraderie et le rôle des filles pour une technique au service de l’autonomie.

– Nous sommes les réseaux sociaux s’attaque à la régulation des réseaux sociaux, ces complexes objets mi-humains et mi-algorithmes, qui nous unissent pour le meilleur et pour le pire tandis que c’est à nous toutes et tous de définir ce qui doit être fait.

Et aussi :

– Pour une nouvelle culture de l’attention où on décrypte comme notre temps de cerveau se monnaye sur Internet, comme si nous étions des biens consommables.

– Les IA à l’assaut du cyberespace où on voit comment les GAFAMs, pour leur propre profit, visent à travers leurs algorithmes à nous indiquer quoi faire, que dire et où regarder, au lieu de permettre à l’humanité de partager.

– Mettre l’économie et le numérique au service de l’avenir où une philosophe et un économiste proposent une analyse de la capitalisation de nos esprits et du rapport à notre corps.

– Paresse pour tous où on questionne, avec les possibilités qu’offrent le numérique, la relation temps libre – travail en défendant l’idée que la vie ne se résume pas au travail, à la croissance, à la consommation.

12 juillet 202412 juillet 2024

Exit l’intelligence, vive l’éducabilité !

Max Dauchet nous parle d’une nouvelle théorie de la singularité humaine, d’après Leslie Valiant ⁱ. Il offre aux lecteurs de binaire l’occasion d’approcher une idée fondamentale : l’apprentissage Probablement Approximativement Correct (PAC). Le livre de Leslie Vaillant dont il nous parle est intéressant, pas si difficile à lire. Mais il n’est pas simple à résumer. Max y arrive. Serge Abiteboul et Thierry Viéville.

L’éducabilité, notre avantage darwinien

De la sélection darwinienne à l’émergence des civilisations, des proto-organismes aux humains, l’évolution de la vie n’est selon le récent ouvrage de Leslie Valiant qu’un immense apprentissage « Probablement Approximativement Correct´´ PAC (cf. infra) – notion due à l’auteur et couronnée en 2010 du prestigieux prix Turingⁱⁱ.

Dans les interactions entre individus, entre espèces, avec l’environnement, ce qui « apprend » le mieux prend le dessus. L’auteur explique comment l’évolution « PAC-darwinienne » a fait émerger notre aptitude à construire des Educable Learning Systems (Systèmes d’apprentissage éducable). Le maître mot est là, nous sommes la seule espèce devenue éducable. Dès lors nous n’avons guère le choix, nous devons tout miser sur une éducation à l’épreuve de la scienceⁱⁱⁱ, c’est notre meilleure chance de donner les bons coups de pagaie pour orienter notre destin dans le flot de l’évolution qui nous emporte. Et comme l’éducabilité tient en PAC une base solide, ce doit être là le pilote des recherches en éducation, qui sont encore trop empiriques, morcelées, voire idéologiques.

Si Charles Darwin avait été informaticien, il aurait pu écrire ce livre^iv, qui en donnant une base calculatoire à l’évolution, en étend les règles du vivant aux idées. Valiant a l’habilité de nous amener progressivement à cette thèse au fil des pages. Je suggère néanmoins comme mise en appétit de commencer la lecture par le dernier chapitre, A Species Adrift^v, que je viens de résumer.

L’intelligence, une mauvaise notion

Valiant règle en quelques lignes son sort à l’intelligence : c’est un mauvais concept, impossible à définir^vi. Il argumente que notre aptitude à traiter de l’information fait sens au niveau de l’espèce et de son histoire plutôt qu’au niveau individuel. Peut-être que la notoriété de Leslie Vaillant et la consistance de ses propos aideront à réviser notre approche de l’intelligence, source de regrettables confusions quand elle touche à l’IA, et parfois de ravages sur les bancs de l’école.

Un texte ambitieux mais facile à aborder

Si le lecteur est informaticien, il a forcément entendu parler de l’apprentissage PAC^vii, a eu du mal à s’imprégner de la définition, a trouvé le formalisme lourd et les exemples laborieux. Les autres peuvent être rebutés par l’évocation de PAC à chaque page – une coquetterie d’auteur que l’on pardonnera. Dans les deux cas, que l’on se rassure. La lecture est aisée, elle ne demande aucune connaissance particulière. Le style est sobre et l’argumentation solide, digne du grand scientifique qu’est Valiant – qui fustige au passage les vendeurs de peur d’un « grand remplacement » de l’humain par la machine, comme hélas nous en connaissons tous.

PAC : Une vision computationnelle^viii de l’évolution, des molécules aux civilisations

Plus en détail, il n’y a aucun formalisme mathématique dans cet ouvrage, PAC est présenté par sa « substantifique moelle ». L’idée est que l’évolution est un apprentissage, et qu’il ne peut y avoir d’apprentissage que Probablement Approximativement Correct (PAC). Approximativement, parce que retenir exactement est retenir par cœur, et cela ne dit rien d’une situation proche si l’on n’englobe pas les deux dans une même approximation ^ix. Probablement car il existera toujours de rares situations qui n’auront pas été échantillonnées lors de l’apprentissage et ne seront donc même pas approximées ^x. Enfin, dans un contexte darwinien de compétition, cet apprentissage ne doit pas prendre trop de temps^xi. Le deep learning (l’apprentissage profond, en français) qui fait l’actualité est un exemple d’apprentissage PAC.

L’apprentissage PAC est d’abord un apprentissage par des exemples ; il lie par l’expérience des comportements à des stimuli dans les espèces rudimentaires – Valiant cite les escargots de mer. Au fil de l’évolution, de tels apprentissages peuvent se chaîner en comportements plus complexes, mais ce processus évolutif trouve vite ses limites car si une chaîne se rallonge, les incertitudes se cumulent. La plupart des espèces en sont là, limitées au chaînage de quelques règles élémentaires, qui s’inscrivent par sélection dans leur patrimoine biologique. Pour les espèces plus évoluées, cet inné peut se compléter par l’expérience individuelle, comme pour le chien de Pavlov. Mais seuls les humains ont une capacité corticale suffisante pour transmettre par l’éducation, condition nécessaire à la constitution des civilisations et des cultures. Pour éduquer, il faut nommer les choses ce qui permet d’apprendre sur des mots (plus exactement des tokens – des occurrences) et non seulement sur des stimuli. Valiant nomme de tels corpus de règles sur des tokens des Integrative Learning Systems, qui, combinés à nos capacités individuelles d’apprentissage par l’expérience et de communication, constituent des Educable Learning Systems. L’apport de Valiant est de décrire comment ces capacités sont apparues lors de l’évolution du vivant, par une conjonction fortuite de contingences, et surtout de montrer qu’elles devaient apparaître, d’une façon ou d’une autre, tôt ou tard, tant elles procurent un avantage considérable^xii.

Un monde redevenu intelligible

Au fil des pages, on comprend que le monde vivant est structuré, et qu’il ne pouvait pas en être autrement. Il était en effet fort peu probable de passer d’un seul coup des amibes aux humains ! Les mutations et le hasard créent au fil du temps une diversité d’entités apprenantes, les plus adaptées survivent, puis rentrent à nouveau en compétition d’apprentissage. Le neurone est à cet égard une formidable trouvaille. La vie aurait pu évoluer tout autrement, mais forcément en se structurant par assemblage avantageux du plus simple au plus complexe. On peut ainsi relire la boutade des spécialistes du deep learning étonnés par les succès de leurs techniques : « Soit Dieu existe, soit le monde est structuré »^xiii. La réponse de Valiant est que le monde est structuré parce qu’il est né du PAC learning, ce qui est une façon de dire que le monde est intelligible, comme le rêvaient les encyclopédistes et les Lumières.

L’apprentissage PAC, conçu il y a un demi-siècle, est au cœur des développements récents des sciences du calcul et des données,au carrefour des statistiques, de l’informatique et des mathématiques, jalonné par le triangle Régularité-Approximation-Parcimonie^xiv. On peut regretter l’absence dans l’ouvrage de considérations sur le troisième sommet de ce triangle, le principe de parcimonie ^xv, alors qu’y faire référence renforcerait les arguments du livre. On peut aussi regretter qu’il ne soit fait aucune allusion aux progrès considérables dans le traitement du signal^xvi réalisés ces dernières décennies, et qui sont une des clés du succès de l’apprentissage profond.

Au-delà, le premier mérite de l’ouvrage est de faire réfléchir, de mettre en débats des idées en bonne partie nouvelles. Fussent-elles encore fragiles, celles-ci sont les bienvenues à une époque en manque de perspectives intellectuelles.

Max Dauchet, Université de Lille.

Pour aller un peu plus loin, Max nous propose un complément plus technique pour nous faire partager l’évolution scientifique d’une approche purement statistique à une vision scientifique de l’apprentissage : ici.

i The Importance of Being Educable. A new theory of human uniqueness. Leslie Valiant, Princeton University Press, 2024.

ii Équivalent du prix Nobel pour les sciences informatiques, créé en 1966. Deux Français en ont été lauréats, Joseph Sifakis en 2007 et Yann Le Cun en 2018.

iii Pour Valiant, la science est une croyance qui se distingue des autres par la robustesse de sa méthode : la communauté scientifique internationale la teste, la conteste, la réfute ou la conforte à l’épreuve des expérimentations, alors que les complotismes ne font que se renforcer dans des bulles.

iv Comme chez Darwin, il n’y a aucun finalisme chez Valiant, aucune « main invisible » ne guide l’émergence d’une vie de plus en plus complexe, nous sommes dans le cadre strict de la science.

v Une espèce à la dérive, au sens de soumise aux flots de l’évolution.

vi Cette attitude pourrait paraître désinvolte au regard de la démarche d’un cogniticien comme Daniel Andler, auteur du récent et épais ouvrage Intelligence artificielle, intelligence humaine : la double énigme (collection NRF Essais, Gallimard, 2023). C’est que les buts différents. Valiant s’intéresse aux principes et D. Andler décortique les détails d’une comparaison. S’il s’agissait du vol, le premier étudierait l’aérodynamique et le second comparerait la texture des plumes d’oiseaux à la courbure des ailes d’avions.

vii A Theory of the Learnable CACM, 1984, volume 27, numéro 11, pages 1134-1142. C’est dans cet article fondateur que l’on trouve l’exposé le plus clair des motivations, qui sont déjà dans la perspective du présent ouvrage.

Entre temps, L. Vaillant avait publié en 2013 Probably Approximately Correct: Nature’s Algorithms for Learning and Prospering in a Complex World, traduit en français en 2018 avec une préface de Cédric Villani (Editions Vuibert Cassini). Dans cet ouvrage comme dans son exposé de remise du prix Turing (https://amturing.acm.org/ ), Valiant met l’accent sur l’apprentissage computationnel du vivant, notamment au niveau génétique.

viii Valiant précise que pour lui, l’évolution n’est pas comme un calcul informatique, c’est un calcul.

ix Ainsi apprendre par cœur des mots de passe ne dit rien sur les autres mots de passe ni sur la cryptographie.

x PAC capte précisément cette notion en termes d’outillage statistique.

xi Le cadre théorique est l’apprentissage en temps polynomial, ce qui représente une classe d’algorithmes excluant les explosions combinatoires.

xii L’auteur introduit finalement le Mind’s Eye comme intégrateur des fonctions précédentes. Cet « œil de l’esprit » s’apparente à la capacité cognitive d’un individu de lier les acquis de l’histoire – la condition humaine – à sa propre expérience. Cette notion reste vague, elle est décrite en termes de métaphores informatiques, ce que l’on peut admettre sachant que l’auteur ne considère que des fonctionnalités et non la façon de les réaliser.

xiii Anecdote rapportée par Yann Le Cun.

xiv Cours de Stéphane Mallat, Chaire de Science des Données, Collège de France.

xv Principe qui privilégie les causes simples.

xvi Le traitement du signal permet d’éliminer le bruit d’un signal, et là aussi le principe de parcimonie est un guide.

12 juillet 202412 juillet 2024

De l’apprentissage à l’éducabilité, de Vapnik à Valiant

Max Dauchet nous a parlé ici d’une nouvelle théorie de l’apprentissage Probablement Approximativement Correct (PAC) en présentant le dernier livre de Leslie Vaillant. Ici, pour nous permettre d’aller un peu plus loin, il nous fait partager l’évolution scientifique d’une approche purement statistique à la vision scientifique de l’apprentissage. Max y arrive, sans alourdir son propos d’aucune équation. Serge Abiteboul et Thierry Viéville.

Pour mieux situer les travaux de Leslie Valiant, il faut évoquer ceux conduits antérieurement en URSS par Vladimir Vapnik ⁱ.

La dimension de Vapnik-Chervonenkis (VC-dimension).

La motivation de Vapnik et ses collègues est purement statistique : comment assurer qu’un modèle minimise à la fois l’erreur sur les données d’apprentissage (erreur empirique) et l’erreur de généralisation sur l’ensemble des données ? Comme lors des sondages électoraux, par exemple : s’assurer que ce qui est approximativement vrai sur un échantillon, l’est toujours à peu près sur toute la population visée.

Cette propriété, appelée convergence uniforme, n’est évidemment pas satisfaite en général. En fait, si un modèle possède tellement de paramètres à ajuster, qu’il puisse coller très précisément et de manière spécifique aux données d’apprentissage, il ne saura pas bien prédire des données plus générales.

La VC-dimension est un indicateur de ces classes de modèles – souvent désignées par le terme de classes de concepts – qui conditionne la convergence uniforme.

Pour définir la VC-dimension, considérons un ensemble de données et une classe de modèles. Pour chaque modèle, une donnée satisfait ou ne satisfait pas ce modèle. Par exemple, si l’on considère comme données les points d’un carré de taille 1 du plan, et comme modèles les portions de demi-plans inférieuresⁱⁱ, alors pour tout demi-plan, une donnée appartient ou non à ce demi-plan.
La suite de la définition repose sur la possibilité pour les modèles de prédire si les données correspondent ou pas au modèle. On parle de pulvériser (shatter) des échantillons finis de données pour une classe C de modèles et un échantillon D de données, si pour tout sous-échantillon D’ de D, il existe un modèle de C tel que D’ est la partie de D satisfaisant ce modèle.

Figure 1 : tout échantillon de deux données est pulvérisé par un demi-plan : que A ou B lui appartiennent ou ne lui appartiennent pas , il y a toujours un demi plan qui satisfait ce résultat.

La Figure 1 illustre que tout couple de points peut être pulvérisé par des demi-plansⁱⁱⁱ. Par contre un échantillon de 3 points n’est pas pulvérisé^iv. La VC-dimension d’une classe de modèles C est alors le plus grand nombre d’échantillons d tel que tous les échantillons D de cette taille soient pulvérisables.

Dans notre exemple, la classe des fonctions affines (ces droites qui définissent des demi-plan) est donc de VC-dimension 2, puisqu’elles pulvérisent tous les couples de 2 points, mais pas de 3.

Figure 2 : approximer par une classe de modèles ni trop simple ni trop large, les données correspondant aux 5 points, en noir par une droite, en pointillé rouge par une parabole, en violet par une courbe qui passe par tous les points.

La Figure 2 illustre l’influence de la VC-dimension. Une parabole (que l’on ignore) définit la fonction à approximer à partir d’échantillons bruités. La classe des fonctions affines (VC-dimension 2) est trop pauvre, l’erreur empirique est grande. La classe des polynômes de degré 5 (VC-dimension 6) est trop riche, elle permet un sur-apprentissage (erreur empirique faible ou nulle mais erreur de généralisation forte).

Dans leur papier fondateur, Vapnik et Chervonenkis établissent que la convergence est uniforme si et seulement si la VC-dimension est finie, et ils bornent en fonction de cette dimension la taille des échantillons nécessaires pour obtenir un résultat d’une précision donnée.

Du cadre de pensée de Vapnik à l’ingénierie algorithmique de Valiant

En un mot : un algorithme ne rase pas gratis^vi . Les travaux de Vapnik et Chervonenkis sur la VC-dimension sont publiés en anglais en 1971 dans une revue soviétique renommée. Lorsqu’il introduit l’apprentissage PAC treize ans plus tard, Valiant ne cite pas Vapnik. Pourtant dans la foulée du papier de Valiant il est vite démontré qu’un concept est PAC apprenable si et seulement si sa VC-dimension est finie.

Il y a donc une concordance entre l’approche statistique et l’approche algorithmique, résultat remarquable qui ancre la problématique de l’apprentissage^vii. Et c’est la notion de complexité algorithmique promue par Valiant qui a depuis inspiré l’essentiel des recherches en informatique, parce qu’en général la VC-dimension ne dit pas grand-chose du fait qu’il puisse exister un algorithmique d’apprentissage.

L’ingénierie algorithmique de Valiant appliquée au réseaux de neurones

On peut voir également les réseaux d’apprentissage profond avec des neurones artificiels comme des classes de concepts. Une architecture constitue une classe dans laquelle l’apprentissage consiste à trouver un concept en ajustant les coefficients synaptiques. Il est difficile d’en estimer la VC-dimension mais celle-ci est considérable et n’aide pas à expliquer l’efficacité. Comme l’évoquait Yann le Cun déjà cité, l’efficacité d’un réseau profond de neurones et l’importance de bien le dimensionner sont à rechercher dans son adéquation aux structures cachées du monde où il apprend, ce qui rejoint à très grande échelle la problématique sommairement illustrée par la Figure 1. On perçoit bien que disposer d’un cadre théorique solide, ici la notion d’apprenabilité, fournit un cadre de pensée mais ne fournit pas l’ingénierie nécessaire pour le traitement d’une question particulière. Les recherches ont de beaux jours devant elles. Pour en savoir beaucoup plus sur l’apprentissage en sciences informatiques et statistiques, les cours, articles et ouvrages accessibles sur le net ne manquent pas. Le panorama précis de Shai Shalev-Shwartz et Shai Ben-David^viii peut être combiné avec les vidéos des cours de Stéphane Mallat, titulaire de la chaire de sciences des données au Collège de France.

Max Dauchet, Université de Lille.

i Vapnik, V. N., & Chervonenkis, A. Y. (1971). « On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities. » Theory of Probability and its Applications, 16(2), 264-280.

ii Ensemble des points sous la droite frontière. Il faut en effet considérer les demi-plans et non les droites pour appliquer rigoureusement la définition en termes d’appartenance d’une donnée à un concept.

iii Sauf si les deux points ont même abscisse, ce qui a une probabilité nulle. Pour un échantillon de deux données, il y a 4 cas à étudier, et il y en a 2^dpourddonnées.

iv A delà des fonctions affines, qui sont des poylynômes de degré 1, on établit sans peine que la classe des polynômes de degré n est de VC-dimension n+1. La classe de l’ensemble des polynômes est donc de VC-dimension infinie.

v Soit A le point de plus faible ordonnée. Pour aucun demi-plan inférieur A n’est au dessus et les deux autres points en dessous de la droite frontière.

vi En référence au No-Free-Lunch -Theorem qui stipule qu’il n’y a pas d’algorithme universel d’apprentissage.

vii Valiant passera toujours les travaux de Vapnik sous silence, on peut se demander pourquoi, alors qu’il aurait pu faire de la VC-dimension un argument en faveur de la pertinence de sa propre démarche sans prendre ombrage de Vapnik. C’est qu’en général la VC-dimension ne dit pas grand-chose de la praticabilité algorithmique. En effet, pour de nombreuses classes C d’intérêt, le nombre n de paramètres définit une sous classe Cn : c’est le cas pour le degré n des polynômes, la dimension n d’un espace ou le nombre n de variables d’une expression booléenne. Or, c’est la complexité relative à cet n qu’adresse l’algorithmique et la VC-dimension de Cn ne permet pas de la calculer, même si elle est parfois de l’ordre de n comme c’est le cas pour les polynômes. Ainsi, selon les concepts considérés sur les expressions booléennes à n variables ( les structures syntaxiques comme CNF, 3-CNF, DNF ou 3-terms DNF sont des classes de concepts), il existe ou il n’existe pas d’algorithme d’apprentissage en temps polynomial relativement à n, même si la VC-dimension est polynomiale en n.

viii Shai Shalev-Shwartz and Shai Ben-David, Understanding Machine Learning :From Theory to Algorithms, Cambridge University Press, 2014.

05 juillet 202408 juillet 2024

Blocage de Tik Tok en Nouvelle Calédonie : Respectons nos principes !

La Nouvelle Calédonie traverse une période de troubles ; récemment, le gouvernement a interdit pendant 2 semaines le réseau social TikTok qu’il accusait de servir de contact entre les manifestants. Cette mesure qu’il a « justifiée » par l’état d’urgence pose plusieurs questions. En tout premier lieu, son efficacité, puisque de nombreuses personnes ont continué à l’utiliser en passant par des VPN. Ensuite, et surtout, a-t-elle respecté des principes juridiques fondamentaux ? Saisi par des opposants à cette mesure, dont la Ligue des Droits de l’Homme, le Conseil d’Etat a rejeté ces saisines parce que le caractère d’urgence n’était pas démontré, ce qui a évité de se prononcer sur le fond. Nous avons donné la parole à Karine Favro (Professeure de droit public, Université de Haute Alsace) et à Célia Zolynski (Professeure de droit privé, Université Paris 1 Panthéon-Sorbonne) pour qu’elles nous expliquent ces questions. Pascal Guitton

La gravité des affrontements qui ont meurtri la Nouvelle Calédonie ces dernières semaines a conduit à la déclaration de l’état d’urgence sur l’ensemble du territoire par décret du 15 mai dernier en application de la loi du 3 avril 1955. Dans le même temps, le Premier ministre y annonçait, par voie de presse, l’interdiction de l’accès à TikTok.

Cette mesure était historique pour le gouvernement français car portant pour la première fois sur un réseau social alors que le 17 mai, dans sa décision relative à la loi visant à sécuriser et réguler l’espace numérique, le Conseil Constitutionnel rappelait qu’ “ En l’état actuel des moyens de communication et eu égard au développement généralisé des services de communication au public en ligne ainsi qu’à l’importance prise par ces services pour la participation à la vie démocratique et l’expression des idées et des opinions, ce droit [à la liberté d’expression] implique la liberté d’accéder à ces services et de s’y exprimer”.

Nombreux ont critiqué la légalité de cette décision de blocage. Pour pouvoir se fonder sur l’article 11 de la loi de 1955, un temps envisagé, il aurait fallu que la plateforme ait été utilisée pour provoquer à la “commission d’actes de terrorisme ou en faisant l’apologie”. Quant aux ingérences étrangères, annoncées comme étant ici en cause, celles-ci ne justifient pas à elles seules que soient prononcées ce type de mesure sur le fondement de ce texte. Restaient alors les circonstances exceptionnelles en application de la jurisprudence administrative conférant au Premier ministre des “pouvoirs propres” comme cela a été reconnu lors de la pandémie pour prononcer le confinement avant l’adoption de la loi relative à l’état d’urgence sanitaire. La brutalité de la mesure était également discutée, celle-ci ayant été prise en l’absence de sollicitation de retrait de contenus des autorités auprès de la plateforme.

Le 23 mai, le Conseil d’Etat a rejeté les trois recours en référé-liberté déposé par des opposants à cette décision et contestant la mesure de blocage pour atteinte à la liberté d’expression. Il retient que l’urgence du juge à intervenir n’est pas établie alors qu’il s’agissait de la condition préalable pour accueillir ces demandes. Ne pouvant se déduire de la seule atteinte à la liberté d’expression, l’ordonnance de référé relève que l’urgence n’était pas justifiée en raison du caractère limité de la mesure (il restait possible de s’exprimer sur d’autres réseaux sociaux et médias) et de sa nature temporaire. Le Conseil d’Etat ayant rejeté les recours parce qu’il considérait que la condition d’urgence n’était pas remplie, il ne s’est pas prononcé sur la proportionnalité de l’atteinte à la liberté d’expression qui pouvait résulter de la mesure d’interdiction. Au même motif, le juge administratif n’a pas eu à transmettre la question prioritaire de constitutionnalité déposée par ces mêmes requérants, visant à contester la conformité à la Constitution de l’article 11 de la loi de 1955. La procédure initiée conduit donc à une impasse.

En l’état, la légalité de la décision prise par le Premier ministre reste ainsi incertaine compte tenu de la nature des recours formés, d’autant que le blocage de Tik Tok a été levé le 29 mai. Pourtant, le débat reste entier concernant la légitimité d’une pareille mesure dont la proportionnalité constitue un enjeu fondamental. Cette dernière impose de déterminer si la solution retenue était la plus efficace pour atteindre le but poursuivi et de vérifier qu’elle était accompagnée de toutes les garanties nécessaires. Sa légitimité est également exigée ; or, la question devient éminemment complexe lorsqu’une mesure de police, par nature préventive, est prononcée dans le cadre d’un mouvement populaire sur lequel elle conduit à se positionner. Un recours a d’ailleurs été depuis déposé par la Quadrature du Net afin que le Conseil d’Etat se prononce au fond sur la légalité du blocage, ce qui l’invitera à considérer, dans son principe même, son bien-fondé. Il conteste en particulier le fait que le Premier ministre puisse prendre une telle décision particulièrement attentatoire à la liberté d’expression, sans publication d’aucun décret soit de manière non formalisée et non motivée, en la portant simplement à la connaissance du public par voie de presse ; les requérants soutiennent que cela revenait à “décider de son propre chef, sur des critères flous et sans l’intervention préalable d’un juge, [de] censurer un service de communication au public en ligne”.

Ce point est essentiel car c’est bien le nécessaire respect de nos procédures, consubstantielles à nos libertés, dont il s’agit. Si nous décidons qu’un service met nos principes en difficulté, c’est en respectant nos procédures et nos principes qu’il nous revient de l’interdire. Il aurait été utile de pouvoir appliquer le Règlement sur les services numériques (DSA) que vient d’adopter l’Union européenne, même si le statut particulier de la Nouvelle Calédonie l’exonère de toute obligation de respecter ce texte. En effet, les mécanismes prévus par le DSA visent à garantir le respect du principe de proportionnalité afin d’assurer tout à la fois la protection des libertés et droits fondamentaux et la préservation de l’ordre public, en particulier lors de situations de crise en précisant le cadre des mesures d’urgence à adopter. Il y est bien prévu le blocage temporaire d’une plateforme sur le territoire de l’Union. Néanmoins, il ne s’agit pas d’une mesure immédiate mais de dernier recours. Elle vise les cas de non-coopération répétée avec le régulateur et de non-respect du règlement lorsque sont concernées des infractions graves menaçant la vie et la sécurité des personnes. Le DSA encadre par ailleurs cette décision d’importantes garanties procédurales. Ainsi, le blocage temporaire doit être prononcé après l’intervention de diverses autorités (la Commission européenne, le régulateur national soit en France l’ARCOM) et sous le contrôle d’une autorité judiciaire indépendante.

La situation appelle alors les pouvoirs publics à conduire d’autres actions déterminantes qui dépassent la seule mesure de police. Tout d’abord, mieux garantir une exigence de transparence pour assurer le respect de nos principes démocratiques, mais également pour ne pas altérer la confiance des citoyens dans nos institutions. On perçoit ici l’intérêt du rapport publié dès le 17 mai par Viginum pour documenter l’influence de l’Azerbaïdjan dans la situation de la Nouvelle Calédonie, qui relève d’ailleurs le rôle joué par d’autres réseaux sociaux comme X et Facebook dans le cadre de manœuvres informationnelles. Compte tenu des enjeux, il convient d’aller plus loin et d’organiser des procédures transparentes et indépendantes à des fins de communication au public. Ensuite, mener un examen approfondi de l’ensemble de la sphère médiatique, ce qui est actuellement réalisé dans le cadre des Etats généraux de l’Information. Plus généralement, promouvoir des mesures de régulation des plateformes pour prôner d’autres approches plus respectueuses de nos libertés, en associant l’ensemble des parties prenantes. A ce titre, il est essentiel de mieux comprendre le rôle joué par les réseaux sociaux et d’agir sur les risques systémiques qu’ils comportent pour l’exercice des droits fondamentaux, en particulier la liberté d’expression et d’information. Cela commande de mettre pleinement en œuvre, et au plus vite, l’ensemble des dispositifs issus du DSA dont l’efficacité paraît déjà ressortir des enquêtes formelles lancées par la Commission européenne comme en atteste la suspension de Tik Tok Lite quelques jours après son lancement en Europe.

Karine Favro (Professeure de droit public, Université de Haute Alsace) et Célia Zolynski (Professeure de droit privé, Université Paris 1 Panthéon-Sorbonne)

28 juin 202428 juin 2024

Lena fait ses adieux

Dans beaucoup de domaines de la recherche en informatique, il existe des « objets » que l’on retrouve dans grand nombre d’articles pour illustrer des résultats. Ainsi des dialogues entre Alice et Bob pour la cryptographie, de l’affichage de « Hello world » pour les langages de programmation, de la théière pour la synthèse d’images, etc. Pour l’analyse et le traitement d’images, c’est l’image d’un mannequin suédois, Lena Forsén, qui ser[vai]t d’image de référence depuis les années 70’s. L’IEEE, association dédiée à l’avancement de la technologie au profit de l’humanité et qui regroupe plusieurs centaines de milliers de membres [1], vient de demander aux auteurs d’articles publiés dans ses revues et ses conférences de la remplacer par une autre image. Florence SEDES qui est professeure d’informatique (Université Paul Sabatier à Toulouse et présidente de ) nous explique pourquoi. Pascal Guitton

Il était une fois….

Recadrée à partir des épaules, la photo centrale de Playboy du mannequin suédois Lena Forsén regardant le photographe de dos fut l’étalon improbable des recherches en traitement d’image, et l’une des images les plus reproduites de tous les temps. « Miss November », playmate d’un jour, aura vu son unique cliché pour le magazine sublimé.

Peu après son impression dans le numéro de novembre 1972 du magazine PlayBoy, la photographie a été numérisée par Alexander Sawchuk, professeur assistant à l’université de Californie, à l’aide d’un scanner conçu pour les agences de presse. Sawchuk et son équipe cherchaient de nouvelles données pour tester leurs algorithmes de traitement d’images : la fameuse page centrale du magazine fut élue, et ce choix justifié par la présence d’un visage et d’un mélange de couleurs claires et foncées. Heureusement, les limites du scanner ont fait que seuls les cinq centimètres encadrant le visage ont été scannés, l’épaule nue de Forsén laissant deviner la nature de l’image originale, à une époque où la pornographie et la nudité étaient évaluées différemment de ce qu’elles le sont désormais.

Etalon d’une communauté, la madone ès image processing…

Dès lors, la photo est devenue une image de référence standard, utilisée un nombre incalculable de fois depuis plus de 50 ans dans des articles pour démontrer les progrès de la technologie de compression d’images, tester de nouveaux matériels et logiciels et expliquer les techniques de retouche d’images. L’image aurait même été une des premières à être téléchargée sur ARPANET, son modèle, Lena, ignorant tout de cette soudaine et durable célébrité.

Lena, vraie étudiante suédoise à New York, modèle d’un jour, a enfin droit à faire valoir sa retraite : l’IEEE a publié un avis à l’intention de ses membres mettant en garde contre l’utilisation continue de l’image de Lena dans des articles scientifiques.

« À partir du 1er avril, les nouveaux manuscrits soumis ne seront plus autorisés à inclure l’image de Lena », a écrit Terry BENZEL, vice-président de l’IEEE Computer Society. Citant une motion adoptée par le conseil d’édition du groupe : «La déclaration de l’IEEE sur la diversité et les politiques de soutien telles que le code d’éthique de l’IEEE témoignent de l’engagement de l’IEEE à promouvoir une culture inclusive et équitable qui accueille tout le monde. En accord avec cette culture et dans le respect des souhaits du sujet de l’image, Lena Forsén, l’IEEE n’acceptera plus les articles soumis qui incluent l’image de Lena».

L’IEEE n’est pas la première à « bannir » la photo de ses publications : en 2018, Nature Nanotechnology a publié une déclaration interdisant l’image dans toutes ses revues de recherche, écrivant dans un édito que «…l’histoire de l’image de Lena va à l’encontre des efforts considérables déployés pour promouvoir les femmes qui entreprennent des études supérieures en sciences et en ingénierie… ».

De multiples raisons scientifiques ont été invoquées pour expliquer cette constance dans l’utilisation de cette image-étalon, rare dans nos domaines : la gamme dynamique (nombre de couleurs ou de niveaux de gris utilisées dans une image), la place centrale du visage humain, la finesse des détails des cheveux de Lena et la plume du chapeau qu’elle porte.

Dès 1996, une note dans IEEE Trans on Image Processing déclarait, pour expliquer pourquoi le rédacteur n’avait pas pris de mesures à l’encontre de l’image, que «l’image de Lena est celle d’une femme attirante», ajoutant : «Il n’est pas surprenant que la communauté des chercheurs en traitement d’images [essentiellement masculine] ait gravité autour d’une image qu’elle trouvait attrayante».

Le magazine PlayBoy aurait pu lui-même mettre un terme à la diffusion de l’image de Lena : en 1992, le magazine avait menacé d’agir, mais n’a jamais donné suite. Quelques années plus tard, la société a changé d’avis : «nous avons décidé d’exploiter ce phénomène», a déclaré le vice-président des nouveaux médias de Playboy en 1997.

Lena Forsén elle-même, « sainte patronne des JPEG » a également suggéré que la photo soit retirée. Le documentaire Losing Lena a été le déclencheur pour encourager les chercheurs en informatique à passer à autre chose : «il est temps que je prenne moi aussi ma retraite […] »[2].

“Fabio is the new Lena”

Fabio Lanzoni, top model italien, sera, le temps d’une publication, le « Lena masculin » : dans « Stable image reconstruction using total variation minimization », publié en 2013, Deanna Needell and Rachel Ward décident d’inverser la vision du gender gap (inégalités de genre) en choisissant un modèle masculin.

La légende a débordé du cadre purement académique : en 2016, « Search by Image, Live (Lena/Fabio) », de l’artiste berlinois Sebastian Schmieg, utilise le moteur de recherche d’images inversées de Google pour décortiquer les récits de plus en plus nombreux autour de l’image (tristement) célèbre de Lena [3] : l’installation est basée sur une requête lancée avec l’image de Lena vs. une lancée avec l’effigie du blond mâle Fabio. Son objectif est d’analyser la manière dont les technologies en réseau façonnent les réalités en ligne et hors ligne. Beau cas d’usage pour la story de notre couple !

De Matilda à Lena….

Alors qu’on parle d’effet Matilda et d’invisibilisation des scientifiques, pour le coup, voilà une femme très visible dans une communauté où les femmes sont sous-représentées !

Quel message envoie cet usage d’une photo « légère », indéniablement objectifiée, pour former des générations d’étudiant.e.s en informatique ? Comment expliquer l’usage par une communauté d’un matériel désincarné, alors que le sujet pouvait être considéré comme dégradant pour les femmes ?

Comment interpréter l’usage abusif, irrespecteux du droit d’auteur, du consentement et de l’éthique, par une communauté très masculinisée d’une seule et unique image féminine ? Effet de halo, biais de confirmation ou de représentativité ? L’ancrage du stéréotype est ici exemplaire.

Amélioration d’image avec le logiciel libre gimp © charmuzelle

Alors, conformément aux préconisations de l’IEEE, remercions Lena d’avoir permis les progrès des algorithmes de traitement d’images. Engageons-nous désormais à l’oublier, marquant ainsi « un changement durable pour demain », et à accueillir toutes les futures générations de femmes scientifiques !

Florence SEDES, Professeur d’informatique (Université Paul Sabatier, Toulouse),

[1] https://ieeefrance.org/a-propos-de-ieee/

[2] https://vimeo.com/372265771

[3] https://thephotographersgallery.org.uk/whats-on/sebastian-schmieg-search-image-live-lenafabio

26 juin 202426 juin 2024

Science et scientifiques : des points de détail pour l’extrême-droite ?

Posté le:26/06/2024 sur le site de la Société Informatique de France.

Observer, décrire, modéliser et analyser pour comprendre le monde réel, puis l’observer plus efficacement en retour : tel est le cercle vertueux de toute démarche scientifique. Avec un axiome chevillé à l’esprit de chaque scientifique : les savoirs ainsi accumulés doivent être au service de l’humanité toute entière. Ces savoirs ont démontré que l’existence du dérèglement climatique n’est pas une opinion, mais un fait malheureusement avéré et mesurable, aux causes identifiées (essentiellement, les émissions de gaz à effet de serre). Que les êtres humains relèvent tous d’une même espèce, au sens biologique du terme, et que le concept de race humaine n’a aucun fondement scientifique. Qu’il n’y a jamais eu de différence de capacité intellectuelle entre les femmes et les hommes, ni entre aucun des groupes et sous-groupes ethniques et culturels qui constituent l’humanité. Et plus récemment que la vaccination anti-Covid est efficace. L’accumulation des savoirs au profit de l’humanité ne peut prospérer que via une coopération mondiale, ouverte, et garantie par une liberté académique totale.

Or l’extrême droite propose – notamment – la suppression du droit du sol et la préférence nationale au point d’effectuer des distinguos entre français mono-nationaux et bi-nationaux. Elle promeut le renforcement physique et juridique des frontières sous couvert de préoccupation sécuritaire et de bien-être économique. Elle minimise la portée des travaux du GIEC sur le climat. Elle manifeste une méfiance à peine voilée à l’endroit des scientifiques en général et fait aujourd’hui encore le lit des théories complotistes anti-vaccinales concernant la Covid. Ce faisant, elle contrevient directement à plusieurs des principes édictés par la « Déclaration universelle des droits de l’Homme et du citoyen ». Elle porte en outre atteinte à la libre circulation des êtres humains, des biens et des idées, circulation pourtant indispensable aux progrès de la science et de la raison.

C’est pourquoi, nous, Société informatique de France, porteurs de valeurs humanistes et d’une science informatique – libre et ouverte – interagissant avec les autres sciences pour mieux appréhender le réel, appelons avec la plus vive énergie à faire barrage à l’extrême-droite pour que notre pays demeure celui des Lumières, de la rationalité, de la liberté, de l’égalité et de la fraternité.

Télécharger le communiqué.

21 juin 202421 juin 2024

L’autopsie numérique en réalité mixte : une révolution pour la médecine légale?

L’autopsie traditionnelle, telle que nous la connaissons, pourrait-elle bientôt être remplacée par une méthode plus moderne et moins invasive grâce aux avancées en réalité mixte (MR)? Une équipe de recherche internationale a exploré les opportunités et les défis de l’autopsie numérique en utilisant des techniques de visualisation immersives. Leur étude révèle des perspectives prometteuses pour améliorer les pratiques de la médecine légale tout en réduisant les impacts émotionnels et culturels des autopsies physiques.

Ajouter de l’immersion pour l’autopsie

Depuis longtemps, les légistes analysent des données intrinsèques en 3D sur des écrans 2D, une tâche qui nécessite une reconstruction mentale complexe. L’émergence des technologies de réalité mixte (MR pour Mixed reality)) offre des possibilités prometteuses pour l’autopsie numérique en permettant aux légistes une immersion dans ces données 3D combinée à des techniques d’interaction appropriés avec les jeux de données [1, 2]. L’utilisation de ces technologies à des fins d’analyses de données et génération de savoir est souvent regroupée sous le terme « Immersive Analytics » [1]. Les bénéfices en terme d’immersion, de collaboration, ou de génération de savoir ont été étudiés dans plusieurs domaines et sont notamment visibles lorsque les données sont spatiales ou multi-dimensionnelles. Dans cette étude [3], les auteurs explorent l’utilisation de techniques de visualisation et d’interaction immersive en réalité augmentée permettant l’autopsie numérique à travers l’analyse d’imagerie en 3D, tout en impliquant les utilisateurs finaux, à savoir les praticiens légistes, dans un processus de conception dit « centré sur l’utilisateur ». L’étude s’est par conséquent déroulée en quatre phases de retour d’expérience utilisateur :

Interviews Formatives : Six experts du domaine ont été interviewés pour identifier les opportunités et exigences de la réalité augmentée dans le domaine des autopsies.
Atelier de Travail : Quinze pathologistes ont participé à un atelier pour identifier les limitations du prototype initial et proposer de nouvelles idées d’interaction leur permettant d’analyser les jeux de données nécessaires à leurs travail.
Validation Qualitative : Deux séries de tests utilisateurs ont été menées pour évaluer des prototypes successifs avec des techniques d’interaction novatrices.
Étude Qualitative : Validation finale des prototypes avec cinq experts utilisant la réalité augmentée pour des cas réels d’autopsie.

Techniques de Visualisation Immersive

Le projet a développé plusieurs techniques pour améliorer l’interaction et l’analyse des données médicales en 3D :

Tunnel de Couleurs : Permet d’enlever virtuellement les tissus mous pour examiner des structures plus profondes.
Forme de Découpe : Utilisation d’une boîte de découpe flexible pour isoler un volume d’intérêt.
Gomme : Outil permettant de retirer des voxels ( ou »volume pixel », similaire à un pixel mais dans un espace 3D.) de données indésirables ou artefacts.
Curseur Zoomable : Technique permettant de manipuler avec précision les tranches d’images obtenues par tomodensitométrie (images de scanneur médical) grâce à un contrôle de gain ajustable.

Toutes ces techniques sont visibles sur une démonstration du prototype vidéo accessible en ligne:

Le retour des experts

Les médecins légistes et radiologues impliqués dans l’évaluation du prototype ont souligné le potentiel de la réalité augmentée pour améliorer l’autopsie numérique, notamment sur les points suivant.

Accessibilité des données : La réalité mixte permet aux praticiens d’accéder facilement aux données dans n’importe quel environnement, y compris à distance, et de visualiser le corps entier en taille réelle.
Interaction naturelle : Les gestes manuels intuitifs remplacent l’utilisation de la souris et du clavier, facilitant ainsi l’exploration des données tout en portant des gants.
Enseignement et démonstration : Cette technologie offre une méthode d’enseignement plus immersive et réaliste pour les étudiants en médecine légale et peut être utilisée pour des démonstrations en salle d’audience.
Réduction des autopsies physiques : En combinant les images 3D et les nouvelles techniques de visualisation, il est possible de réaliser des autopsies virtuelles qui sont moins invasives et respectueuses des croyances culturelles et religieuses et permettent donc d’éviter les autopsies « physiques » pour les cas les plus simples.

Malgré les avantages, l’étude a aussi mis en évidence certaines limitations actuelles des technologies de MR, comme le champ de vision limité, les problèmes de suivi des gestes, et la résolution des images. Les chercheurs ont également souligné la nécessité d’une formation adéquate pour maîtriser ces nouveaux outils.

Cette étude ajoute donc à l’ensemble des preuves de l’utilité des technologies immersives pour analyser des données volumétriques ou spatiales [4,5,6]. Cependant, il faut considérer que le passage à la réalité augmentée tout en obtenant une précision d’interaction fidèle peut-être, à minima aujourd’hui, couteux car il nécessite d’utiliser des systèmes de tracking des mains précis et, pour le moment, onéreux.

Lonni Besançon, Assistant Professor, Linköping University, Sweden.

[1] Marriott, K., Schreiber, F., Dwyer, T., Klein, K., Riche, N. H., Itoh, T., … & Thomas, B. H. (Eds.). (2018). Immersive analytics(Vol. 11190). Springer.

[2] Besançon, L., Ynnerman, A., Keefe, D.F., Yu, L. and Isenberg, T. (2021), The State of the Art of Spatial Interfaces for 3D Visualization. Computer Graphics Forum, 40: 293-326. https://doi.org/10.1111/cgf.14189

[3] Vahid Pooryousef, Maxime Cordeil, Lonni Besançon, Christophe Hurter, Tim Dwyer, and Richard Bassed. 2023. Working with Forensic Practitioners to Understand the Opportunities and Challenges for Mixed-Reality Digital Autopsy. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (CHI ’23). Association for Computing Machinery, New York, NY, USA. https://doi.org/10.1145/3544548.3580768. https://enac.hal.science/hal-03999121/document

[4] B. Lee, D. Brown, B. Lee, C. Hurter, S. Drucker and T. Dwyer, « Data Visceralization: Enabling Deeper Understanding of Data Using Virtual Reality, » in IEEE Transactions on Visualization and Computer Graphics, vol. 27, no. 2, pp. 1095-1105, Feb. 2021, https://doi.org/10.1109/TVCG.2020.3030435

[5] Shringi A, Arashpour M, Golafshani EM, Rajabifard A, Dwyer T, Li H. Efficiency of VR-Based Safety Training for Construction Equipment: Hazard Recognition in Heavy Machinery Operations. Buildings. 2022; 12(12):2084. https://doi.org/10.3390/buildings12122084

[6] Wang, X., Besançon, L., Rousseau, D., Sereno, M., Ammi, M., & Isenberg, T. (2020, April). Towards an understanding of augmented reality extensions for existing 3D data analysis tools. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (pp. 1-13). https://doi.org/10.1145/3313831.3376657

14 juin 202421 juin 2024

Quand les citations scientifiques dérapent : la découverte des « références furtives »

L’image du chercheur qui travaille seul en ignorant la communauté scientifique n’est qu’un mythe. La recherche est fondée sur un échange permanent, tout d’abord et avant tout pour comprendre les travaux des autres et ensuite, pour faire connaître ses propres résultats. La lecture et l’écriture d’articles publiées dans des revues ou des conférences scientifiques sont donc au cœur de l’activité des chercheurs. Quand on écrit un article, il est fondamental de citer les travaux de ses pairs que ce soit pour décrire un contexte, détailler ses propres sources d’inspiration ou encore expliquer les différences d’approches et de résultats. Etre cité par d’autres chercheurs, quand c’est pour de « bonnes raisons », est donc une des mesures de l’importance de ses propres résultats. Mais que se passe-t-il lorsque ce système de citations est manipulé ? Une récente étude [1], menée par une équipe de « détectives scientifiques », révèle une méthode insidieuse pour gonfler artificiellement les comptes de citations : les « références furtives ». Lonni Besançon et Guillaume Cabanac, deux des membres de cette équipe, nous présentent ici leurs résultats. Pascal Guitton et Serge Abiteboul. Article publié en collaboration avec theconversation.

Les dessous de la manipulation

Le monde de la publication scientifique et son fonctionnement ainsi que ses potentiels travers et leurs causes sont des sujets récurrent de la vulgarisation scientifique. Cependant, nous allons ici nous pencher tout particulièrement sur nouveau type de dérive affectant les citations entre articles scientifiques, censées refléter les apports et influences intellectuelles d’un article cité sur l’article citant. Les citations de travaux scientifiques reposent sur un système de référencement qui est standardisé : les auteurs mentionnent explicitement dans le texte de leur article, a minima le titre de l’article cité, le nom de ses auteurs, l’année de publication, le nom de la revue ou de la conférence, les numéros de page… Ces informations apparaissent dans la bibliographe de l’article (une liste de références) et sont enregistrées sous forme de données annexes (non visibles dans le texte de l’article) qualifiées de métadonnées, notamment lors de l’attribution du DOI (Digital Object Identifier), un identifiant unique pour chaque publication scientifique. Les références d’une publication scientifique permettent, de façon simplifiée, aux auteurs de justifier des choix méthodologiques ou de rappeler les résultats d’études passées. Les références listées dans chaque article scientifique sont en fait la manifestation évidente de l’aspect itératif et collaboratif de la science. Cependant, certains acteurs peu scrupuleux ont visiblement ajouté des références supplémentaires, invisibles dans le texte, mais présentes dans les métadonnées de l’article pendant son enregistrement par les maisons d’édition (publishers). Résultat ? Les comptes de citations de certains chercheurs ou journaux explosent sans raison valable car ces références ne sont pas présentes dans les articles qui sont censés les citer.

Un nouveau type de fraude et une découverte opportuniste

Tout commence grâce à Guillaume Cabanac (Professeur à l’Université Toulouse 3 – Paul Sabatier) qui publie un rapport d’évaluation post-publication sur PubPeer, un site où les scientifiques discutent et analysent les publications. Il remarque une incohérence : un article, probablement frauduleux car présentant des expressions torturées [2], d’une revue scientifique a obtenu beaucoup plus de citations que de téléchargements, ce qui est très inhabituel. Ce post attire l’attention de plusieurs « détectives scientifiques » dont Lonni Besançon, Alexander Magazinov et Cyril Labbé. Ils essaient de retrouver, via un moteur de recherche scientifique, les articles citant l’article initial mais le moteur de recherche Google Scholar ne fournit aucun résultat alors que d’autres (Crossref, Dimensions) en trouvent. Il s’avère, en réalité, que Google Scholar et Crossref ou Dimensions n’utilisent pas le même procédé pour récupérer les citations : Google Scholar utilise le texte même de l’article scientifique alors que Crossref ou Dimensions utilisent les métadonnées de l’article que fournissent les maisons d’édition.

Pour comprendre l’étendue de la manipulation, l’équipe examine alors trois revues scientifiques. Leur démarche comporte 3 étapes. Voici comment ils ont procédé:

dans les articles (HTML/PDF) : ils listent d’abord les références présentes explicitement dans les versions HTML ou PDF des articles ;
dans les métadonnées Crossref : Ensuite, ils comparent ces listes avec les métadonnées enregistrées par Crossref, une agence qui attribue les DOIs et leurs métadonnées. Les chercheurs découvrent que certaines références supplémentaires ont été ajoutées ici, mais n’apparaissaient pas dans les articles.
dans Dimensions : Enfin, les chercheurs vérifient une troisième source, Dimensions, une plateforme bibliométrique qui utilise les métadonnées de Crossref pour calculer les citations. Là encore, ils constatent des incohérences.

Le résultat ? Dans ces trois revues, au moins 9 % des références enregistrées étaient des « références furtives ». Ces références supplémentaires ne figurent pas dans les articles mais uniquement dans les métadonnées, faussant ainsi les comptes de citations et donnant un avantage injuste à certains auteurs. Certaines références réellement présentes dans les articles sont par ailleurs « perdues » dans les métadonnées.

Les implications et potentielles solutions

Pourquoi cette découverte est-elle importante ? Les comptes de citations influencent de façon pervasive les financements de recherche, les promotions académiques et les classements des institutions. Elles sont utilisées de façon différentesuivant les institutions et les pays mais jouent toujours un rôle dans ce genre de décisions. Une manipulation des citations peut par conséquent conduire à des injustices et à des décisions basées sur des données fausses. Plus inquiétant encore, cette découverte soulève des questions sur l’intégrité des systèmes de mesure de l’impact scientifique qui sont mises en avant depuis plusieurs années déjà [3]. En effet, beaucoup de chercheurs ont déjà, par le passé, souligné le fait que ces mesures pouvaient être manipulées mais surtout qu’elles engendraient une compétition malsaine entre chercheurs qui allaient, par conséquent, être tentés de prendre des raccourcis pour publier plus rapidement ou avoir de meilleurs résultats qui seraient donc plus cités. Une conséquence, potentiellement plus dramatique de ces mesures de productivité des chercheurs réside surtout dans le gâchis d’efforts et de ressources scientifiques dû à la compétition mise en place par ces mesures [5,6].

Pour lutter contre cette pratique, les chercheurs suggèrent plusieurs mesures :

Une vérification rigoureuse des métadonnées par les éditeurs et les agences comme Crossref.
Des audits indépendants pour s’assurer de la fiabilité des données.
Une transparence accrue dans la gestion des références et des citations.

Cette étude met en lumière l’importance de la précision et de l’intégrité des métadonnées car elles sont, elles aussi, sujettes à des manipulations. Il est également important de noter que Crossref et Dimensions ont confirmé les résultats de l’étude et qu’il semblerait que certaines corrections aient été apportées par la maison d’édition qui a manipulé les métadonnées confiées à Crossref et, par effet de bord, aux plateformes bibliométriques comme Dimensions. En attendant des mesures correctives, qui sont parfois très longues voire inexistantes [7], cette découverte rappelle la nécessité d’une vigilance constante dans le monde académique.

Lonni Besançon, Assistant Professor, Linköping University, Sweden.

Guillaume Cabanac, professeur d’informatique à l’Université Toulouse 3 – Paul Sabatier, membre de l’Institut Universitaire de France (IUF), chercheur à l’Institut de recherche en informatique de Toulouse (IRIT).

[1] Besançon, L., Cabanac, G., Labbé, C., & Magazinov, A. (2024). Sneaked references: Fabricated reference metadata distort citation counts. Journal of the Association for Information Science and Technology, 1–12. https://doi.org/10.1002/asi.24896

[2] Cabanac, G., Labbé, C., & Magazinov, A. (2021). Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals. arXiv preprint arXiv:2107.06751.

[3] Crous CJ. The darker side of quantitative academic performance metrics. S Afr J Sci. 2019; 115:1–3. https://doi.org/10.17159/sajs.2019/5785.

[4] Academic Research in the 21st Century: Maintaining Scientific Integrity in a Climate of Perverse Incentives and Hypercompetition Marc A. Edwards and Siddhartha Roy Environmental Engineering Science 2017 34:1, 51-61

[5] Chalmers I, Glasziou P. Avoidable waste in the production and reporting of research evidence. The Lancet. 2009; 374(9683):86–9. https://doi.org/10.1016/S0140-6736(09)60329-9.

[6] Besançon, L., Peiffer-Smadja, N., Segalas, C. et al. Open science saves lives: lessons from the COVID-19 pandemic. BMC Med Res Methodol 21, 117 (2021). https://doi.org/10.1186/s12874-021-01304-y

[7] Besançon L, Bik E, Heathers J, Meyerowitz-Katz G (2022) Correction of scientific literature: Too little, too late! PLoS Biol 20(3): e3001572. https://doi.org/10.1371/journal.pbio.3001572

07 juin 202407 juin 2024

La souveraineté numérique avec le logiciel libre, grande absente de la campagne pour les Européennes en France

L’apport du logiciel libre pour la souveraineté numérique notamment en Europe commence à être compris. Pourtant, on peut s’inquiéter de l’absence de ce sujet dans la campagne pour les Européennes en France. Stéphane Fermigier, coprésident de l’Union des entreprises du logiciel libre et du numérique ouvert (CNLL, Conseil national du logiciel libre) aborde le sujet. Pierre Paradinas et Serge Abiteboul

La souveraineté numérique, que nous définirons comme une autonomie stratégique pour les États, les entreprises et les citoyens dans le domaine du numérique (logiciels, données, matériels, infrastructures…), apparaît sous-représentée dans le débat politique actuel, en particulier en France où la campagne pour les élections européennes ne met pas suffisamment en lumière cet enjeu crucial. Ce manque d’attention est préoccupant compte tenu de l’importance croissante des technologies numériques dans notre société et de notre dépendance envers des acteurs principalement américains et asiatiques.

Un peu de contexte

Le logiciel libre, ou open source, représente un pilier fondamental pour atteindre la souveraineté numérique. Ce type de logiciel, dont le code source est public et que chacun peut modifier, améliorer et redistribuer, accélère l’innovation ouverte, évite l’enfermement technologique (lock-in) au sein de plateformes propriétaires et renforce l’autodétermination numérique des utilisateurs. Selon la Commission européenne, l’open source « accroît notre capacité à agir de manière indépendante pour préserver nos intérêts, défendre les valeurs et le mode de vie européens et contribuer à façonner notre avenir.”

En dépit d’une contribution économique significative — représentant 10 % du marché des logiciels et services informatiques en France, soit plus de 6 milliards d’euros de chiffre d’affaires annuel — le logiciel libre ne reçoit pas l’attention politique proportionnelle à son impact. La législation française, notamment la Loi pour une République Numérique de 2016, a bien tenté de promouvoir son usage dans l’administration publique en “encourageant” son adoption, mais les initiatives restent insuffisantes.

À l’échelle de l’Union européenne, des efforts ont été entrepris, comme en témoignent les Stratégies Open Source de la Commission européenne pour les périodes 2014-2017 et 2020-2023, qui visent à augmenter la transparence, à améliorer la sécurité des systèmes informatiques et à stimuler l’innovation au sein des services publics. Toutefois, pour que l’Europe progresse réellement vers une autonomie numérique, il est essentiel que ces engagements soient non seulement renouvelés pour la mandature à venir du Parlement et de la Commission, mais aussi significativement élargis pour impacter plus que les services informatiques de la Commission, si importants soient-ils.

Les grands partis français aux abonnés absents

Le CNLL, qui représente la filière française des entreprises du logiciel libre, a élaboré et diffusé un questionnaire auprès des principaux partis candidats aux Européennes de juin. Aucun des grands partis sollicités à de multiples reprises et par différents canaux n’a donné suite.

Cette absence de réponse des grands partis est la marque soit d’un désintérêt, soit d’une absence d’expertise sur ces sujets cruciaux, et dans tous les cas nous apparaît comme une faute majeure face aux enjeux.

À ce jour, seuls deux petits partis, Volt France et le Parti Pirate, ont répondu à ce questionnaire (réponse de Volt, réponse du Paris Pirate), en reconnaissant pleinement l’importance de la souveraineté numérique et en proposant des stratégies claires pour intégrer davantage le logiciel libre dans la politique numérique européenne.

Le Parti Pirate, fidèle à son engagement historique envers l’idéologie du logiciel libre, adopte le slogan “argent public, code public”, qui affirme que tous les logiciels financés par des ressources publiques doivent être libres et ouverts. Cette position s’inscrit dans une vision plus large visant à transformer l’administration publique en intégrant le logiciel libre pour renforcer l’indépendance, la transparence et réduire les coûts.

Volt France, de son côté, reconnaît également le rôle stratégique du logiciel libre dans la quête de souveraineté numérique, mais adopte une approche qui inclut la création d’une infrastructure numérique européenne autonome. Ils envisagent des mesures législatives et des financements spécifiques pour soutenir le logiciel libre, y compris un Small Business Act européen qui garantirait un soutien aux PME, notamment celles offrant des solutions de cloud et de logiciels libres. Cette initiative vise à favoriser la compétitivité et à réduire la dépendance vis-à-vis des géants technologiques non européens.

En comparaison, le Parti Pirate se concentre davantage sur les aspects éthiques et communautaires de la technologie, cherchant à démocratiser l’accès au logiciel libre et à en faire une norme dans toute l’administration publique, alors que Volt aligne ses initiatives sur les objectifs stratégiques plus larges de l’Union européenne, visant à positionner le continent comme un acteur compétitif et indépendant sur la scène numérique mondiale. Les deux partis promeuvent par ailleurs une intégration approfondie du logiciel libre dans les systèmes éducatifs pour sensibiliser et éduquer la prochaine génération sur les avantages de l’open source.

Que faire?

Les réponses de Volt France et du Parti Pirate, ainsi que celle des principaux partis allemands à un questionnaire similaire à celui du CNLL, nous donnent la matière à relancer le débat public sur la souveraineté numérique et le soutien à l’écosystème du logiciel libre en France et en Europe, en alignant de nombreuses propositions concrètes, au niveau national comme européen, autour d’une stratégie cohérente et volontariste, visant entre autres à soutenir un écosystème européen robuste de développeurs et d’entreprises spécialisées dans l’open source.

En premier lieu, il faut donner la priorité aux solutions open source dans les marchés publics, sauf lorsque des alternatives propriétaires sont absolument nécessaires. L’adoption d’une politique « Open Source First » au niveau de l’UE garantira que tous les nouveaux projets numériques financés par l’UE examinent d’abord les options open source. De plus, la stratégie numérique de l’UE devra être renouvelée pour inclure un soutien spécifique aux projets open source, en proposant des directives claires pour leur adoption et leur maintenance.

Pour financer efficacement cette transition vers l’open source, il faudra allouer au moins 10 % du budget numérique de l’UE au soutien direct de ces projets. Cela inclut des subventions pour la recherche et le développement, la création d’un fonds permanent pour l’open source visant à assurer l’amélioration continue et la sécurité des systèmes, ainsi que l’implémentation de métriques pour suivre et rapporter les progrès.

Le soutien aux petites et moyennes entreprises (PME) européennes spécialisées dans l’open source est également crucial, en leur garantissant une part significative de la commande publique (“Small Business Act”), par des allégements fiscaux ciblés et des subventions spécifiques, et par la facilitation de l’accès aux programmes de recherche financés par l’UE. Un réseau de clusters ou de hubs d’innovation open source à travers l’Europe fournira un soutien technique et commercial essentiel, ainsi que des fonds de démarrage pour les start-up du secteur.

En outre, pour combattre la pénurie de compétences et améliorer la compréhension des technologies ouvertes, il est vital d’intégrer l’éducation au logiciel libre (en tant qu’outil aussi bien qu’objet d’étude) dans les curriculums à tous les niveaux de l’éducation et par un soutien à des formations professionnelles, initiale et continue. L’UE pourra également financer une large campagne de sensibilisation aux avantages des technologies et des solutions open source.

Pour finir ce survol rapide, l’implication des communautés open source dans les processus législatifs et réglementaires est indispensable. La création d’un conseil consultatif européen sur l’open source, représentatif de la diversité de l’écosystème, permettra une interaction continue et productive entre les décideurs et la communauté open source, enrichissant ainsi la formulation des politiques numériques avec des recommandations éclairées et pragmatiques.

Observons qu’aucune de ces propositions ne tranche par sa radicalité. Pour ne donner qu’un exemple, la préférence pour le logiciel libre dans la commande publique est déjà inscrite dans la loi en Italie depuis 2012 et en France, pour le secteur plus restreint de l’enseignement supérieur, depuis 2013. La France se distingue par ailleurs par la notion d’ “encouragement” à l’utilisation du logiciel libre par l’administration, ainsi que l’obligation de “préserver la maîtrise, la pérennité et l’indépendance de [ses] systèmes d’information”, inscrites dans la loi République Numérique de 2016. D’autres propositions sont directement inspirées de rapports parlementaires, comme celui du député Philippe Latombe sur la souveraineté numérique.

Conclusion

La souveraineté numérique, bien que cruciale pour l’autonomie stratégique de l’Europe, est négligée dans la campagne actuelle pour les élections européennes en France. Seuls Volt France et le Parti Pirate ont réellement abordé ce sujet, et ont mis en avant l’importance des logiciels libres et de l’open source comme pilier de cette souveraineté. Leurs propositions convergent vers un renforcement de l’utilisation du logiciel libre dans les administrations publiques, l’éducation et le secteur privé pour garantir une Europe plus autonome et moins dépendante des géants technologiques extra-européens.

Il est essentiel que d’autres partis prennent également position sur ces enjeux pour enrichir le débat et proposer une politique numérique européenne cohérente et dynamique. Les mesures proposées, telles que l’adoption généralisée de solutions et technologies ouvertes, le soutien financier accru aux PME du secteur de l’open source, et la formation axée sur les technologies libres, sont fondamentales pour construire un écosystème numérique robuste et ouvert. Cela implique aussi et avant tout une volonté politique affirmée doublée d’une vision systématique, et notamment une collaboration étroite entre tous les acteurs de l’écosystème numérique européen ouvert. La prochaine législature européenne a ainsi une opportunité, mais également une responsabilité, de repenser profondément notre approche du numérique afin de construire un avenir numérique plus résilient et autonome pour l’Union européenne.

Stéfane Fermigier, co-président du CNLL et fondateur d’Abilian

31 mai 202423 mai 2024

Alerte : bientôt 10 ans après la COP 2015, où en est le numérique ?

En 2015, Binaire publiait cet article annonçant la COP21 et la conférence sur le climat de 2015, qui a donné lieu à la signature de l’accord de Paris. Bientôt 10 ans après, l’heure du bilan ?

Dans cet article on pouvait déjà y lire par exemple « Les transitions écologiques et numériques doivent apprendre à vivre ensemble. » ou encore « Nous avons pris de mauvaises habitudes qu’il est urgent de changer.«

Les principaux enjeux y étaient bien décrits : prolonger la durée de vie des équipements, diminuer la consommation énergétique associée au secteur… Pourtant, 9 ans après, on peut faire un constat d’échec. L’accord de Paris annoncé dans l’article a donné lieu à des trajectoires environnementales sectorielles, même si on regrette que celles-ci soient uniquement focalisées sur les émissions de gaz à effet de serre, sans se préoccuper des autres limites planétaires. La trajectoire associée au numérique, établie par l’Union Internationale des Télécommunications puis validée par la Science Based Target Initiative, vise une réduction de 45% des émissions de GES du secteur des Technologies de l’Information et de la Communication (TIC) d’ici 2030. La tendance actuelle, en France sur la même période est à une augmentation de 45% : c’est donc un véritable virage à 180° que le numérique doit prendre.
Puisqu’il s’agissait déjà d’une urgence en 2015, quel qualificatif au-delà de l’urgence doit-on utiliser en 2024 alors que nos e-déchets battent tous les records et que la sobriété énergétique est plus que jamais indispensable ?
Au-delà des progrès technologiques, il apparait nécessaire d’aller vers une priorisation et une hiérarchisation collective des usages, afin d’enclencher une réelle démarche de sobriété. Nos voisins Québecois, à travers le projet prospectif « Défi Numérique », proposent des pistes concrètes à suivre afin de faire converger pour de bon transitions numérique et écologique.

Benjamin Ninassi, Adjoint au responsable du programme Numérique et Environnement d’Inria

24 mai 202425 mai 2024

Que sait-on des impacts environnementaux de la vidéo en ligne ? L’exemple de Netflix

Le numérique, par sa matérialité (impacts directs) et ses effets sur nos modes de production et de consommation (impacts indirects), contribue au franchissement des limites planétaires. Aurélie Bugeau, Gaël Guennebaud et Benjamin Ninassi nous éclairent sur la contribution de la vidéo à la demande (VoD) aux impacts environnementaux du numérique. Antoine Rouseau, Serge Abiteboul. Article publié en collaboration avec theconversation.

Au vu des efforts importants que le secteur des Technologies de l’Information et de la Communication (TIC) doit faire pour passer d’une tendance de forte croissance de ses émissions de Gaz à Effet de Serre (+45% d’ici 2030) à une trajectoire de réduction significative ( -45% sur la même période), tous les pans du numérique doivent nécessairement questionner leur contribution à cette tendance. En ce sens il est intéressant de cartographier et d’estimer leurs impacts environnementaux afin de construire une société soutenable.

Comme le montre le graphique ci-dessous, la vidéo en ligne représente la majeure partie du trafic internet au niveau mondial.

Principales catégories de contenu par volume de trafic en download. Données issues du rapport 2024 Global Internet Phenomena Report par Sandvine.

Pour la France, les hébergeurs de vidéos sont majoritairement à l’origine d’un trafic croissant vers les utilisateurs au niveau de l’interconnexion, avec une hausse de x2.4 de début 2020 à fin 2022.

La vidéo est donc souvent pointée du doigt comme l’un des principaux responsables des impacts environnementaux du numérique et fait débat comme par exemple dans le rapport de The Shift Project de 2019 sur l’insoutenabilité de la vidéo en ligne. Mais au-delà des TVs et autres terminaux de visionnage, que sait-on de la matérialité qui se cache derrière le visionnage d’un film ou d’une série en vidéo à la demande (VoD) ? À quoi servent réellement ces équipements ?

Peu d’informations publiques existent sur les architectures très complexes opérées par les fournisseurs de services de VoD et sur leur dimensionnement. Néanmoins nous avons tenté une ébauche d’analyse du service Netflix. Ce dernier est en effet l’un des plus utilisés et a le mérite de rendre quelques informations accessibles concernant son fonctionnement. Cette plateforme n’est ici qu’un exemple et le but n’est aucunement de cibler cette entreprise spécifiquement.

À travers les informations rassemblées via différentes sources (rapports d’activités, vidéos de conférences techniques, articles de blogs), nous illustrons la difficulté à cartographier les différents pans de l’architecture d’un service de VoD, travail néanmoins indispensable avant de réaliser une quantification des impacts environnementaux d’un tel service.

Bien que la consommation électrique n’englobe pas tous les impacts environnementaux, il s’agit d’une des informations rendues publiques par Netflix, comme le montre la figure ci-dessous. L’année 2019 est la seule pour laquelle une estimation de la consommation des serveurs opérés par des tiers est fournie.

Le streaming vidéo, comment ça marche ?
La partie la plus facile à expliquer de cette consommation concerne le Content Delivery Network (CDNs). Il s’agit d’une infrastructure comptant plusieurs dizaines de milliers de serveurs pour Netflix répartis dans le monde et hébergeant les titres les plus populaires du catalogue à proximité des utilisateurs. Certains de ces serveurs sont hébergés directement dans les centres de données des fournisseurs d’accès à internet (FAI) et échappent ainsi aux consommations électriques précises rapportées par Netflix.

Les FAI possèdent en effet leurs propres centres de données, afin de permettre un acheminement du trafic internet de qualité tout en diminuant la pression sur les infrastructures réseaux.

Ainsi quand un utilisateur accède à un contenu vidéo en ligne, c’est en réalité le plus souvent sur un CDN que ce contenu est hébergé. Ces données parcourent l’ensemble des infrastructures réseaux (câbles, antennes, équipements de routage, et.) nécessaires pour relier ce CDN à l’utilisateur, sans oublier sa box internet et potentiellement d’autres équipements (switch, répéteur WiFi, box TV, etc.) jusqu’au terminal où la vidéo est visionnée.

Le reste de la consommation des serveurs tiers concerne l’usage d’Amazon Web Services (AWS) pour toutes les opérations en amont de la diffusion des contenus vidéos à proprement parler. Cela représente un usage constant de plusieurs centaines de milliers de machines virtuelles (plus de cent mille en 2016) en plus des besoins en stockage.

En effet, une fois produite, une vidéo est tout d’abord stockée sous une forme brute, non compressée. Elle est ensuite encodée en une centaine de versions différentes de manière à offrir la meilleure qualité d’expérience utilisateur quelles que soient les caractéristiques du terminal et de son écran (plus de 1500 types d’équipements supportés), la qualité du réseau internet et du système d’exploitation utilisé. L’encodage de vidéos nécessite ainsi plusieurs centaines de milliers de CPUs en parallèle.

Ces multiples versions sont dupliquées sur plusieurs serveurs au sein de centres de données localisés dans différentes zones géographiques (3 pour Netflix en 2016) pour des raisons de sécurité et de garantie d’accès au contenu à travers le monde.

La face cachée de la VoD
Les modèles d’affaire des plateformes de VoD sont basés sur la rétention d’attention et le nombre d’abonnés ou de visionnages. Avant de pouvoir visionner un contenu vidéo, l’utilisateur commence par naviguer sur la plateforme, depuis la page d’accueil jusqu’au choix du contenu. Cette navigation est personnalisée pour chaque utilisateur, et repose sur des mécanismes de captation et de rétention d’attention nécessitant la collecte, le stockage et le traitement de nombreuses données personnelles et d’usage. Toute une partie de l’infrastructure, et donc de l’empreinte environnementale, est ainsi liée non pas à la diffusion des vidéos, mais à la personnalisation de l’expérience utilisateur.

L’ensemble des données permettant la mise en œuvre de ces mécanismes est couramment appelé « datahub ». Celui-ci est constitué à la fois de données collectées par la plateforme (données utilisateurs et données d’utilisation), agrégées avec des données issues d’autres sources dans la chaîne de valeur de Netflix : annonceurs, prestataires de paiement, fournisseurs de services, fournisseurs de mesure d’audience, critiques de contenus, réseaux sociaux… Netflix est par exemple membre de la Digital Advertising Alliance.

Ce datahub est de taille conséquente, en 2016 pour 89 millions de comptes il contenait 60 Po (1 petaoctet = 1 million de Go) de données. Il n’est pas aberrant d’imaginer qu’il soit encore bien plus important de nos jours avec 260 millions d’abonnés en 2023.

D’un autre côté, on estime la taille du catalogue de Netflix entre 50 000 et 60 000 heures de visionnage. Dans cet article, il est question de 470 Go par heure de vidéo brute, ce qui donne un catalogue non-encodé d’environ 25 Po, soit la moitié du datahub de 2016. Intuitivement, on s’attendrait pourtant à ce que le catalogue de vidéos brutes concentre une part des besoins en stockage plus importante que les données d’usage.

À ce volume de données, s’ajoute les flux vidéos et de données produites en lien avec les tournages et montages par les studios de Netflix eux-même, qui représentent environ 100 Po par an.

Pour soutenir leur modèle économique, le volume de productions originales est en forte croissance, de même que les impacts environnementaux associés, qui représente pour Netflix plus de la moitié de ses émissions de gaz à effet de serre.

Evolution du catalogue des plateformes — Source : Omdia 2023

Au-delà du stockage, chaque action sur la plateforme (rechercher, cliquer sur lecture, etc.) génère un évènement traité par Netflix, il y en avait 500 milliards par jour en 2016. Cette captation de données sert par exemple à la génération d’une page d’accueil personnalisée pour chaque compte utilisateur. Cette dernière nécessiterait au total plus de 22 000 serveurs virtuels hébergés chez AWS, et le stockage de plus de 14,3 Po de données pour la gestion d’un cache dynamique appelé EVCache.

Parmi les éléments de personnalisation de l’expérience utilisateur, il y a bien évidemment le contenu proposé mais également la manière dont il est présenté avec une personnalisation des vignettes utilisées, ou encore l’utilisation de « Dynamic Sizzles », génération de vidéos personnalisés agrégeant du contenu de plusieurs films ou série.

Ces mécanismes de rétention d’attention reposent sur l’utilisation d’algorithmes d’apprentissage automatique en continu de plus en plus avancés, nécessitant à la fois de grandes quantités de données et de puissance de calcul. Pour des raisons évidentes de mise à jour, ces algorithmes sont entraînés de manière incrémentale. La généralisation de leur usage provoque nécessairement une croissance des données acquises, traitées et stockées, augmentant ainsi les impacts environnementaux associés.

À toutes ces données il faut ajouter les politiques de sauvegarde nécessaires à la reprise d’activité en cas d’incident. Elles sont appliquées à chaque niveau de cette architecture, ce qui peut induire une duplication plus ou moins importante de l’ensemble de ces contenus. Notons que Netflix met également en œuvre des méthodologies sophistiquées d’épuration des données, tant au niveau du cache et du datahub que des données produites par les studios.

« Juste » une vidéo ?
Ainsi, visionner une vidéo en ligne implique beaucoup d’étapes et de données générées bien au-delà du contenu vidéo lui-même. L’optimisation de l’expérience utilisateur à l’extrême repose sur des ressources matérielles significatives par rapport au simple visionnage de vidéo. Le manque d’informations disponibles sur le fonctionnement complet des plateformes et les infrastructures associées rendent à ce stade hasardeux l’évaluation par un tiers indépendant des impacts environnementaux de leur activité au regard des limites planétaires.

D’aucuns pourraient rétorquer que ces impacts ramenés au nombre d’abonnés seraient sans doute négligeables au regard de bien d’autres postes de consommation. Par exemple, pour 2019, la consommation électrique des serveurs utilisés par Netflix ne représente qu’environ 2,3 kWh/an par abonné. Ce chiffre peut paraître dérisoire, voire contradictoire avec les chiffres de la consommation énergétique des centres de données dans le monde de l’IEA qui représenterait environ la consommation électrique d’un pays comme l’Italie ou le Royaume-Uni. Cela illustre une difficulté avec les Technologies de l’Information et de la Communication (TIC) qui est un secteur composé d’une myriade de services, chacun en apparence insignifiant, mais dont la somme des impacts est préoccupante. Autrement dit, la réduction globale des impacts environnementaux des TIC passe nécessairement par une myriade de « petits gains ». Dans le contexte du streaming vidéo, Netflix n’est qu’un service de VoD parmi tout un ensemble de fournisseurs, et de nouveaux modes de partages de vidéos en pair à pair ou via les réseaux sociaux.

La vidéo à la demande peut-elle devenir soutenable ?
Afin de se conformer à une trajectoire de réduction des impacts environnementaux du secteur de la vidéo en ligne, on peut légitimement se demander à quoi ressemblerait une plateforme de VoD compatible avec une trajectoire environnementale soutenable. L’analyse précédente soulève au moins quatre axes principaux de réduction :

– le compromis à faire entre le poids (résolution maximale et nombre de variantes) des vidéos encodées (qui impacte à fois les besoins en calcul, stockage et transmission) et la qualité réellement perçue par les utilisateurs,
– la remise en question de la personnalisation de l’expérience à l’extrême,
– la nécessité de hautes performances (en termes de qualité de service, disponibilité, etc.) pour un service de divertissement,
– et enfin, le rythme de production de nouveaux contenus.

Au-delà des enjeux environnementaux, les algorithmes de recommandations au cœur de ces plateformes de VoD posent aussi de nombreuses questions éthiques et démocratiques.

Aurélie Bugeau, Professeur des Universités, Université de Bordeaux
& Gaël Guennebaud, Chercheur Inria du centre de l’université de Bordeaux
& Benjamin Ninassi, Adjoint au responsable du programme Numérique et Environnement d’Inria

17 mai 202417 mai 2024

Grandes Constellations de Satellites, deuxième partie

Nous assistons au déploiement de constellations de satellites avec des
dizaines de milliers de satellites en orbite basse. Les fonctionnalités
de ces constellations sont essentiellement les télécommunications haut-débit,
la géolocalisation et l’observation de la Terre. Quelles sont les avancées
scientifiques et technologiques qui permettent ces développements ?
Quels sont les enjeux économiques et géostratégiques associés ?
Ces constellations conduisent à une densification de l’espace et à
une multiplication des lancements et des débris. Elles ont un impact
négatif sur sur l’observation astronomique dans le domaine optique et dans
celui de la radioastronomie. Quels sont les dangers encourus avec la
multiplication des débris en orbite basse ? Quel est l’impact des lancements
sur la stratosphère et celui des rentrées de satellites dans l’atmosphère ?
Un groupe de travail de l’Académie des sciences s’est penché sur le sujet,
a auditionné de nombreux spécialistes, et publié un rapport en mars 2024,
rédigé par François Baccelli, Sébastien Candel, Guy Perrin et Jean-Loup
Puget.
Les deux premiers auteurs nous éclairent sur le sujet. Serge Abiteboul (qui a
participé au groupe de travail), voici la deuxième partie de ce partage, après la première.

Impact sur l’astronomie

Le lancement de milliers de satellites en orbite basse change fondamentalement l’accès de l’être humain au ciel nocturne. Ses effets se font déjà ressentir pour l’astronomie au sol dans un ensemble de domaines.

Pour l’astronomie optique (incluant l’infrarouge proche et moyen), le problème principal est celui de la réflexion du flux solaire par les satellites défilant dans le champ de vision des télescopes avec des effets marqués au lever et au coucher du Soleil avec des effets marqués sur la prise d’images par les instruments à grand champ de vue. S’il y a une bonne coopération avec Starlink pour la réduction de la lumière solaire réfléchie par les satellites, le futur est loin d’être sous contrôle avec la multiplication des interlocuteurs et des constellations stratégiques et commerciales.

Pour la radioastronomie, la perspective d’une perturbation permanente venant par le haut est préoccupante. La politique de sanctuaire radio local (qui consiste à ne pas émettre dans les régions qui hébergent les grands observatoires radio) acceptée par Starlink atténue les problèmes pour les fréquences adjacentes à celles des émissions des satellites. Mais les électroniques des satellites rayonnent aussi à basse fréquence et constituent une source de bruit pour les observations radio dans une autre gamme de fréquences même si les émissions de signaux de télécommunication des satellites sont momentanément interrompues. À cela s’ajoute des besoins de protection des observations en mode interférométrique qui impliquent des installations réparties sur plusieurs continents et nécessitent des actions coordonnées spécifiques.

Les conséquences négatives pour l’astronomie d’une multiplication incontrôlée de ces constellations doivent impérativement être prises en compte et des mesures pour pallier ces problèmes doivent être mises en œuvre par leurs promoteurs.

Exemple de traces produites en astronomie optique par 25 satellites Starlink en mai 2019 sur le groupe de galaxies NGC 5353/4. Crédits : V. Girgis/Lowell Observatory

Impact sur l’environnement

Dans un contexte de multiplication des lancements, il est important d’examiner la question de l’impact des émissions sur la haute atmosphère. Ces émissions dépendent du type de motorisation, de la masse au décollage et du nombre de lancements. C’est le lanceur Falcon de SpaceX qui réalise actuellement le plus grand nombre de lancements, plus d’une centaine en 2023.

Les émissions correspondantes de 140 kilotonnes de carbone, de vapeur d’eau, d’hydrocarbures imbrûlés et de particules de suies sont en valeur absolue relativement faibles si on les compare à celles issues des transports mais elles sont cependant non-négligeables car ces émissions vont s’accumuler dans la haute atmosphère. C’est le cas notamment des particules de carbone, désignées sous le nom de “black carbon » (BC), qui sont nettement plus nombreuses par unité de masse de kérosène, dans les gaz éjectés par les moteurs du lanceur, et nettement plus importante que celles qui existent dans les jets des moteurs d’avion (le rapport serait de l’ordre de 10⁴). Comme une partie de ces émissions est faite au-dessus de la tropopause, les aérosols formés par les particules BC peuvent s’accumuler pendant plusieurs années, interagir avec la couche d’ozone, modifier le bilan radiatif et changer la distribution de température. Il y a des incertitudes sur ces effets, car les niveaux d’émissions sont faibles, mais la question de l’impact sur la haute atmosphère mérite d’être approfondie. L’impact sur l’environnement des fins de vie opérationnelle des satellites est lui aussi à prendre en compte même si la masse associée au retour sur Terre de 2400 objets, d’une masse totale de 340 tonnes, reste finalement modérée par rapport aux 15 à 20000 tonnes de météorites qui pénètrent chaque année dans l’atmosphère terrestre.

Un problème majeur est celui des débris spatiaux. Il y aurait déjà en orbite un demi-million à un million de débris de 1 à 10 cm et cent à cent trente millions de taille entre 1 mm et 1 cm selon l’ESA et la NASA. Sur les 14 000 satellites en orbite, environ 35% ont été lancés au cours de ces trois dernières années et 100 000 autres sont prévus dans la décennie à venir, toujours selon l’ONU. Ces données communiquées – récemment par l’AFP montrent la nécessité de la mise en place d’une régulation contraignante sur le contrôle des fins de vie opérationnelle des satellites.

Objets catalogués de plus de 10 cm – NASA, 2022

Nécessité d’un renforcement de la régulation internationale

L’analyse des impacts négatifs fait apparaître un besoin de régulation internationale d’un domaine qui pour le moment se développe en l’absence de toute contrainte (si ce n’est celle du coût des lancements) et elle souligne la nécessité d’initiatives et d’actions engagées par les parties prenantes pour identifier des principes et des codes de bonnes pratiques qui puissent être adoptés par un nombre croissant de pays. Une autre question importante est celle des solutions techniques permettant de prendre en compte ces impacts négatifs et de se prémunir des scénarios les plus inquiétants. Les règles internationales se construisent par l’identification de principes et de codes de bonne pratique adoptés par un nombre croissant de pays. Plusieurs exemples d’efforts de ce type sont décrits dans le rapport. Il est essentiel que les États et les communautés scientifiques concernées contribuent à la formalisation de ces principes et codes dans le but d’obtenir rapidement une régulation internationale du secteur.

Constat d’ensemble et perspectives

Les constellations de satellites ouvrent des perspectives intéressantes, elles offrent des possibilités nouvelles pour les communications, l’observation de la Terre, la géolocalisation et la connectivité et cela, avec des capacités de résilience supérieures à celles des infrastructures terrestres. Sans pouvoir remplacer les réseaux actuels pour l’accès à internet, elles peuvent compléter ces réseaux et assurer une couverture des zones blanches dans lesquelles cet accès n’est pas disponible ou encore permettre des connexions lorsque ces infrastructures sont détruites à la suite de catastrophes naturelles ou de conflits armés. Les constellations de satellites font aussi apparaître des enjeux de souveraineté résultant de la dépendance et de la perte de contrôle induite par la prééminence de certains acteurs privés. L’expansion du nombre et de la taille des constellations pose aussi des questions majeures en matière d’impact sur l’environnement spatial par la densification en satellites et en débris, sur l’environnement atmosphérique par l’augmentation du nombre de lancements et par les retours sur Terre des satellites en fin de vie opérationnelle. Dans un contexte de croissance incontrôlée qui prévaut actuellement, l’augmentation du nombre d’objets en orbite fait que les manœuvres d’évitement deviennent de plus en plus fréquentes et elle conduit à une multiplication du nombre de collisions. L’impact des constellations sur l’astronomie est également préoccupant car il touche à la fois les observations optiques et infrarouges et celles qui sont réalisées dans le domaine radioélectrique. L’analyse des impacts négatifs fait apparaître un besoin de régulation internationale d’un domaine qui pour le moment évolue en l’absence de toute contrainte (si ce n’est celle du coût des lancements) et elle souligne la nécessité d’initiatives et d’actions engagées par les parties prenantes pour identifier des principes et des codes de bonnes pratiques qui puissent être adoptés par un nombre croissant de pays.

François Baccelli, Inria et Télécom-Paris, membre de l’Académie des sciences et Sébastien Candel, Centrale Supélec, membre de l’Académie des sciences

10 mai 202426 avril 2024

Grandes Constellations de Satellites, première partie

Nous assistons au déploiement de constellations de satellites avec des
dizaines de milliers de satellites en orbite basse. Les fonctionnalités
de ces constellations sont essentiellement les télécommunications haut-débit,
la géolocalisation et l’observation de la Terre. Quelles sont les avancées
scientifiques et technologiques qui permettent ces développements ?
Quels sont les enjeux économiques et géostratégiques associés ?
Ces constellations conduisent à une densification de l’espace et à
une multiplication des lancements et des débris. Elles ont un impact
négatif sur sur l’observation astronomique dans le domaine optique et dans
celui de la radioastronomie. Quels sont les dangers encourus avec la
multiplication des débris en orbite basse ? Quel est l’impact des lancements
sur la stratosphère et celui des rentrées de satellites dans l’atmosphère ?
Un groupe de travail de l’Académie des sciences s’est penché sur le sujet,
a auditionné de nombreux spécialistes, et publié un rapport en mars 2024,
rédigé par François Baccelli, Sébastien Candel, Guy Perrin et Jean-Loup
Puget.
Les deux premiers auteurs nous éclairent sur le sujet. Serge Abiteboul (qui a
participé au groupe de travail) : voici la première partie de ce partage en deux parties.

Introduction

Cet article rassemble quelques points clés d’un rapport de l’Académie de sciences. Il traite d’abord des nouvelles fonctionnalités des constellations de satellites dans l’accès à l’Internet, l’observation de la Terre, la géolocalisation, l’interaction avec des objets connectés. Les principaux enjeux et l’évolution du domaine sont analysés dans un premier temps. Comme toute nouvelle avancée technologique, ces constellations soulèvent aussi, de nombreuses questions, et notamment celles relatives à l’encombrement de l’espace, avec l’augmentation du nombre d’objets satellisés et de débris issus de ces objets et de leur lancement, la croissance des collisions qui peut en résulter et d’autre part de l’impact sur les observations astronomiques dans les domaines optiques et radio. Ce rapport met ainsi en évidence un défi majeur, celui de la cohabitation d’une ceinture satellitaire sécurisée et durable évitant la pollution par ses débris et de l’accès au ciel de l’astronomie, la plus ancienne des sciences, celle qui a été à la source des connaissances et qui a encore beaucoup à nous apprendre. Avec la montée en puissance d’acteurs et investisseurs privés dans un domaine qui était initialement réservé aux États, ce rapport fait apparaître des enjeux géostratégiques et des enjeux de souveraineté. Il soutient la mise en place d’une régulation internationale du secteur mais souligne également la nécessité d’une participation de la France et de l’Europe à ces développements.

Un utilisateur final (U) accède à une station d’ancrage du réseau internet (A) via des satellites

Les fonctionnalités des constellations

Les nouvelles constellations de satellites en orbite basse ou moyenne ouvrent des perspectives dans trois grands domaines qui sont les communications haut-débit, l’observation de la Terre et la géolocalisation. Les constellations offrant le haut-débit sont encore peu nombreuses mais elles impliquent, pour certaines, un très grand nombre de satellites. Les constellations destinées à l’observation de la Terre ou à la géolocalisation comportent un nombre plus réduit de satellites mais sont bien plus nombreuses. Il est à remarquer, cependant, qu’en ce qui concerne l’accès haut-débit à l’Internet, les réseaux à base de constellations ne pourront remplacer les réseaux terrestres mais qu’ils devraient plutôt offrir un complément notamment pour la couverture des zones blanches et des territoires enclavés ou encore pour la couverture haut-débit des navires et des avions.

Des protocoles pour les communications entre satellites en orbites basses sont en cours de normalisation. Ceci pourrait conduire à terme à un cœur de réseau Internet spatial avec des fonctionnalités et des mécanismes de routage propres à la dynamique des constellations. Certaines fonctions qui sont actuellement celles des routeurs Internet et des stations de base de la 5G pourraient à terme devenir des fonctions embarquées dans les satellites de cet Internet spatial, comme par exemple le traitement du signal, le routage ou même le calcul en périphérie de réseaux (edge computing). Cet Internet spatial a cependant des limites associées à la puissance électrique disponible à bord des satellites, qui est elle-même fonction de la surface des panneaux solaires qui peuvent être embarqués sur lanceurs et déployés dans l’espace.

Enjeux

Une question clé, dans le domaine des télécommunications, est celle du contrôle de ces nouvelles classes de réseaux. On note par exemple que les réseaux de communications fondés sur des flottes de satellites, s’affranchissent de fait, sinon de droit, de toutes les règles qui sont imposées par les États aux opérateurs des réseaux terrestres offrant des services sur leur sol. Cette perte de contrôle concerne tous les aspects les plus fondamentaux : les mécanismes d’attribution des fréquences, les règles de confidentialité sur les conversations ou les données transmises, les règles de localisation des cœurs de réseaux, etc. Dès aujourd’hui, ces réseaux peuvent se passer complètement de stations d’ancrage dans les pays qu’ils couvrent. Le déploiement de ces réseaux dans leurs formes actuelles (typiquement celle de la constellation Starlink) induit une perte de souveraineté directe des États sur ce secteur.

Une seconde question a trait au modèle économique des grandes constellations destinées à la couverture internet haut-débit. On sait, en effet, que les entreprises qui se sont engagées dans la mise en place des premières constellations de ce type ont toutes fait faillite et il n’est pas certain que les constellations déployées aujourd’hui puissent atteindre l’équilibre économique et devenir viables à long terme. La réponse à cette seconde question dépendra sans doute des résultats de la course actuelle à l’occupation de l’espace ainsi que de la nature des interactions et accords entre ces réseaux satellitaires et les réseaux terrestres de type 5G. Elle dépendra aussi de l’évolution de la taille et du prix des antennes permettant à un utilisateur final muni d’un téléphone portable de communiquer efficacement avec un satellite.

Les enjeux en termes de souveraineté apparaissent ainsi comme les raisons les plus fortes pour le développement de ces constellations car ces dernières procurent à ceux qui les contrôlent un moyen de communication haut-débit sécurisé à faible latence qui est aussi caractérisé par sa résilience. Cette résilience vient du fait que les flottes de satellites restent en grande partie fonctionnelles en cas de catastrophe naturelle et de destruction des réseaux terrestres. Elles sont par ailleurs difficiles à détruire puisque constituées de nombreuses plateformes en mouvement rapide dans des flottes organisées de façon fortement redondante. La latence faible des constellations en orbite basse joue un rôle central dans le contexte du temps réel critique car leur couverture universelle permet l’observation instantanée d’événements survenant en tout point de la planète et elle offre de nouveaux moyens d’interaction.

Évolution dans le temps du nombre des satellites en fonction de l’altitude entre 200 et 2000 km (CNES).

Évolution du domaine

Le domaine dans son ensemble est dans une phase très dynamique avec beaucoup d’innovations dans le domaine industriel, une expansion rapide du NewSpace aux États-Unis, une volonté au niveau de la Commission Européenne de lancer une constellation, l’émergence de nouveaux États spatiaux et d’acteurs privés, de nouveaux formats de lanceurs (petits lanceurs, lanceurs réutilisables), une réduction des coûts de lancement associée notamment à la réutilisation. Il en résulte une multiplication des projets de constellations et une explosion du nombre des satellites en orbite basse ou moyenne.

Cette dynamique repose sur des progrès scientifiques et des innovations technologiques dans le domaine des télécommunications, de l’informatique du traitement de l’information, de la focalisation dynamique, de l’électromagnétisme et des communications radio, des systèmes de communication optiques inter-satellites, de la miniaturisation de l’électronique embarquée, des systèmes de propulsion à bord des satellites (propulsion plasmique) ainsi que sur des avancées dans l’accès à l’espace, les télécommunications et l’informatique. Cette dynamique exploite les résultats des recherches dans le domaine des communications portant notamment sur (i) la théorie de l’information multi-utilisateurs, sur le codage pour la maîtrise de liens radio avec les satellites, avec des questions nouvelles comme par exemple celle de la focalisation adaptative des antennes (MIMO massif et dynamique) ou encore celle du contrôle des interférences ; (ii) la définition de nouveaux protocoles de routage adaptés à la dynamique très rapide du graphe des satellites et des stations d’ancrages ; (iii) l’identification d’architectures optimales pour les fonctionnalités de haut débit ou d’observation dans un ensemble de régions donné de la Terre.

François Baccelli, Inria et Télécom-Paris, membre de l’Académie des sciences et Sébastien Candel, Centrale Supélec, membre de l’Académie des sciences

03 mai 202403 mai 2024

Qui a voulu effacer Alice Recoque ? Sur les traces d’une pionnière oubliée de l’IA

Un billet à propos d’un livre. Nous avons demandé à Isabelle Astic, Responsable des collections Informatique au Musée des arts et métiers, de nous faire partager son avis du livre de Marion Carré à propos de Alice Recoque. Pierre Paradinas

Le titre de l’ouvrage de Marion Carré, un brin provocateur : « Qui a voulu effacer Alice Recoque ?», pourrait laisser penser qu’Alice Recoque est un de ces avatars informatiques issu des jeux vidéo. Mais c’est bien une femme en chair et en os qu’elle nous présente.

Ce titre est celui du premier chapitre, introductif, durant lequel l’autrice nous décrit les complications rencontrées pour que Alice Recoque puisse avoir sa page dans Wikipédia. Ou la double peine de l’effet Matilda : la minimalisation du rôle des femmes dans la recherche a pour conséquence qu’elles sont autrices de peu d’articles scientifiques, c’est pourquoi elles ne sont donc pas jugées dignes d’un article dans Wikipédia.

Les chapitres suivants décrivent la vie et la carrière d’Alice Recoque, contextualisées dans l’histoire quotidienne ou professionnelle de son époque. Ils s’appuient sur un témoignage de première main : les mémoires de Mme Recoque. Son enfance en Algérie, ses études à l’ENSPCI, à Paris, sont l’occasion de parler du contexte international et de la guerre qui ont imprégné l’enfance et l’adolescence de la jeune Alice, de l’ambiance familiale qui a forgé certains traits de son caractère, de sa capacité à sortir des chemins convenus grâce à certaines figures inspirantes de son entourage.

Ces premiers chapitres expliquent les suivants, consacrés plutôt à son expérience professionnelle. La SEA (Société d’Électronique et d’Automatisme) d’abord, jeune pousse créée par un ingénieur clairvoyant, François-Henri Raymond, qui a très tôt compris l’avenir de l’informatique. Elle s’y épanouit et développe ses connaissances en conception d’ordinateur, en hardware. Puis la CII, dans laquelle doit se fondre la SEA sous l’injonction du Plan Calcul, qui devient CII-Honeywell Bull, puis Bull. Elle prend peu à peu des galons pour gérer finalement une équipe qui va construire le mini-ordinateur qu’elle a en tête, le Mitra 15. Enfin, c’est la découverte de l’Intelligence Artificielle, lors d’un voyage au Japon, domaine dans lequel Bull acceptera de s’engager, opportunité pour Alice Recoque de passer du matériel au logiciel.

En parallèle de la vie d’Alice Recoque, nous suivons le développement de l’industrie informatique en France. Nous assistons à ses débuts où il y avait tout à faire : le processeur à concevoir, les techniques de mémorisation à imaginer. L’ouvrage décrit l’effervescence d’une jeune entreprise, poussée par cette nouveauté, par l’exaltation de la découverte, par les visions de son fondateur mais aussi par les risques et les difficultés qu’elle rencontre pour survivre. Avec l’évolution de la carrière d’Alice Recoque, nous suivons les hauts et les bas de cette industrie, à travers l’entreprise Bull. Mais l’ouvrage dresse également, et surtout, le portrait d’une femme de sciences et de techniques, qui s’engage dans un univers d’homme. Il nous décrit ses questionnements, ses choix, les heurs et malheurs d’une vie. Cet angle du livre créé une empathie avec Mme Recoque, ouvrant un dialogue entre son époque et la nôtre. C’est donc un voyage dans le contexte social, économique, technique et informatique de l’époque qu’il nous propose.

Certains diront que ce n’est pas un ouvrage d’historien. Et il est vrai qu’en suivant la vie d’Alice Recoque, nous manquons parfois un peu de recul. Certains points pourraient demander des approfondissements, comme le rôle de la politique sociale et l’organisation d’une entreprise dans les possibilités de carrière des femmes. De même, on peut s’interroger sur la part et le rôle de l’état dans le succès du Mitra 15, sans remettre en question la qualité du travail d’Alice Recoque. Mais Marion Carré ne revendique pas un rôle d’historienne. Elle préfère parler d’ « investigations » et son ouvrage est effectivement le résultat d’un long travail d’enquête, de la recherche de ses sources à l’analyse qu’elle en fait, qui offre de nombreuses perspectives à des travaux scientifiques.

Photo Aconit

Marion Carré a su faire un beau portrait de femme dans un ouvrage facile à lire, qui ne s’aventure pas dans les descriptions techniques ardues pouvant rebuter certains ou certaines et qui ne se perd pas non plus dans les méandres d’une vie familiale et personnelle. Il est l’un des rares livres consacré à une femme informaticienne française, à une femme de science contemporaine qui a su se donner un rôle dans l’émergence de l’industrie de l’informatique en France. Grâce aux rencontres provoquées, aux sources retrouvées, Alice Recoque est enfin sortie de l’ombre. Espérons que d’autres portraits d’informaticiennes verront bientôt le jour, comme celui de Marion Créhange, première femme à soutenir une thèse en informatique en France (1961), qui nous avait régalé, sur le site d’Interstices, d’une randonnée informatique quelques mois avant son décès. Ces portraits contribueraient sans aucun doute à ce que de jeunes femmes puissent se rêver, à leurs tours, informaticiennes.

Isabelle Astic, Musée des Arts et Métiers (Paris)

26 avril 202426 avril 2024

Faire écran à l’usage des écrans : un écran de fumée ?

Les enfants et les écrans : attention ! Oui mais à quoi ? Et comment ? Gérard Giraudon et Thierry Viéville nous rassemblent des références et des éléments pour nous montrer que [dé]laisser les enfants devant les écrans est bien négatif et qu’il est préférable d’y aller avec elles et eux. Dans cet article, après par exemple [10], on questionne non seulement la pratique des enfants mais aussi « notre ´´ pratique de parents face à nos enfants. Marie-Agnès Enard et Pascal Guitton.

Il existe des effets négatifs du numérique sur notre vie et notre santé ainsi que celles de nos enfants [0], tout particulièrement lors d’un mésusage . Les scientifiques en informatique en sont conscient·e·s et font partie de celles et ceux qui alertent sur le sujet [0], et relaient les travaux scientifiques d’autres disciplines qui permettent de comprendre le caractère négatif potentiel de ces effets et de les dépasser [9]. On parle ici de résultats scientifiques [9,11] au delà de l’emballement des médias alimenté par les promoteurs des “paniques morales” ([9], pp 4).

L’angle d’attaque de telles paniques est souvent résumé par le seul terme “écran”, la plupart du temps associé au mot “enfant”, faisant ainsi un amalgame entre contenant et contenu, entre adultes et société. Il en ressort généralement des questions mal posées qui ne peuvent conduire qu’à des polémiques faisant peu avancer le débat. Par ailleurs, la question des impacts de la technologie sur le développement de l’enfant est fondamentale et le numérique n’y échappe pas.

Abordons ici la question des contenus. Les études scientifiques sur l’impact des “contenus numériques disponibles à travers différentes interfaces matérielles” qu’on réduit souvent au seul “écran” alors qu’on pourrait par exemple y inclure aussi des systèmes robotisés. Mais concentrons nous ici sur les interfaces que l’on nommera par abus de langage, pour la facilité d’écriture, encore “écran”. Les résultats sont difficiles à interpréter car il manque un cadre de comparaison formel par exemple pour établir et mesurer la dépendance [1]. On note par ailleurs que les effets négatifs des écrans sont plus importants dans les populations moins favorisées [4]. À l’inverse, les effets cognitifs des écrans peuvent être positifs [4,5,6] mais pas en cas d’usage avant le sommeil, qu’ils perturbent [3].

On doit donc avant tout considérer les usages qui en sont faits et arrêter de considérer le paramètre de durée (temps devant les écrans) qui occulte d’autres éléments au moins aussi importants [1,3] comme illustrés ci-après.

Les études les plus fines distinguent les usages, en particulier passif (comme la télévision) versus actif, autrement dit isolé (on « colle » l’enfant devant les écrans) opposé à coopératif.

C’est l’usage de ces écrans pour « occuper » les enfants pendant que les adultes vaquent à leurs autres tâches qui présente un effet délétère [2].

Au delà, une plus grande quantité d’utilisation de l’écran (c’est-à-dire des heures par jour/semaine) est associée négativement au développement du langage de l’enfant, tandis qu’une meilleure qualité d’utilisation de l’écran (c’est-à-dire des programmes éducatifs et un visionnage conjoint avec les adultes éduquant) est positivement associée aux compétences linguistiques de l’enfant [3].

Comparons « screen-time » versus « green-time » [4], c’est à dire le temps passé dans l’environnement extérieur (ex: forêt, parc public). On observe là encore qu’il faut distinguer l’usage modéré avec des contenus choisis et un accompagnement éducatif qui a des effets positifs, de l’inverse qui peut avoir un effet négatif, voire très négatif. Le « green-time » limite les effets cognitifs négatifs des écrans, au delà de l’effet bien connu de l’hyper sédentarité qui conduit à des troubles physiologiques dérivés [6].

C’est donc, au niveau cognitif et éducatif essentiellement un enjeu de contenu numérique. Ainsi, la lecture sur écran est moins efficace que sur un livre papier, sauf si le contenu est « augmenté » (accès à un lexique, récit interactif, …) [5], en notant que la lecture en interaction avec une personne éducative référente augmente les performances dans les deux cas.

On insistera finalement sur ce que la communauté de l’éducation à l’informatique sait depuis longtemps :

–comprendre comment fonctionnent les ordinateurs conduit à un bien meilleur usage récréatif et éducatif, et aussi souvent moins dépendant [7] ;

– pour apprendre les concepts informatiques, les « activités débranchées » où on « éteint son écran pour aller jouer au robot dans la cour » sont les plus efficaces au niveau didactique et pédagogique [8].

Pour moins utiliser les écrans, le plus important est de commencer à les utiliser mieux.

Gérard Giraudon et Thierry Viéville.

Références :

[0] https://www.lemonde.fr/blog/binaire/2023/10/06/ntic-etat-des-lieux-en-france-et-consequences-sur-la-sante-physique-partie-1/
[1] https://www.sciencedirect.com/science/article/pii/S0190740922000093
[2] https://www.pafmj.org/index.php/PAFMJ/article/view/6648
[3] https://jamanetwork.com/journals/jamapediatrics/article-abstract/2762864
[4] https ://journals.plos.org/plosone/article?id=10.1371/journal.pone.0237725
[5] https://journals.sagepub.com/doi/full/10.3102/0034654321998074
[6] https://www.sciencedirect.com/science/article/pii/S0765159711001043
[7] https://inria.hal.science/hal-03051329
[8] https://inria.hal.science/hal-02281037
[9] https://www.cairn.info/les-enfants-et-les-ecrans–9782725643816-page-150.htm
[10] https://naitreetgrandir.com/fr/etape/1_3_ans/jeux/usage-ecrans-parents-equilibre
[11] https://www.u-bordeaux.fr/actualites/Addiction-aux-écrans-mythe-ou-réalité

19 avril 202420 avril 2024

Fact checking : l’intelligence artificielle au service des journalistes

Les progrès récents de l’intelligence artificielle générative , outils qui permettent de produire du texte, du son, des images ou des vidéos de manière complètement automatique, font craindre une diffusion massive de fausses informations qui risquent de devenir de plus en plus « authentique ». Comment font les journalistes pour adresser ce sujet ?

Merci à inria.fr qui nous offre ce texte en partage, originalement publié le 06/02/2024. Ikram Chraibi Kaadoud

Comment savoir, parmi la masse d’informations diffusées chaque jour sur les réseaux sociaux ou par des personnalités publiques, où se cachent les erreurs et les mensonges ? C’est tout l’enjeu du fact checking… mais le chantier est titanesque. Estelle Cognacq, directrice adjointe de France Info, et Ioana Manolescu, responsable de l’équipe-projet Inria Cedar, nous expliquent comment journalistes et chercheurs se sont associés pour y faire face, en s’appuyant sur l’intelligence artificielle et les sciences des données.

Portraits Estelle Cognacq et Ioana Manolescu

Portrait Estelle Cognacq à gauche – © Christophe Abramowitz – Radio France / Portrait Ioana Manolescu à droite – ©Ioana Manolescu

**À vos yeux, quels sont les défis à relever par les journalistes en matière de fact checking aujourd’hui ?**

Estelle Cognacq : Franceinfo s’est engagé dans la lutte contre la désinformation et pour la restauration de la confiance dans les médias depuis plus de 10 ans : la première chronique « Vrai ou faux » date par exemple de 2012 et un service spécial, dédié au fact checking, a été créé en 2019. Les journalistes qui y travaillent se sont fixé deux objectifs. D’une part, puisqu’il est impossible d’éradiquer les fausses informations, nous cherchons à donner au grand public les outils qui lui permettent de développer un esprit critique, de remettre en question ce qu’il voit, ce qu’il lit, ce qu’il entend. Nous allons donc expliquer notre façon de travailler, donner des astuces sur la façon de détecter des images truquées par exemple.

D’autre part, nous allons nous saisir directement des fausses informations qui circulent, lorsque celles-ci entrent en résonance avec la démocratie, la citoyenneté ou les questions d’actualité importantes, pour établir les faits. Mais plus il y a de monde sur les réseaux sociaux, plus des informations y circulent et plus les journalistes ont besoin d’aide : l’humain a ses limites lorsqu’il s’agit de trier des quantités phénoménales de données.

Iona Manolescu : Et c’est justement là tout l’intérêt des recherches que nous menons au sein de l’équipe-projet Cedar, (équipe commune au centre Inria de Saclay et à l’Institut Polytechnique de Paris, au sein du laboratoire LIX), qui est spécialisée en sciences des données et en intelligence artificielle (IA). Sur la question du fact checking, il nous faut d’un côté vérifier automatiquement une masse d’informations, mais de l’autre, nous disposons de quantités de données de qualité disponibles en open source, sur les bases statistiques officielles par exemple. La comparaison des unes aux autres constitue un procédé éminemment automatisable pour vérifier davantage et plus vite.

Et c’est pourquoi un partenariat s’est noué entre Radio France et Cedar… Comment a-t-il vu jour ?

I.M. : De 2016 à 2019, l’un de mes doctorants avait travaillé sur un premier logiciel de fact checking automatique, baptisé StatCheck, dans le cadre du projet ANR ContentCheck que j’avais coordonné, en collaboration avec Le Monde. Ce projet est arrivé jusqu’aux oreilles d’Eric Labaye, président de l’Institut polytechnique de Paris, qui en a lui-même parlé à Sybile Veil, directrice de Radio France. De là est née l’idée d’une collaboration entre chercheurs d’Inria et journalistes de Radio France. Du fait de la pandémie de Covid, il a fallu attendre l’automne 2021 pour que celle-ci se concrétise.

E.C. : Notre objectif était vraiment de partir des besoins de nos journalistes, de disposer d’un outil qui les aide efficacement au quotidien. Antoine Krempf, qui dirigeait la cellule « Vrai ou faux » à l’époque, a par exemple dressé la liste des bases de données qu’il souhaitait voir prises en compte par l’outil.

Toutes les semaines, nous avions également un point qui réunissait les deux ingénieurs en charge du projet chez Inria et les journalistes : l’occasion pour les premiers de présenter l’évolution de l’outil et pour les seconds de préciser ce qui manquait encore ou ce qui leur convenait. Et ces échanges se poursuivent aujourd’hui. Croiser les disciplines entre chercheurs et journalistes dans une optique de partage est très intéressant.

I.M. : Au cours de ce processus, nous avons réécrit tout le code de StatCheck, travaillé sur la compréhension du langage naturel pour permettre à l’outil d’apprendre à analyser un tweet par exemple, avec la contribution essentielle de Oana Balalau, chercheuse (Inria Starting Faculty Position) au sein de l’équipe Cedar. Deux jeunes ingénieurs de l’équipe, Simon Ebel et Théo Galizzi, ont échangé régulièrement avec les journalistes pour imaginer et mettre au point une nouvelle interface, plus agréable et plus adaptée à leur utilisation.

**Ce logiciel est-il maintenant capable de faire le travail du « fact checker » ?**

I.M. : Aujourd’hui, StatCheck est à la disposition de la dizaine de journalistes de la cellule « Le vrai du faux »… mais il ne les remplace pas ! D’abord parce que nous ne pouvons pas atteindre une précision de 100% dans l’analyse des informations. Donc le logiciel affiche ses sources pour le journaliste, qui va pouvoir vérifier que l’outil n’a pas fait d’erreur. Ensuite, parce que l’humain reste maître de l’analyse qu’il produit à partir du recoupement de données réalisé par StatCheck.

E.C. : Ainsi, chaque journaliste l’utilise à sa manière. Mais cet outil s’avère particulièrement précieux pour les plus jeunes, qui n’ont pas forcément encore l’habitude de savoir où regarder parmi les sources.

**Quels sont les développements en cours ou à venir pour StatCheck ?**

E.C. : Nous profitons déjà de fonctionnalités ajoutées récemment, comme la détection de données quantitatives. Nous avons entré dans StatCheck des dizaines de comptes Twitter (devenu X) de personnalités politiques et le logiciel nous signale les tweets qui contiennent des données chiffrées. Ce sont des alertes très utiles qui nous permettent de rapidement repérer les informations à vérifier.

L’outil a également été amélioré pour détecter la propagande et les éléments de persuasion dans les tweets. Nous utilisons cette fonctionnalité sur du plus long terme que le fact checking : elle nous permet d’identifier les sujets qu’il pourrait être pertinent de traiter sur le fond.

I.M. : Pour l’instant, StatCheck va puiser dans les bases de données de l’Insee (Institut national de la statistique et des études économiques) et d’EuroStat, la direction générale de la Commission européenne chargée de l’information statistique. Mais dans la liste établie par Antoine Krempf, il y a aussi une kyrielle de sites très spécialisés comme les directions statistiques des ministères. Le problème est que leurs formats de données ne sont pas homogènes. Il faut donc une chaîne d’analyse et d’acquisition des informations à partir de ces sites, pour les extraire et les exploiter de manière automatique. Les deux ingénieurs du projet sont sur une piste intéressante sur ce point.

Et votre partenariat lui-même, est-il amené à évoluer ?

E.C. : Nous sommes en train de réfléchir à son inscription dans une collaboration plus large avec Inria, en incluant par exemple la cellule investigation et la rédaction internationale de Radio France, pourquoi pas au sein d’un laboratoire IA commun.

I.M. : Nous avons d’autres outils qui pourraient être utiles aux journalistes de Radio France, comme ConnectionLens. Celui-ci permet de croiser des sources de données de tous formats et de toutes origines grâce à l’IA… Pratique par exemple pour repérer qu’une personne mentionnée dans un appel d’offres est la belle-sœur d’un membre du comité de sélection de l’appel d’offres ! Là encore, le journaliste restera indispensable pour identifier le type d’information à rechercher, ainsi que pour vérifier et analyser ces connexions, mais l’outil lui fournira des pièces du puzzle. En fait, toutes les évolutions sont envisageables… elles demandent simplement parfois du temps !

12 avril 202407 mai 2024

Ce qu’on sait et ce qu’on ne sait pas sur les effets environnementaux de la numérisation

Gauthier Roussilhe est doctorant au RMIT. Il étudie la façon dont nos pratiques numériques se modifient dans le cadre de la crise environnementale planétaire en proposant une vision systémique, de l’extraction des matières à la fin de vie, et des infrastructures à l’usage des services numériques. Antoine Rousseau & Ikram Chraibi Kaadoud

On pourrait penser que les conséquences environnementales de la numérisation est un sujet récent , or cela fait bientôt 30 ans qu’on se demande quel est son poids environnemental et si numériser aide à la transition écologique. En 1996, l’Information Society Forum fait le constat suivant : « La plupart des experts ne pensent pas que le développement durable soit réalisable sans les technologies de l’information, mais ils ne sont pas non plus sûrs qu’il soit garanti avec elles. […] Il existe un risque d’effet « rebond » par lequel ils pourraient stimuler de nouvelles demandes de consommation matérielle » (ISF, 1996, 30). 26 ans plus tard, en 2022, le 3e groupe de GIEC proposait une synthèse peu encourageante : « Pour le moment, la compréhension des impacts directs et indirects de la numérisation sur la consommation d’énergie, les émissions de carbone et le potentiel d’atténuation est limité » (IPCC, 2022, 132). Est-ce que cela veut dire pour autant que nous n’avons pas progressé sur le sujet depuis 30 ans ? Loin de là, revenons ensemble sur l’état de l’art de la recherche scientifique sur les deux questions principales de ce champ : l’empreinte environnementale du secteur et les effets environnementaux de la numérisation dans les autres secteurs.

L’empreinte carbone du secteur numérique
La production des savoirs scientifiques dans ce domaine s’est concentrée principalement sur l’empreinte environnementale du secteur numérique, c’est-à-dire le poids écologique lié à la fabrication, l’usage et la fin de vie de tous les équipements et services qui composent ce secteur. Il y a assez peu d’articles de recherche qui se sont aventurés dans l’estimation mondiale du secteur. Ces dernières il y a trois estimations concurrentes (Andrae & Edler, 2015 (remplacé par Andrae 2020) ; Malmodin & Lundén, 2018 ; Belkhir & Elmeligi, 2018). Freitag et al ont proposé une analyse de ces travaux proposant que les émissions du secteur numérique représentaient en 2020 entre 2,1 et 3,9% des émissions mondiales (1,2-2,2 Gt eq-CO2). Le plus important ici n’est pas forcément cette estimation mais la tendance de ces émissions, or, depuis juin 2023, la communauté scientifique sur ce sujet est plus ou moins arrivé à un consensus : les émissions du secteur augmentent. Ce n’est pas une croissance exponentielle mais l’arrivée massive de nouveaux types d’équipements comme les objets connectés donne à voir plutôt une augmentation annuelle constante. Et nous n’avons pas mis à jour nos projections avec le nouveau marché de l’IA, d’autant plus que les premiers travaux d’estimation semblent inquiétants. Concernant les autres facteurs environnementaux, épuisement de ressources minérales, utilisation d’eau, pollutions des sols et des eaux, etc nous ne disposons aujourd’hui d’aucune estimation d’envergure ni de vision claire même si de nombreux projets de recherche avancent sur ces questions.

Les centres de données
Dans le travail de modélisation, nous privilégions pour l’instant la découpe du secteur en trois tiers : les centres de données, les réseaux et les équipements utilisateurs. Chacun de ces tiers poursuit sa propre trajectoire qu’il est nécessaire d’aborder. En premier lieu, les centres de données ont fait l’objet de travaux de fond sur leur consommation électrique pour ensuite obtenir des émissions carbone. Deux estimations font référence, celle de Masanet et al (2018) à 205 TWh de consommation électrique mondiale et celle de l’Institut Borderstep à 400 TWh. L’Agence Internationale de l’Énergie (IEA) a utilisé la première estimation pendant quelques années mais a revu ses travaux récemment et propose plutôt une fourchette entre 220 et 320 TWh (cela exclut la consommation électrique des cryptomonnaies qui est comptée à part par l’IEA). Il existe bien aussi un consensus sur l’augmentation croissante de la consommation électrique des centres de données mais les opérateurs misent sur l’achat ou la production d’énergie bas carbone pour décorreler consommation d’électricité et émissions de carbone avec plus ou moins de succès. Encore une fois ces chiffres ne prennent en compte que l’usage des centres de données et n’intégrent pas les impacts environnementaux liés à la fabrication des serveurs et autres équipements. Au-delà de la consommation électrique c’est plutôt le poids local de ces infrastructures qui devient de plus en plus problématique autant pour la disponibilité électrique que pour l’accès à l’eau. De nombreux conflits locaux se développent : Irlande, Espagne, Chili, Amsterdam, Francfort, Londres, États-Unis. À l’échelle française, L’Île-de-France héberge la plupart des centres de données français et fait face à de nombreuses problématiques qui invite à une réflexion et une planification profonde comme très bien démontré par l’étude récente de l’Institut Paris Région.

Les réseaux de télécommunication
Les réseaux de télécommunications comprennent tous les réseaux d’accès fixes (ADSL, Fibre), les réseaux d’accès mobile (2G/3G/4G/5G) et les réseaux coeurs. En 2015, Malmodin & Lundén (2018) estimaient la consommation électrique mondiale des réseaux à 242 TWh et l’empreinte carbone à 169 Mt eq-CO2. Depuis peu de travaux se sont réessayés à l’exercice. Coroama (2021) a proposé une estimation à 340 TWh pour les réseaux en 2020 et aujourd’hui l’IEA estime la consommation électrique en 260 et 340 TWh (IEA). L’empreinte carbone des réseaux, autant au niveau de la fabrication du matériel que de l’usage reste à mieux définir mais implique aussi de redoubler d’efforts sur de nombreux angles morts : le déploiement (génie civil, etc.) et la maintenance sont des parts significatives de l’empreinte des réseaux qui n’ont quasiment pas été comptées jusque là. De même, les satellites de télécommunication devraient faire partie du périmètre des réseaux mais leur impact avait été considéré comme minime. Toutefois, le déploiement massif de constellation avec des satellites d’une durée de vie de 5 ans implique une attention renouvelée.

Les équipements utilisateurs
Finalement, le dernier tiers, celui des équipements utilisateurs, inclut à la fois les équipements personnels (smartphone, portable, tablette, ordinateurs, écrans, etc) et professionnels. Certains segments connaissent une contraction depuis quelques années : le vente d’ordinateurs fixes chute (sauf pour le gaming), de même que les livraisons de smartphones. De l’autre, de nouveaux segments apparaissent comme les objets connectés grand public (enceinte, caméra, etc.). C’est l’arrivée de ces derniers qui est profondément inquiétante si les projections de marché se maintiennent car elle suggère le déploiement massif d’objets de qualité variable, à faible durée de vie et donc à fort taux de renouvellement (Pirson et Bol, 2021). En descendant d’un niveau, à l’échelle des composants clés, nous voyons une augmentation de l’empreinte de fabrication des circuits intégrés les plus avancés (<10nm) (Pirson et al, 2022), c’est-à-dire les nouveaux processeurs (Apple série M) ou dans les puces de calcul graphique (produits Nvidia par exemple) aujourd’hui très recherchées pour l’entrainement d’IA génératives.

Les services numériques
À cela s’ajoute une inconnue évidente : l’évolution des services numériques. Les équipes de recherche ne peuvent pas prévoir l’apparition de nouveaux usages dans leur estimation, or les usages se sont plutôt stabilisés depuis quelques années. Le passage en force du Métaverse consistant à créer de nouveaux usages, de nouveaux services et de nouveaux équipements dédiés à échouer. Le dernier grand changement date d’un alignement des planètes entre 2010 et 2012 avec le déploiement massif de smartphones, la mise en route des réseaux 4G et la massification de l’offre vidéo en ligne. Aujourd’hui, les services grand public supportés par l’IA proposent une nouvelle évolution des usages mais, au-delà des discours mercantiles et/ou prophétiques, la tendance est encore loin d’être claire.
Malgré les immenses zones d’ombre qui restent encore à éclairer la connaissance de l’empreinte carbone du secteur numérique commence à se stabiliser. Les tendances futures montrent plutôt une augmentation globale de l’impact et une tension locale de plus en plus accrue. Face à cela, une question demeure, est-ce que l’augmentation de cette empreinte permet de réduire celles des autres secteurs ? En somme, est-ce que la numérisation est un « investissement environnemental » cohérent. Voyons cela ensemble dans la deuxième partie.

Les effets sur les émissions de carbone dans les autres secteurs
Comme vu au début de cet article, la question des effets environnementaux de la numérisation dans les autres secteurs, que ces effets soient positifs ou/et négatifs, s’est posée d’emblée, toutefois, elle a été bien moins traitée que la question de l’empreinte du secteur. Au même titre que les économistes ont de nombreuses difficultés à isoler la contribution de la numérisation au PIB ou à la productivité, les chercheurs en sciences environnementales font face au même défi. Dans un premier temps, les effets environnementaux liés à des services numériques ont dû faire l’objet d’une classification qui commence doucement à se stabiliser aujourd’hui : les effets de second ordre (gain d’efficacité, substitution, effet rebond direct) et de plus grande ordre (effets rebonds indirects, rebond macro-économique, induction, etc.) (Hilty et al, 2006 ; Hilty et Aebischer, 2015 ; Horner et al, 2016). Si un gain d’efficacité est simple à comprendre la question des effets rebonds poursuit le secteur numérique depuis 30 ans. Un effet rebond peut être simplement défini comme un gain d’efficacité ou une optimisation qui conduit à une augmentation de la production ou de la demande, contrecarrant ainsi une partie, voire tous les gains obtenus. C’est un principe économique qui est
théorisé depuis un siècle et demi, historiquement associé avec la question énergétique, qui est particulièrement pertinent dans le phénomène de numérisation à cause des effets macro et microéconomiques de ce dernier.

Les études industrielles
On distingue trois types de littérature sur ce sujet : la production industrielle (rapport, livre blanc, etc), la production scientifique (articles de recherche, etc), et la littérature institutionnelle qui pioche dans les deux. La littérature industrielle a une tendance farouche à se concentrer que sur la modélisation des effets positifs (efficacité, optimisation) en mettant systématiquement de côté les effets négatifs (effets rebonds, induction, etc.). Deux rapports industriels ont été particulièrement diffusés et cités : le rapport SMARTer2030 de GeSI (un groupe de réflexion des entreprises de la tech sur la question environnementale) qui estime que la numérisation peut réduire les émissions mondiales de 20% d’ici 2030, et le rapport ‘Enablement Effect’ de GSMA (l’organisation mondiale des opérateurs télécom) qui estime que les technologies mobiles ont permis d’éviter 2,1 Gt eq-CO2 en 2018. Ces rapports visent à promouvoir l’idée d’un effet d’abattement (enablement effect), c’est-à-dire, un 1g d’eqCO2 émis par le secteur numérique pourrait permettre d’éviter 10g d’eqCO2 dans les autres secteurs. Ces affirmations ont eu une grande popularité au sein des entreprises du secteur et dans le monde institutionnel. Dans la communauté scientifique, aucune équipe s’est aventurée dans de tels travaux tant les difficultés méthodologiques sont nombreuses. Il est en fait bien connu parmi les scientifiques spécialisés que ces affirmations sont notoirement douteuses et les défauts méthodologiques de ces rapports trop nombreux pour qu’ils soient utilisés pour orienter la prise de décision publique ou privée (Malmodin et al, 2014 ; Malmodin et Coroama, 2016 ; Bieser et Hilty, 2018 ; Coroama et al, 2020 ; Bergmark et al, 2020 ; Rasoldier et al, 2022 ; Bieser et al, 2023). Leurs principaux défauts sont des extrapolations globales à partir d’études de cas ou d’échantillons très réduits, la représentativité de ces mêmes échantillons, l’omission des effets directs des solutions étudiées (l’empreinte environnementale) et des effets rebonds, et de tous les effets structuraux dont dépendent le succès ou l’échec d’une solution numérique.

La complexité du problème
Les chercheurs qui travaillent sur ces sujets savent que les effets environnementaux d’une solution numérique dépendent bien plus de facteurs contextuels que de ses capacités propres : politiques publiques, prix, culture, infrastructures disponibles, contexte commerciale, etc. Par exemple, une application de partage de vélo a bien moins de chances de produire des effets positifs dans une ville sans infrastructure vélo développée, ou un système intelligent de gestion du chauffage sera bien mieux efficace dans une maison isolée. Cela ne veut pas dire pour autant que la numérisation de certaines activités permet effectivement d’éviter des émissions mais ce qui est observable à petite échelle peine à se réaliser à plus grande échelle. Par exemple, il est évident aujourd’hui que le télétravail permet d’éviter à court terme des trajets en voitures individuelles. Toutefois, pris sur une période de temps plus longue et à une échelle nationale, les choses se compliquent. Caldarola et Sorrell (2022) ont publié un article pour répondre à une question fondamentale : est-ce que les télétravailleurs voyagent moins ? Pour ce faire ils se sont appuyés sur des données longitudinales d’un échantillon randomisé de 13 000 foyers anglais de 2005 à 2019. Ils ont observé que le groupe de télétravailleurs faisaient moins de trajets que le groupe de non-télétravailleurs mais que les deux groupes parcouraient un nombre similaire de kilomètres à l’année. Cela est du à plusieurs effets adverses : l’éloignement croissant entre foyer et lieu de travail, voyages plus loin le week-end, modes de transport, trajets non évitables, etc. Néanmoins, les auteurs notent qu’à partir de trois jours et plus de télétravail, les télétravailleurs commencent à parcourir moins de kilomètres que l’autre groupe. Cet exemple donne à voir à quel point il est complexe d’inférer qu’un effet positif observé à petite échelle se maintienne en toutes conditions à l’échelle d’un pays car de nombreux autres effets, notamment différents types d’effets rebonds et d’induction, peuvent compenser les gains bruts.

Savoir où chercher
Savoir si la numérisation a un potentiel pour aider à la décarbonation d’une économie n’est pas la question, tout le monde reconnaît ce potentiel. Par contre, ce potentiel ne semble pas s’être manifesté structurellement au sein des économies les plus numérisées de la planète. Nous disposons de nombreuses études de cas qui montrent des solutions numériques avec des effets encourageants dans certains contextes, mais le problème est que même si nous pouvons déployer massivement ces solutions nous ne pouvons pas répliquer les contextes d’application et surtout les répliquer à plus grande échelle. Cela implique que certaines voies de numérisation ne sont pas
compatibles avec la décarbonation. Premièrement, les solutions numériques qui rendent plus efficaces l’extraction d’énergies fossiles : en 2019, Microsoft mettait en avant que leurs solutions numériques pour Exxon permettraient d’augmenter la production journalière de barils de 50 000 d’ici 2025 (pour l’instant personne ne s’est donné la peine d’estimer toutes les émissions ajoutées de la numérisation dans le secteur des énergies fossiles). Deuxièmement, certaines solutions numériques proposent plutôt un statu quo qu’un réel gain, ici les solutions de smart home démontre une grande ambivalence entre gain de confort supposé (automatisation et programmation des fonctions d’une maison), ajout de nouvelles options de divertissement (enceintes, etc.) et économies d’énergie (Sovacool et al, 2020). Prises ensemble, toutes ces promesses tendent à se contrecarrer et à maintenir un statu quo. De façon générale, les solutions numériques qui misent la plupart de leurs gains potentiels sur des changements de comportement individuel constants et stables dans le temps présentent un plus grand risque. Les solutions numériques pouvant avoir le plus d’effets positifs sont généralement celles qui s’appuient sur un financement stable et pérenne, qui évoluent dans des univers assez contrôlés où le comportement humain est moins central et qui sont appliqués sur des infrastructures déjà établies à grande échelle (ou en passe de l’être). Toutefois, il faudra encore de nombreuses années de recherche pour comprendre ces dynamiques et arriver à une vue stratégique plus fine et surtout moins biaisée par les intérêts industriels.

Ce que permet et ne permettra pas la numérisation
Se poser sérieusement la question de la contribution de la numérisation à la transition écologique d’un pays implique de se décentrer d’une vue mono-solution où on infère des effets à partir d’une étude de cas mené à un instant t, qui est généralement celle des entreprises ou des industries numériques. La planification écologique d’un pays comme la France requiert d’identifier les leviers les plus importants au niveau de leur effet à grande échelle, et de la stabilité de leur effet dans le temps, dans les secteurs les plus urgents à décarboner. Ces leviers sont rarement les solutions les plus faciles et les moins chères, ce sont généralement des politiques publiques qui essayent de modifier en profondeur des modes de vie. Les solutions numériques ont encore une place indéterminée dans cette réflexion. Un problème central pour les solutions numériques est la persistance des effets. Pour reprendre le cas du télétravail, si aujourd’hui cela évite un trajet en voiture individuelle essence ou diesel, les trajectoires de décarbonation de la France laissent imaginer que le télétravail évitera en 2030 un trajet à pied ou à vélo, ou un trajet en voiture ou en transport en commun électrique. Cela implique que l’effet positif sera forcément à rendement décroissant et constitue plutôt un levier à court-terme, moins structurant pour une planification écologique. La logique peut aussi s’inverser : on observe généralement que des économies d’énergie liées à un système de chauffage plus intelligent sont généralement réinvesties par une augmentation de la température de chauffe du logement et donc un gain de confort (Belaïd et al, 2020), ce qui est un effet rebond direct classique. Toutefois, en pleine crise du coût de la vie et avec un prix du kWh plus élevé, il y a de fortes chances que cet effet rebond disparaisse à cause de budgets bien plus serrés dans les foyers. C’est cette grande ambivalence et cette grande exposition aux facteurs « contextuels » qui maintient en partie la numérisation comme un impensé de la transition écologique et explique la prudence du GIEC dans l’extrait cité en introduction. Ces grands chantiers de recherche ne font encore que commencer.

Gauthier Roussilhe, doctorant RMIT / page web perso

Bibliographie complète à télécharger ici

05 avril 202405 avril 2024

Vive les communs numériques !

Un des éditeurs de Binaire, Pierre Paradinas a lu le livre de Serge Abiteboul & François Bancilhon, Vive les communs numérique ! Il nous en dit quelques mots gentils. Binaire.

Vive les communs numériques ! - Logiciels libres, Wikipédia, le Web, la science ouverte, etc.

Le livre de Serge et François, Vive les communs numériques ! est un excellent livre -oui, je suis en conflit d’intérêts car les auteurs sont de bons copains.

C’est un livre facile et agréable à lire, mais sérieux et extrêmement bien documenté sur la question des communs numériques. En effet, nos deux collègues universitaires, scientifiques et entrepreneurs expliquent, explicitent et démontent les rouages des communs numériques.

Partant de l’exemple d’un champ partagé par les habitants d’un village, ils définissent les communs numériques et nous expliquent ce qu’ils sont, et pourquoi certains objets numériques (gratuits ou pas) ne peuvent pas être considérés comme des communs numériques. L’ensemble des communs numériques sont décrits, allant des données, au réseau en passant par l’information, les logiciels et la connaissance.

Une partie est consacré au « comment ça marche », qui nous donne des éléments sur les communautés au cœur du réacteur des communs numériques, sans oublier les licences qui doivent accompagner systématiquement un élément mis à disposition sous forme de commun numérique. Enfin, comme le diable est dans le détail, les auteurs nous expliquent la gouvernance des communs numériques et les vraies questions de gestion des communs numériques.

Le livre explore aussi les liens avec les entreprises des technologies informatiques -parfois très largement contributrices au logiciel libre-, comme Linux, les suites bureautiques ou les bases de données dont nos deux auteurs sont des spécialistes reconnus.

Le livre est enclin à un certain optimisme qui reposes sur les nombreuses opportunités offertes par les communs numériques. De même, on apprécie le point évoqué par les auteurs de la souveraineté numérique où les communs numériques sont analysés pour l’établir, la développer et la maintenir. Par de nombreux exemples, les communs numériques permettent une plus grande prise en compte des utilisateurs, ce qui devrait conduire à des solutions technologiques mieux adaptées.

Si vous voulez comprendre les communs numériques, courez vite l’acheter ! Si vous voulez compléter vos cours sur les données ouvertes et/ou le logiciel libre, c’est l’ouvrage de référence.

Le livre est très riche, il compte de nombreux encadrés, consacrés à des communs numériques ou à des personnalités ; il contient aussi un lexique, une bibliographie et une chronologie qui complètent l’ouvrage. Écrit avec passion, c’est un plaidoyer richement documenté. Vive les communs numériques !

Pierre Paradinas

PS : Le livre sera en accès ouvert à partir de décembre 2024 😀