Mois : mai 2020

30 mai 202030 mai 2020

Du calcul dans les airs

Matthias Puech est ingénieur R&D à l’INA au sein du Groupe de Recherches Musicales, compositeur et enseignant-chercheur en informatique au CNAM. Après nous avoir expliqué les origines de la recherche musicale en France, il nous explique comment les ordinateurs traitent le son, les contraintes et les perspectives de l’informatique musicale. Pierre Paradinas

L’Informatique, instrument de la recherche et de la création musicale

De l’invention du piano-forte à celle de la guitare électrique, du tempérament égal à la composition procédurale, est-il nécessaire de rappeler l’incroyable influence des sciences et techniques sur la pratique musicale ? Art éminemment opportuniste, la musique s’est tellement continuellement nourrie des progrès de son époque pour s’inventer que l’on pourrait écrire une Histoire entière des techniques, vue uniquement depuis le prisme des modes et des outils de composition et d’interprétation musicale ! Mais laissons cette entreprise titanesque pour un autre jour, et contemplons un instant sa relation, déjà infiniment riche, avec notre sujet préféré, l’Informatique. Évidemment, la grande révolution du 20^e siècle ne fait pas exception, loin de là, et dès les premiers babillages des ordinateurs, on a cherché à en faire un assistant du compositeur, voire de l’interprète. Et même si aujourd’hui l’ordinateur est omniprésent dans notre façon de faire et d’écouter la musique, utiliser un ordinateur pour produire de la musique n’a techniquement rien d’évident ! Bref aperçu d’un mariage heureux à quoi tout s’opposait pourtant.

Un terreau d’expérimentations : le GRM

En France, l’un des premiers lieux où l’on explore l’utilisation de l’électronique puis de l’informatique pour la composition musicale est le GRM. Fondé au sein de l’ORTF en 1958 par Pierre Schaeffer, visionnaire iconoclaste au fort caractère, le Groupe de Recherches Musicales est la réunion d’une poignée de compositeurs et « technologistes » (pour faire un anachronisme) autour d’une idée qui va bouleverser les normes : celle d’une nouvelle forme musicale, produite directement grâce aux machines – originellement microphone et magnétophone – sans passer par l’étape traditionnelle de la notation et de l’interprétation. La musique concrète est née : elle n’est pas faite de notes et d’harmonie, mais de sons enregistrés, de transformations, de montage et de mixage ; elle n’est pas interprétée par un instrumentiste mais reproduite sur un « orchestre » de haut-parleurs.

Pierre Schaeffer au studio 54 Centre Bourdan 1972, Photo Laszlo Ruszka ©INA

Inutile de dire que ces précurseurs se tenaient au courant des avancées technologiques de leur époque ! De nombreux instruments de recherche et de création sonore ont vu le jour au sein du GRM : le phonogène, lecteur de bandes magnétiques multi-tête permettant de s’affranchir du temps ; le synthétiseur GRM « Coupigny », développé notamment par Francis Coupigny, synthétiseur modulaire analogique et petit cousin des ordinateurs analogiques dont on vous a déjà parlé ici, qui produisait ses sons par variation rapide du voltage entre des composants électroniques… et en 1978 SYTER, un des premiers ordinateurs (numériques) capable de traiter des sons électroniquement (avec la 4X de l’IRCAM). Un exemple de pièce créée avec SYTER de Christian Zanési. L’addition est salée car il s’agit de processeurs dédiés au traitement du signal, fabriqués pour l’occasion, mais les possibilités sont infinies. À la fin des années 80, quand l’ordinateur personnel se démocratise et le microprocesseur grand public devient assez puissant, les traitements musicaux « best of » de SYTER, et bien plus, sont portés sur ces machines et deviennent les GRM Tools, développés et utilisés aujourd’hui dans le monde entier.

Les GRM Tools © M.P.

Le son et l’ordinateur

Pourtant rien ne prédispose l’ordinateur, avec son temps discret et sa représentation binaire des données et des programmes, à manipuler des sons, ces variations continues de pression de l’air soumises aux lois de la physique de Newton ! Musicien des années 50 j’aurais plutôt parié que l’électronique du Coupigny, avec son flot continu d’électrons représentant le son de façon analogique (proportionnel à la pression) et son calcul différentiel, ait plus à dialoguer avec l’acoustique et la musique qu’une « suite de 0 et de 1 » comme disait ma grand-mère, orchestrée par un processeur et soumis à une horloge. Toute donnée manipulée par un ordinateur a une précision finie : entre deux valeurs contiguës, il n’y a rien ; de même, entre l’exécution de deux instructions il ne se passe rien, autrement dit le temps est fractionné en instants insécables, certes très rapprochés, mais tout de même discrets. Comment l’ordinateur peut-il donc stocker, générer ou traiter en temps réel le son ?

Du continu au discret : représentation

Pour représenter et traiter un son, variation de pression continue au cours du temps capturée par un micro par exemple, il faut donc lui trouver une approximation raisonnablement fidèle ; approximation double car temps comme espace devront être discrets : c’est l’échantillonnage et la quantification. On va mesurer cette pression à intervalle régulier, assez rapprochés pour ne pas « rater » de petites vibrations rapides ; la fréquence de cette mesure, ou fréquence d’échantillonnage, n’a pas à être très élevée, 44100 Hz (échantillonnage du son sur CD) suffira par exemple. On choisit ensuite la valeur représentable par l’ordinateur la plus proche de cette mesure, avec des pas assez petits pour ne pas faire une erreur trop grande dans cet « arrondi » ; stocker chaque échantillon sur 16 bits (quantification d’un CD) suffira par exemple. Résultat : nous représentons donc notre son par une suite de nombres sur 16 bits, des « carottes » ou échantillons, qui représentent chacun l’état approximatif de la pression de l’air à des instants successifs séparés du même petit delta de 1/44100^e de seconde ; c’est le codage le plus simple, dit « PCM ». Si, chaque 1/44100^e de seconde, on lit chaque échantillon dans l’ordre, faisant varier la position de la membrane d’un haut-parleur proportionnellement à sa valeur, on entendra le son stocké : l’oreille n’y aura vu que du feu, de la même façon qu’au cinéma, l’œil croit au mouvement quand on fait défiler rapidement des images successives !

Au passage, ces deux conversions, de l’analogique au numérique et vice-versa, sont appelés en anglais ADC (analog to digital conversion) et DAC (digital to analog conversion), et il existe des puces spécialement dédiées à ces tâches.

D’un son à l’autre : traitement

Relire un son enregistré est évidemment pratique, mais pas très utile pour faire de la musique. Cependant, maintenant qu’il est stocké comme une suite d’échantillons, on peut écrire un programme qui va modifier cette séquence (traitement) ou même en créera une de toutes pièces (synthèse) avant de la (re-)jouer. Par exemple :

Si je multiplie (resp. divise) chaque échantillon par 2, j’amplifie (resp. atténue) le volume du son de 6 dB ; autrement dit l’atténuation/amplification d’un son est simulée par l’opération de multiplication.
Si j’ai deux sons de même longueur, donc deux suites de N échantillons, en les additionnant échantillon par échantillon, je peux simuler le fait de les jouer tous les deux en même temps dans la même pièce : autrement dit, le mélange de deux sons est simulé par l’opération d’addition.
Je peux décaler tous les échantillons de N cases vers la droite ; le son résultant s’en trouvera retardé de N/44100 secondes. Si je mélange le son original et celui retardé de quelques milliers d’échantillons, j’aurai la perception d’un effet d’écho.
De façon générale, mélanger un son avec une ou plusieurs versions retardées de lui-même est un traitement appelé filtre : cela modifie son contenu en fréquence ; par exemple, un son mélangé à sa version retardée d’un seul échantillon amplifiera ses basses et atténuera ses aigus (filtre passe-bas).

Ce bestiaire pourrait continuer longtemps : des traitements simulant fidèlement un processus acoustique pour s’en affranchir comme les réverbérations, spatialisateurs ou synthétiseurs à modélisation physique, aux classiques utilisés dans les studios d’enregistrement depuis l’ère analogique (compresseurs, distorsions), aux traitements nés et rendus possibles uniquement par les possibilités du numérique, jusqu’aux effets créatifs les plus hétérodoxes, destinés aux sound designers et compositeurs adeptes d’une démarche plus expérimentale… il n’a de limite que la science et la créativité de celui qui les conçoit !

Le temps-réel

Mais soyons pragmatiques ; à ce point, le lecteur au doute facile se demandera : mais qui place donc les échantillons en provenance de l’ADC dans la mémoire, et qui vient les relire vers le DAC une fois le traitement effectué ? Et même si nous savons comment traiter un extrait sonore dans son intégralité puis le rejouer transformé, en « temps différé », comment fait-on pour traiter un son « en temps réel », au fur et à mesure de son arrivée d’une source externe ?

Pour communiquer avec l’extérieur l’ordinateur est connecté à des périphériques : clavier, écran… et interface audio. L’interface audio contient un ADC et un DAC, et a sa propre horloge qui bat la mesure à la fréquence d’échantillonnage voulue (e.g. 44100 Hz) ; à chacun de ses « tics », elle lit une valeur en mémoire et l’envoie au DAC, puis elle capture un nouvel échantillon depuis l’ADC et le place en mémoire. Puis elle signifie au processeur qu’un nouvel échantillon est disponible ; celui-ci s’exécute : il calcule l’échantillon de sortie en fonction de celui d’entrée, ainsi au prochain « tic », celui-ci sera envoyé au DAC.

On peut remarquer deux choses ici : premièrement, le processus n’est jamais véritablement « temps-réel », puisqu’il a forcément un cycle d’horloge (1/44100^e de seconde) de retard au minimum, c’est la latence. Deuxièmement, le processeur n’a pas tout son temps : il doit absolument calculer l’échantillon de sortie avant que celui-ci soit envoyé au DAC, sous peine de rater l’échéance et de produire un vilain « clic ». Entre la capture et la restitution, il dispose donc de 1/44100^e de seconde ; au rythme de 1 GHz, cela ne représente que 20 petits milliers d’instructions. Cela peut paraître beaucoup, c’est en réalité assez peu et les traitements devront être soigneusement optimisés pour ne jamais dépasser ce temps !

Conclusion

Nous tenons donc là la recette, ou plutôt le principe actif, de l’ensemble des logiciels d’enregistrement, de montage, de mixage, de synthèse, de traitement du son, utilisés aujourd’hui par la majorité des musiciens, tous genres confondus : la manipulation en temps réel de flux de valeurs (échantillons), représentant un son. Ces mêmes techniques sont à la base de l’enregistrement d’un orchestre symphonique, d’un groupe de rock dans un garage, de la bande-son d’une production Hollywoodienne ou d’une pièce de musique concrète. Depuis les années 90, le numérique règne en maître sur la production musicale… et pas seulement l’ordinateur ! Grâce à l’essor des petits microprocesseurs embarqués bon marché (microcontrôleurs, DSP), on voit revenir ces dernières décennies des machines autonomes, des formes d’instruments électroniques que l’on croyait perdus, dépassés par l’hégémonie de l’ordinateur. Par exemple, le synthétiseur modulaire Eurorack, sorte de kit de construction d’instruments, actualise fidèlement le principe du Coupigny du GRM ; seule différence, derrière le panneau de contrôle, plus d’oscillateurs analogiques mais de puissants microcontrôleurs et des algorithmes à la pointe de la recherche scientifique et de l’innovation esthétique. Retour en arrière ? Attrait du « vintage » ou bon en avant de l’interface homme-machine ? Et si, en musique comme ailleurs, cela n’était qu’une expression supplémentaire de la nature protéiforme de l’ordinateur ?

Le synthétiseur modulaire Eurorack de l’auteur © M.P.

Matthias Puech, INA

Retrouver les travaux de l’auteur : https://mqtthiqs.github.io

Pour aller plus loin :

Laurent De Wilde, « Les fous du son » (Decitre) : une histoire romancée des technique dans la musique au XXe, incluant les prémisses de l’informatique musicale
John Pierce, « Le son musical » (Pour la Science, Belin) : un classique de vulgarisation, épuisé mais trouvable 🙂

28 mai 202028 mai 2020

Ce que peuvent nous apprendre les algorithmes épidémiques sur les épidémies

Dans le contexte de la crise sanitaire inédite que nous vivons, le numérique est clairement un allié. Au-delà du télétravail, il nous permet d’espérer, grâce aux mécanismes d’apprentissage machine qui peuvent analyser un énorme volume de données, des techniques de dépistages rapides du COVID19, un médicament, voire un vaccin. Il nous permet aussi de modéliser l’évolution du virus pour mieux lutter contre sa propagation grâce aux algorithmes épidémiques. Deux professeurs de l’EPFL nous parlent des algorithmes épidémiques et de ce qu’ils peuvent nous apprendre sur les épidémies. Serge Abiteboul et Pascal Guitton

Mais qu’est ce donc qu’un algorithme épidémique?

Un algorithme épidémique est par essence réparti, c’est à dire qu’il ne s’exécute pas sur une seule mais sur plusieurs machines, typiquement des milliers ou des millions, qui collaborent pour exécuter une tâche. Sa caractéristique principale est le mode de communication entre les machines. Périodiquement, chaque machine communique avec un sous-ensemble, de petite taille, d’autres machines que l’on appelle ses voisins. Ces voisins, peuvent être statiques, c’est à dire ne jamais changer, comme dans un centre de données par exemple, mais ils peuvent également périodiquement changer au cours du temps et de manière plus ou moins aléatoire, comme entre des téléphones portables par exemple. On peut ainsi voir cet ensemble de machines comme un graphe qui les connecte, statique dans le premier cas, dynamique dans le second. Ainsi si une machine produit une information et la communique à ses voisins, que ces voisins sont choisis de manière aléatoire, et si chaque voisin retransmet à son tour l’information à ses propres voisins, celle ci se diffuse de manière très rapide (exponentielle) et très robuste (malgré la perte de certains messages ou l’arrêt de certaines machines). Ça ne vous rappelle rien ? Ce mode de propagation de l’information dans un grand réseau commence à singulièrement ressembler à celui de la propagation d’un virus dans le cas d’une épidémie, d’où les algorithmes éponymes.

Pour la petite histoire, il ressemble aussi au mode de propagation des rumeurs et on les appelle parfois des algorithmes de gossip, même si dans le cas d’un système informatique on ne considère pas nécessairement que la rumeur est déformée ou transformée comme dans le cas des commérages propagés au sein d’une population.

Les applications informatiques des algorithmes épidémiques

Les algorithmes épidémiques ont d’abord été utilisés dans le contexte des bases de données dupliquées (Demers et al, 87) : lorsqu’une modification est faite sur l’un des réplicas (une copie d’un fichier), elle est ensuite propagée aux autres. Les solutions cloud d’Amazon ont été parmi les premières à utiliser de tels algorithmes pour gérer la duplication des informations, mise en œuvre à la fois pour tolérer d’éventuelles défaillances et pour améliorer la performance de la dissémination. Les algorithmes épidémiques ont ensuite été appliqués à d’autres contextes comme l’agrégation d’information dans les réseaux de capteurs, l’allocation de ressources réparties (comme de choisir où stocker l’information quand des disques sont disponibles sur de nombreuses machines), la construction de réseaux privés virtuels[1], la dissémination de messages, ou encore le streaming vidéo.

D’où vient la puissance des algorithmes épidémiques?

La raison pour laquelle ces algorithmes ont été adoptés dans autant de cadres applicatifs est, comme nous l’avons souligné plus haut, liée à la rapidité de leur diffusion d’information et ce, malgré des défaillances de certaines machines et/ou la perte de messages. Cette propriété a été analysée théoriquement et vérifiée empiriquement : les résultats sont spectaculaires. Ces algorithmes sont aussi robustes aux défaillances qu’un virus qui chercherait à se propager dans une population qui pourtant aurait essayé de résister en imposant quelques gestes barrières. C’est cette capacité à résister qui nous intéresse ici.

Avant d’aller plus loin et de résumer ce que nous avons appris sur les algorithmes épidémiques pendant ces dernières années, au lieu de parler de machines, parlons de n noeuds d’un graphe. Pour pousser l’analogie avec ce que nous vivons aujourd’hui, considérons une topologie dynamique (le graphe n’est jamais le même) et poussons même jusqu’à imaginer que la topologie change aléatoirement en permanence. On peut imaginer que ces noeuds du graphe sont des personnes qui se déplacent, qui rencontrent d’autres personnes et qui leur transmettent leur virus le cas échéant.

Ce que nous apprennent les algorithmes épidémiques sur la propagation des épidémies

Les théoriciens de l’informatique se sont rapidement emparés du problème et ont étudié les algorithmiques épidémiques sous toutes les coutures, en particulier pour la dissémination de messages. Des premiers résultats théoriques ont étudié la vitesse de propagation de l’information transmise (du virus) dans des modèles où chaque nœud choisit périodiquement un autre nœud au hasard et lui transmet le virus avec une certaine probabilité. On peut transposer cela à Alice qui croise Bob dans l’ascenseur tous les matins et qui est infectée par le coronavirus : combien de fois faudrait-il qu’elle le croise avant que Bob ne soit infecté, sachant qu’il croise, et elle aussi, d’autres personnes au cours de sa journée. Il a été démontré par Karp et al (Karp 2000) qu’en supposant un temps global, si à chaque unité de temps, chaque nœud infecté contamine exactement un autre nœud choisi au hasard alors il faudra un nombre logarithmique d’étapes pour infecter tous les nœuds du système avec une très grande probabilité.

Évidemment, comme souvent en théorie, les résultats reposent sur des hypothèses qui peuvent parfois limiter leur applicabilité. Ainsi ce modèle suppose que les nœuds vont tous à la même vitesse et que tous contaminent d’autres nœuds avant d’arrêter. Ce modèle dit « synchrone » n’est pas très réaliste. En particulier, dans le contexte d’une épidémie, les ne vont pas à la même vitesse et certains nœuds, même infectés ne contaminent personne (e.g., ceux guéris, morts ou confinés). D’autres ne sont pas contaminés même quand ils sont en contact avec des malades (e.g., vraisemblablement les enfants dans le cas du Covid). Et bien figurez-vous que ces résultats marchent également en « synchrone » pour peu que le confinement ne soit pas total ou très ciblé.

D’autres travaux ont montré que dans un modèle où chaque nœud transmet une information à un nombre logarithmique d’autres nœuds choisis aléatoirement et uniformément dans le système, là on imagine plutôt Alice qui, porteuse du coronavirus, éternue au milieu d’un rayon de supermarché, ou d’un ascenseur bien rempli dans lesquels aucun geste barrière n’est appliqué, alors il faudra seulement un nombre logarithmique d’étapes pour contaminer l’ensemble de la population, si chacun prend la peine d’éternuer en public à son tour. Dans ce cas, même si 50% des gens infectés, décidaient de ne pas tousser ou de le faire dans leur coude, ou encore restaient confinés, chaque individu aurait quand même une proportion extrêmement élevée d’être contaminé. Là on parle d’un RO (vous savez ce terme qu’adorent les médias qui reflète le nombre de personnes qu’une personne infectée peut contaminer) de l’ordre du logarithme (pour rappel 6 pour un million, 9 pour un milliard). On voit très bien que même si sur la population, nous ne croisons que 3 personnes, la dissémination peut aller vite. Très vite.

Tout cela nous permet de comprendre intuitivement pourquoi certaines épidémies deviennent des pandémies et de mieux apprécier ce que disait Churchill : les fausses rumeurs, que l’on aime diffuser à nos proches, ont le temps de faire le tour du monde avant que la vérité, souvent moins drôle à raconter, n’ait le temps de mettre son pantalon.

Ce que peuvent nous apprendre les algorithmes épidémiques sur la manière d’arrêter une épidémie

Tous ces modèles, créés, prouvés et expérimentés pour améliorer l’efficacité de nos systèmes informatiques, nous fournissent des informations très pertinentes concernant la dissémination d’un virus dans la population. On comprend ainsi les deux phases d’une dissémination : la phase exponentielle, le pic et la phase descendante. Dans la phase exponentielle, dès qu’une personne tousse, elle peut contaminer plusieurs personnes, qui elles-mêmes en contaminerons d’autres etc., et cela de manière exponentielle. La notion de pic, ne veut pas dire qu’il y a moins de malades mais veut dire que le degré de contamination diminue, pourquoi ? Parce qu’on a trouvé un vaccin ? Non simplement parce que dès qu’on croise des gens, beaucoup sont déjà infectés, donc le R0 diminue. Atteindre ce pic pour immuniser la population a été le choix de la Suède, des Pays-Bas et du Royaume-Uni, avant qu’ils ne changent d’avis (d’aucun depuis leur lit de réa). Le choix de beaucoup d’autres pays a été d’essayer de prendre des mesures pour aplatir la courbe (la rendre moins exponentielle) afin de s’assurer que le nombre de malades gravement atteints correspondait au nombre de lits en réa. Quand on sait qu’en France aujourd’hui moins de 6% de la population a été infectée, on peut se questionner sur la pertinence de l’objectif sanitaire d’immuniser toute une population (c’est à dire que les gens infectés croiseront majoritairement des gens déjà infectés).

D’ailleurs, les travaux sur les algorithmes épidémiques ont montré qu’il y avait une transition de phase (un passage d’un état à un autre) plutôt qu’une courbe linéaire de dissémination, en dessous d’un certain seuil du nombre de voisins (le nombre de personnes qui reçoivent les postillons), la dissémination est proche de 0 et le virus s’éteint, au-delà la probabilité devient immédiatement très élevée d’infecter tout le monde. Bien entendu, une manière d’arrêter une épidémie est un confinement total. Mais cela n’est pas viable à très long terme et un confinement ciblé est clairement plus désirable. Pour mieux appréhender cette question, et d’utiliser un concept phare de l’informatique répartie d’une manière légèrement différente.

Ce concept est celui d’adversaire en informatique. Quand on cherche à disséminer un message dans un système informatique avec un algorithme épidémique, on veut le faire, vite, bien et en dépit de problèmes dans le système (des pannes d’ordinateurs, des pannes de réseaux, des bugs…). Dans les systèmes informatiques, tous ces problèmes potentiels, qu’ils soient involontaires (panne d’électricité et bug) ou volontaires (cyber-attaque) sont appelés des adversaires. Ce concept a occupé la communauté d’algorithmique répartie depuis un certain temps (et continue du reste). Typiquement un adversaire est vu comme une entité maléfique qui s’oppose à un algorithme réparti. Par exemple, l’adversaire est une entité qui, pour retarder au maximum la diffusion d’un message, adopte une stratégie qui consiste par exemple à choisir certains nœuds à les désactiver pour stopper toute la dissémination. En général, on suppose que l’adversaire a un budget de f nœuds à désactiver.

Vous nous voyez venir ? L’adversaire est un allié pour nous, si on se place dans le contexte sanitaire actuel. La question ici est donc: que doit faire cet allié pour arrêter la diffusion d’une épidémie ? Et là, les résultats obtenus dans le cadre des algorithmes épidémiques peuvent être exploités à l’envi.

Supposons que l’adversaire informatique décide de désactiver f nœuds, i.e., de confiner f personnes. Il a été démontré que si l’adversaire ne connait pas l’état de propagation de l’épidémie à chaque instant, il ne peut pas faire grand chose : l’épidémie progressera inexorablement. Autrement dit, si on ne mesure rien, qu’on ne teste rien, qu’on ne maintient aucune statistique sur la dissémination, aucune stratégie ne pourra fonctionner pour endiguer l’épidémie, à part le confinement total.

Mais on sait aussi que si l’adversaire est adaptatif et qu’il peut connaitre à chaque instant l’état de l’épidémie, plus de dommages sont possibles dans un système informatique ce qui se traduit par plus d’opportunités dans la population. Supposons par exemple que l’on peut quasiment connaître l’état de la diffusion à chaque instant grâce à un algorithme de traçage et un mécanisme de détection (on peut supposer pour simplifier que les gens peuvent savoir s’ils sont infectés en toussant dans leur téléphone – application proposée par l’EPFL) et on sait qui a rencontré qui (par bluebooth ou GPS). Il a été démontré ici que même avec un petit f, on peut stopper l’épidémie en confinant uniquement quelques personnes. À bon entendeur …

Voilà ce que peuvent apporter tous les travaux de l’algorithmique épidémique pour la lutte contre le Covid 19, des modélisations pour prédire où nous en serons, quand, des stratégies pour éviter la dissémination, cibler les bons nœuds (personne à confiner) , les bons endroits du graphes (les régions), etc.

On peut même aller jusqu’à imaginer utiliser ces algorithmes pour dénicher le patient 0, cette première personne à avoir eu le virus ? Autrement dit, celui ou celle qui a embrassé la chauve-souris et mangé le steak de pangolin avant de tomber malade et de tousser sur ses voisins. Les premiers travaux sur ce sujet sont très récents. En fait, on peut démontrer qu’il est très difficile, voire impossible, dans le cas général de trouver le patient zéro si les gens guérissent très vite ou sont confinés rapidement Mais si la dissémination se prolonge et n’est pas arrêtée, on peut vite y remonter. Vu le temps que cela a pris au monde pour réagir, tous les espoirs sont permis.

Résumons-nous. Inspirés à la base par les épidémies, les algorithmes épidémiques ont permis de mieux appréhender de nombreux problèmes informatiques. Il se trouve que l’étude de ces algorithmes pourrait en fait nous permettre aussi d’aller dans l’autre sens, c’est à dire d’apprendre à mieux appréhender les épidémies. La piste suggérée ici consiste à considérer leurs adversaires comme nos alliés.

Rachid Guerraoui & Anne-Marie Kermarrec, EPFL.

Pour aller plus loin

(Demers et al, 1987) A. J. Demers, D. H. Greene, C. Hauser, W. Irish, J. Larson, S. Shenker, H. E. Sturgis, D. C. Swinehart, D. Terry. Epidemic Algorithms for Replicated Database Maintenance. PODC 1987.

(Eugter et al, 2004) P. Eugster, R. Guerraoui, A.M. Kermarrec, L. Massoulié. Epidemic Information Dissemination in Distributed Systems. IEEE Computer 37(5), 2004.

(Karp et al, 2000) R. M. Karp, C. Schindelhauer, S. Shenker, and B. Vocking. Randomized rumor spreading. IEEE Symposium on Foundations of Computer Science, pages 565– 574, 2000.

(Kermarrec, 2016) A.-M. Kermarrec Si j’étais un algorithme, je serai épidémique. Blog Binaire 2016 https://www.lemonde.fr/blog/binaire/2016/10/10/lalgorithme-epidemique/

(Pittel, 1987) Boris Pittel. On spreading a rumor. SIAM J. Appl. Math., 47(1):213–223, 1987.

[1] En informatique, un réseau privé virtuel est un système permettant de créer un lien direct entre des ordinateurs distants qui isole leurs échanges du reste du trafic se déroulant sur des réseaux de télécommunication publics.

26 mai 202028 avril 2020

Informatique et micro-électronique, première industrie mondiale ?

L’essor de l’informatique a déclenché une révolution industrielle qui modifie en profondeur la société et l’économie. Cet article de Laurent Bloch dresse un tableau de cette industrie, et nous explique l’urgence de s’y intéresser et surtout d’agir en conséquence. Tamara Rezk

Cet article est co-publié avec le blog de Laurent www.laurentbloch.net

L’essor de l’informatique a déclenché une révolution industrielle qui modifie en profondeur la société et l’économie. La France y avance de mauvaise grâce (et à divers degrés il en va de même de l’Europe) alors qu’elle a tous les atouts en main pour y réussir.

Panorama de l’industrie informatique
La dépense mondiale 2019 en informatique est estimée par le cabinet Gartner à plus de 4200 milliards de dollars, en y incluant les services de télécommunications, à peu près totalement informatisés depuis plus d’une décennie, ainsi que l’industrie des semi-conducteurs (source : Semiconductors Industry Association) dont les débouchés principaux sont les matériels informatiques et de télécommunications :

Systèmes de centres de données : 205
Logiciels d’entreprise : 456
Matériels (ordinateurs, autres) : 682
Services informatiques : 1030
Services de communication : 1364
Semi-conducteurs : 481
Total : 4218

Le cabinet IDC, qui calcule différemment, prévoit 4100 milliards en 2020.

Bien sûr 2020 va être une mauvaise année à cause de l’épidémie Covid-19, pour ces secteurs comme pour l’ensemble de l’économie. Avant cette crise mondiale, le taux de croissance annuel de l’industrie informatique était de l’ordre de 7%.

À titre de comparaison, le chiffre d’affaires de l’industrie automobile mondiale est de l’ordre de 2500 milliards de dollars, selon les définitions adoptées et les enquêtes effectuées. Mais ce qui est certain, c’est la baisse de chiffre d’affaires de l’industrie automobile dans son ensemble en 2018 et en 2019, baisse qui s’accentuera fortement en 2020.

Toujours pour donner des points de repère, ces chiffres sont supérieurs au PIB de la France (2925 milliards de dollars en 2018), lui-même équivalent au PIB du continent africain.
Ces chiffres concernent de vastes agrégats, leurs valeurs sont toujours entachées d’approximations, ne serait-ce que par la difficulté à délimiter le domaine considéré, mais en tout état de cause ils montrent que l’industrie informatique est au premier rang mondial, et en forte expansion.

La filière micro-électronique et informatique

Pour comprendre le fonctionnement d’un secteur économique il peut être utile de raisonner en termes de filière : ainsi pour produire un service ou une application informatique il faut avoir produit des logiciels et des ordinateurs. Pour que ces logiciels fonctionnent sur ces ordinateurs il faut avoir produit un système d’exploitation. Pour construire les ordinateurs il faut avoir fabriqué des composants électroniques. Pour fabriquer des microprocesseurs il faut disposer de logiciels de conception spécialisés, de très haute complexité. Ensuite, l’industrie microélectronique repose sur des matériels de photolithographie et d’optique. Enfin au début de la filière il faut extraire du silicium de qualité adéquate et le préparer sous la forme convenable. Prendre cette séquence depuis le début (extraction et conditionnement du silicium), c’est décrire la filière.

Une fois la filière caractérisée, on peut identifier les points où se crée le maximum de valeur ajoutée, qui sont aussi ce qui coûte le plus cher en investissements, ce qui a la plus forte intensité capitalistique. C’est important du point de vue de la politique économique, parce que détenir des capacités de production dans ces domaines est un facteur essentiel d’indépendance économique, donc de souveraineté politique. Ce point a été bien expliqué par le rapport de la sénatrice de la Seine Maritime Catherine Morin-Desailly, rendu en 2013, dont il n’a malheureusement guère été tenu compte.

Aujourd’hui la chaîne de valeur de la filière micro-électronique – informatique peut être schématisée ainsi (l’échelle des ordonnées ne figure que des ordres de grandeur) :

Nous allons examiner maintenant les points cruciaux de cette filière, et les enseignements que l’on peut en tirer. Nous omettrons la fabrication de barreaux de silicium monocristallins, non que ce soit simple ni dépourvu d’intérêt, mais un peu éloigné de notre propos. Cependant, en préambule, il faut souligner le caractère spécifique de cette industrie, identifié par l’Institut de l’Iconomie et Michel Volle ; les coûts fixes, nous allons le voir, en sont considérables, les coûts marginaux voisins de zéro : « le coût marginal d’un logiciel est pratiquement nul : une fois écrit, on peut le reproduire des millions de fois, sans coût supplémentaire significatif, par téléchargement ou impression de disques. […] Le coût marginal d’un composant microélectronique, processeur ou mémoire, est lui aussi pratiquement nul. […] Le transport d’un octet ou d’un document supplémentaire ne coûte pratiquement rien sur l’Internet » (Michel Volle). Les conséquences de cette fonction de production sont drastiques : sur chaque segment de ce marché se développe une concurrence monopolistique extrêmement violente, chaque entreprise luttant pour conquérir et conserver une position de monopole temporaire (qui peut durer quelques années ou dizaines d’années).

Conception micro-électronique assistée par ordinateur

Un microprocesseur moderne comporte plusieurs milliards de transistors sur deux ou trois centimètres carrés, il est impensable de concevoir son organisation géométrique et électrique « à la main ». Ont donc été conçus pour ce faire des langages de description de circuits (VHDL, Verilog) et des logiciels de conception assistée par ordinateur.

Les principales (et à peu près seules) entreprises de CAO électronique sont les américains Synopsys (acquéreur du taïwanais SpringSoft, à eux deux 3,3 milliards de dollars de chiffre d’affaires et 13 000 employés), Cadence (2,3 milliards, 7600 employés) et Mentor Graphics (acquis par Siemens, 1,3 milliard, 6000 employés).

Ces systèmes de CAO sont très onéreux, sans parler du temps d’ingénieur passé à les mettre en œuvre. À part le japonais Zuken, beaucoup plus petit, et quelques laboratoires de recherche, ces trois entreprises sont en situation d’oligopole. Elles opèrent sur un marché de niche assez étroit mais hautement stratégique : sans elles pas d’informatique, donc pas d’Internet, adieu Facebook, Twitter, Google et Amazon.

Matériels de fabrication micro-électronique

Objectif de scanner de photolithographie ©epp-europe-news.com

La fabrication des microprocesseurs repose sur des procédés photo-lithographiques réalisés par des machines appelées scanners. Il y a dans le monde trois entreprises qui fabriquent des scanners : Canon, Nikon et le néerlandais ASML, ce dernier détenant les deux tiers d’un marché mondial de l’ordre de 12 milliards de dollars. Intel détient une participation de 15% dans ASML. L’élément le plus cher d’un scanner est un objectif, analogue à celui d’un énorme appareil photo. Il y a trois fabricants : Canon, Nikon et l’allemand Zeiss. Un tel scanner coûte plusieurs dizaines de millions d’euros. Un microprocesseur ressemble à un sandwich d’une trentaine de couches, alternativement de circuits et d’isolants, il faut donc quelques dizaines de scanners pour lancer une chaîne de production. Ces matériels doivent fonctionner en salle blanche munie de dispositifs anti-sismiques, parce que la moindre vibration serait fatale à toute la production en cours.

On note que la Chine et les États-Unis sont absents de ce domaine.

Fabrication de micro-processeurs

Plusieurs approches sont possibles pour produire des microprocesseurs. On peut en concevoir les plans (à l’aide des logiciels mentionnés ci-dessus), construire des usines, fabriquer et vendre : il n’y a plus guère qu’Intel pour assurer ainsi la totalité de la chaîne de production.

L’entreprise britannique ARM, achetée en 2016 par le fonds d’investissement japonais Softbank, s’adonne exclusivement à la conception de microprocesseurs, dont elle concède l’exploitation des plans (électroniques) à des entreprises licenciées, telles que Samsung, Qualcomm, Apple, Nvidia ou le franco-italien STMicro. L’architecture ARM est la plus répandue dans le monde parce qu’elle a le monopole des processeurs pour téléphones mobiles, tablettes et objets connectés de toutes sortes.

Une entreprise comme Qualcomm, très bien placée sur le marché des circuits pour téléphones mobiles, ne fabrique rien. Elle achète à ARM la licence de ses processeurs, elle conçoit le plan d’un SoC (System on Chip) qui comporte plusieurs processeurs et des circuits annexes (mémoire, audio, vidéo, etc.) dont elle confie la fabrication à une fonderie de silicium, qui possède une usine. Une telle fonderie peut être une entreprise qui par ailleurs conçoit ses propres circuits, comme par exemple Samsung, ou une qui ne fait que cela, comme le taïwanais TSMC.

Le perfectionnement d’un procédé de fabrication micro-électronique dépend de sa miniaturisation, mesurée par la longueur de la grille d’un transistor. À ce jour TSMC, le leader mondial (35 milliards de dollars), est le seul à produire en géométrie 7nm (nanomètres), Samsung produit en 10nm, Intel produit en 14nm. Suivent trois entreprises qui ont abandonné la course à la miniaturisation mais continuent à alimenter le marché en produits plus rustiques : Global Foundries, STMicro, UMC. Puis celles qui ne fabriquent que des mémoires, plus simples mais marché en plein essor, ou des circuits spécialisés : Hynix, Micron, Texas Instruments. Qualcomm, Nvidia, Broadcom sont des entreprises sans usines, qui ne fabriquent rien.

La construction d’une usine de microprocesseurs modernes coûte plus de dix milliards de dollars, et son fonctionnement en régime permanent demande la présence de plusieurs milliers d’ingénieurs et techniciens. En effet la mise au point d’un procédé de fabrication et le réglage des machines demande du temps et de la qualification, ce n’est qu’au bout de plusieurs années que la fabrication atteint un taux de réussite proche de 100%.

En somme, l’informatique mondiale dépend de trois ou quatre entreprises et de moins de dix usines.

Par exemple, le dernier modèle d’iPhone fonctionne grâce à un SoC conçu par Apple autour d’un processeur conçu par ARM, et fabriqué par TSMC à Taïwan, le tout assemblé en Chine continentale. On note que la Chine n’est pas (encore) en mesure de fabriquer des microprocesseurs à l’état de l’art, et que les États-Unis sont en perte de vitesse.

Un segment de marché particulier concerne les processeurs à usage militaire et aérospatial, qui doivent résister à des rayonnements cosmiques ou d’origine nucléaire, ce qui exclut les géométries trop fines mais impose des blindages spéciaux. La France possédait des capacités dans ce domaine, avec Altis Semiconductors, mais cette entreprise a disparu, ce qui laisse l’industrie aérospatiale et militaire européenne sous la dépendance de fournisseurs américains, pour lesquels les licences d’exportation conformes à la législation ITAR (International Traffic in Arms Regulations) sont de plus en plus difficiles à obtenir.

Pour conclure sur l’industrie micro-électronique, on peut dire que c’est un domaine d’intensité capitalistique considérable, hautement stratégique, et à peu près déserté par la France et par l’Europe. Il y a une exception, STMicro et ses usines dans la région de Grenoble qui font travailler plus de 30 000 personnes. L’effort pour la conception d’un nouveau microprocesseur se compte en plusieurs (six ou sept) années, mille à deux mille ingénieurs, et quinze à vingt milliards de dollars pour la construction de l’usine, investissement qui sera à renouveler pour la gamme suivante.

Fabrication d’ordinateurs

La complexité des ordinateurs contemporains réside entièrement dans leurs microprocesseurs et dans leurs logiciels. Leur fabrication est une opération d’assemblage entièrement automatisée. Ce sont des objets bon marché à faible valeur ajoutée, la fabrication d’un ordinateur chez le constructeur Dell prend moins de trois minutes. Les principaux problèmes à résoudre sont la chaîne d’approvisionnement, la logistique, la politique d’achats et la distribution.

Système d’exploitation

Le système d’exploitation présente à l’utilisateur une vision simplifiée et compréhensible du fonctionnement de l’ordinateur. Il fournit également une interface standardisée avec les logiciels d’application et commande les interactions avec le réseau. Autant dire que sans lui l’ordinateur ne serait qu’un tas de ferraille et de plastique inutilisable.

Le système d’exploitation est la seconde étape la plus capitalistique de la filière informatique, après le microprocesseur. Écrire un système d’exploitation complet de A à Z, ce que personne n’a fait depuis longtemps, emploierait 1000 à 2000 ingénieurs pendant six à sept ans, si l’on extrapole à partir des expériences du passé et des réalisations partielles contemporaines. Les réalisations contemporaines sont partielles parce qu’elles partent d’une base existante, soit propriété historique de la firme (cas de Microsoft et d’IBM), soit de logiciel libre disponible sans frais, dérivés de systèmes Unix/Linux (cas d’Apple et de Google).

Hormis quelques systèmes très spécialisés ou résiduels et ceux qui sont des logiciels libres (Linux, OpenBSD, FreeBSD, NetBSD), il n’existe que quatre fournisseurs de systèmes d’exploitation : IBM avec z/OS, dérivé de l’OS/360 annoncé en 1964, Microsoft avec Windows, dont la version intitiale a été publiée en 1996, Apple avec iOS et macOS né en 1998 sur un noyau Unix BSD, et Google avec Android lancé en 2007 et basé sur un noyau Linux. En nombre de systèmes installés Google est d’assez loin le leader mondial, puisqu’Android équipe plus de 80% des smartphones et effectue les deux tiers des accès au Web. Ici aussi l’Europe est pratiquement absente.

Réseau, informatique en nuages, centres de données

Le déploiement du réseau physique sur lequel repose l’Internet nécessite des investissements considérables. L’essentiel des communications à longue distance repose sur des faisceaux de fibres optiques transocéaniques, construits hier par des consortiums d’opérateurs et d’industriels, aujourd’hui de plus en plus souvent par des plates-formes telles Google ou Amazon. Le prix d’un tel faisceau peut approcher le milliard de dollars. C’est un des rares domaines où la France occupe encore une position de premier plan. L’enjeu du moment est le déploiement de réseaux sans fil 5G, indispensables pour les objets connectés, et là aussi les sommes engagées se comptent en milliards. Mais l’économie de l’Internet est un sujet en soi que nous ne développerons pas davantage ici.

Effort de recherche et développement

Acquérir une position significative et la conserver dans cet univers de technologies complexes issues de la recherche scientifique la plus avancée exige des efforts de recherche et développement soutenus. Ce tableau
des dépenses de recherche et développement (en 2018 et en milliards de dollars – source : Nick Skillicorn) donne une idée de la puissance relative des différents secteurs aujourd’hui et encore plus demain : :

Amazon 22,6
Alphabet (Google) 16,2
Volkswagen 15,8
Samsung 15,3
Microsoft 14,7
Huawei 13,6
Intel 13,1
Apple 11,6
Roche 10,8
Johnson & Johnson 10,6
Daimler 10,4
Merck US 10,2
Toyota 10,0
Novartis 8,5
Ford 8,0
Facebook 7,8
Pfizer 7,7
BMW 7,3
General Motors 7,3
Robert Bosch 7,1
Honda 7,1
Sanofi 6,6
Bayer 6,2
Siemens 6,1
Oracle 6,1

L’Europe a déserté la filière informatique – micro-électronique, qui commande l’avenir : elle se focalise sur des applications (« intelligence artificielle », « cloud souverain », « usages », etc.), ignorant que le succès et la compétitivité dans les applications dépendent de la maîtrise des technologies fondamentales, qui sont leur principale ressource. Elle ne reste guère aux premiers rangs que dans l’automobile, fleuron de l’industrie du passé en déclin rapide.

Informatique et environnement

L’industrie informatique essuie souvent les critiques du courant de pensée écologique, justifiées par sa consommation importante de minéraux dont l’extraction et le traitement sont excessivement toxiques. Pour atténuer ces reproches l’industrie devrait s’engager dans une politique de recyclage systématique de ses produits et d’accroissement de leur durée de vie.

En outre, il convient de souligner que l’informatique est aussi un moyen de réduire l’empreinte carbone des activités humaines. Ainsi la consommation des moteurs à combustion interne a beaucoup diminué ces dernières décennies, surtout grâce à l’introduction de micro-contrôleurs qui ajustent le débit de carburant des alimentations. Il en va de même pour la consommation électrique des entreprises et des ménages.

Conclusion

L’industrie informatique, qui propulse la révolution industrielle en cours, connaît un essor rapide à peine ralenti par l’épidémie Covid-19. La stratégie de l’Europe, et plus particulièrement de la France, s’en détourne alors qu’elles possèdent des entreprises industrielles de premier plan (SAP, ARM, Dassault Systèmes, STMicro), un réseau d’universités et de centres de recherche sans équivalent dans le monde, et le premier marché mondial. Puissent les événements en cours susciter une prise de conscience et des actes pour redresser la situation actuelle?

Laurent Bloch, ex responsable de l’informatique scientifique de l’Institut Pasteur, Directeur du Système d’Information de l’Université Paris-Dauphine, auteur de plusieurs ouvrages sur les systèmes d’information et leur sécurité, se consacre à la recherche en cyberstratégie.

24 mai 202024 mai 2020

Surcharger les réseaux, un vrai dilemme de prisonnier…

En ces moments de confinement, beaucoup de nos activités reposent sur l’utilisation d’Internet. Dans un billet du 13 avril, Laurent Fribourg (CNRS) nous expliquait le fonctionnement du « coeur » d’internet : le protocole TCP/IP. Mais que se passe-t-il quand les réseaux sont encombrés (ce qui a tendance à arriver davantage en ce moment). Dans ce second billet, Laurent s’appuie sur la théorie des jeux pour nous expliquer comment gérer au mieux la circulation d’informations sur un réseau fortement sollicité. Antoine Rousseau

Le billet binaire Bravo et merci Internet ! du 13 avril mentionnait l’existence de liens entre l’analyse de l’algorithme TCP (Transmission Control Protocol) d’Internet et la théorie des jeux. Peut-on expliciter la nature de ces liens ?

TCP et le jeu du Prisonnier

Lorsque le réseau est encombré, l’équipement terminal (on dira pour simplifier l’utilisateur) est confronté à un dilemme : s’il s’abstient d’émettre le message à envoyer, la réception de celui-ci va s’en trouver retardée ; mais s’il choisit au contraire l’envoi immédiat, il contribue à encombrer le réseau davantage, et la réception risque aussi d’être retardée (peut-être même plus que s’il avait attendu). Il y a donc un compromis à trouver pour l’utilisateur entre l’action “coopérer” (C) qui consiste à s’abstenir d’émettre et l’action “délivrer” (D) qui consiste à émettre immédiatement au risque d’aggraver la congestion du réseau. Plus généralement, au niveau des utilisateurs du réseau, il existe une tension entre ceux adoptant la stratégie de coopération C et ceux optant pour la stratégie de compétition D.

On peut modéliser cette situation en représentant TCP comme un jeu et les utilisateurs comme des joueurs. Les actions possibles pour chaque joueur, en cas de congestion du réseau, sont soit C soit D. Une telle dualité C/D se retrouve dans un jeu célèbre, inspiré de la juridiction américaine (bien connue des amateurs de la série “New York, police judiciaire”). Le jeu s’appelle le “dilemme du Prisonnier”. Dans ce jeu, chaque prisonnier négocie de façon séparée avec la Justice un aménagement de peine en fonction des informations qu’il consent à donner, en l’occurrence la dénonciation ou non de l’autre prisonnier.

Si le prisonnier 1 dénonce 2 (action D) et que 2 ne dénonce pas 1 (action C), 1 bénéficie d’une réduction de peine (de valeur c>0, par exemple c=2 ans) et 2 subit une aggravation de peine (de valeur b<0, par exemple b=-2 ans). Si ni 1 ni 2 ne se dénoncent (ils jouent C tous les deux), leurs peines restent inchangées (profit a=0). Enfin si 1 et 2 se dénoncent l’un l’autre (ils jouent D tous les deux), leur peine à tous les deux s’aggrave (profit d <0, par exemple d=-1 an). Dans ce jeu, les deux prisonniers jouent leur coup (C/D) simultanément sans connaître le coup joué par l’autre, comme dans le jeu Pierre-papier-ciseaux.

Un tel jeu à 2 joueurs avec, chacun, 2 coups possibles, peut se représenter à l’aide d’un tableau à 2 lignes et 2 colonnes. Les lignes correspondent aux actions possibles du joueur 1 : la 1^ère ligne correspond au fait que le joueur 1 joue C, et la 2^ème ligne D. Les colonnes correspondent aux actions possibles du joueur 2 : la 1^ère colonne correspond au fait que 2 joue C, et la 2^ème colonne D. La case du tableau située sur la ligne i et la colonne j correspond au cas où le joueur 1 joue C si i=1, ou D si i=2, et le joueur 2 joue C si j=1, ou D si j=2.

Cette case contient un couple (p1, p2), où p1 est le profit retiré par le joueur 1, et p2 celui du joueur 2. Dans notre jeu du Prisonnier, le tableau de profit est de la forme :

Par exemple, la case située sur la 1^ère ligne et la 2^ème colonne du tableau, correspond au cas où Joueur 1 joue C, et Joueur 2 joue D. Cette case contient (-2,+2), ce qui signifie que la peine de 1 est aggravée de 2 ans, tandis que la peine de 2 est, elle, allégée de 2 ans. En fait, le tableau de profit ci-dessus peut se mettre sous la forme générale:

où les paramètres a, b, c, d vérifient l’ordre suivant : c > a > d > b.
Ami lecteur, vois-tu pourquoi cet ordre sur les peines garantit la pertinence du jeu ?

Ce qui est remarquable, c’est qu’on peut voir le jeu TCP lui-même (dans le cas simplifié où le réseau n’a que 2 joueurs) comme une forme de jeu du Prisonnier paramétré avec C=s’abstenir de délivrer le message, et D =Délivrer. Un tableau de profit pertinent pour le jeu TCP est, par exemple :

Il s’agit là d’un jeu du Prisonnier avec c = 0 > a= -1 > d = -3 > b = -4, le profit correspondant au retard induit par les actions des joueurs 1 et 2 (0 = retard nul ; –i = retard de i unités de temps avec i = 1, 3 ou 4). Par exemple, si le joueur 1 joue D et 2 joue C, le tableau donne profit(D,C)=(0,-4), ce qui signifie que, sur ce coup, le message courant du joueur 1 subit un retard c=0, et celui du joueur 2 un retard de |b|=4 unités de temps. Symétriquement, si 1 joue C et 2 joue D, le message de 1 va subir un retard de |b|=4 tandis que celui de 2 un retard c=0. De façon générale, il y a trois cas :

L’un des joueurs est égoiste (action D) et l’autre altruiste (action C) : le retard du message de l’égoiste est minimal c=0, tandis que celui de l’altruiste, qui cumule suspension d’émission (C) et congestion du réseau entretenue par D, est maximal (|b|=4).
II. Les deux joueurs suspendent leurs messages (même action C) : les messages subissent un retard > 0, mais faible (|a|=1) car l’action coopérative de suspension diminue efficacement le trafic, et les deux joueurs sont bientôt autorisés à émettre lors du retour à la normale.
III. Les deux joueurs sont égoistes (même action D) : ils aggravent la congestion du réseau si bien que leurs messages, malgré l’envoi immédiat, subissent un retard |d|=3 plus important que dans la situation coopérative II (|d|>|a|). Ce retard |d| est cependant moindre que le retard |b| du message de l’altruiste en I qui subit la situation la plus défavorable (|d|<|b|).

On a donc l’ordre sur les valeurs absolues : |c|<|a|<|d|<|b|, et, en prenant en compte du signe des paramètres, on retrouve bien : c > a > d > b.

Stratégie et équilibre de Nash

Maintenant que TCP est vu comme un jeu du Prisonnier (nous avons traité le cas de 2 joueurs, mais cela s’étend à un nombre arbitraire), posons-nous la question de stratégie gagnante lorsque le jeu est répété un nombre indéterminé de fois.

Pour fixer les idées, jouons avec 1. Si on savait d’avance ce que 2 allait jouer, on serait sûr de l’action à faire : par exemple, si on savait que 2 joue C, on regarderait les cases de la 1ère colonne du tableau, soit profit(C,C)=(-1,-1) et profit(D,C)=(0,-4), et on choisirait l’action la plus profitable pour 1, en l’occurrence l’action D puisque 0 > -1. De façon générale, on peut définir la meilleure réponse du joueur 1 à une action connue de 2. On définit symétriquement la meilleure réponse de 2 à une action connue de 1. On dit maintenant qu’une paire d’actions (a1, a2) est un équilibre de Nash si a1 est la meilleure réponse de 1 à l’action a2, et a2 la meilleure réponse de 2 à l’action a1. On peut voir alors que dans tout jeu du Prisonnier (et donc en particulier dans le jeu TCP), la paire d’actions (D,D) est un équilibre de Nash, et que, de plus, il s’agit du seul équilibre de Nash du jeu.
En êtes-vous vous-même convaincu ?

La notion d’équilibre de Nash concerne ici un couple d’actions, mais elle s’étend à un couple de stratégies (une stratégie étant grosso modo une liste d’actions dans un jeu répété). Un équilibre de Nash est alors :

Une liste cohérente d’actions dans laquelle l’action de chaque joueur maximalise son profit, les actions des autres joueurs étant fixées.
Le profil d’action à l’équilibre est stable : aucun joueur n’a intérêt à changer d’action si les autres joueurs ne modifient pas eux-mêmes l’action qui leur est assignée à l’équilibre.

De façon fondamentale, John Nash (dont le film “A Beautiful Mind” retrace la vie) a montré en 1950 que tout jeu fini (c.à.d., un jeu où chaque joueur a un nombre fini de coups possibles, ce qui est le cas ici), possède un tel équilibre.

Les économistes pensent généralement que l’action des agents aboutit à un équilibre de Nash. Il y a deux justifications principales à cela :

1. La notion de stabilité collective: Si les agents avaient à jouer de façon répétée le jeu, ils amélioreraient constamment leur façon de jouer jusqu’à obtenir ce qu’ils considèrent comme une meilleure réponse.
2. La notion d’accord auto-entretenu : Supposons que les agents se mettent d’accord en avance sur la façon dont ils vont jouer. Ils sont amenés à se faire confiance sur le respect mutuel de l’accord dans la mesure où, dans un équilibre de Nash, aucun agent ne peut augmenter son profit en changeant séparément de stratégie quand les autres agents maintiennent la leur.

La notion d’équilibre de Nash permet ainsi de comprendre pourquoi, en modélisant les terminaux de TCP comme des joueurs, ceux-ci sont conduits à adopter un profil stable d’actions : dans la modélisation à 2 joueurs, cela correspond à une situation où les 2 utilisateurs adoptent la stratégie compétitive (action D). Dans d’autres domaines de l’analyse du trafic, la notion d’équilibre de Nash permet d’expliquer des paradoxes connus expérimentalement comme le ralentissement que peut provoquer l’ajout d’une liaison dans un réseau (paradoxe de Braess). Cela provient du fait qu’un équilibre de Nash n’est pas nécessairement optimal, c’est-à-dire qu’il ne maximalise pas forcément le profit de chacun. Par exemple, dans le jeu TCP, il serait plus bénéfique aux utilisateurs d’adopter tous les 2 une stratégie coopérative C (pourquoi ?) ; malheureusement, ce n’est pas une situation stable, puisqu’alors chaque joueur est tenté de changer sa stratégie C pour D (en supputant que l’autre ne change pas la sienne), dans l’espoir de gonfler son profit. Et on retombe alors sur l’équilibre de Nash (avec la stratégie commune D). Cela est appelé parfois le Prix de l’anarchie, mais ce serait une autre histoire à raconter …

Laurent Fribourg (CNRS, LSV, Saclay)

Références

David Poole. Game Theory: Analysing Games. CPSC 322 Lecture 35.
Oliver Schulte. Matrix Games and Nash Equilibrium. CMPT 882. Simon Fraser U.
Irwin King. Introduction to Game Theory The Chinese U. of Hong Kong.

22 mai 202028 avril 2020

Quand la physique s’en mêle : les attaques matérielles

Grâce aux auteurs du Livre blanc sur la cybersécurité qu’Inria a publié en 2019, nous vous proposons une série d’articles sur cette question majeure. Après avoir traité des aspects liés aux problèmes théoriques sous-jacents, aux méthodes de vérification ou aux protocoles cryptographiques, nous abordons aujourd’hui les attaques matérielles moins connues du grand public mais tout aussi importantes. Jean-Louis Lannet (Inria Rennes) nous en présente les tenants et les aboutissants. Pascal Guitton

La sécurité informatique est un monde complexe offrant de multiples facettes. Nous sommes relativement habitués à voir des attaques contre nos systèmes informatiques menées via des logiciels malveillants. Mais il faut également compter sur une autre forme d’attaque, liée au support physique d’exécution des logiciels. Un logiciel ne peut en effet s’exécuter que sur du matériel (processeur, les mémoires, les périphériques, etc.), qui peut lui aussi être la cible d’attaques.

Depuis quand ?

A l’origine de ce type d’attaque, on trouve la conquête spatiale. En effet, dès que l’électronique a commencé à voyager dans l’espace, des phénomènes aléatoires se sont produits. Le comportement de l’électronique n’était plus celui attendu, le rayonnement solaire venant perturber l’électronique. Une particule, c’est de l’énergie, et quand elle touche de l’électronique, de l’énergie se rajoute à celle utilisée pour faire fonctionner les processeurs, les mémoires, etc. Mais cette particule arrive de manière non contrôlée et donc aléatoire. On parle alors de faute injectée. Très tôt, la prédiction de ces phénomènes a été un enjeu pour la recherche. L’un des plus anciens articles scientifiques sur ce sujet (1967) concerne la simulation de l’injection de faute dans un calculateur de la fusée Saturn 5.

La fusée Saturn V – Extrait du site Wikipedia

Il y a une vingtaine d’années, des chercheurs ont revisité ce phénomène en essayant de l’utiliser non plus de manière aléatoire mais de manière contrôlée afin d’obtenir des effets ciblés. Les techniques utilisées à cette fin sont diverses, plus ou moins simples, plus ou moins coûteuses. En général, l’attaquant doit pouvoir accéder physiquement à la cible. Les moyens pour injecter une faute dans un circuit sont divers et variés : laser, modification de la tension, modification de l’horloge interne du circuit, etc. Nous ne parlerons pas ici des attaques matérielles réalisées par logiciel, comme Spectre, Meltdown ou Clockscrew.

Comment ?

Les attaques par illumination laser consistent à éclairer intensément le silicium du composant à l’aide d’un laser ou d’un simple flash d’appareil photo. L’énergie transportée par la source lumineuse est absorbée par les électrons du silicium qui constituent le circuit. Ces attaques demandent un équipement coûteux ainsi que l’ouverture de la puce cible (retirer l’enrobage autour de la puce proprement dite pour que la lumière atteigne la puce). La précision de ces attaques est inégalée, il est même possible dans certains cas de choisir le transistor à perturber en identifiant précisément les cibles grâce à un microscope électronique.

Un autre vecteur d’attaque beaucoup plus simple à mettre en œuvre consiste à perturber l’horloge d’un ordinateur qui permet de cadencer l’exécution des instructions : à chaque top d’horloge, le processeur exécute l’instruction en cours. Si un cycle d’horloge est raccourci en dessous du temps nécessaire aux signaux pour se stabiliser, alors le processeur abandonne l’exécution courante et commence à exécuter l’instruction suivante. De cette manière, une perturbation temporaire de la fréquence d’horloge peut permettre le « saut » d’une ou plusieurs instructions. Il suffit pour cela de superposer un signal d’horloge supplémentaire au signal d’origine.

La perturbation de la tension d’alimentation pendant un temps suffisamment court génère une erreur au même titre que la perturbation de l’horloge. En effet, afin de lire ou d’écrire une valeur en mémoire, un niveau de tension minimum est requis par le système. Si la tension n’est pas suffisante lors du front d’horloge, l’action n’est pas réalisée ou une valeur erronée sera renvoyée ; le flot d’exécution normal peut alors être contourné.

L’injection électromagnétique consiste à produire un champ électromagnétique intense à proximité des composants soit sous la forme d’une impulsion ou d’un train d’impulsions. Ceci permet d’altérer les valeurs stockées ou transmises (registres, bus, etc.). La difficulté réside ici dans la multitude de paramètres qui doivent être pris en compte : distance et inclinaison de la sonde, orientation du champ, puissance de l’émission, forme de l’impulsion, etc.

Champ électromagnétique – Extrait du site Wikipedia

Dans quel but?

Au final, quelle que soit la technique utilisée, l’attaquant a la possibilité de modifier le comportement du programme, qui ne va pas réaliser la suite d’instructions prévue mais autre chose. L’effet de la faute sur l’exécution du programme peut être très varié, l’injection pouvant se faire, soit sur le bus de communication, soit directement dans la mémoire. Ainsi le saut d’une instruction peut être bénéfique pour l’attaquant. Si un accès à une ressource est précédé d’un test visant à contrôler si l’utilisateur a le droit d’y accéder, alors viser cette instruction permet à l’attaquant d’obtenir l’accès même sans détenir ce droit.

S’il cible un registre qui mémorise une variable de type vrai/faux, il peut facilement changer sa valeur. En effet, en informatique, on code la valeur « faux » par zéro et « vrai » correspond à toutes les autres valeurs. Il suffit lors de l’écriture de cette valeur de perturber l’écriture pour obtenir une valeur aléatoire et donc forcément vraie. De même, l’attaquant peut éliminer une action d’écriture. Si par exemple, un compteur d’essais est borné à trois, à l’image du nombre d’essais possibles lors de la saisie du code PIN d’une carte bancaire, il suffit de perturber le circuit lors de l’écriture pour « oublier » la décrémentation du compteur et donc permettre de multiples essais.

Ce type d’attaque présente un côté magique. En réalité, les taux de succès sont assez faibles et une injection nécessite de maîtriser de très nombreux paramètres dont les deux principaux sont la localisation spatiale et temporelle de la faute injectée. La première implique une cartographie (balayage spatial) pour connaître les endroits sensibles à cibler, la seconde un balayage temporel pour déclencher le comportement attendu au bon moment. Pour la seconde, l’attaquant incrémente le délai avec un pas correspondant à une instruction. Ceci permet de balayer une trace d’exécution. Le lecteur attentif aura relevé le mot délai. Et c’est le point faible de ces attaques, car il est très difficile d’obtenir un point de déclenchement servant de référence à partir duquel on synchronise l’injection.

Il va de soi que certains composants ont des protections matérielles très efficaces pour lutter contre ces attaques. L’industrie de la carte à puce est en pointe dans ce domaine. Les composants utilisés sont très spécifiques, ils sont dits « tamper resitant » c’est-à-dire qu’ils résistent plus longtemps à ce type d’attaque. L’expertise nécessaire pour les attaquer est donc beaucoup plus élevée que celle requise par exemple pour attaquer des consoles de jeux (elles sont particulièrement visées par ce type d’attaque car le propriétaire peut s’octroyer des droits pour charger des programmes non prévus).

Pour se protéger, on peut aussi chercher à programmer des logiciels ayant la capacité à résister à ces attaques. Le programmeur se doit d’incorporer de la redondance, soit temporelle, soit spatiale. La redondance temporelle consiste à exécuter deux fois le même calcul. Si le programme dispose des mêmes données d’entrée, il doit forcément aboutir à deux résultats identiques. Si ce n’est pas le cas, c’est que probablement une attaque a eu lieu. La redondance spatiale va consister à écrire une variable dans deux emplacements séparés. La probabilité qu’une attaque parvienne à affecter les deux emplacements est beaucoup plus faible. Il faut bien entendu écrire aux deux emplacements mais aussi lire et comparer les deux registres avant toute utilisation. On voit donc que programmer de manière sécurisée complexifie la tâche du programmeur. Il va en outre devoir se « battre » contre les compilateurs, qui sont suffisamment intelligents pour détecter que le programmeur fait deux fois la même chose et donc supprimer un des deux calculs pour des raisons d’optimisation.

Il reste une question importante : est-on capable de prédire qu’un logiciel peut avoir un comportement hostile en cas d’attaque par faute ? C’est exactement ce que cherchaient à montrer les chercheurs d’IBM en 1967. L’idée est de caractériser la puissance de l’attaquant (ce qu’il peut faire) et d’évaluer toutes les combinaisons de ses capacités sur le programme. La première chose à faire consiste à comprendre le modèle de faute de l’attaquant sur un matériel donné. C’est généralement par expérimentation que l’on arrive à démontrer que telle ou telle faute est possible. Cela génère un problème combinatoire car il faut essayer tous les cas possibles, ce qui devient très rapidement impossible dès que l’on sort d’exemples simples. Il faut juste admettre que, là, l’attaquant a une longueur d’avance sur le défenseur. Mais le défenseur peut utiliser du matériel résistant aux fautes, ce qui est le cas des cartes à puce particulièrement bien protégées contre ces attaques.

Prototype de carte puce par Roland Moreno en 1975 – Extrait du site Wikipedia

Pour finir

En conclusion, l’exécution d’un programme dépend du bon fonctionnement du matériel sous-jacent. Ce dernier peut être la cible d’attaques spécifiques donnant accès à des biens ou des services illégalement. Tous les systèmes accessibles physiquement par l’attaquant sont exposés au risque, en particulier ceux embarqués dans les dispositifs de l’Internet des objets. En dehors du monde des cartes à puce qui sont efficacement protégées, peu de concepteurs prennent en compte ce type d’attaque. Certaines fonctions critiques, comme le paiement, sont développées dans des systèmes qui ne sont pas suffisamment protégés, comme nos téléphones mobiles. La protection contre ces attaques se fait soit par du matériel spécifique soit par une écriture spécifique de logiciel incluant de la redondance. Ce type d’attaques est efficace mais il faut noter que la réussite d’une attaque est généralement faible due au grand nombre de paramètres que l’attaquant doit maîtriser. La réalisation de ces attaques nécessite des compétences spécifiques, de nombreuses heures d’expérimentation, ainsi que du matériel coûteux. Le coût prohibitif pour l’attaquant est donc une chance pour le défenseur, lui laissant un peu d’avance.

Jean-Louis Lanet (Inria, Rennes)

20 mai 202020 mai 2020

Huawei, victime collatérale du Covid-19 ?

Quel lien entre Covid 19 et 5G ? Des sites conspirationnistes tentent de répondre à la question en inventant une relation de causalité conduisant parfois à des actes violents. Nos amis Jean-Jacques Quisquater et Charles Cuvelliez nous décrivent une conséquence potentielle de la survenue de la pandémie au milieu des débats sur le passage à la 5G et l’utilisation d’équipements de la société chinoise Huawei. Le virus va-t-il faire pencher la balance du coté de l’interdiction ? Ou comment numérique, santé et géopolitique se rejoignent. Pascal Guitton

Les astres sont désormais alignés pour permettre aux Etats-Unis de réaliser leur rêve : non seulement interdire Huawei (et ZTE) de leur marché mais enfin convaincre leurs alliés de faire de même. Tous les pays évoquent désormais le retour sur leur sol du tissu industriel qu’ils ont laissé filer en Chine dans un refrain unanime : « Plus jamais ça ! ».

Ce n’est pas tellement l’espionnage qui devrait effrayer les Etats-Unis: il suffit au fond de chiffrer tout ce qui transite par des équipements Huawei pour être tranquille. C’est plutôt la menace que la Chine ordonne un jour à Huawei (ou menace) d’arrêter tous les réseaux télécom de son cru à travers le monde en cas de conflit ou de tensions géopolitiques extrêmes.

Cette dépendance vis à vis de l’étranger surprend dans le cas des Etats-Unis car, effectivement, ce pays si technologique ne dispose plus d’aucun équipementier télécom : ils dépendent de Nokia et Ericsson et un peu de Huawei présent au sein des réseaux opérateurs ruraux US.

Comment est-on arrivé là ?

Les Etats-Unis hébergeaient pourtant les Bell Labs qui ont donné naissance à Lucent. Ce dernier était devenu l’équipementier attitré et neutre des opérateurs télécom américains (un peu comme Siemens et Alcatel l’étaient en Europe). Pour le Canada, c’était Nortel, issu lui aussi des Bell Labs en 1949. Lucent a raté le virage internet : la société pensait pouvoir développer son propre protocole. Lucent était aussi leader dans les technologies de réseau optique avec Nortel et était donc en pole position pour le boom d’Internet sauf que ces capacités ont été déployées bien plus vite que la demande. La bulle Internet du début des années 2000 en a résulté.

Site des Laboratoires Bell à Murray Hill – Extrait de WikiPedia

Lucent possédait également une technologie 3G supérieure (avec le CDMA) mais n’a pas réussi à capturer les marchés européen et asiatique qui avaient déjà opté pour la norme GSM et son successeur UMTS pour la 3G. Toutes ces opportunités ratées ont amené leur lot de fusions et d’acquisitions : Ericsson a absorbé Nortel après sa faillite en 2009. Nokia a acquis Motorola Solution en 2011, puis la partie télécom de Siemens. En 2006, Alcatel absorbait Lucent pour être finalement lui-même absorbé par Nokia ! Pendant ces temps douloureux, deux acteurs ZTE et Huawei émergeaient, au bon moment, juste après la bulle Internet, en profitant du marché chinois qu’il fallait équiper. Qui allait imaginer que les lois anti-trusts aux Etats-unis en cassant ATT en 1982, allaient donner un avantage énorme à Huawei (fondé en 1987), ZTE (1985) et un peu Samsung (1938) ? Et qu’aujourd’hui, l’histoire se retourne en laissant les Etats-Unis les mains vides …

Pour les Américains, interdire leur territoire à Huawei n’est pas suffisant si la menace résulte de la capacité à stopper tous les réseaux équipés par Huawei à travers le monde en cas de conflit. Les opérations militaires nord-américaines ne s’arrêtent pas aux frontières de leur territoire. Et de rappeler, dans une étude américaine de la National Defense University, qui émane du département de la Défense US que les réseaux télécoms en Irak sont équipés par Huawei. Les États-Unis ne peuvent pas complètement se baser sur les satellites et dans le monde interconnecté aujourd’hui, utiliser des fibres dans un pays « ami » ne garantira pas que les communications ne passent pas par un équipement contrôlé par ZTE ou Huawei.

Les alliés pas très partants

Les pays alliés ont répondu aux États-Unis en expliquant qu’ils localiseraient les équipements Huawei aux extrémités du réseau et pas en son cœur (comme la France) mais en 5G, la différence entre cœur de réseaux et ses extrémités est évanescente. Qui plus est, lorsqu’on passera à la 5G qui fera plus que simplement augmenter la vitesse, le cœur de réseau devra passer à la 5G aussi. Les entreprises chinoises ont une longueur d’avance en innovation technologique sur la 5G, les Américains s’en désolent d’autant plus que leurs concurrents asiatiques planchent déjà sur la 6G qui se greffera sur les équipements 5G qu’on installe aujourd’hui.

C’est dire l’urgence à trouver une alternative à Huawei et ZTE pour les États-Unis. Des experts ont songé à priver Huawei des composants, toujours fournis par les Américains mais on sait la résilience des chinois à se sortir de tels embargos. Ces équipements, de plus, ne sont plus fabriqués sur le sol nord-américain mais à Taïwan !

Quand les États-Unis envisagent de créer leur propre champion, ils ont en tête le programme Apollo : là aussi, les Soviétiques avaient subitement acquis une avance technologique stratégique dans l’espace. Qu’à cela ne tienne : l’implication du gouvernement américain a suffi à créer une industrie de toute pièce qui a finalement damé le pion à l’URSS. Autres exemples : la Silicon Valley elle aussi émanation des programmes militaires de la fin de la seconde guerre mondiale ou encore Intelsat et Inmarsat à l’origine de l’industrie du satellite qui résultaient d’investissements d’état et sans compter Internet, un protocole qui devait résister à une déflagration nucléaire.

Sauf qu’aujourd’hui, la politique américaine est plutôt guidée par le slogan « buy, don’t make ».

C’est pourquoi les 3 options du gouvernement nord-américain sont, d’après cette étude américaine (1) :

– Supporter les équipementiers télécoms européens et sud-coréens (car Samsung s’y est mis aussi) : ils sont fortement présents aux États-Unis par leur filiales et le gouvernement nord-américain pourrait leur donner un coup de pouce via la fiscalité, des garanties d’Etat, les achats en masse pour stabiliser leurs finances et booster leur R&D.

– Acheter Nokia ou Ericsson ou au moins une minorité de contrôle. D’après cette même étude (1), Samsung n’est pas une cible car détenant trop peu de parts de marché. La 5G n’est qu’une composante non autonome d’une stratégie globale de ces chaebols, le nom fleuri donné aux énormes conglomérats coréens qui n’ont plus d’équivalent ailleurs dans le monde, qu’on ne peut sortir de ce fait de leur contexte. Ceci dit, les Européens pourraient s’y opposer maintenant qu’ils se sont réveillés face aux prises de participations étrangères de leurs champions.

– Créer un consortium américain à savoir par un jeu d’achats, d’investissement et de financement, ramener sous un même toit les compétences locales diverses avec les brevets et la propriété intellectuelle dont d’ailleurs Nokia et Alcatel dépendent toujours pour créer un nouveau champion. Le gouvernement des États-Unis s’allierait avec des investisseurs. Nokia et Ericsson seraient évidemment des partenaires ou des fournisseurs attitrés de ce consortium histoire de ne pas repartir à zéro. On y associerait les entreprises des alliés des USA : le réseau Five Eyes ainsi que l’Allemagne, la France, le Japon, la Corée. Le succès dépendra des prix et des incitations à travailler avec ce nouveau venu. Ce n’est pas gagné.

Ce qui est clair, c’est que les États-Unis ne vont pas lâcher le morceau. La crise qui s’annonce et qui va fragiliser le monde entier va certainement leur permettre de mettre en œuvre une de ces stratégies en réciprocité de services (au sens large) que leur demanderont d’autres pays.

Jean-Jacques Quisquater (Université de Louvain, Ecole Polytechnique de Louvain et MIT) & Charles Cuvelliez (Université de Bruxelles, Ecole Polytechnique de Bruxelles)

Pour en savoir plus

(1) The Worst Possible Day: U.S. Telecommunications and Huawei, By Thomas Donahue, PRISM Vol. 8, No. 3

18 mai 202028 avril 2020

Décret Datajust du 27 mars 2020 et covid-19 : attention aux raccourcis hâtifs !

Il n’est pas rare d’entendre que des algorithmes de machine learning sont utilisés dans divers domaines afin d’assister ou de remplacer les décisions humaines. Lêmy Godefroy nous explique aujourd’hui l’initiative du décret Datajust, un décret permettant l’utilisation du machine learning afin d’aider certaines décisions judiciaires. Elle nous éclaire aussi sur la limite d’applicabilité de ces algorithmes. Lonni Besançon

Le décret Datajust

Le gouvernement a adopté le décret dénommé Datajust le 27 mars dernier, en pleine période de confinement lié au coronavirus. Ce texte à l’étude depuis deux ans organise la mise en place d’un traitement des données des décisions de justice rendues en appel entre le 1er janvier 2017 et le 31 décembre 2019 par les juridictions administratives et judiciaires dans les contentieux portant sur l’indemnisation des préjudices corporels.

Les buts visés sont l’élaboration d’un référentiel indicatif d’indemnisation des préjudices corporels, l’information des parties, l’aide à l’évaluation du montant de l’indemnisation à laquelle les victimes peuvent prétendre afin de favoriser un règlement amiable des litiges et la mise à disposition d’une source nouvelle de documentation pour les juges appelés à statuer sur ces demandes d’indemnisation^¹. Plus précisément, il s’agit de traiter algorithmiquement les décisions rendues par les juridictions d’appel en matière d’indemnisation des préjudices corporels^².

Le chiffrage des dommages-intérêts versés en réparation de ces préjudices est depuis longtemps l’objet de barèmes destinés à aider les juges à les estimer.

Ces barèmes sont indicatifs et le juge s’en sert comme d’un référentiel.

Avec le déploiement des systèmes de machine learning, des algorithmes publics ont été à l’étude pour affiner le chiffrage de ces indemnités. Le traitement et la modélisation par ces algorithmes de masses de décisions rendues dans ce domaine éclairent la jurisprudence « concrète »^³. Celle-ci devient exploitable. Elle offre au juge une meilleure connaissance du « droit en action ». Il se forme alors une collégialité judiciaire numérique circonscrite à un ressort territorial ou étendue à l’ensemble du territoire national : Chaque juge peut savoir « de quelle manière, dans la pratique, les différents juges de France traiteront telle question précise qui leur sera soumise (…) »^⁴.

Les enjeux du décret

Ces chiffrages algorithmiques, comme les barèmes, sont des aides à la décision. Ils n’ont pas vocation à se substituer à l’appréciation du juge. Ils l’assistent dans sa fonction de dire le droit (existence d’un préjudice) et dans sa mission de concrétisation du droit ainsi prononcé qui se traduit par le chiffrage du montant des dommages-intérêts. En d’autres termes, « quand bien même il souhaiterait suivre la tendance majoritaire que lui restitue un outil algorithmique, le juge ne saurait y procéder qu’en se réappropriant le raisonnement qui se donne à voir. La décision de justice ne saurait être motivée (exclusivement) par l’application d’un algorithme sans encourir la censure qui, au visa de l’article 455 du code de procédure civile, s’attache à l’absence de motivation, à laquelle elle serait assimilable »^⁵.

Les bénéfices attendus sont importants : une justice plus proche des justiciables et de leurs individualités. Par exemple, en matière d’indemnisation du préjudice corporel, les tendances algorithmiques permettraient un débat utile en ne plaidant pas « au premier euro », mais en déplaçant l’analyse sur les éléments de spécificité du préjudice. La décision de justice gagnerait ainsi en finesse de raisonnement en mettant en évidence les spécificités d’un préjudice non prises en compte par les standards d’indemnisation. Par exemple, une situation familiale atypique justifiant un ajustement des indemnités versées. La discussion entre les parties portant dans une affaire déterminée sur les écarts à ces standards est de nature à enrichir le débat judiciaire et à introduire des données d’évolution sociales susceptibles de faire évoluer la jurisprudence.

Datajust et covid-19 : la confusion

Très vite, sur internet, certains ont avancé que le décret Datajust allait servir à estimer la valeur des préjudices des victimes du coronavirus.

Or c’est précisément ce type de situation qui échappe au champ de compétence des algorithmes.

Ceux-ci ne sont fiables qu’en présence d’affaires typiques, reproductibles, comportant un nombre suffisamment important de décisions pour asseoir l’élaboration de modèles mathématiques capables de fournir des tendances quant aux montants probables de dommages-intérêts dans un cas similaire futur. Ils chiffrent, comparent, comptent, mesurent les répétitions pour extraire des corrélations.

Leur usage n’est pas envisageable en présence d’affaires qui, par leur singularité, nécessitent « un traitement individuel »^⁶.

Une affaire est singulière notamment parce qu’elle est juridiquement spécifique. La spécificité vise les différends qui méritent un examen approfondi en raison de la nouveauté ou de l’actualité du problème juridique ou du caractère inédit des faits. Le juge clarifie ici les modalités d’exécution de règles qui n’ont été, jusque-là, que pas ou peu confrontées aux faits atypiques d’une espèce.

Ce contentieux dit qualitatif ne relève pas du champ de compétence des algorithmes. Il en va différemment du contentieux quantitatif qui se démarque par des problématiques récurrentes et par des solutions stables qui s’accordent à la nature mathématique des algorithmes. Leur champ d’action est donc celui des contentieux où des modélisations peuvent être opérées à partir de critères factuels connus, identifiables, reproductibles et chiffrables.

Le caractère inédit de la pandémie qui frappe aujourd’hui le monde et donc l’absence de précédents judiciaires font que, par nature, la question soulevée par certains de l’indemnisation des préjudices corporels des victimes du coronavirus ne peut pas être résolue par un calcul algorithmique.

Dans ce contexte difficile pour les corps et les âmes, prenons garde aux informations trop vite relayées de sites en sites et qui circulent sur les réseaux.

Lêmy Godefroy, Enseignante, chercheuse en droit, GREDEG UMR 7321, Université Côte D’Azur

Références et notes:

[1] Décret n° 2020-356 du 27 mars 2020 portant création d’un traitement automatisé de données à caractère personnel dénommé « DataJust », JORF n°0077 du 29 mars 2020, texte n°2.

[2] Rapport de recherche réalisé dans le cadre de la Mission de recherche Droit et Justice. V. L. Godefroy, F. Lebaron, J. Levy-Vehel, « comment le numérique transforme le droit et la justice par de nouveaux usages et un bouleversement de la prise de décision. Anticiper les évolutions pour les accompagner et les maîtriser », 5 juillet 2019.

[3] « La mémoire numérique des décisions judiciaires », D. E. Buat-Menard, P. Giambiasi, 2017, p.1483. P. Delmas-Goyon, op.cit., p.93 : « Au-delà de la conception traditionnelle de la jurisprudence (quelle est l’interprétation retenue de la règle de droit ?), il s’agit de savoir concrètement, dans une situation donnée, à quelle décision s’attendre si la justice est saisie (quelle pension alimentaire compte tenu de la situation respective des conjoints qui se séparent, quel montant de dommages-intérêts pour un préjudice donné, quel mode de poursuite pour une infraction déterminée, quelle durée de suspension du permis de conduire, quel aménagement de la peine, etc.) ».

[4] La prudence et l’autorité. L’office du juge au XXIe siècle, A. Garapon, S. Perdriolle, B. Bernane, C. Kadri, rapport de l’IHEJ, mai 2013.

[5] Cour de cassation citée dans le rapport de recherche réalisé dans le cadre de la Mission de recherche Droit et Justice. V. L. Godefroy, F. Lebaron, J. Levy-Vehel, « comment le numérique transforme le droit et la justice par de nouveaux usages et un bouleversement de la prise de décision. Anticiper les évolutions pour les accompagner et les maîtriser », 5 juillet 2019.

[6] A. Garapon, S. Perdriolle, B. Bernane, C. Kadri, référence citée précédement.

16 mai 202029 octobre 2020

Une esquisse d’anatomie des réseaux sociaux

Les sites de réseaux sociaux tels Facebook, Twitter, Youtube, LinkediIn, etc., reposent sur une panoplie de techniques mises au point par la science et l’ingénierie informatique. Pour les découvrir, commençons par une balade de l’utilisateur jusqu’aux data centers, ou centres de données.

De l’utilisateur aux data centers

Pour accéder à un réseau social, l’utilisateur utilise un ordinateur (ordinateur de bureau, ordinateur portable, ou, de plus en plus souvent, un de ces mini-ordinateurs que sont les smartphones). L’utilisateur se sert d’une interface graphique (site Web ou application pour smartphone) pour accéder aux services du réseau social. Cette interface lui permet de consulter, concevoir, ou réagir à des contenus, et bien plus encore. Suivant les réseaux sociaux, l’accès à tout ou partie du contenu est protégé par une phase d’authentification.

L’épine dorsale du système est le réseau mondial de communication Internet et des protocoles de communication tels que HTTPS, utilisés pour contacter et échanger des informations entre l’ordinateur de l’utilisateur et les ordinateurs hébergeant le réseau social. HTTPS est un protocole chiffré de bout en bout, garantissant que ces échanges ne puissent être interceptés ou modifiés. Pour améliorer la vitesse d’accès aux données, celles-ci sont également comprimées : avec en général un algorithme de compression générique tel que LZ77 pour le texte, et dans des formats de compression spécialisés pour les contenus multimédias (par exemple, JPEG pour les photos).

Les réseaux sociaux sont souvent développés par de grandes entreprises américaines. Pour les utilisateurs européens, ces entreprises ont implanté des centres de données en Europe, contenant une copie des mêmes données, afin de pouvoir les fournir plus rapidement. Cette affectation des clients à un centre de données en fonction de leur emplacement géographique peut par exemple se faire via le système de noms de domaine, DNS, qui transforme un nom comme twitter.com en une adresse de la machine à contacter sur le réseau Internet.

Les centres de données peuvent regrouper des centaines ou milliers d’ordinateurs dédiés à fournir des services (des serveurs, donc), qui, eux-mêmes hébergent les composants logiciels et les données du réseau social : cela représente, pour les plus populaires des réseaux sociaux, potentiellement des millions de lignes de code, des pétaoctets de données (un pétaoctet, c’est de l’ordre de millions de fois ce que peut contenir un disque dur classique) et de gigantesques puissances de calcul. Au cœur de ces systèmes, on trouve des bases de données qui stockent les contenus produits par les utilisateurs, mais également des données acquises sur ces utilisateurs, leur profil, leur historique de consultation, des données de personnalisation des services, etc. Grâce à un récent règlement européen (RGPD, article 20), les sites de réseaux sociaux doivent tous fournir un mécanisme (souvent accessibles dans les options du site) pour qu’un utilisateur récupère l’ensemble des données qui le concernent.

La recommandation et la recherche d’information

Une fonction des réseaux sociaux est la sélection et le classement des contenus destinés à un utilisateur particulier. Parmi tous les contenus qui ont été publiés, le système doit choisir lesquels présenter en premier à chacun. Comme l’attention de l’utilisateur est la valeur essentielle pour que cet utilisateur reste et revienne sur un site, cette fonction de classement est primordiale pour le réseau. Chaque réseau décide de sa propre fonction selon ses particularités, ses intérêts commerciaux, ses choix éditoriaux, etc.

Les paramètres utilisés sont nombreux, mais intègrent généralement tout ou partie des composants suivants : (i) l’origine du contenu, un contenu d’un « ami » ayant plus de valeur ; (ii) la fraîcheur, un contenu récent étant plus prometteur ; (iii) la popularité, un contenu très partagé étant préféré ; (iv) la nature, un contenu plus long ou intégrant une vidéo pouvant être préféré ; (v) les intérêts de l’utilisateur, explicitement décrits par une requête ou inférés de son historique de consultation ; (vi) sa localisation, un commerce de proximité étant plus pertinent qu’un autre situé au bout du monde ; et surtout (vii) l’intérêt commercial du service, les contenus sponsorisés ou que le service monétise plus facilement étant prioritaires. On peut facilement imaginer la difficulté à sélectionner les bons paramètres et ce, en ne mobilisant qu’un volume raisonnable de calculs, car le système doit produire un tel classement pour chaque utilisateur en un temps très bref. Les réseaux sociaux communiquent en général très peu sur cette fonction qui est pourtant clé pour comprendre comment les contenus sont poussés.

La publicité

La publicité est le revenu principal, voir quasi-exclusif, de la plupart des sites de réseaux sociaux (en 2019, par exemple, 98,5 % du chiffre d’affaires de 71 milliards de dollars de Facebook proviennent de la publicité). C’est l’objet d’une partie importante de leurs logiciels. Les véritables clients des réseaux sociaux ainsi monétisés, ce sont les entreprises qui achètent des espaces publicitaires, pas les utilisateurs pour qui les services sont en général gratuits. Les réseaux sociaux proposent à ces clients toute une palette d’outils de marketing : photos, vidéos, diaporama, etc. Ils leurs fournissent également des outils pour cibler des segments du marché, par exemple les hommes de 30 à 35 ans vivant en région bordelaise et s’intéressant à l’haltérophilie, et pour analyser l’efficacité des campagnes de pub. Chaque réseau social essaie de se distinguer par des modes de publicité différents, et bien sûr par son public.

Les publicités sont choisies pour les réseaux sociaux les plus importants à partir de systèmes sophistiqués d’enchères. Quand nous sommes sur un des réseaux les plus populaires et qu’un message publicitaire nous est présenté, ce n’est pas par hasard, mais le résultat d’une vente aux enchères qui a eu lieu en une fraction de seconde. Les annonceurs ont placé au préalable des propositions de publicité en définissant leurs objectifs et leurs budgets. Le gagnant pour ce message publicitaire spécifique sera le message qui maximise une certaine valeur qui tient compte à la fois du budget de l’annonceur (ce qu’il est prêt à payer) et de l’impact estimé (comme la probabilité que l’utilisateur clique sur un lien). Le paiement peut se faire au nombre de « clics » ou même d’achats que l’annonce va générer. Des milliards de telles ventes aux enchères ont lieu chaque jour sur les réseaux sociaux, et sur l’ensemble du Web.

La modération

Avec la montée en puissance du ressentiment des utilisateurs contre les contenus toxiques, messages de haine, fakenews, etc., la détection algorithmique de tels contenus a pris une grande place dans les logiciels des réseaux sociaux. Dans certains cas comme les contenus terroristes, une détection algorithmique est indispensable pour réagir quasi-instantanément ce que le recours à des modérateurs humains ne permet pas. Avec la crise du Covid-19, une partie de ces modérateurs humains se sont retrouvés au chômage quand les centres de modération ont fermé et que le télétravail était impossible pour des questions de protection des données personnelles, RGPD oblige. En temps normal, les modérations humaines et algorithmiques collaborent souvent dans les réseaux sociaux, la décision de bloquer un contenu détecté comme nocif par un algorithme étant, sauf rares exceptions, systématiquement soumise à une validation humaine.

Selon des sources non officielles d’ingénieurs de réseaux sociaux, la détection de contenus nocifs serait de « moins mauvaise » qualité par les algorithmes que par des humains. On peut imaginer que les algorithmes continueront à s’améliorer. Reste que le problème est très complexe. Par exemple, pour le texte, il faut gérer l’humour, l’ironie, l’argot… et surtout l’ambiguïté et la complexité de la langue. Les algorithmes ont aussi difficilement accès au contexte qui peut faire que la même expression peut prendre des sens différents selon qu’elle est utilisée par un homophobe patenté ou par un militant LGBT. Enfin, en dehors des temps de crise, une modération purement algorithmique serait-elle acceptable pour les citoyens ? Cela ne serait certainement pas le cas si les algorithmes sont opaques, décidés de façon autoritaire et unilatérale par le réseau social (entendre ici l’entreprise) sans être discutés par le réseau social (entendre ici le réseau des utilisateurs). Un vrai sujet est bien la participation de la société à la conception des algorithmes et des règles qui les guident.

Big data et apprentissage

Les algorithmes les plus sophistiqués posent des problèmes particuliers. C’est le cas de l’analyse de données massives (big data) souvent à la base des recommandations. Par exemple, un service de vidéo à la demande utilise le big data pour découvrir des proximités de goût entre des utilisateurs, ce qui lui sert pour suggérer des films à ses clients. C’est aussi le cas de l’apprentissage automatique qu’on utilise quand on ne sait pas décrire pas à pas un algorithme qui résolve un problème particulier, mais qu’on a des exemples de résultats attendus. On utilise alors un algorithme d’apprentissage. L’algorithme utilise un corpus d’instances du problème posé et les réponses humaines qui y ont été apportées, comme par exemple un corpus de contenus et leurs classements par des modérateurs humains : message de haine, harcèlement, pornographie, etc. Quand on lui donne un nouveau contenu, l’algorithme d’apprentissage va rechercher les contenus du corpus qui s’en approchent le plus et proposer un classement en se basant sur les choix que des humains ont faits pour ces contenus. On voit bien que, dans les deux cas, big data et apprentissage, la qualité des résultats va dépendre de façon critique de la qualité des données. Dans le cas de l’apprentissage automatique, une difficulté supplémentaire est que la technologie actuelle ne permet pas d’expliquer les résultats.

Vérification et analyse des biais

Comment savoir ce qui se passe dans les logiciels des réseaux sociaux, souvent d’une réelle complexité et le plus souvent d’une totale opacité ? De telles analyses sont essentielles, par exemple, si on veut vérifier que le réseau social ne discrimine pas entre ses utilisateurs pour les offres d’emploi qu’il leur propose, ou qu’il ne promeut pas les contenus les plus extrêmes au détriment d’autres plus équilibrés mais moins « sexy ».

Pour analyser une fonctionnalité de réseau social, on peut le faire de l’extérieur, en mode « boîte noire ». Cela consiste à l’étudier comme un phénomène complexe, comme on étudie le climat ou le cœur humain. Pour mettre en évidence une discrimination basée sur le genre, on peut par exemple (et ce n’est pas simple), créer deux profils quasi-identiques sauf pour une variable (l’un d’une femme, l’autre d’un homme) et observer les différences de recommandations.

On peut aller plus loin si on a accès au code, voire aux données d’entraînement dans le cas d’algorithmes d’apprentissage automatique, en réalisant en interne un « audit » du système.

Que l’on soit dans l’analyse en boîte noire ou dans l’audit, il s’agit de vérifier si le logiciel respecte les lois (légalité), s’il est conforme aux déclarations du réseau social (loyauté), et s’il ne nuit pas à la société (responsabilité).

Conclusion

Nous avons vu la diversité des techniques et disciplines informatiques convoquées par les réseaux sociaux les plus populaires (réseaux, algorithmique, systèmes distribués, gestion de données, recherche d’information, apprentissage automatique, vérification, etc.). Il faut insister sur l’utilisation de la distribution des calculs entre l’ordinateur de l’utilisateur, et ceux de souvent plusieurs data centers. C’est encore plus vrai pour des réseaux sociaux décentralisés comme Mastondon, dont le logiciel est libre ; dans ce système, différentes instances du logiciel interopèrent (fonctionnent ensemble) pour offrir collectivement les fonctionnalités d’un réseau social. Les principes des réseaux sociaux se retrouvent également dans des luttes citoyennes en mode « sous-marin » sur les réseaux traditionnels, ou cachées sur le dark web. Elles peuvent alors s’appuyer sur une technique que nous n’avons pas encore rencontrée ici, la blockchain, c’est-à-dire un grand registre géré de manière distribuée basé sur la cryptographie.

Serge Abiteboul, Inria & ENS Paris, et Pierre Senellart, ENS Parie & Inria

14 mai 202030 avril 2020

Nos machines « amies » … et l’éthique dans tout cela ?

« Nous avons tendance à surestimer l’incidence d’une nouvelle technologie à court terme et à la sous-estimer à long terme. » Les craintes autour de l’IA sont sans doute exagérées car l’IA présente encore beaucoup de limites. Mais à long terme ? Que se passera-t-il quand nous vivrons entouré.e.s de robots capables de comprendre et de simuler des sentiments ? Comment serons-nous transformés ? Laurence Devillers souligne que l’irruption des machines émotionnelles (chatbots, robots) dans nos vies nécessite une réflexion éthique. Laurence est professeure à Sorbonne-université et membre du CCNE numérique, spécialiste de l’informatique affective au CNRS et autrice d’essais. Serge Abiteboul et Thierry Viéville

La pandémie du Covid-19 que nous traversons va amplifier l’arrivée du numérique dans notre quotidien. La France montre encore une large fracture numérique. Elle est à deux vitesses : d’un côté, celle du haut débit, où ouvrir une pièce jointe dans un e-mail, interroger internet ou visionner une vidéo est naturel. De l’autre, celle du bas débit où il n’est pas rare de faire plusieurs kilomètres pour pouvoir capter un signal sur son téléphone portable. Le portable et l’ordinateur vont devenir des objets incontournables, nous allons également nous habituer aux interfaces vocales, aux chatbots (ou agents conversationnels), à la télémédecine avec des objets connectés permettant de nous ausculter à distance. Les robots ont montré également leur intérêt pour se risquer à notre place dans des zones dangereuses. Pendant la pandémie, ils seraient utiles par exemple pour nettoyer la ville mais également pour faire nos courses, aller chercher des médicaments, etc. Les machines que nous construisons vont nous imiter de plus en plus pour pouvoir entrer en interaction sociale avec les humains.

Les premières pages de mon livre « Les robots « émotionnels » : santé, surveillance, sexualité… et l’éthique dans tout cela ? » sont une anticipation de ce que pourrait être notre quotidien en 2025 en compagnie des multiples objets intelligents qui nous entoureront. Une vie dans laquelle robots, voitures, maisons, frigidaires, montres, robots domestiques, robots aspirateurs, téléphones et autres machines connectées seront de plus en plus capables de percevoir nos émotions et d’y répondre. Demain, ils vont s’immiscer dans nos vies pour nous inciter à faire « les bons choix », pour décider à notre place s’il faut faire du sport, ou aller chez le médecin, pour être témoins de notre intimité, nous soigner, être des objets sexuels et remédier à notre solitude. Le pire est sans doute est que nous pourrions être heureux qu’enfin « quelqu’un » de bienveillant fasse attention à nous et soit là pour nous. Malgré le fait qu’ils sont des leurres, des présences vides de sentiments, ils sont capables de s’adresser à nous, d’apprendre nos habitudes et de nous montrer de l’attention, voire de l’empathie s’ils sont programmés pour être sociaux et affectifs, voire du plaisir s’ils sont des robots sexuels. Même si nous comprenons certaines de leurs limites, nous leur prêterons facilement des capacités que ces machines n’ont pas. Ces « amis artificiels » vont prendre une place grandissante dans la société, pour la santé, la surveillance ou encore la sexualité. Quelle sera la place de ces machines « amies » ou « amantes » dans la société ? La loi d’Amara, proposée par Roy Amara, ancien président de l’Institut du futur à Palo Alto en Californie s’applique bien à notre situation « Nous avons tendance à surestimer l’incidence d’une nouvelle technologie à court terme et à la sous-estimer à long terme. »

Les dimensions affectives envahissent les machines pour permettre un dialogue plus naturel mais aussi pour capter notre attention et nous rendre dépendant d’elles. Pendant longtemps, philosophes et scientifiques ont opposé émotion¹et raison. L’évolution des connaissances scientifiques, grâce aux neurosciences, montre que les émotions et les sentiments sont nécessaires au fonctionnement cognitif, à la mémorisation, à l’apprentissage et à l’interaction et sont indispensables pour l’interaction sociale. L’informatique émotionnelle regroupe trois technologies : la reconnaissance des affects, le raisonnement et la prise de décision à partir des affects, et enfin la génération d’affects grâce à des indices dans la voix, le visage, ou les gestes. Les émotions sont complexes et idiosyncrasiques, propres à chaque individu. Elles sont par essence dynamiques, dépendent de notre culture, de notre éducation et du contexte dans lequel l’enregistrement est capturé. Les systèmes actuels de détection des émotions sont encore très rudimentaires, ne reconnaissant que quelques expressions émotionnelles très caractéristiques mais elles pourraient avec beaucoup de données être meilleures que nous pour décrypter les émotions à partir de nos comportements à partir des expressions du visage, des gestes, de la posture, de la voix et des messages énoncés. La prise en compte du contexte de l’interaction et la connaissance de la personne devrait également rendre plus performant les systèmes actuels.

L’apprentissage machine et des approches symboliques sont utilisés pour créer les systèmes de dialogue émotionnel. Ce sont les prochains défis des agents conversationnels (Google Home, Alexa Amazon), des assistants virtuels (2D/3D) et des robots compagnons. Grâce à la collecte de nos données personnelles, la machine interprète des tendances de nos comportements affectifs et peut s’adapter à chacun de nous. L’empathie, par exemple, un des piliers des relations humaines, n’est peut-être plus l’apanage des humains. Actuellement, les approches sont encore peu robustes et non régulées. Bien que la robotique n’en soit qu’à ses prémices, on parle de mémoire, d’initiatives, de conscience, d’émotions et même de droits des robots, tout comme pour des humains. N’oublions jamais que les concepteurs de ces objets sont des humains. 80% des concepteurs sont des hommes, 80 % des machines conversationnelles sont féminisées (prénom, apparence) et s’occupent de tâches subalternes. Quelle représentation de la femme veut-on donner à travers ces machines ? Décider au hasard du genre de la voix et de l’agent pourrait être une solution.

Créer des machines sensibles est un courant de recherche émergent. L’innovation fondamentale de ces machines est l’introduction du risque pour soi-même selon les principes de la régulation de la vie. La vulnérabilité est introduite dans la conception des robots. En biologie et en systémique, l’homéostasie est un phénomène par lequel un facteur clé est maintenu autour d’une valeur bénéfique pour le système considéré, grâce à un processus de régulation. Par exemple, la température de votre corps est en ce moment même régulée par votre organisme et reste constante malgré les différences de température de votre environnement : c’est une homéostasie. Dans un monde dynamique et imprévisible, un robot émotionnel pourrait avoir son propre méta-objectif d’auto-préservation, comme les organismes vivants dont la survie repose sur l’homéostasie, une sorte de « Conatus », si on se réfère à Spinoza. Pour simuler les capacités de l’humain, cette régulation doit être réalisée autour du corps et des émotions. Ces machines devront posséder des états mentaux et une conscience interne comme condition préalable au sentiment, à la stabilité et à l’efficacité de la prise de décision. L’introduction de telles caractéristiques phénoménales est-elle éthiquement souhaitable ?

L’illusion que les robots pourraient s’humaniser à notre contact serait le moyen le plus simple de créer entre nous et eux une sorte d’adoption. L’animisme très répandu dans la société japonaise réconcilie l’objet et le vivant. La media equation est une théorie de la communication proposée par Clifford Nass et Byron Reeves, chercheurs à Stanford qui explique que les effets de ce phénomène sont profonds et amènent les utilisateurs à réagir à ces expériences de manière inattendue, souvent inconsciemment. La théorie explique que les gens ont tendance à répondre à ces systèmes comme ils le feraient à une autre personne, en étant polis, coopératifs, en attribuant des caractéristiques de personnalité telles que le genre. L’objet n’a pas l’apparence du vivant mais nous projetons sur lui une conscience fantasmée. Plus un robot sera capable de s’adapter à nous, de tourner la tête dans notre direction quand nous l’appelons, de nous faire un geste particulier, de nous appeler par notre prénom, plus ce stratagème marchera. Ce qui rend la manipulation du robot convaincante est qu’il nous invite à nous occuper de lui. Regardez Gatebox, la petite amie holographique japonaise ! Rappelez-vous de Furby, petite peluche animée interactive, qu’il s’agissait de traiter avec grand soin. Le désir de contact du robot ne nous semble pas lié à la simulation. Le fait d’accorder son attention à quelqu’un crée un lien de confiance. Ce fantasme se prolongera si on peut aider son robot à grandir ou à apprendre, ce qui renforcera l’attachement. Nous construirons de plus en plus de robots vulnérables, capables d’apprendre et de simuler des émotions. Ces démarches ont pour but de nous faire oublier que le robot est conçu par un humain, dont le souci principal peut être de contrôler nos comportements ou de nous inciter à modifier nos comportements, ce qu’on appelle le nudge (Richard Thaler, Prix Nobel 2017).

Deux attitudes envers l’IA sont souvent opposées : celle de l’humaniste, trop défiant, et celle du scientifique trop confiant. Une position relationnelle pourrait être une 3ième attitude qu’il nous faut théoriser. Les machines et l’IA font partie de notre vie imaginaire, psychique et affective, nous tissons et tisserons de plus en plus de liens dans le temps avec ces objets. Nous entrons dans une ère de relations inextricables entre les humains et les machines, une relation de confiance et d’affection au sein de laquelle la séparation entre vivant et artefact deviendra de plus en plus floue. Les robots « émotionnels » n’ont pourtant ni sentiments, ni affects, ni hormones de plaisir, ni intentions propres. A l’instar de l’avion qui ne bat pas des ailes comme un oiseau pour voler, nous construisons des machines capables d’imiter sans ressentir, de parler sans comprendre et de raisonner sans conscience. Si leur rôle peut être extrêmement positif dans le domaine de la santé pour par exemple le suivi des maladies chroniques, il faut vérifier les risques de manipulation, d’isolement ou encore de dépendance.

Comment évolueront nos relations avec les machines émotionnels ? Un certain nombre de valeurs éthiques sont importantes pour la conception et les usages de ces machines : la déontologie et la responsabilité des concepteurs, l’émancipation et la responsabilité des utilisateurs, l’évaluation, la transparence, l’explicabilité, la loyauté, la non-discrimination des systèmes et l’anticipation des conséquences de la co-évolution homme-machine. Nous devons également éviter deux écueils : la paresse, qui consiste à abandonner notre libre arbitre aux choix opérés par ces machines « amies » et le complexe d’infériorité face à des technologies qui calculent plus vite que nous, savent plus que nous et nous impressionnent d’autant plus que nous ne comprenons pas vraiment comment elles fonctionnent.

Bref, ce n’est pas de l’intelligence artificielle et des robots qu’il faut se méfier, mais des hommes qui, grâce à ces outils, cherchent à en manipuler d’autres à des fins commerciales ou politiques.

Laurence Devillers, Professeure Sorbonne-université

Essais

« Des Robots et des Hommes : mythes, fantasmes et réalité » (Plon, 2017)
« Les robots émotionnels : santé, surveillance, sexualité… et l’éthique dans tout cela ? » (L’Observatoire, 2020) – sa 4ème de couverture :

13 mai 202013 mai 2020

Un StopCovid nommé Désiré

Un sujet agite beaucoup le monde des informaticiens : le traçage numérique. Binaire a déjà parlé du sujet dans « Contact tracing contre Covid 19 » et des risques inhérents au traçage numérique dans « Le traçage anonyme, dangereux oxymore ». Entre un système centralisé ou distribué, et si il y avait une troisième voix ? binaire

Le consortium piloté par Inria vient de rendre public une partie du code de StopCovid basé sur le protocole Robert. Un vote par le parlement et un déploiement éventuel sont prévus.

Un nouveau protocole vient d’Inria, Désiré : « Une troisième voix pour un système européen de notification d’exposition » selon ses auteurs. Tout le monde a compris que les fuites de données dépendent du protocole choisi, c’est-à-dire d’un algorithme. Le but n’est pas ici de comparer les mérites de ces différents protocoles ou de dire si celui-ci en particulier est utilisable en pratique.

Nous pensons que le protocole Désiré est non seulement intéressant mais également compréhensible par tous. C’est pourquoi nous vous proposons d’aller le consulter. Si nous nous sommes trompés, n’hésitez pas à nous le dire dans les commentaires.

Cliquer sur le dessin pour consulter la description de Désiré

12 mai 202012 mai 2020

Raconte-moi un algorithme : les chemins d’Internet

En 2020, chaque mois, Charlotte Truchet et Serge Abiteboul nous racontent des histoires d’algorithmes. Des blockchains aux algorithmes de tri en passant par le web, retrouvez tous leurs textes, ainsi que des petits défis mathématiques, dans le Calendrier Mathématique 2020 et dans la série binaire associée… Antoine Rousseau

Mai : Les chemins d’Internet

Internet, avec tous ses serveurs et ses fibres optiques dont certaines traversent les océans, n’a rien de virtuel. C’est un réseau gigantesque qui connecte des ordinateurs du monde entier. En fait, c’est même un réseau de réseaux, avec des connections qui permettent de passer d’un ordinateur à l’autre dans chaque réseau, et des connections entre les réseaux.
Les relations internationales obéissent à des <<protocoles>>, c’est-à-dire des règles à observer pour le bien de ces relations. Quand des millions d’ordinateurs s’échangent des données sur Internet, pour que cela fonctionne, c’est pareil : il faut qu’ils obéissent à un ensemble de règles et de conventions : le protocole Internet.
Le point de départ est un service d’adressage qui permet d’identifier les ordinateurs connectés au réseau. Une adresse est par exemple 128.93.162.84.
Ensuite, cela fonctionne de façon bizarre. On découpe les données à envoyer (votre dernière photo de vacances) en petits paquets. On met un petit paquet dans une enveloppe, on écrit les adresses du destinataire et de l’expéditeur sur l’enveloppe, et on balance à un <<voisin>> sur le réseau. On fait ça pour chaque paquet. Le système fonctionne parce que les logiciels qui composent le réseau savent <<router>> les messages : à partir de l’adresse de l’ordinateur destination, ils savent décider à quel ordinateur voisin ils doivent envoyer le paquet pour qu’il arrive un jour à destination.
L’algorithme ne garantit pas que les messages prendront le même chemin, qu’ils arriveront dans l’ordre, ni même qu’ils arriveront tous à bon port. On s’en moque ! On les remet dans l’ordre à l’arrivée. Et si besoin, on demande à la source de renvoyer le paquet 432 qui s’est perdu en route : cela aussi est prévu dans le protocole.
Il n’y a quasiment pas de gouvernance dans Internet. Cela fonctionne sur le principe du volontariat et tout ce qu’on demande à un serveur pour participer, c’est de suivre le protocole commun. On n’a pas à obéir à un chef ou à se disputer avec. Et personne n’y est indispensable ! Le protocole fonctionne malgré les arrêts, les pannes de l’un ou de l’autre. On peut d’ailleurs voir dans le succès d’Internet et son adoption universelle une démonstration de l’efficacité de l’absence de gouvernement… une fois que des règles de bases fondées sur une certaine forme d’équité, une absence de discrimination, ont été établies.
De loin en loin, quand, sur Internet, vous écoutez de la musique, vous visionnez un film, vous conversez avec un ami, ou vous surfez juste sur le web… ayez une petite pensée pour les cheminements de ces mini paquets de données qui voyagent sur le réseau pour vous. Vous savez maintenant qu’il n’y a aucune magie là-dedans, juste un protocole, un algorithme.

Serge Abiteboul et Charlotte Truchet

10 mai 202010 mai 2020

Des codes malveillants jusque dans la poche

Grâce aux auteurs du Livre blanc sur la cybersécurité qu’Inria a publié en 2019, nous vous proposons une série d’articles sur cette question majeure. Aujourd’hui, nous abordons les codes malveillants. De quoi s’agit-il ? Comment fonctionnent-ils ? Comment les détecter et s’en protéger ? Partons à leur découverte. Pascal Guitton et Serge Abiteboul.

Code malveillant

Selon le Larousse, le terme de malveillant est synonyme de « haineux – hostile – méchant – médisant – pervers – venimeux », il caractérise la volonté de nuire à autrui. Ainsi qualifié, le code (c’est-à-dire le « texte » constitué par une suite de lignes d’instruction écrites dans un langage de programmation donné) est personnifié, presque vivant. Cette impression se renforce lorsque vous entendez que les codes ou logiciels malveillants cherchent à attaquer des utilisateurs, des entreprises ou qu’un code malveillant se propage.

Mais finalement, qu’est-ce qu’un code malveillant ? Comment savoir si vous êtes protégés ? Et de quoi d’ailleurs ?

Retour sur le passé

Un des premiers codes qualifié de malveillant a été écrit en 1986 par les frères Alvi. Ce code a plus tard été nommé Brain [Brain]. Les frères Alvi souhaitaient avant tout lutter contre le piratage des logiciels qu’ils éditaient. Brain se trouvait sur les disquettes de distribution de leur logiciel et ne devait se déclencher que lorsque ce logiciel avait été illégalement copié. Lorsque Brain s’exécutait, il ralentissait l’ordinateur, se recopiait sur toutes les disquettes vierges insérées dans l’ordinateur et affichait un message qui contenait les coordonnées de ses auteurs. Brain avait donc essentiellement pour but d’effrayer les pirates, il n’endommageait pas les données ou le système des utilisateurs, il ne volait pas non plus de données. Le code Brain est difficilement qualifiable de « haineux – hostile – méchant – médisant – pervers » ou encore « venimeux ». Il a été qualifié de malveillant ou plutôt de virus car il avait la particularité de se propager automatiquement en dehors du contrôle de ses développeurs, en se copiant du PC infecté aux disquettes insérées dans le lecteur. C’est cette capacité de réplication qui a conduit à l’utilisation du mot « virus ».

Mais nous étions en 1986 !

Partie du code du virus Brain – extrait du site WikiPedia

Et maintenant ?

Définir ce qu’est un code malveillant n’est finalement pas si simple. On peut simplement dire qu’un code malveillant est un code qui a été développé dans le but de réaliser une action nuisible à son utilisateur. Il y a des codes malveillants partout où il y a des machines, des utilisateurs et le moyen de nuire à au moins un utilisateur.

Cette définition est assez claire pour nous, humains. Mais pour une machine, ou plus précisément pour un programme anti-virus, en charge de la sécurité, cette définition est-elle exploitable ? Hélas, non. En fait, décider si un code est malveillant ou non est un problème délicat. Il faut souvent un expert humain pour analyser le code, observer les actions que ce code réalise, avant de pouvoir se prononcer. Pendant longtemps, il y a eu principalement des codes malveillants pour les machines Windows car ce système était le plus largement utilisé. Les éditeurs de logiciels étaient peu nombreux et les mises à jour peu fréquentes. Le travail d’expertise pouvait donc être réalisé. Aujourd’hui, le système le plus largement répandu est Android, sur nos téléphones mobiles. Le nombre d’applications, de développeurs mais aussi de développeurs malveillants a considérablement augmenté. Pour suivre la cadence, il nous faut comprendre la diversité des malveillances.

Comment peut-on nuire à un utilisateur sous Android ?

De nombreuses manières de nuire sont malheureusement à la disposition des attaquants ! Un code malveillant contre Android atteint généralement sa cible en se dissimulant dans les applications que l’utilisateur télécharge lui-même. Pour l’attaquant, c’est très simple : les différents marchés regorgent d’applications et il peut donc récupérer facilement une application saine, la modifier à sa guise en insérant son code malveillant et la republier sur ce même marché ou sur un marché alternatif, pour plus de discrétion. Le but de l’attaquant est souvent de gagner de l’argent. Ainsi, les premiers codes malveillants sous Android effectuaient par exemple des appels ou envoyaient des SMS à des numéros de téléphone surtaxés.

Les codes malveillants sont ensuite devenus plus agressifs allant jusqu’à prendre l’utilisateur en otage. Ainsi l’année 2014 a vu l’apparition des premiers ransomware. Ces codes chiffrent les données de l’utilisateur les rendant ainsi inutilisables et exigent le paiement d’une rançon en échange de la clé de déchiffrement. Techniquement parlant, les ransomware n’ont rien d’une révolution. Il est possible de chiffrer des données utilisateurs automatiquement depuis bien avant 2014. Ce qui a engendré le succès de cette attaque est l’émergence des réseaux anonymes et surtout de moyens de paiement anonymes comme les bitcoins. Contrairement à précédemment, l’attaquant a alors disposé de moyens techniques simples lui permettant de se faire payer sans être facilement identifié.

Parfois aussi le téléphone de l’utilisateur est pris comme cible car il représente une ressource informatique que l’attaquant pourra ensuite exploiter. Ainsi l’attaquant peut chercher à prendre le contrôle d’un grand nombre de téléphones pour former un grand réseau qu’il pourra ensuite utiliser pour mener des attaques de plus grande ampleur. En 2019, par exemple, des travaux des chercheurs de l’université de Prague ont permis de mettre à jour Geost, un réseau estimé à plus de 800 000 périphériques Android contrôlés à distance. Ces périphériques deviennent ce qu’on appelle des bots, ordinateurs à la solde de l’attaquant. Chaque utilisateur était espionné et ses opérations bancaires remontées à l’un des serveurs de contrôle du réseau de bots (botnet). Un tel botnet permet de lancer des attaques coordonnées. Parfois, ce service est à louer : vous pouvez vous payer, pour quelques centaines d’euros par jour, des attaques contre un site web qui sera la cible de centaines de milliers de bots Android, qui le submergeront de requêtes (on parle d’attaque en déni de service distribué). Le site en question, débordé, ne sera alors plus disponible pour les utilisateurs.

Article présentant le réseau Geost – Image extraite de [1]

Clairement, ces cas de malveillance sont dirigés contre l’utilisateur, mais parfois ce n’est pas l’utilisateur lui-même qui est visé mais l’ensemble du système qui est escroqué. De nombreux développeurs de l’écosystème Android proposent des applications gratuites et se rémunèrent grâce à la publicité. Certains développeurs peuvent être tentés de frauder pour augmenter leur rémunération. Par exemple, l’entreprise Cheetah Mobile qui édite le logiciel Clean Master, un logiciel de nettoyage de fichiers inutiles, s’est fait épingler en 2018 pour avoir détourné le paiement lié au clic d’une publicité installant cette application [Silverman]. Au lieu de rémunérer le vrai clic effectué sur la bannière publicitaire, l’application rémunérait le réseau de publicité lié à Cheetah Mobile. Dans ce cas précis, l’utilisateur n’était donc pas menacé ; c’est la régie publicitaire ayant permis d’installer l’application qui était escroquée. D’ailleurs, aucun anti-virus n’a crié au loup lors de l’analyse de l’application Clean Master de 2018. Cette application n’est pas assez dangereuse pour être déclarée malveillante.

Des exemples similaires sont légion. L’utilisation de publicités rémunératrices est classique dans les applications mobiles. La fraude à la publicité intempestive, en taille, en fréquence ou en toute autre interprétation possible du mot « intempestif », gangrène le système. Ainsi, un autre exemple à la limite de la malveillance a été démontré par plusieurs chercheurs en sécurité en 2018. Il s’agit de surveiller les utilisateurs à l’aide d’ultrasons, captés par une application compagnon s’exécutant sur leur téléphone mobile. Ce procédé permet de repérer finement un utilisateur dans des couloirs ou des pièces d’un bâtiment. Cette même année, la startup Fidzup mettait en ligne l’application « La Vache Noire » pour le pistage des utilisateurs dans un centre commercial parisien [Cunche]. A l’aide d’ultrasons, on peut repérer le consommateur dans le centre commercial et envoyer la bonne publicité au bon moment. Malveillance ? Marketing un peu trop sauvage ? L’application n’est plus disponible pour qu’on puisse l’analyser et répondre à cette question et la startup Fidzup qui la produisait a mis la clef sous la porte fin 2019, pointée du doigt par la CNIL [Loye].

Pourquoi y a-t-il encore des codes malveillants ?

Pour éliminer un code malveillant, il faut tout d’abord être capable de l’identifier rapidement. Ensuite, pour les codes les plus agressifs, il faut comprendre où et comment il s’est propagé afin de nettoyer totalement les périphériques. Les éditeurs d’anti-virus maintiennent à jour des bases de signatures. Une signature doit permettre de reconnaître du code malveillant déjà connu, à coup sûr. Elle doit aussi être rapide à calculer. Une signature peut être un petit extrait du code binaire ou une empreinte de l’application. Une empreinte est un calcul sur tous les bits de l’application la réduisant à quelques octets singuliers. Ces empreintes peuvent être rapidement calculées à l’installation de nouvelles applications. Si l’empreinte est retrouvée dans la base de l’anti-virus, l’application est reconnue et on peut stopper l’installation, ce qui est relativement simple. Le vrai problème est plutôt de surveiller en continu les marchés d’applications pour détecter les nouveaux codes malveillants.

C’est là que le jeu commence. D’un coté, les éditeurs d’anti-virus vont devoir être très efficaces pour analyser rapidement de très nombreuses applications. De l’autre, les auteurs de codes malveillants ont à leur disposition de nombreuses méthodes de camouflage pour échapper à la détection. Ils peuvent par exemple retarder de quelques heures ou jours l’exécution du code malveillant. Ils peuvent chiffrer ce code, et le déchiffrer au moment de l’exécution uniquement, et le supprimer juste après. Si le téléphone est connecté à internet, ce qui est probable, ils peuvent télécharger le code malveillant pour l’exécuter et le supprimer ensuite. Toutes ces méthodes de camouflage, simples à mettre en œuvre, rendent fastidieuse l’investigation des éditeurs d’anti-virus.

Ceux qui sont censés nous protéger nous arnaquent

La fraude est partout, dormez tranquilles braves gens, nous veillons. Pourtant, l’histoire se répète pour Clean Master : cette application de nettoyage intégrant petit à petit des fonctionnalités d’antivirus se voit bannie du Play Store en mars 2020. Pourquoi ? Trop d’exfiltrations de données personnelles. Cependant, pour protéger l’utilisateur, il faut bien analyser ce qu’il fait, quel site il visite et ce qu’il télécharge. C’est vrai, mais nous touchons du doigt ce que la nouvelle réglementation européenne a transcrit dans le RGPD par le principe de minimisation des données : seules les données nécessaires au fonctionnement de l’opération peuvent faire l’objet d’un traitement, et encore faut-il que ce traitement soit proportionné à la finalité envisagée. Le stockage sur des serveurs de l’ensemble des données visitées n’est pas un traitement proportionné au regard de la finalité, le filtrage des codes malveillants. Il en résulte que le code de Clean Master envoyant les données de navigation brutes hors du téléphone mobile peut être qualifié de malveillant. Gênant, pour un antivirus.

Et que pensent de Clean Master ses confrères antivirus ? Actuellement, ils ne considèrent pas que Clean Master contienne du code malveillant. Il ne faut sans doute pas trop se tirer dans les pattes entre confrères. Une autre explication possible est peut-être que cette malveillance ne l’est pas assez pour qu’elle soit pointée du doigt.

Mais alors que faire ?

Restez confinés ! Euh non, confinez plutôt vos applications : en ne leur accordant que les stricts droits nécessaires à leur fonctionnement, on minimise leur impact potentiel en cas de malveillance [Youngren]. Une application de vente de spectacles veut vous géolocaliser ? Elle insiste ? C’est une application mal programmée. La recommandation officielle est de respecter le choix de l’utilisateur, de l’informer du traitement et de la finalité des données personnelles collectées. Retirer une permission à une application, c’est la confiner. Donner des droits administrateurs, c’est donner les permissions les plus sensibles au développeur. C’est déléguer sa propre sécurité. Ce n’est clairement pas une bonne idée.

Installez, installez, et confinez !

Jean-François Lalande & Valérie Viet Triem Tong CentraleSupélec & Inria

Références bibliographiques

[Brain] https://en.wikipedia.org/wiki/Brain_(computer_virus)

[Cunche] Mathieu Cunche, Leonardo Cardoso. Analysis of an Ultrasound-Based Physical Tracking System, 2018. https://hal.inria.fr/hal-01798091/document

[Silverman] Craig Silverman, These Hugely Popular Android Apps Have Been Committing Ad Fraud Behind Users’ Backs, 26 novembre, 2018.

https://www.buzzfeednews.com/article/craigsilverman/android-apps-cheetah-mobile-kika-kochava-ad-fraud

[Loye] Deborah Loye, Fidzup tire le rideau et accuse la CNIL de l’avoir tué, Les échos, 6 février 2020.

https://business.lesechos.fr/entrepreneurs/actu/0602712976681-fidzup-tire-le-rideau-et-accuse-la-cnil-de-l-avoir-tue-334901.php

[Youngren] Jan Youngren, Free antivirus apps requesting huge amounts of dangerous permissions they don’t need, 6 novembre 2019.

https://vpnpro.com/blog/free-antivirus-apps-requesting-dangerous-permissions-they-dont-need/

08 mai 202008 mai 2020

Pourquoi se fatiguer à simuler la réalité?

On simule numériquement de plus en plus, le climat, le cerveau, les mouvements de foule, la propagation du Covid 19… C’est devenu un outil standard pour les scientifiques et les ingénieurs dans de très nombreuses disciplines. Victor Storchan et Aurélie Jean nous interpellent : pourquoi ? C’est vrai pourquoi ? Serge Abiteboul et Thierry Viéville

En 1954 le premier langage de programmation utilisé pour le calcul scientifique et connu encore aujourd’hui sous le nom de Fortran, est créé. Cette année là est aussi la date de parution de l’ouvrage posthume la Crise des sciences européennes et la phénoménologie transcendantale du philosophe et logicien Edmund Husserl. Dans cette œuvre, Husserl décrit les sciences comme un « vêtement d’idées » que l’on donne au monde « et qui lui va si bien ». Par analogie on peut également écrire qu’en informatique ou en sciences numériques, la modélisation est le processus par lequel la réalité de notre monde tangible s’habille harmonieusement des concepts de la physique, manipulables grâce au formalisme mathématique.

En pratique, on cherche à simuler un phénomène dans le but de l’analyser, de le comprendre ou encore d’en extraire des prédictions. Le mathématicien s’empare ainsi des équations de la physique qu’il ne peut généralement pas résoudre exactement. Il s’attache alors à trouver des propriétés qualitatives (comportements asymptotiques, vitesses de propagation, multiplicité des échelles) pour émettre des hypothèses simplificatrices raisonnables, et ainsi pouvoir fournir un schéma calculable par un ordinateur. Même si l’ordinateur et les simulations numériques existent depuis plus de 50 ans, la massification récente de la collecte des données associée aux dernières avancées des performances de calculs, permettent d’entraîner des algorithmes uniquement à partir des données d’apprentissage, et ce, sans description explicite de la physique du phénomène à simuler. On parle d’apprentissage statistique (big data) ou automatique (machine learning). Contrairement à la méthode dans laquelle on formule une hypothèse en amont de la collecte des données servant à l’évaluer, l’apprentissage tire parti de la profusion de données produites par notre société numérique pour tester un grand nombre d’hypothèses à la volée, et d’en suggérer des nouvelles.

Alors qu’on observe le nombre et la taille des simulations numériques augmenter de manière significative, on peut se poser la question des raisons qui poussent à faire ces simulations. Pourquoi ne pas répondre directement aux questions posées dans notre monde réel et organique? Plus simplement, pourquoi simule-t-on la réalité ?

En pratique, on simule un phénomène pour trois raisons principales, parfois combinées, que sont l’impossibilité technique de réaliser à la main de grands calculs, l’impossibilité de reproduire dans la réalité une expérience pourtant nécessaire pour comprendre le phénomène étudié, ou encore tout simplement capturer et comprendre des mécanismes encore jamais identifiés dans le monde physique ou biologique.

Des calculs et des opérations à la main impossibles à réaliser

Les capacités de simulations numériques ont progressé grâce aux évolutions synchronisées de l’élaboration de théories plus fines et de l’amélioration des outils de calcul. Les travaux autour de la force de Coriolis illustrent ce point. En 1835, Gaspard-Gustave Coriolis formule une contribution décisive à la compréhension de l’influence de la rotation de la Terre sur la dynamique des corps. Bien avant l’époque des ordinateurs, c’est en étudiant la roue hydraulique que Coriolis calcule à la main les équations décrivant ces machines tournantes. Par la suite, son idée joue un rôle clé dans les moyens modernes d’analyse météorologique. C’est en effet grâce aux nouveaux outils de calculs, que les simulations par ordinateur sont ensuite devenues possibles et efficaces dans cette analyse.

Deux siècles plus tard, Google présente un modèle de Deep Learning dont la précision en espace et en temps des prévisions de différentes mesures météorologiques s’avère plus précise à très court terme qu’avec le schéma standard issu de la physique. Ce modèle permet de prédire le temps, sans connaissance a priori du fonctionnement de l’atmosphère, et à partir d’images radars ou de satellites. Cette approche n’est pas sans rappeler un certain Benjamin Franklin qui observait quotidiennement la météo dans son étude sur les origines de la foudre, sans connaissance physique du phénomène observé. Bien que ce type de modèle permette d’atteindre l’état de l’art actuel dans une multitude de tâches prédictives, soulignons qu’il ne fournit que rarement une explication interprétable souvent indispensable pour une bonne compréhension du phénomène. L’analogie avec une « boîte noire » résume communément notre incapacité de produire de théorie explicative dans des domaines où nous améliorons notre compréhension du monde et développons de nouvelles techniques.

Observer et analyser un phénomène impossible à capturer dans le monde réel

L’histoire des sciences nous enseigne que bon nombre de phénomènes se révèlent au mieux impossibles à observer et donc à mesurer et analyser dans le monde réel. Pire, ces phénomènes se jouent de notre bon sens et de notre intuition. Ainsi, les lois de Galilée contredisent l’observation qui nous inciterait à penser que des corps de masses différentes tombent à des vitesses différentes. Or Galilée nous dit que dans le vide, tous les corps tombent à la même vitesse sous l’effet de la gravité. L’expérience de pensée galiléenne constitue ainsi une modélisation du réel.

Plus tard, au début du XXe siècle, dans La connaissance et l’Erreur (1908), le philosophe des sciences autrichien Ernst Mach propose de réconcilier les expérimentations physiques et mentales. Il statue que « tout inventeur doit avoir en tête son dispositif avant de le réaliser matériellement » et donc disposer de suffisamment d’imagination pour faire le lien avec les connaissances empiriques. S’il n’est pas ici encore question de simulations informatiques, cette phrase permet comme dans le cas de Galilée, d’augmenter notre compréhension du monde au-delà d’une simple perception directement observable. En prolongement de Mach, Pierre Duhem dans La Théorie physique: son objet-sa structure (deuxième édition de 1914) motive l’emploi des modèles par les physiciens de l’école anglaise pour « créer une image visible et palpable des lois abstraites que l’esprit ne pourrait saisir sans le recours à ce modèle» . À partir des années 1980, le développement massif des moyens de calculs informatiques dotera cet objectif de supports technologiques décisifs.

Ainsi, de l’analyse détaillée des échanges boursiers haute fréquence aux simulations des phénomènes océanographiques, la modélisation, aidée par les capacités de calcul modernes, s’est imposée naturellement comme une application incontournable des sciences. La modélisation est rarement suffisante en soi et s’enrichit en confrontant ses résultats à des données expérimentales du monde réel.

Comprendre des phénomènes encore jamais expliqués

On admettra qu’on ne peut pas toujours tout observer et tout mesurer dans le monde réel. En réponse, un modèle peut permettre de découvrir des propriétés additionnelles et complémentaires de celle déjà identifiées dans le réel. Précisément, c’est le cas d’un modèle récemment développé au MIT et capable de rechercher des structures moléculaires et leurs fonctions biologiques associées, parmi un champ des possibles que l’approche expérimentale classique ne parviennent pas à circonscrire. En réalisant quelques centaines de millions d’inférence, le modèle permit la découverte d’un nouvel antibiotique. De plus, la modélisation associée aux campagnes expérimentales, permet de tester des hypothèses contrefactuelles indispensables lors de l’analyse du risque, peu importe la discipline d’application. On veut pouvoir anticiper des scénarios inédits. Ainsi, en sûreté nucléaire, la modélisation des structures des centrales et des comportements des matériaux qui la constituent permet de quantifier l’incertitude et de définir un corpus de normes robuste.

Force est de reconnaître que la modélisation augmente les capacités de test et d’exploration, auparavant limitées à l’analyse empirique, pour tenter d’éclairer nos intuitions par des démonstrations et des vérités scientifiques. Loin d’instaurer une tension entre ces différents points de vue, la modélisation répond au contraire à une sollicitation du monde empirique. On ne peut qu’espérer une longue vie à cette union des simulations numériques et du monde réel, notre compréhension du monde n’en sera à la fois que plus précise et plus élargie!

Victor Storchan,Ingénieur en Machine Learning, ancien élève de Stanfordet Aurélie Jean, Docteur en Sciences et entrepreneur (@victorstorchan et @Aurelie_JEAN)

06 mai 202008 mai 2020

SARS-CoV-2 et Covid-19 : jouons sur les mots

Dans le contexte de la recherche scientifique sur la maladie Covid-19 causée par le virus SARS-COV-2 , Camille Marchet, chercheuse en bioinformatique à l’Université de Lille, nous explique que la méthodologie permettant d’acquérir le génome du virus à l’aide d’outils informatiques est comme résoudre un puzzle de mots! Tamara Rezk

Aujourd’hui, on ne se passe plus d’informatique pour obtenir de l’information sur le contenu du génome du virus. Or, connaître ce génome est un préalable pour connaître les fonctions que le virus est capable d’opérer (infecter, se spécialiser pour habiter certaines cellules, programmer sa réplication, etc). Cela nous donne des clefs pour comprendre l’interaction du génome avec notre propre matériel génétique ou d’autres molécules, que le virus utilise à l’intérieur de notre corps pour se répliquer. Avec cette information on peut aussi replacer le virus au sein d’un “arbre généalogique” de différentes souches virales. L’ensemble de ces connaissances peut nous permettre d’envisager certaines cibles thérapeutiques.

Qu’appelle-t-on le “génome” du virus ?

Comme la grippe ou la rougeole, on dit que SARS-CoV-2 est un “virus à ARN”, une molécule voisine de l’ADN. Les humains, les animaux et les plantes stockent généralement l’intégralité de leur information génétique (leur génome) dans l’ADN. Chez SARS-CoV-2, le génome est contenu dans de l’ARN. Cela peut impliquer certaines différences en biologie. Mais si on considère la version numérique de l’ARN, l’information du génome est encodée, comme l’ADN, dans un alphabet de quatre caractères (nommés bases) : A, C, G, U (mais par commodité, on remplace ‘U’ par ‘T’ pour être homogène avec les notations de l’ADN). Le génome du virus est donc une séquence d’ARN : une suite ordonnée de ces bases.

Ce qu’on appelle une mutation du virus n’est autre qu’un changement dans les caractères de la séquence. Par exemple dans “…TAGAAT…” G devient C et on obtient “…TACAAT…”. Comme le génome code des fonctionnalités, ces changements peuvent être importants s’ils se répercutent en de nouvelles propriétés pour le virus.

Obtenir la séquence du génome du virus ? Première étape, le séquençage.

Lorsque l’on s’intéresse au matériel génétique du virus pour l’étudier, il est nécessaire de le séquencer, c’est-à-dire extraire la séquence ARN et en retranscrire une copie au format numérique. Dans un fichier texte ou compressé, l’ARN devient plus facile à lire, à comparer, à déchiffrer à l’aide d’outils informatiques.

Le séquençage est une technologie qui permet d’obtenir des petites sous-séquences issues du génome (appelées lectures), qui démarrent d’une position dans le génome et terminent à une longueur dépendant de la technologie utilisée. On récupère la totalité des lectures (souvent des millions) dans le désordre, et comme chaque lecture est beaucoup plus petite que le génome initial (d’au moins un ordre de grandeur, souvent davantage), des algorithmes sont nécessaires pour le reconstituer en entier, c’est ce que l’on appelle l’assemblage. Notons que dans le cas du virus, ces lectures sont souvent extraites des tissus d’un patient, il faut au préalable faire un tri pour filtrer l’ARN du virus et éliminer le matériel génétique humain de l’échantillon.

Aujourd’hui on s’appuie principalement sur des génomes de coronavirus connus antérieurement pour étudier SARS-COV-2. On compare ce nouveau génome aux anciens pour en retrouver la structure (Figure 1).

Cela fonctionne globalement bien, et les résultats actuels sont tirés de cette approche. Mais comment a-t-on accédé à un génome initial ? La question de biais induits par ces précédents génomes se pose, parce que des erreurs ou de trop grandes différences avec le nouveau génome pourraient perturber certaines analyses. Ainsi on est amenés à se demander, si on voulait construire de manière indépendante notre propre génome de SARS-COV-2, comment s’y prendrait-on ?

L’assemblage avec des lectures longues

Les lectures longues, issues de technologies de séquençage apparues après 2010, sont nommées ainsi parce qu’elles ont une taille qui va de quelques centaines à un millier de bases (pour une taille de génome de coronavirus entre 27000 et 32000 bases).

Ce type de séquençage réclame beaucoup de matériel génétique, or le virus en a très peu. On peut facilement se retrouver avec des “trous” (le séquençage ne couvre pas tout le génome initial). On adopte donc une solution à base de “codes barres”. Plusieurs patients sont séquencés, les échantillons sont mis en commun, et on attache un petit code barres (fait de bases) aux lectures pour reconnaître les différentes origines. On a alors davantage de lectures pour travailler. Ces lectures (voir “génération des lectures” dans la figure Figure 2) peuvent avoir des chevauchements.

Figure 2. Étape de séquençage des longues lectures pour le virus. 1/ On démarre avec les génomes des virus des différents patients, auxquels on n’aura plus accès ensuite. Les petites régions signalées par un symbole *(étoile, carré, rond)* *sont des variations entre génomes, provoquées par des* *mutations différentes.* 2/ Depuis ces génomes, on génère des “piles” de lectures qui démarrent dans différentes régions (bleu, jaune, noir, rouge, bleu azur, vert), et copient la séquence correspondante du génome. Elles ont des codes barres correspondant aux trois patients (carré gris numérotés). Observons qu’elles peuvent se chevaucher y compris entre régions, et qu’elles *reflètent les variations des génomes initiaux*. 3/ Le processus de séquençage ne permet malheureusement pas de conserver l’information de l’ordre entre les lectures, le produit final avec lequel on travaille est donc un mélange désordonné des lectures.

Ces lectures longues peuvent présenter des erreurs (non présentées dans la Figure 2). Le texte initial est l’ARN, la copie du texte est dans les lectures. Pendant la copie, une base peut être substituée à une autre, ajoutée, ou retirée, ce qui n’est pas conforme au texte de l’ARN. Il n’est pas rare d’en observer entre 1 et 10 pourcent. Ces erreurs contribuent au fait que deux séquences de génomes paraissent légèrement dissimilaires. Les virus de chaque patient peuvent eux-mêmes avoir de vraies différences entre eux (mutations à l’origine de variations), parce que ce ne sont pas toujours les mêmes souches (petits symboles blancs dans les Figures 2, 3 et 4).

*Figure 3. Recherche de chevauchements* *entre lectures* *et reconstruction d’une* *séquence plus longue* *(les codes barre en gris sont retirés de la séquence finale* *et sont ignorés pendant le calcul des chevauchements)*. *Les caractères oranges sur la droite correspondent aux variations.*

Intuition de l’algorithme d’assemblage :

On essaie d’abord de repérer des chevauchements entre les lectures, c’est-à-dire quand la fin d’une lecture et le début d’une autre contiennent la même chaîne de caractères (ou éventuellement que la séquence d’une lecture est totalement incluse dans une autre). Grâce à cela, on peut trouver un enchaînement un peu à la manière d’un puzzle (voir Figure 3). Plus précisément, on autorise les chevauchements approchés (qui diffèrent de quelques caractères, pour introduire de la laxité vis-à-vis des variations et erreurs, Figure 4).

Figure 4. Chevauchements plus réalistes. Une flèche grise entre deux lectures dans la partie gauche de la figure indique qu’elles ont un chevauchement. Dans la partie droite, on voit dans le détail un chevauchement exact et un chevauchement approché (A orange et C vert diffèrent). A nouveau, les codes barre sont ignorés.

En terme de calcul, la difficulté est d’effectuer cette recherche de chevauchements efficace. En effet, pour retrouver toutes les correspondances, on est censé comparer toutes les lectures deux à deux. Il existe des algorithmes exacts dit d’alignement de séquences pour comparer deux séquences. Mais leur durée de calcul va varier avec le carré de la taille des lectures (c’est-à-dire que pour des lectures qui prendraient dix secondes à être lues, l’algorithme prendra de l’ordre de cent secondes). Avec ce coût, on n’a pas envie de faire un test pour chaque paire de lecture…

Des propositions variées ont émergé ces dernières années, s’appuyant toutes plus ou moins sur la même idée : pour comparer deux lectures, compter leurs mots en commun (s’appuyant sur la notion de distance de Jaccard), voir Figure 5, et vérifier l’ordre des mots. Utilisant une information très différente des algorithmes exacts, ces méthodes sont beaucoup plus rapides.

Figure 5. Des lectures se chevauchant partagent une certaine proportion de mots en commun. Ici on calcule les mots de taille trois dans chacune des deux lectures (sans les codes barres en gris), et on fait l’intersection.

En réalité, deux séquences peuvent partager une grande proportion de mots et être assez dissimilaires. Par exemple, observons AATTTTAA et TAAATTTA. Sur un total de six mots de taille trois chacunes (AAT, ATT, TTT, TTT, TAA pour la première ; TAA, AAA, AAT, ATT, TTT, TTA pour la seconde), elles en partagent quatre : AAT, ATT, TTT, TTA. C’est pourquoi un critère supplémentaire est ajouté : que les mots communs apparaissent dans le même ordre dans les lectures (Figure 6).

Figure 6. Dans cet exemple, les mots communs de taille trois dans les deux lectures de virus sont dans le même ordre les uns par rapport aux autres (AGG est le premier des mots communs à apparaître, puis TGT en deuxième, …). Dans la séquence rouge qui ne vient pas du virus, on trouve aussi cet ensemble de mot communs, mais l’ordre est différent. L’oeil humain nous permet de vérifier qu’elle est effectivement plutôt éloignée des deux autres.

Ces techniques, couplées à de l’échantillonnage, à des techniques efficaces pour stocker et consulter les mots communs, et parfois à de la compression, permettent de calculer très rapidement des chevauchements. Ainsi on peut construire un “graphe de chevauchements” (Figure 7), dont les noeuds sont les lectures, et les arêtes les chevauchements que l’on a trouvé.

Figure 7. Graphe de chevauchements et résultat de l’assemblage. Les lectures incluses dans d’autres peuvent être directement intégrées dans un même noeud (cadres gris en pointillés). Les arêtes (flèches) peuvent contenir des informations sur la taille des chevauchements entre noeuds pour permettre l’assemblage final. Le résultat est un génome en trois parties, certaines contenant des variations (régions contenant des symboles).

Le résultat peut être fragmenté, à cause des trous mentionnés plus haut, ou de chevauchements insuffisants entre les lectures (voir Figure 8 pour un résultat sur des données réelles). De manière intéressante, dans les noeuds de ce graphe, on voit directement apparaître les variations et les erreurs (régions contenant des symboles blancs dans le résultat de la Figure 7), qu’on va pouvoir traiter dans un second temps. On utilise par exemple une stratégie de vote : à chaque position, si une base est vue trop peu fréquemment, c’est sans doute une erreur, sinon c’est peut-être une vraie variation biologique. L’information des codes barre permet aussi de rapporter les résultats aux différents patients, et de vérifier la cohérence (par exemple, on sait grâce au code barre numéro 2 des figures que les deux symboles carrés blancs viennent du même génome de départ).

Figure 8. Il s’agit de la visualisation du résultat d’un logiciel de séquençage auquel on a passé des lectures de SARS-COV-2 en entrée. On observe différents morceaux, qui correspondent aux régions qui ont pu être assemblées avec les longues lectures. Le génome n’est pas d’un seul tenant à cause des “trous” que j’ai évoqués (manque de matériel génétique menant à une absence de lectures). Les zones semblant “emmêlées” correspondent à des variations génétiques (comme les régions contenant des symboles blancs dans la Figure 7). Figure issue du dépôt Github [1] d’un groupe étudiant l’assemblage du coronavirus. Crédits Flavia Villani et Andrea Guarracino, Université Tor Vergata, Rome, et Erik Garrison, Université de Californie, Santa Cruz.

Conclusion

La bioinformatique des séquences ne semble pas être le principal facteur limitant dans cette crise du Covid-19. Dès le début de l’épidémie en Chine on a vu sortir des manuscrits, certes encore non validés par des pairs (preprints, sur des plateformes accessibles à tous comme BioRxiv), mais qui décrivaient déjà le génome du virus. L’assemblage de génomes aussi “petits” est effectivement passée, en une dizaine d’années, de challenge technique à des analyses se rapprochant de la routine. Cela n’est probablement pas étranger à l’émulation scientifique autour des questions d’assemblage de génomes et des logiciels libres mis à disposition par la communauté pour réaliser cette tâche. Par contre assembler des génomes plus grands devient progressivement plus difficile : dans l’ordre, bactérie, levure, drosophile (mouche), humain, certaines plantes.

Pour autant, je n’irai pas jusqu’à dire que tout est facile dans l’étude de la séquence du génome du SARS-CoV-2. La méthode que j’ai présentée est apparue il y a seulement quelques années. Bien que déjà assez rodée pour d’autres organismes, elle est à l’état de brouillon pour ce virus, tant les habitudes dans ce cas sont de se reposer sur un génome voisin préalablement connu. Ainsi, c’est au mois d’avril qu’une équipe a communiqué pour la première fois, à ma connaissance, sur cette technique appliquée au virus et ses spécificités. Cela nous mène à de nouvelles interrogations. Par exemple, la bonne représentation et la visualisation des variations (qui peuvent être très combinatoires) dans le graphe constituent des questions ouvertes.

Camille Marchet

Université de Lille

[1] https://github.com/Flavia95/covid19-pangenome-assembly/blob/master/shasta.md

04 mai 202008 mai 2020

Des données pour comprendre le télétravail confiné

Le télétravail s’est imposé à nous en cette période de confinement. Comment le vivons-nous ? Quelles difficultés et opportunités nous offre-t-il ? Corona-work est un groupe de volontaires qui recueille et partage des données sur le télétravail, afin de répondre à ces questions. François Bancilhon, multi-entrepreneur et passionné par les données, est un des initiateurs de ce projet, et vient nous en parler dans binaire. Pauline Bolignano

J’avoue humblement que le confinement m’a totalement pris par surprise. Le 15 mars, des amis du 17ème m’ont annoncé : “l’armée va fermer Paris demain matin, nous le savons de source sûre par quelqu’un de haut placé”, suite à quoi, ils ont chargé leur voiture et sont partis pour l’Île de Ré.

Quand le vrai confinement a été annoncé le lundi 16 mars de façon moins dramatique, l’armée française restant dans ses casernes, et appliqué ce mardi 17 mars, je n’ai pas réalisé ce que cela voulait dire. Par exemple je n’ai pas pensé à stocker des piles pour mes appareils auditifs, ni pensé que les audioprothésistes allaient tous fermer d’un coup d’un seul. Quand, comme beaucoup de Parisiens, nous sommes partis le 16 mars nous installer à la campagne, je pensais partir pour quelques jours. Ma première impression était que ce confinement serait une courte parenthèse de quelques semaines et que la vie reprendrait normalement une fois cette parenthèse fermée. Donc il s’agissait pour moi essentiellement de continuer à travailler comme avant pendant ce bref tunnel.

Puis petit à petit, j’ai pris conscience de ce qui se passait, de la profondeur du bouleversement que nous vivions. Le petit groupe dont je faisais partie et qui travaillait à un business plan de startup, a continué son activité normale (réunions, interviews, rencontres, partages et rédaction de documents), le tout en mode confiné. Puis le groupe s’est demandé ce qu’il pouvait faire d’intelligent et quelle contribution il pouvait apporter dans cette situation nouvelle.

Comme le dit la citation (probablement apocryphe) d’Abraham Maslow “A l’homme qui n’a comme outil qu’un marteau, tout problème ressemble à un clou”, les amateurs de technologies se laissent guider par leurs outils. Suivant ce bon principe, notre “ADN technologique” étant le recueil, la gestion, la présentation et l’analyse de données, nous avons pensé que recueillir et analyser les données sur la crise était la bonne approche. Ajustant un peu notre approche, nous avons pensé qu’il fallait choisir le bon problème (donc celui qui ressemblait le plus à un clou). Et notre choix est tombé sur ce qui nous était imposé du jour au lendemain, le télétravail confiné.

Le télétravail est loin d’être une nouveauté : plus de cinq millions de personnes le pratiquaient en France avant le confinement. Ce qui était nouveau en revanche, c’était le télétravail confiné, donc un télétravail subi, plutôt que choisi. Si le télétravail choisi avait un goût de liberté (je choisis de rester chez moi plutôt que d’aller au bureau), le télétravail subi a plutôt celui de la contrainte (ma seule solution est de bosser chez moi).

Ce clou-là avait l’intérêt d’être nouveau et d’être actuel. Était-il mesurable ? Oui, si nous recueillions les données via des interviews. Nous avons commencé par une série de d’interviews semi-directifs, donc faits à partir d’une grille de questions ouvertes laissant largement l’interviewé s’exprimer librement. Nous en avons fait une quinzaine, en essayant de balayer le plus largement possible les situations des télétravailleurs confinés. Le résultat m’a ébloui : de vraies tranches de vies, saisies sur le vif, émouvantes, drôles, ou tragiques. Entre la télétravailleuse qui s’offre un petit pétard en fin de matinée pour se récompenser d’avoir bien travaillé, le télétravailleur qui se réjouit d’échapper enfin aux inquisitions de son boss, celle qui en profite enfin pour être en caleçon toute la journée, ou la mère de famille qui gère enfants, mari et télévision pour se libérer le temps de travail, la variété et la vérité des situations était impressionnante.

De ce matériau brut, nous avons extrait des thèmes et à partir de ces thèmes, nous avons construit un questionnaire sur le télétravail confiné. Nous l’avons testé sur un petit groupe pour en vérifier la fluidité et la longueur. Le questionnaire fait de l’ordre de 45 questions. Nous sommes ensuite passés au recrutement des interviewés, qui s’est fait largement par viralité sur les réseaux sociaux (numériques ou non). A l’heure où j’écris ces lignes, nous en sommes à plus de 1600 réponses.

Notre idée est de faire deux choses avec ces données : les mettre à disposition en open data de la communauté scientifique (ou de toute personne voulant les consulter ou les réutiliser) et les utiliser nous-mêmes pour faire des analyses.

- Pour les mettre à disposition en open data, nous les avons installées sur la plateforme d’OpenDataSoft (notons au passage que l’outil est bien adapté pour des gens comme nous qui voulions poster des données et pour ceux qui veulent les réutiliser)
- Pour analyser nos données, nous avons utilisé un outil spécifique d’analyse de sondage, baptisé Sherlock, qui permet de comparer rapidement et simplement des populations différentes sur tel ou tel sujet.

L’ensemble de ce travail a été réalisé en quelques jours : les entretiens semi-directifs en moins d’une semaine, le questionnaire en 3 jours, le site et sa mise en ligne en 3 jours aussi (en utilisant la plateforme Wix) et la barre des 1000 réponses a été franchie en moins d’une semaine.

Deux mini-études ont été publiées. L’une d’elles compare le comportement des moins de 40 ans aux plus de 40 ans (nous éviterons de dire les jeunes et les moins jeunes) et montre que les premiers résistent mieux (curieusement) que les seconds. Les jeunes sont plus nombreux à dire que leur bien-être a augmenté pendant ces deux premières semaines de confinement. En allant plus loin : les jeunes en profitent pour faire plus de sport, ils boivent moins d’alcool, ils prennent plus soin de leur apparence, ils travaillent moins, ils sont moins fatigués, ils respectent plus les consignes de confinement. Ceci n’est qu’un exemple du type d’analyse que l’on peut faire de ces données. Parmi les questions que l’on peut aborder : est-ce que les gens qui avaient déjà une expérience de télétravail s’en sortent vraiment mieux ? est ce que les réponses aux questions sont différentes (et comment) après 5 semaines de télétravail de celles faites après 2 semaines ?

Nous avons noté quelques autres études du même type, faites par des scientifiques de la santé et du travail et leur avons proposé de collaborer. Tous nous ont répondu en exprimant leur intérêt mais arguant de leur surcharge de travail pour remettre à plus tard une collaboration. Dans tous les cas, ils ont accès à nos données qui peuvent complémenter les leurs.

La suite de l’aventure ?

- Continuer des analyses : nous n’avons qu’à peine effleuré le sujet et les recherches de corrélations devraient être fructueuses,
- Faire croître les données : continuer les campagnes de SEO et SMO pour augmenter le nombre de répondants,
- Valoriser la communauté ainsi constituée, ce que nous voudrions faire sans harceler ceux qui ont pris la peine de répondre à nos 45 questions

François Bancilhon a eu une double carrière : une première dans la recherche académique (chercheur à l’INRIA et MCC, professeur à l’Université de Paris XI), et une deuxième dans l’industrie : il a co-fondé et/ou dirigé plusieurs entreprises, (O2 Technology, Arioso, Xylème, Ucopia, Mandrakesoft/Mandriva et Data Publica/C-Radar). Il a partagé sa vie professionnelle entre la France et les États-Unis. Il vient de quitter son poste de directeur de l’innovation chez Sidetrade, et réfléchit à son futur projet. Il est membre de la commission d’évaluation d’INRIA.

Références

Le site Corona Work est ici https://www.corona-work.fr/, on y trouve le questionnaire et la description de l’équipe .

Les données brutes sont ici https://corona-work.my.opendatasoft.com/explore/dataset/quiz-gs/information/

02 mai 202008 mai 2020

La difficile mise en place de l’enseignement à distance à l’IUT

Le confinement a bouleversé profondément toutes nos conditions de vie : familiale, sociale, professionnelle. Quid des étudiants, des personnels et des enseignants ? Nous vous proposons de partager un témoignage rédigé par un collectif de personnels et d’enseignants de l’IUT de Bordeaux qui nous font part de leurs expériences et qui dressent un premier bilan de la période de confinement où il a fallu faire face à l’imprévu et tenter de maintenir un enseignement à distance. Pascal Guitton

Comme certainement toutes les universités de France, le jeudi 12 mars à l’annonce de la fermeture des campus, l’équipe enseignante du département informatique de l’IUT de Bordeaux n’était pas prête. Parmi toutes les problématiques liées notamment à la précarité des étudiants, à leurs stages, etc., l’un des mots d’ordre était d’assurer la continuité pédagogique. Mais comment faire ? Trop de questions sans réponses : tous les étudiants ont-ils un ordinateur ? Une connexion internet de qualité ? Un espace pour travailler ? Doit-on maintenir tel quel l’emploi du temps (36h/semaine) ? Fait-on les cours par visio ? Par chat ? Avec quels outils ?

Première bonne surprise, les quatre jours qui nous séparaient du début du confinement total ont suffi à répondre aux questions d’ordre matériel. La direction des études et le service technique de l’IUT ont réussi à s’organiser en un temps record pour fournir un ordinateur aux étudiants qui en avaient besoin et recenser les très rares étudiants qui prévoyaient d’avoir des difficultés pour accéder à internet.

A contrario, la question des solutions logicielles nous a posé plus de problèmes. L’équipe de techniciens de l’IUT a fourni un très gros travail pour accélérer le déploiement sur nos serveurs de logiciels pouvant nous aider à assurer cette continuité pédagogique (machines virtuelles, bureaux accessibles à distance…). Si nous avions déjà à notre disposition un très bon outil de chat textuel (mattermost), côté outils de visioconférence, le bilan était sans appel. L’université n’était pas préparée à l’enseignement à distance. La majorité des outils (notamment Rendez-vous de Renater, et l’ancienne version de Big Blue Button) fonctionnent mal, surtout dès qu’on dépasse un certain nombre de présents, ou n’offrent pas toutes les fonctionnalités nécessaires au bon déroulement d’un cours : chat textuel, partage d’écran, canal séparé pour répondre à un étudiant, par exemple.

Côté solutions commerciales, Zoom et Discord rassemblaient ces fonctionnalités, tout en tenant la charge, sans dégrader la qualité audio/vidéo. Par contre, nous avons très vite identifié que ces plateformes propriétaires posent de graves problèmes auxquels nous ne souhaitions pas exposer nos étudiants. Dans les deux cas, cela oblige à accepter des conditions d’utilisations contraires à nos valeurs : recueil d’informations personnelles, réception de SMS, cession d’informations à des « compagnies liées », etc. (Voir les Conditions Générales d’Utilisation de Discord, et cet article paru dans Libération). Se pose même la question de la légalité d’imposer de telles conditions à nos étudiants, et de la conformité au RGPD.

De plus, ces plateformes nécessitent l’installation d’un client propriétaire, qui peut donc potentiellement accéder à toutes les données de l’utilisateur, notamment via des malwares. Pas une semaine sans qu’un article dans la presse ne fasse mention de problèmes de sécurité avec Zoom. Plus de 500 000 comptes auraient été piratés. Les données de ces comptes seraient en vente sur le darkweb (cf source). Cela a abouti à des approches contradictoires : Zoom est par exemple préconisé par l’université, mais interdit à l’Inria.

Toutes ces solutions commerciales posent également le problème de l’accès aux sessions par partage de liens publics et de mots de passe communs à tous les participants. Autant dire que c’est un jeu d’enfant pour une personne étrangère à l’université de s’infiltrer dans ces cours virtuels et d’y semer la zizanie (voir cet article paru dans Marianne). Quelques incidents ont déjà été remontés par des collègues de l’université de Bordeaux.

Consciente de ces problèmes, l’université de Bordeaux, via la structure MAPI (Mission d’Appui à la Pédagogie et à l’Innovation) et la DSI (Direction des systèmes d’information), a réussi à mettre en place en trois semaines un serveur de visio-conférence avec la nouvelle version de Big Blue Button. Celle-ci coche nos critères essentiels en termes de fonctionnalités, de performances, de sécurité, et de respect de la vie privée. Désormais nous pouvons nous passer de Discord, Zoom, Skype…

Nous en sommes à maintenant cinq semaines de cours à distance et nous pouvons également tirer un premier bilan de ce nouveau type d’enseignement. Étudiants et enseignants ont fait part de leur ressenti. Pour les étudiants, la majorité fait remonter une charge de travail supplémentaire et une fatigue accrue par la répétition des cours à distance. Quelle que soit la solution choisie (visio, chat textuel ou capsule vidéo) le rythme est trop soutenu, la difficulté à interagir avec l’enseignant est réelle.

Pour les enseignants, ces nouvelles conditions ont généré une charge de travail énorme dans un temps contraint. Dès la première semaine, le temps de préparation et d’adaptation des cours a explosé. Il en est de même pour le temps passé à assurer la continuité de la direction et le suivi des étudiants (en particulier les stages) avec un calendrier global qui n’a pas bougé d’un iota.

De l’avis général des collègues du département informatique de l’IUT de Bordeaux, il est compliqué d’enseigner à distance dans de bonnes conditions. Ainsi il est difficile, voire impossible, de ressentir si le cours se passe bien ou pas, si le groupe avance ou pas. Interagir avec des étudiants à qui l’on a donné une série d’exercices reste également complexe. Certains étudiants ne prennent pas la parole, d’autres un peu trop, et traiter un canal par étudiant devient vite ingérable. Si nous essayons de nous adapter en transformant nos cours (pédagogie inversée, approche par projet, capsules audio ou vidéo), il n’existe pas de solution miracle. Le manque de cours en face à face se fait déjà ressentir, et ralentit globalement la progression. Dans les faits, chaque enseignant réduit, dans la mesure du possible, son cours aux compétences jugées essentielles. Au final, l’enseignement à distance représente un effort supplémentaire pour tous, pour un résultat moindre.

Depuis l’annonce présidentielle de la non-reprise des cours avant l’été, d’autres défis s’annoncent pour l’équipe enseignante. Par exemple, comment noter le travail à distance alors qu’il est impossible de garantir une équité (accès à un ordinateur, à une connexion internet, à un environnement calme) ? Quelle est la valeur d’une évaluation dont on ne peut garantir l’authenticité de l’auteur, ni l’absence de fraude ? Pour le moment, notre équipe pédagogique n’entrevoit aucune solution satisfaisante.

Dans une vidéo postée le 15 avril, le président de l’Université de Bordeaux dresse un premier bilan très positif de cet enseignement à distance : « les enseignants donnent une formidable impulsion à la dynamique de transformation pédagogique que nous avions souhaitée et dont nous saurons tirer les leçons demain ». L’expérience de ces cinq dernières semaines nous pousse à modérer ces propos. Hors période de confinement, nous restons convaincus des bienfaits et de l’efficacité d’assurer nos missions d’enseignement en face à face. Pour le bien de tous (étudiants, enseignants, personnel technique et administratif), il faut que cela reste la norme et que l’enseignement à distance reste l’exception.

Neuza Alves, Michel Billaud, Romain Bourqui, Brigitte Carles, Sophie Cartier, Arnaud Casteigts, Isabelle Dutour, Patrick Félix, Stéphane Fossé, Olivier Gauwin, Romain Giot, Olivier Guibert, Michel Hickel, Colette Johnen, Nicholas Journet, Sidonie Marty, Bruno Mery, Sylvie Michel, Alexandra Palazzolo, Grégoire Passault, Arnaud Pecher, Pierre Ramet, Karine Rouet, Eric Sopena, Christine Uny, Eric Woirgard (Enseignants et personnels de l’IUT de Bordeaux)