Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
 37-091-A-50 Introduction à la psychiatrie computationnelle S. Beaumont, J. Dhôte, F. Vinckier, S. Palminteri, V. Wyart, R. Jardri, P. Domenech Résumé : La psychiatrie computationnelle est une approche théorique utilisant des modèles mathématiques pour éclairer les liens entre symptômes et anomalies neurobiologiques observées dans les troubles mentaux. Cette introduction passe en revue trois champs d’application principaux : les modèles issus de l’apprentissage par renforcement, les modèles issus de la théorie économique de la décision et les modèles bayésiens. Les premiers ont été principalement utilisés pour l’étude des addictions, les deuxièmes dans le cadre des troubles de la motivation et de l’impulsivité, et les derniers constituent un apport important pour la compréhension des symptômes psychotiques. Les perspectives ouvertes par l’approche computationnelle sont larges, allant de l’élucidation des mécanismes physiopathologiques des troubles mentaux à l’échelle populationnelle à la personnalisation des prises en charge à l’échelle individuelle. © 2020 Elsevier Masson SAS. Tous droits réservés. Mots-clés : Psychiatrie ; Physiopathologie ; Neurosciences ; Sciences cognitives ; Psychiatrie computationnelle Plan ■ Introduction 1 ■ Apprentissage par renforcement Théorie et modèles Addictions 1 1 2 ■ Neuroéconomie et théorie de la décision Théorie et modèles Troubles de la motivation et compromis récompense/effort 3 3 4 ■ Modèles bayésiens Inférence bayésienne Deux approches de la schizophrénie 4 4 5 ■ Conclusion 7  Introduction L’approche computationnelle en psychiatrie désigne l’utilisation de modèles mathématiques permettant de décrire certains processus cognitifs, en rendant explicite l’ensemble des opérations élémentaires qui sous-tendent ces processus, ainsi que leurs altérations potentielles à l’origine des symptômes observés en clinique. La psychiatrie computationnelle hérite des hypothèses issues de la psychopharmacologie et des neurosciences cognitives, et vise à redéfinir les troubles psychiatriques en termes de dysfonctions neurobiologiques. Cependant, contrairement à une approche corrélationnelle décrivant des associations entre un comportement et un type de molécule ou d’activation cérébrale, l’élaboration de modèles explicites et formels permet à la psychiatrie computationnelle de développer des hypothèses empiriquement testables, c’est-à-dire quantifiables et falsifiables, sur les liens mécaniques entre les mécanismes neurobiologiques EMC - Psychiatrie Volume 0 > n◦ 0 > xxx 2020 http://dx.doi.org/10.1016/S0246-1072(20)69595-5 et les symptômes observés [1] . Concrètement, un modèle computationnel est composé d’algorithmes qui génèrent, à partir d’une information externe (stimulus), un comportement observable. Les équations qui constituent ces algorithmes comportent un certain nombre de constantes, appelées paramètres libres, dont les valeurs sont propres à chaque individu. Ainsi, l’analyse du comportement en situation expérimentale permet à la fois de valider les prédictions théoriques du modèle (le modèle se comporte de façon comparable à un agent humain), et de retrouver les valeurs des paramètres libres pour chaque sujet, correspondant à des variables latentes utilisées pour l’analyse de données neurophysiologiques, ou pour expliciter les limites entre normal et pathologique. L’objectif de cette synthèse est d’illustrer par quelques exemples comment la psychiatrie computationnelle permet : • de mettre en évidence les algorithmes biologiques sous-jacents au comportement normal ; • l’implémentation neurobiologique de ces algorithmes ; et • d’identifier les régimes particuliers de dysfonctionnement de ces algorithmes, à l’origine des comportements pathologiques. Trois grandes catégories de modèles seront examinées : les modèles issus de l’apprentissage par renforcement, ceux issus de la théorie économique de la décision, et les modèles bayésiens.  Apprentissage par renforcement Théorie et modèles Imaginez une automobiliste cherchant à trouver le trajet le plus court jusqu’à son nouveau lieu de travail. Chaque jour elle peut essayer différents trajets, afin d’optimiser son temps de parcours par essais-erreurs. Ce type d’apprentissage correspond à un apprentissage par renforcement (Fig. 1A). Les théories contemporaines de l’apprentissage par renforcement sont issues de la 1 37-091-A-50  Introduction à la psychiatrie computationnelle Prédiction T2 < T3 < T1 Choix Action Stimulus Cortex pré-moteur Cortex sensoriel Figure 1. Apprentissage par renforcement. A. Représentation schématique de l’apprentissage par renforcement. Chaque action est associée à une certaine valeur prédite (ici représentant les temps de trajet), et l’action sélectionnée maximise cette valeur. Après l’action, cette valeur est comparée à la récompense effectivement reçue (erreur de prédiction) et est corrigée en intégrant une certaine proportion de l’erreur de prédiction. B. Représentation simplifiée des circuits cérébraux impliqués dans l’apprentissage par renforcement. Le signal d’erreur de prédiction est médié par l’activité dopaminergique issue du mésencéphale et transmise au striatum ventral. Les valeurs subjectives des paires état-action sont encodées au niveau du cortex préfrontal ventromédian. vmPFC : cortex préfrontal ventromédian ; EP : erreur de prédiction ; DA : dopamine ; VTA : aire tegmentale ventrale ; SNpc : substance noire pars compacta. EP Valeurs Striatum ventral VTA, SNpc vmPFC Prédiction T’2 = T’2 + erreur A Contexte formalisation mathématique des théories de l’apprentissage animal [2] , à partir desquelles Robert Rescorla et Allan Wagner ont pu reformuler le concept de conditionnement pavlovien en termes de capacité à prédire la survenue d’un événement renforçateur [3] . Pour cela, les théories d’apprentissage par renforcement reposent sur des algorithmes simples, capables d’apprendre les associations entre les stimuli, les actions et leurs conséquences, tout en se servant de ces associations comme règle pour les futures décisions. Ainsi, ces algorithmes sont capables d’apprendre par essais-erreurs le comportement le plus adapté à une situation donnée en se fondant sur les conséquences des choix passés. Ces conséquences peuvent être positives, renforçant ainsi l’association stimuluscomportement ayant permis d’obtenir une récompense, ou négatives, éteignant l’association stimulus-comportement pour favoriser la sélection de comportements alternatifs maximisant les récompenses ou pour éviter de nouvelles pertes ou punitions. Cet apprentissage d’associations entre stimuli, actions et conséquences ne peut avoir lieu que sous certaines conditions : • proximité temporelle : l’action ou le stimulus doivent être temporellement proches de l’événement renforçateur devant être associé ; • contingence : la probabilité de survenue de l’événement associé est plus élevée après l’action ou le stimulus ; • erreur de prédiction : l’action et/ou le stimulus est associé à un événement si et seulement si cet événement n’est pas déjà entièrement prédit par une autre action ou stimulus. Ce dernier point est fondamental : l’apprentissage de l’association entre le stimulus conditionné et le renforçateur n’est pas uniquement le fait de la proximité temporelle entre les deux événements, mais du lien supposé causal, et donc « prédictif », de l’un par l’autre. Ainsi, un animal ayant déjà appris l’association entre un stimulus (un coup de sonnette) et une récompense (de la nourriture) n’associe pas, en règle générale, la même récompense à un nouveau stimulus (de la lumière) si celui-ci est présenté après le premier stimulus (la sonnette). On parle alors de blocage [4] . Le modèle prédictif des conséquences de nos choix (c’est-à-dire l’ensemble des associations apprises par essais-erreurs entre stimuli, actions et renforçateurs) est mis à jour à chaque essai, en intégrant cette erreur de prédiction (la différence entre la valeur 2 DA Récompense B prédite d’une action et la valeur effective du renforçateur). Dans le cas de notre automobiliste, à chaque trajet qu’elle emprunte correspond une prédiction sur son temps de parcours et une erreur de prédiction, positive (elle arrive plus tôt qu’elle ne l’espérait) ou négative (elle arrive plus tard), qui permet l’apprentissage progressif du trajet optimal (Fig. 1A). Autrement dit, l’erreur de prédiction est analogue à un signal de surprise avec un signe : une surprise positive, quand le résultat est meilleur que ce qui était attendu, une surprise négative dans le cas opposé. Ce signal d’apprentissage qu’est l’erreur de prédiction permet également de rendre compte de l’activité neurale dans certains circuits, comme ceux impliquant l’activité des neurones dopaminergiques, d’abord identifiée chez le rongeur et le primate non humain, puis chez l’homme [3, 5] . En effet, l’activité phasique des neurones dopaminergiques au niveau du striatum ventral présente tous les attributs d’un signal codant une erreur de prédiction : • elle augmente lorsque qu’une récompense inattendue est reçue ou lorsqu’un stimulus prédisant une récompense est perçu (une erreur de prédiction positive, donc une bonne surprise) ; • elle reste inchangée lorsqu’une récompense attendue est reçue (une erreur de prédiction nulle, donc aucune surprise) ; • elle est diminuée lorsqu’une récompense attendue n’est pas reçue (une erreur de prédiction négative, donc une mauvaise surprise). Addictions Le trouble addictif constitue un exemple canonique de dysfonctionnement de l’apprentissage par renforcement. En effet, il est défini par la poursuite, excessive et en dépit de conséquences négatives, d’un comportement spécifique (par exemple : jeux, sport, alimentation, travail, etc.) ou d’une consommation de substance. Cette description clinique met en avant la perte d’adaptabilité du comportement normalement permise par les mécanismes d’apprentissage décrits précédemment. En formalisant ces mécanismes, l’approche computationnelle permet d’établir des liens entre le comportement addictif observé et ses processus neurobiologiques sous-jacents. EMC - Psychiatrie Introduction à la psychiatrie computationnelle  37-091-A-50 1 Option A Sous-estimation Valeur subjective Utilité Probabilité perçue Option B 0,5 Choix 1 Choix 2 x2 Surestimation 0 Pertes 0 Gains A 1 0,5 Probabilité réelle 0 10 20 Délai (j) B C Figure 2. Résultats classiques de neuroéconomie. A. Représentation de l’utilité (valeur subjective) en fonction des valeurs objectives. Le biais d’aversion à la perte est caractérisé par une perception des valeurs en moyenne deux fois plus importante dans le domaine des pertes que dans celui des gains. B. Perception des probabilités. Les probabilités élevées sont classiquement sous-estimées, tandis que les probabilités faibles sont légèrement surestimées. C. Décompte temporel et incohérence dynamique. La valeur subjective d’une option décroît avec le délai d’obtention, ce qui explique le biais en faveur des récompenses immédiates. Par ailleurs, cette décroissance est dite hyperbolique, en raison du phénomène d’incohérence dynamique : dans les deux choix représentés, la récompense associée à l’option A arrive toujours sept jours après celle associée à l’option B. Cependant, s’il vaut mieux choisir l’option B dans le premier choix, c’est l’option A qui est la meilleure dans le second. Une première cause putative de l’addiction réside dans les propriétés pharmacologiques des substances elles-mêmes et leurs potentielles interférences avec les circuits dopaminergiques d’apprentissage par renforcement. Certaines substances addictives, en particulier la cocaïne et les amphétamines, entraînent une hyperactivité dopaminergique qui pourrait correspondre à un signal d’erreur de prédiction pathologique, constamment positif, associé à la substance [5, 6] . Si l’on en croit cette hypothèse, un événement déjà entièrement prédit par un stimulus (avec donc une erreur de prédiction nulle) pourrait malgré tout être associé à la consommation de cocaïne (qui générerait une erreur de prédiction positive uniquement par ses propriétés pharmacologiques). On parlerait alors d’absence de blocage (voir supra). Or, il a été montré expérimentalement chez le rongeur [7] que le phénomène de blocage persiste lors d’apprentissages utilisant la cocaïne comme renforçateur, contrastant avec l’hypothèse d’un signal d’erreur de prédiction rendu systématiquement positif par la substance. Notons par ailleurs que ce premier modèle est insuffisant pour expliquer les propriétés addictives de certaines substances qui n’impactent pas directement le système dopaminergique (notamment les opioïdes), ou qui agissent sur d’autres neuromodulateurs (sérotonine, noradrénaline) [8] , pas plus que les addictions comportementales. D’autres mécanismes existant éventuellement indépendamment des propriétés de la substance sont donc nécessairement en jeu et pourraient expliquer la vulnérabilité de certains sujets aux addictions. Dans cette perspective, les modèles computationnels d’apprentissage classiques ont été étendus aux erreurs de prédiction contrefactuelles, c’est-à-dire correspondant aux actions alternatives qui n’ont pas eu lieu mais dont le résultat (si elles avaient été choisies) est connu [9] . Pour reprendre l’exemple de notre automobiliste, le fait d’arriver plus tard qu’espéré sur son lieu de travail va générer une erreur de prédiction négative pour le trajet qu’elle a effectivement choisi, mais également des erreurs de prédictions contrefactuelles positives pour les trajets alternatifs. Or, une altération de cet apprentissage contrefactuel, sur le plan comportemental et en imagerie fonctionnelle, a été mise en évidence dans différents types d’addictions (notamment chez des fumeurs [10] ). Il a également été montré qu’il peut exister un déséquilibre de perception des récompenses selon leur type : par exemple, les joueurs pathologiques présentent une sensibilité accrue pour les récompenses monétaires par rapport à d’autres types de récompense, bien que leur perception subjective des écarts entre récompense faible ou élevée (quel que soit son type) reste comparable à celle des sujets sains [11] . Ces deux résultats, permis par la formalisation des mécanismes d’apprentissage et de perception des récompenses, permettent d’éclairer les liens entre des EMC - Psychiatrie altérations de la circuiterie neurale et des phénomènes cliniques tels que la poursuite de la consommation malgré la connaissance d’alternatives pourtant perçues comme bénéfiques (santé, finances, vie sociale, etc.) et l’extension continue du comportement addictif au détriment d’autres activités.  Neuroéconomie et théorie de la décision Théorie et modèles Les théories neuroéconomiques de la décision s’intéressent aux déterminants du comportement des individus, soit en termes de choix (décider de faire une action plutôt qu’une autre), soit en termes d’allocation de ressources (décider de dépenser plus ou moins d’énergie pour accomplir une action, ce qui renvoie à la notion d’effort physique ou mental). Elles font l’hypothèse que ces choix résultent de la comparaison de valeurs subjectives propres à chaque sujet, également appelées « utilités » (Fig. 2A), attribuées aux options possibles. L’estimation de l’utilité d’une action prend en compte les bénéfices potentiels de cette action (maximisation des gains), auxquels sont soustraits les coûts liés à l’action (par exemple l’effort). La décision résulte donc d’un compromis entre les coûts et les bénéfices : un individu décide d’effectuer une action si la valeur subjective de cette action est supérieure à celles des autres actions possibles (incluant le fait de ne rien faire). Le terme de « bénéfice » correspond à ce que l’individu peut gagner (ou éviter de perdre) en faisant une action donnée. L’observation du comportement montre que la sensibilité à ces deux composantes (gains et pertes) n’est pas égale. Ainsi, une grande majorité des individus refuse un pari consistant à gagner dix euros dans 50 % des cas ou perdre dix euros dans 50 % des cas (il faut en moyenne que les gains soient deux fois supérieurs aux pertes pour qu’un individu accepte). Cette asymétrie a été formalisée par Daniel Kahneman et Amos Tversky dans une théorie économique appelée théorie des perspectives. Comme le montre la Figure 2A, la fonction liant la valeur objective (ce que l’on peut gagner, en abscisse) à l’utilité (la valeur subjective de ce gain, en ordonnée) n’est pas linéaire mais concave : gagner 20 euros n’est pas deux fois plus plaisant que gagner dix euros. Cette concavité rend compte de l’aversion au risque : en moyenne, les individus préfèrent gagner dix euros de façon certaine qu’avoir une chance sur deux de gagner 20 euros. Ainsi, le terme de bénéfice fait également intervenir la notion de probabilité. Deux points sont importants à considérer concernant cette notion. D’une part, l’observation du comportement montre que nous sous-estimons 3 37-091-A-50  Introduction à la psychiatrie computationnelle les probabilités proches de 1 tandis que nous surestimons les faibles probabilités. Cette déformation, illustrée dans la Figure 2B, pourrait expliquer pourquoi nous jouons au loto par exemple. Par ailleurs, ce terme de probabilité intervient également lorsque nous devons estimer nos capacités de succès et il est alors intrinsèquement lié à la notion de confiance et donc de métacognition (penser sur ses propres pensées ou, dans ce cas, savoir ce que l’on sait faire). Enfin, le terme de bénéfice peut également faire intervenir la notion de délai : nous nous engageons moins dans des actions lorsque la récompense est différée dans le temps (Fig. 2C). Cet effet peut être étudié au travers de choix intertemporels, entre une petite récompense immédiate ou une plus grande récompense différée (« préférez-vous 10 euros maintenant ou bien 20 euros dans une semaine ? »). L’expérience montre que la valeur décroît de manière hyperbolique avec le délai (plus fortement entre maintenant et dans une semaine qu’entre dans une semaine et dans deux semaines). La décroissance des gains espérés est contrôlée par un paramètre appelé taux de décompte, qui semble différent dans le domaine des gains et dans celui des pertes. Le terme de « coût » correspond à l’ensemble des ressources que l’individu doit dépenser au cours de l’action. Ce coût peut correspondre à un effort physique (grimper à un arbre, courir 200 m) ou psychique (remplir sa feuille d’impôt, effectuer des calculs mentaux). Contrairement au risque ou au délai, le terme de coût peut conduire à une utilité négative (il est toujours « rentable » d’accepter une probabilité très faible de gagner 10 euros ou une récompense très différée dans le temps, tandis qu’un effort suffisamment important compense la perspective de récompense). Deux individus confrontés au même choix ne vont pas nécessairement prendre la même décision. Le poids de chacun de ces termes dans la décision finale peut donc varier d’un individu à l’autre, ou même chez un même individu en fonction de son état. Ces degrés de liberté dans les équations décrivant le comportement sont appelés paramètres libres. On peut ainsi imaginer qu’un individu va avoir une plus grande sensibilité au délai tandis qu’un autre sera particulièrement aversif au risque. Des variations extrêmes de ces paramètres pourraient aboutir à des altérations pathologiques du comportement. nir une récompense, monétaire ou non [12] . Dans la dépression, ce résultat est observé dans la dépression subsyndromique ou dans l’épisode caractérisé, chez des patients unipolaires ou bipolaires, traités ou non, tandis qu’il se normalise avec la rémission. Ce déséquilibre de la balance bénéfice/coût semble être corrélé à des échelles d’apathie mais peu aux échelles de sévérité, ce qui en ferait une dimension spécifique plutôt qu’une conséquence générale de la dépression. Dans la schizophrénie, une diminution de la balance bénéfice/coût a également été retrouvée, avec une corrélation aux signes négatifs. L’impact des traitements antipsychotiques, qui interfèrent par nature avec la transmission dopaminergique, a été peu étudié. Dans ces deux pathologies, la majorité des paradigmes utilisés ne permettait pas de disséquer le mécanisme cognitif sous-tendant l’anomalie comportementale, et notamment de faire la distinction entre une diminution de la sensibilité à la récompense ou une augmentation de la sensibilité à l’effort. En revanche, une approche computationnelle a été utilisée dans la maladie de Parkinson, comparant les mêmes patients avec et sans traitement dopaminergique. Cette étude a montré que le traitement médicamentaux augmente la propension à choisir l’option grand effort/grande récompense plutôt que l’option petit effort/petite récompense [11] . L’approche computationnelle a permis de mettre en évidence deux effets indépendants de la lévodopa : un effet purement moteur (le traitement améliore la vitesse à laquelle les actions sont réalisées) et un effet motivationnel (augmentation de la sensibilité à la récompense sans modification de la sensibilité à l’effort) expliquant la différence de comportement lors des choix. Ce résultat illustre bien comment l’approche computationnelle permet d’aller au-delà du simple comportement, en décomposant les effets cognitifs d’une maladie ou d’une intervention pharmacologique. Dans ce cas, elle peut aider à quantifier et à distinguer les atteintes motrices et motivationnelles liées à la maladie de Parkinson : ces deux mécanismes cognitifs élémentaires pourraient être le reflet d’altérations spécifiques des voies dopaminergiques, et le fait de mieux les caractériser chez les patients pourrait à terme permettre de guider l’introduction de traitements personnalisés. Troubles de la motivation et compromis récompense/effort Inférence bayésienne Les troubles de la motivation font partie de la définition même de nombreux troubles neuropsychiatriques. L’un des deux critères majeurs de l’épisode dépressif caractérisé est une diminution marquée du plaisir ou de l’intérêt pour les différentes activités, tandis que les symptômes négatifs de la schizophrénie font directement référence à la motivation. Les troubles de la motivation sont également bien décrits dans plusieurs pathologies neurologiques comme la maladie de Parkinson ou la démence frontotemporale. Une apathie – ou diminution des comportements dirigés vers un but – pourrait résulter d’une altération de chacune des sensibilités précédemment évoquées (baisse de la sensibilité aux récompenses, diminution marquée de la confiance dans ses propres capacités conduisant à ne pas initier une action du fait d’une probabilité subjective de succès trop basse, augmentation de la sensibilité à l’effort, etc.). Elle a cependant été particulièrement étudiée au travers de tâches étudiant le compromis effort/récompense. Ces tâches impliquent de réaliser un effort mental ou physique (par exemple serrer une pince pour gagner de l’argent) pour obtenir une récompense et étudient le compromis soit de façon anticipée (choix entre une petite récompense contre un petit effort ou une grande récompense contre un grand effort), soit de façon effective, c’est-à-dire au travers de la performance du participant. De façon cruciale, le bénéfice obtenu à chaque essai dépend alors de la performance, et donc de la ressource investie. Cette seconde méthode permet d’observer le compromis effectif (en situation « réelle ») entre effort et récompense et non juste les intentions déclarées. De nombreux travaux ont utilisé plusieurs variantes de ces tâches dans la dépression et dans la schizophrénie, et ont confirmé une diminution de la propension à réaliser un effort pour obte- 4  Modèles bayésiens Les modèles bayésiens offrent un cadre théorique normatif visant à expliquer comment les agents peuvent former des croyances sur la base de données imprécises (dites « bruitées »). En effet, les objets de nos perceptions sont produits par des causes (ou états) qui ne sont pas directement observables. On parle alors de causes cachées. Le cadre théorique bayésien (ou inférence bayésienne) assimile les croyances à des distributions de probabilités sur ces états cachés du monde. Dans cette partie, nous examinons dans un premier temps cette hypothèse du cerveau fonctionnant sur la base d’inférences bayésiennes, avant de nous pencher sur deux exemples de modèles computationnels bayésiens des symptômes psychotiques. L’intuition selon laquelle le cerveau ne se contente pas de traiter passivement les flux d’informations reçus de l’extérieur, mais génère et prédit de façon active ses perceptions, remonte aux travaux de Hermann von Helmholtz. Selon cette théorie, la fonction principale du cerveau serait de réaliser des inférences statistiques sur l’état du monde extérieur sur la base de modèles internes et des données sensorielles auxquelles il a accès. Un modèle inférentiel interne correspond ici à un ensemble d’hypothèses concernant l’origine des perceptions. À la fin du XXe siècle, plusieurs modèles formels attribuent cette fonction à la hiérarchie corticale [13] . L’intégration de l’information sensorielle (dite « ascendante ») est permise par la prédiction d’observations à partir du modèle interne (information dite « descendante ») ; on parle alors de codage prédictif. En effet, le cerveau anticipe en permanence les messages sensoriels, ce qui rapproche les modèles bayésiens des modèles d’apprentissage par renforcement, où l’erreur de prédiction joue un rôle clé. Le théorème de Bayes permet de calculer l’intégration optimale des observations sensorielles pour mettre à jour la probabilité EMC - Psychiatrie Introduction à la psychiatrie computationnelle  37-091-A-50 Figure 3. Tâche des urnes et inférence bayésienne. A. Tâche des urnes. Au début de la tâche, deux urnes (1 et 2) sont présentées au sujet avec des répartitions différentes de billes de couleur. Au cours de la tâche des billes sont présentées successivement au sujet qui doit inférer de quelle urne elles proviennent. B. Inférence bayésienne. Les croyances du sujet sont représentées comme des distributions de probabilités. Initialement, la croyance a priori ne favorise aucune des deux options (distribution bleue centrée sur 0). Lorsque le sujet observe la séquence de tirage, il en infère la vraisemblance (distribution verte). La croyance a posteriori (distribution rose) intègre ces deux distributions. Vraisemblance des observations 1 Croyance a posteriori 2 Croyance a priori ? 1 2 noir A Croyance d’une hypothèse sur leur cause (l’état du monde). Illustrons cette idée avec l’exemple suivant : la probabilité qu’un patient reçoive un diagnostic de schizophrénie après avoir été examiné (croyance a posteriori) dépend de la probabilité de ce diagnostic avant tout examen (croyance a priori – ici la prévalence du trouble en population générale) et de la vraisemblance des symptômes présentés selon l’hypothèse diagnostique (issue de notre examen et de notre observation du patient). En ce qui concerne le fonctionnement de l’esprit/cerveau, les modèles (ou hypothèses) sont des croyances sur les états (cachés) du monde et les observations sont les données sensorielles, censées être causées par ces états cachés. Dès lors, une croyance est caractérisée par sa précision/fiabilité, c’est-à-dire son degré de dispersion autour de la valeur moyenne. Conceptuellement, la précision de cette distribution de probabilité correspond au niveau de confiance (ou certitude) quant à la véracité de la croyance. La vraisemblance des données observées est elle aussi une distribution de probabilité dont la précision correspond à la confiance sur ces observations (Fig. 3B). Les représentations de ces croyances sont organisées de façon hiérarchique [14] (Fig. 4A) : une croyance de haut niveau (par exemple « je suis dans une forêt ») détermine des causes de plus bas niveau (« je vois un arbre », « je vois des feuilles ») qui sont à l’origine des données sensorielles plus élémentaires (par exemple la perception de la couleur verte). Ainsi nos perceptions reposent nécessairement sur la croyance que l’on a de leurs causes. Ces croyances sont à leur tour mises à jour en fonction de la vraisemblance attribuée à nos perceptions. Ces influences respectives sont déterminées par la précision des connaissances a priori et des nouvelles entrées sensorielles : une croyance a priori considérée comme très précise (ou fiable) est peu modifiée par des informations sensorielles qui la contredisent (peu vraisemblables). L’hypothèse du cerveau bayésien permet de faire deux prédictions majeures sur la formation de croyances chez les humains : • les croyances a priori permettent de prédire (et donc de biaiser le traitement) des observations à venir et sont ajustées selon les erreurs de prédictions faites, une approche homologue de celle de l’apprentissage par renforcement que nous avons évoqué précédemment ; • la mise à jour des croyances repose sur le niveau d’incertitude ou de précision relative entre croyances a priori et signal sensoriel. Un agent optimal doit donc mettre à jour ses croyances en fonction du degré d’incertitude attribué à chaque observation perçue [15] . Il est à noter que le biais induit par les croyances a priori sur les perceptions est crucial pour former des représentations cohérentes du monde, et est par exemple indispensable pour percevoir une image en trois dimensions sur la base d’un stimulus bidimensionel [16] . Cependant, la notion d’optimalité est ici à double sens. D’une part, les humains sont rarement optimaux dans le sens où leurs mécanismes biologiques d’intégration sont bruités, que ce soit au niveau sensoriel, cognitif ou neuronal, et, d’autre part, ils ne parviennent pas à exploiter toute l’information disponible, même en tenant compte des limites imposées par ce bruit, contrairement à un observateur idéal [15] . Plusieurs expériences de psychophysique ont cependant mis à EMC - Psychiatrie rouge B jour des comportements relevant d’une telle intégration pondérée des croyances a priori et des informations sensorielles : dans le domaine des illusions visuelles [13] , du contrôle sensorimoteur [15] ou du sens de l’agentivité [17] . Or, la schizophrénie, en plus des symptômes productifs les plus classiques (hallucination et délire), s’accompagne de perturbations dans ces trois domaines. Différentes théories issues de l’inférence bayésienne ont donc été développées pour expliquer l’ensemble de la phénoménologie psychotique. Dans un premier temps, sont passées en revue les différentes hypothèses concernant ces symptômes à partir du codage prédictif classique, avant de discuter un modèle bayésien alternatif, les inférences circulaires. Deux approches de la schizophrénie Codage prédictif La notion de précision est centrale dans les modèles bayésiens. Comme nous l’avons vu, elle permet de pondérer l’influence relative des croyances a priori et des observations sensorielles pour former une représentation (dite croyance a posteriori). Cependant, la précision constitue elle-même une croyance d’un niveau hiérarchique supérieur : c’est une croyance sur le niveau d’incertitude des a priori ou des entrées sensorielles [13] . Un déséquilibre dans l’encodage de ces précisions est proposé par certains auteurs pour expliquer les symptômes psychotiques [13] (Fig. 4B), sur la base d’arguments comportementaux et neurobiologiques. Deux hypothèses opposées concernant le codage anormal des précisions dans la schizophrénie ont été avancées : • la diminution de précision des croyances a priori par rapport aux perceptions peut rendre les sujets davantage sensibles au bruit des signaux sensoriels ; • a contrario, un excès de précision des connaissances a priori peut conduire à une représentation biaisée et inflexible (c’està-dire insensible aux observations contradictoires) de la réalité. La première (excès de précision des messages sensoriels) a été proposée dans le cadre de biais perceptuels et cognitifs, mais aussi pour expliquer la symptomatologie productive. En effet, dans ce cas de figure, le bruit des messages sensoriels n’est plus suffisamment filtré par les croyances a priori, ce qui peut conduire à des perceptions sans objet (hallucinations). De même, il existe aussi une insensibilité aux illusions visuelles chez les patients atteints de schizophrénie, qui pourrait être expliquée par ce déficit de poids des croyances a priori (comme la vision tridimensionnelle [https://doi.org/10.1167/jov.20.4.12], les illusions visuelles fonctionnent grâce à nos croyances a priori sur ce que nous percevons) [13] . Cet exemple montre, contrairement à l’idée selon laquelle la psychose serait définie par une perte de contact à la réalité, que des sujets atteints de schizophrénie peuvent percevoir la réalité plus fidèlement que des sujets sains dans certains cas de figure où les croyances a priori peuvent induire des perceptions erronées. Par ailleurs, la tendance à tirer des conclusions hâtives (jumping to conclusion) constitue l’un des traits cognitifs les plus documentés dans la schizophrénie [18] . Ce phénomène peut être mis en évidence en utilisant la tâche des urnes (Fig. 3A). Cette 5 37-091-A-50  Introduction à la psychiatrie computationnelle A priori Codage prédictif Prédiction top-down Inférence circulaire descendante Croyance Inférence circulaire ascendante Δ Erreur de prédiction Boucle de réverbération Inter neurone Croyance Inter neurone Sens Observation bottom-up A Boucle de réverbération B C D Figure 4. Modèles d’inférence hiérarchique. A. Inférence bayésienne hiérarchique : les inférences bayésiennes sont organisées de façon hiérarchique, où chaque niveau de croyance intègre des messages ascendants du niveau inférieur et émet des prédictions descendantes. Les échanges entre niveaux peuvent être formalisés par deux modèles différents. B. Modèle du codage prédictif : à chaque niveau est associée une erreur de prédiction. La part de l’erreur de prédiction et de la croyance a priori dans le calcul de la croyance a posteriori est déterminé par leurs précisions respectives (voir Fig. 3B). C, D. Modèle des inférences circulaires : les messages ascendants (observations) (C) et descendants (prédictions) (D) peuvent être réverbérés, c’est-à-dire renvoyés dans l’autre direction, de façon excessive lors d’une perturbation du contrôle par un interneurone inhibiteur. Ainsi, une prédiction peut être perçue comme une observation (« prendre ce que l’on croit pour ce que l’on voit ») ou une observation peut être perçue comme une prédiction (« prendre ce que l’on voit pour ce que l’on s’attendait à voir »). tâche consiste à demander aux sujets de tirer des billes de couleur (par exemple noires ou rouges) pouvant provenir de deux urnes, contenant soit une majorité de billes noires, soit une majorité de billes rouges, et d’estimer de quelle urne vient leur tirage. Dans cette tâche, les patients ont tendance à tirer des conclusions sur la base de moins d’indices sensoriels (moins de tirages) et avec une confiance accrue comparativement à des témoins sains. Ce phénomène pourrait s’expliquer par un poids excessif attribué à l’information nouvellement reçue (la ou les billes tirées au hasard), au détriment de la croyance a priori (la connaissance des deux distributions de probabilités possibles) [18] , même si des explications alternatives ont également pu être formulées [14] . La précision excessive attribuée aux observations a également été invoquée pour expliquer la formation de croyances délirantes [19] , et est par exemple avancée pour rendre compte, chez certains sujets délirants, de l’attribution erronée de l’origine de leurs actions à des forces extérieures (notamment, défaut d’agentivité, automatisme mental, idées de références) [17] . Cependant, ces résultats tendent à montrer la formation d’idées bizarres ou peu justifiées (conclusions hâtives), mais pas d’idées inflexibles et monothématiques. À l’inverse, un déséquilibre en faveur des croyances a priori pourrait correspondre plus naturellement à la définition des croyances délirantes comme croyances rigides et maintenues en dépit d’évidences contradictoires. Il a cependant été principalement attribué à l’émergence de phénomènes hallucinatoires [20, 21] : la précision excessive attribuée aux croyances a priori pourrait « déformer » les informations sensorielles dans le sens de ce qui est attendu. Le modèle du codage prédictif appliqué à la schizophrénie ne permet donc pas de trancher entre les deux hypothèses contradictoires sur le sens du déséquilibre. Comme cela est décrit infra, un modèle alternatif au codage prédictif a également été proposé, permettant de dépasser ces contradictions [22] . Sur le plan neurobiologique, la précision pourrait être encodée par le gain postsynaptique des cellules corticales rapportant l’erreur de prédiction. Cette hypothèse rejoint la théorie de la saillance aberrante dans la schizophrénie [23] : l’hyperactivité dopaminergique striatale retrouvée dans cette pathologie conduirait à des perceptions anormalement saillantes, qui attirent l’attention du sujet, et le conduiraient à former des explications délirantes. Ce n’est que secondairement que cette hypothèse a été 6 reformulée comme une anomalie de pondération de l’inférence bayésienne [19] . Par ailleurs, la neuromodulation du signal au niveau postsynaptique implique en premier lieu les récepteurs glutamatergiques NMDA (N-méthyl-D-aspartate) au niveau des cellules pyramidales [13] . Une réduction de l’activité de ces récepteurs a été retrouvée chez des patients souffrant de schizophrénie et pourrait se traduire par une diminution de la précision au niveau cortical [13] . Aussi, chez des sujets sains, l’administration de kétamine, un agent antagoniste des récepteurs NMDA connu pour ses propriétés psychotomimétiques, est associée à une plus grande sensibilité aux erreurs de prédiction (autrement dit une surprise ou saillance des événements plus élevée) dans l’apprentissage par renforcement [24] . Néanmoins, peu de modèles computationnels ont tenté d’apporter une explication mécanistique et biologiquement plausible des symptômes positifs de la schizophrénie sur la base de l’intégration bayésienne optimale et linéaire des données sensorielles aux croyances a priori [14] . De plus, comme nous l’avons vu, le modèle du codage prédictif appliqué aux hallucinations a pu générer des hypothèses contradictoires quant au sens du déséquilibre des précisions [14, 20] et il est difficile de se satisfaire d’explications possiblement antagonistes du délire et des hallucinations, fréquemment observées en même temps chez les mêmes patients. Inférences circulaires Outre ces contradictions, l’explication des troubles psychotiques par le modèle du codage prédictif se limite au déséquilibre de précision entre croyances a priori et observations, médié par des anomalies du système dopaminergique. Or, ce ne sont pas les seules altérations neurobiologiques observées dans la schizophrénie. Le modèle alternatif des inférences circulaires permet à la fois de mieux rendre compte de l’ensemble de la symptomatologie, mais aussi de l’intégrer avec une compréhension plus fine du fonctionnement cortical. Ce modèle propose que les mécanismes d’inférence réalisées par le cerveau ne reposent pas seulement sur la précision respective des a priori et des entrées sensorielles, mais sur un contrôle précis de la propagation des messages dans la hiérarchie corticale par les interneurones inhibiteurs [22] . De par l’importante redondance des connexions au sein des circuits EMC - Psychiatrie Introduction à la psychiatrie computationnelle  37-091-A-50 cérébraux, il est en effet crucial de ne pas considérer plusieurs fois la même information pouvant revenir en boucle. Un mauvais contrôle de ces boucles conduirait à des erreurs d’inférence, appelées inférences circulaires [14] (Fig. 4C, D). Selon cette théorie, une perception sans objet reposerait non seulement sur un excès de confiance attribuée aux croyances a priori, mais également sur la réverbération de ces croyances aux niveaux les plus bas de la hiérarchie (prendre ce qui est cru pour ce qui est vu), et, à l’inverse, une croyance délirante reposerait non seulement sur un excès de confiance attribuée aux entrées sensorielles, mais aussi sur la réverbération de l’information sensorielle par les niveaux plus élevés de la hiérarchie (prendre ce qui est vu pour ce que l’on croit). Le modèle des inférences circulaires permet non seulement de rendre compte des observations antérieures dans la littérature sur la schizophrénie, mais aussi d’apporter un cadre commun aux deux types de perturbations possibles (ascendante ou descendante), et biologiquement plausible (reposant sur l’équilibre excitation/inhibition). Appliqué à une version modifiée de la tâche des urnes, ce modèle s’est révélé être capable de prédire le comportement des sujets de manière beaucoup plus fine que les approches bayésiennes classiques [25] . Ce modèle était également supérieur aux alternatives bayésiennes classiques chez les volontaires sains, attestant de l’existence d’un niveau non pathologique d’inférences circulaires, et pesant en faveur de l’hypothèse d’un continuum entre perception normale et pathologique. En outre, la corrélation entre les paramètres de ce modèle et les sous-scores cliniques à la Positive And Negative Syndrome Scale (PANSS) montre que les symptômes positifs sont significativement corrélés avec le nombre de boucles ascendantes (réverbération de l’information sensorielle), les symptômes négatifs avec le nombre de boucles descendantes (réverbération des croyances a priori), alors que la désorganisation est à la fois corrélée au nombre de boucles descendantes et ascendantes. Ce dernier résultat, s’il venait à être répliqué, permettrait de comprendre le syndrome de désorganisation comme étant le niveau de sévérité ultime de la schizophrénie, correspondant à une dissociation entre les représentations sensorielles de bas niveau, d’une part, et les représentations cognitives, voire métacognitives de plus haut niveau, d’autre part. Cette prédiction du modèle de l’inférence circulaire est proche des hypothèses formulées par Bleuler au siècle dernier, qui considérait la dissociation (Spaltung) comme centrale dans la schizophrénie. Sur le plan neurobiologique, le modèle des inférences circulaires permet d’éclairer l’hypothèse du déséquilibre entre excitation et inhibition au niveau cortical dans la schizophrénie, et plus spécifiquement d’expliciter en quoi la réduction des mécanismes inhibiteurs observés dans les modèles pharmacologiques et animaux de schizophrénie peut conduire à des phénomènes psychotiques [14] . Il a par exemple été montré chez le rongeur qu’une suppression de l’activité inhibitrice GABAergique (acide ␥-aminobutyrique) des interneurones à parvalbumine au niveau cortical pouvait générer une réduction des oscillations gamma, un phénomène plusieurs fois répliqué dans la schizophrénie [22] . Par ailleurs, une réduction de la concentration en GABA chez des patients avec schizophrénie est significativement corrélée à leurs déficits perceptifs [22] , pouvant par exemple expliquer la moindre sensibilité aux illusions visuelles. Aussi, l’hypoactivité des récepteurs NMDA du glutamate, retrouvée chez les patients souffrant de schizophrénie, pourrait également se traduire par une perturbation des interneurones à parvalbumine et une excitabilité accrue des cellules pyramidales du cortex [22] . sur l’implication fonctionnelle des boucles cortico-sous-corticales dans les comportements répétitifs pathologiques, ou de la balance excitation/inhibition dans la schizophrénie) et, in fine, la découverte de nouvelles cibles thérapeutiques ou biomarqueurs [26] . Deuxièmement, la caractérisation d’anomalies sur le plan computationnel ne dépend pas d’une nosographie a priori. Ainsi, l’approche computationnelle apporte une base scientifiquement valide à la définition des entités diagnostiques, mais qui reste ouverte à des variations dimensionnelles de certains symptômes ou au chevauchement entre syndromes [1] . Troisièmement, l’ajustement des paramètres libres des modèles au comportement individuel permet d’envisager un phénotypage computationnel de chaque patient, dans l’optique d’un diagnostic et d’une prise en charge de plus en plus personnalisée [27] . “ Points essentiels • L’utilisation de modèles mathématiques permet de développer des hypothèses causales explicites et quantifiables quant aux liens mécanistiques entre anomalies neurobiologiques et symptomatologie observée dans les troubles psychiatriques. • Les boucles cortico-sous-corticales implémentent des algorithmes d’apprentissage par renforcement dont le dysfonctionnement peut se traduire par l’apparition de troubles addictifs. • Les troubles motivationnels et les comportements impulsifs émergent de perturbations du réseau préfrontal de valorisation subjective. • L’architecture hiérarchique du cortex pourrait correspondre à une hiérarchie inférentielle bayésienne permettant d’intégrer perceptions et croyances. • Les symptômes observés dans la schizophrénie émergeraient d’un déséquilibre dans la transmission des signaux au travers de la hiérarchie, potentiellement via un déséquilibre entre excitation et inhibition. Déclaration de liens d’intérêts : Fabien Vinckier a été invité à des congrès scientifiques, a consulté et/ou a été communiquant, et a reçu une compensation de Servier, Jansen, Recordati, Lundbeck et Otsuka.  Références [1] [2] [3] [4] [5]  Conclusion La psychiatrie computationnelle est un nouveau champ disciplinaire visant à recontextualiser les anomalies neurobiologiques observés dans les troubles mentaux, à la lumière des algorithmes qu’ils implémentent. Les avantages de l’approche computationnelle sont triples. Premièrement, la modélisation mathématique des processus de pensée permet de proposer des explications causales (via le formalisme des algorithmes) aux comportements observés. Cela ouvre des perspectives quant à la compréhension de la physiopathologie des maladies mentales (par exemple EMC - Psychiatrie [6] [7] [8] Huys QJ, Maia TV, Frank MJ. Computational psychiatry as a bridge from neuroscience to clinical applications. Nat Neurosci 2016;19:404–13. Sutton RS, Barto AG. Reinforcement Learning: An Introduction. Cambridge: MIT Press; 1998. Glimcher PW. Understanding dopamine and reinforcement learning: the dopamine reward prediction error hypothesis. Proc Natl Acad Sci 2011;108:15647–54. Kamin L. Predictability, surprise, attention and conditioning. Punishment and aversive behavior 1969. Lefebvre G, Lebreton M, Meyniel F, Bourgeois-Gironde S, Palminteri S. Behavioural and neural characterization of optimistic reinforcement learning. Nat Hum Behav 2017;1:1–9. Redish AD. Addiction as a computational process gone awry. Science 2004;306:1944–7. Panlilio LV, Thorndike EB, Schindler CW. Blocking of conditioning to a cocaine-paired stimulus: testing the hypothesis that cocaine perpetually produces a signal of larger-than-expected reward. Pharmacol Biochem Behav 2007;86:774, 774-7. Walters CJ, Redish AD. Chapter 8 – A case study in computational psychiatry: Addiction as failure modes of the decision-making system. In: Anticevic A, Murray JD, editors. Comput Psychiatry, Academic Press. 2018. p. 199–217. 7 37-091-A-50  Introduction à la psychiatrie computationnelle [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] Palminteri S, Khamassi M, Joffily M, Coricelli G. Contextual modulation of value signals in reward and punishment learning. Nat Commun 2015;6:1–14. Chiu PH, Lohrenz TM, Montague PR. Smokers’ brains compute, but ignore, a fictive error signal in a sequential investment task. Nat Neurosci 2008;11:514. Sescousse G, Barbalat G, Domenech P, Dreher J-C. Imbalance in the sensitivity to different types of rewards in pathological gambling. Brain 2013;136:2527–38. Pessiglione M, Vinckier F, Bouret S, Daunizeau J, Le Bouc R. Why not try harder? Computational approach to motivation deficits in neuropsychiatric diseases. Brain 2017;141:629–50. Adams RA, Stephan KE, Brown HR, Frith CD, Friston KJ. The computational anatomy of psychosis. Front Psychiatry 2013:4. Denève S, Jardri R. Circular inference: mistaken belief, misplaced trust. Curr Opin Behav Sci 2016;11:40–8. Knill DC, Pouget A. The Bayesian brain: the role of uncertainty in neural coding and computation. Trends Neurosci 2004;27:712–9. Mamassian P. Bayesian inference of form and shape. Prog Brain Res 2006;154:265–70. Synofzik M, Thier P, Leube DT, Schlotterbeck P, Lindner A. Misattributions of agency in schizophrenia are based on imprecise predictions about the sensory consequences of one’s actions. Brain 2010;133:262–71. Moutoussis M, Bentall RP, El-Deredy W, Dayan P. Bayesian modelling of jumping-to-conclusions bias in delusional patients. Cogn Neuropsychiatry 2011;16:422–47. [19] Corlett PR, Murray GK, Honey GD, Aitken MR, Shanks DR, Robbins TW, et al. Disrupted prediction-error signal in psychosis: evidence for an associative account of delusions. Brain 2007;130:2387–400. [20] Corlett PR, Horga G, Fletcher PC, Alderson-Day B, Schmack K, Powers AR. Hallucinations and strong priors. Trends Cogn Sci 2019;23:114–27. [21] Powers AR, Mathys C, Corlett PR. Pavlovian conditioning-induced hallucinations result from overweighting of perceptual priors. Science 2017;357:596–600. [22] Jardri R, Hugdahl K, Hughes M, Brunelin J, Waters F, Alderson-Day B, et al. Are hallucinations due to an imbalance between excitatory and inhibitory influences on the brain? Schizophr Bull 2016;42:1124–34. [23] Howes OD, Kapur S. The dopamine hypothesis of schizophrenia: Version III – The final common pathway. Schizophr Bull 2009;35: 549–62. [24] Corlett PR, Honey GD, Aitken MR, Dickinson A, Shanks DR, Absalom AR, et al. Frontal responses during learning predict vulnerability to the psychotogenic effects of ketamine: linking cognition, brain activity, and psychosis. Arch Gen Psychiatry 2006;63:611–21. [25] Jardri R, Duverne S, Litvinova AS, Denève S. Experimental evidence for circular inference in schizophrenia. Nat Commun 2017;8:1428. [26] Paulus MP, Huys QJ, Maia TV. A roadmap for the development of applied computational psychiatry. Biol Psychiatry Cogn Neurosci Neuroimaging 2016;1:386. [27] Pessiglione M, Le Bouc R, Vinckier F. When decisions talk: computational phenotyping of motivation disorders. Curr Opin Behav Sci 2018;22:50–8. S. Beaumont. Service de neurochirurgie, Département médical universitaire de psychiatrie et d’addictologie, Hôpital Henri-Mondor, AP–HP, Université Paris-Est-Créteil, 51, avenue du Maréchal-de-Lattre-de-Tassigny, 94010 Créteil, France. Neurophysiology of repetitive behavior (NERB), Institut du cerveau et de la moelle épinière, 75013 Paris, France. J. Dhôte. F. Vinckier. Université de Paris, 75006 Paris, France. Département de psychiatrie, Service hospitalo-universitaire, GHU Paris Psychiatrie & Neurosciences, 75014 Paris, France. Motivation, Brain & Behavior (MBB) lab, Institut du cerveau et de la moelle épinière (ICM), 75013 Paris, France. S. Palminteri. V. Wyart. Inserm U960, Laboratoire de neurosciences cognitives et computationnelles, École normale supérieure, PSL University, Paris, France. R. Jardri. Inserm U-1172, Équipe Plasticité et Subjectivité, Centre Lille Neurosciences & Cognition, Université de Lille, CHU de Lille, Lille, France. Service de psychiatrie de l’enfant et de l’adolescent & Plateforme CURE (Antenne Psychiatrique du CIC), Hôpital Fontan, CHU de Lille, 59037 Lille cedex, France. P. Domenech (philippe.domenech@inserm.fr). Service de neurochirurgie, Département médical universitaire de psychiatrie et d’addictologie, Hôpital Henri-Mondor, AP–HP, Université Paris-Est-Créteil, 51, avenue du Maréchal-de-Lattre-de-Tassigny, 94010 Créteil, France. Neurophysiology of repetitive behavior (NERB), Institut du cerveau et de la moelle épinière, 75013 Paris, France. Toute référence à cet article doit porter la mention : Beaumont S, Dhôte J, Vinckier F, Palminteri S, Wyart V, Jardri R, et al. Introduction à la psychiatrie computationnelle. EMC - Psychiatrie 2020;0(0):1-8 [Article 37-091-A-50]. Disponibles sur www.em-consulte.com Arbres décisionnels 8 Iconographies supplémentaires Vidéos/ Animations Documents légaux Information au patient Informations supplémentaires Autoévaluations Cas clinique EMC - Psychiatrie