Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Editorial ANNEXE

abmed.it

Vol : 86 – sup. n°07, 2008 SOMMAIRE 741 CONTENTS EDITORIAL 741 A. Mrabet, N. Attia Romdhane 744 EDITORIAL ANNEXE EDITORIAL A. Mrabet, N. Attia Romdhane 744 ADDITIONAL S. Hajem, A. Mrabet S. Hajem, A. Mrabet MISE AU POINT REVIEW 746 COMMENT SONT ADAPTÉS ET VALIDÉS LES TESTS NEUROPSYCHOLOGIQUES EN TUNISIE ? 746 LEADING ARTICLE HOW ARE NEUROPSYCHOLOGICAL TESTS ADAPTED AND VALIDATED IN TUNISIA? M. N. Romdhane, T. Bellaj, N. Attia Romdhane M. N. Romdhane, T. Bellaj, N. Attia Romdhane ARTICLES ORIGINAL ORIGINAUX 754 VALIDATION DE L’ÉCHELLE CLINICAL DEMENTIA RATING EN TUNISIE 754 764 768 777 786 793 801 N. Attia Romdhane, I. Ben Hamouda, K. Ben Youssef, C. Mhenni, S. Ouenniche, A. Mrabet. GERIATRIC DEPRESSION SCALE ARABIC VERSION (A-GDS): RELIABILITY, VALIDITY AND NORMATIVE DATA T. Bellaj, S. Ben Jemaa, N. Anane, N. Attia Romdhane, K. Ben Youssef, H. Kahouaji, M. Bouaziz, A. Mrabet. T. Bellaj, S. Ben Jemaa, N. Anane, N. Attia Romdhane, K. Ben Youssef, H. Kahouaji, M. Bouaziz, A. Mrabet. 809 FIDÉLITÉ ET VALIDITÉ DE L’ÉCHELLE INSTRUMENTAL ACTIVITIES OF DAILY LIVING EN TUNISIE FRONTAL ASSESSMENT BATTERY (FAB): RELIABILITY, VALIDITY AND STANDARDIZATION OF AN ARABIC FORM S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, A. Cherif, N. Oudiaa Zakraoui, M. Bouaziz, A. Mrabet. S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, A. Cherif, N. Oudiaa Zakraoui, M. Bouaziz, A. Mrabet. 801 VERSION ARABE DE LA GERIATRIC DEPRESSION SCALE (A-GDS) : FIDÉLITÉ, VALIDITÉ ET DONNÉES NORMATIVES FIVE WORDS TEST ARABIC VERSION: CLINICAL VALIDITY FOR DEMENTIA OF THE ALZHEIMER TYPE DIAGNOSIS H. Mrabet Khiari, N. Attia Romdhane, T. Bellaj, K. Bennys, N. Anane, A. Mrabet. H. Mrabet Khiari, N. Attia Romdhane, T. Bellaj, K. Bennys, N. Anane, A. Mrabet. 793 LA FRONTAL ASSESSMENT BATTERY (FAB) : FIDÉLITÉ, VALIDITÉ ET ÉTALONNAGE D’UNE FORME ARABE ARABIC VERSION OF THE ALZHEIMER’S DISEASE ASSESSMENT SCALE - COGNITIVE SUBSCALE (A-ADAS COG) S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, N. Oudiaa Zakraoui, A. Cherif, M. Bouaziz, A. Mrabet. S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, N. Oudiaa Zakraoui, A. Cherif, M. Bouaziz, A. Mrabet. 786 VERSION ARABE DE L’ÉPREUVE DES 5 MOTS : VALIDATION CLINIQUE POUR LE DIAGNOSTIC DE DÉMENCE DE TYPE ALZHEIMER MINI MENTAL STATE EXAMINATION ARABIC VERSION (A-MMSE): RELIABILITY, VALIDITY AND NORMATIVE DATA T. Bellaj, S. Ben Jemaa, N. Attia Romdhane, M. Dhiffallah, N. Ben Ali, M. Bouaziz, A. Mrabet. T. Bellaj, S. Ben Jemaa, N. Attia Romdhane, M. Dhiffallah, N. Ben Ali, M. Bouaziz, A. Mrabet. 777 VERSION ARABE DE L’ALZHEIMER’S DISEASE ASSESSMENT SCALE - COGNITIVE SUBSCALE (AADAS COG) INTERRATER RELIABILITY OF THE CLINICAL DEMENTIA RATING SCALE IN TUNISIA I. Ben Hamouda, N. Attia Romdhane, K. Ben Youssef, C. Mhenni, A. Mrabet. I. Ben Hamouda, N. Attia Romdhane, K. Ben Youssef, C. Mhenni, A. Mrabet. 768 VERSION ARABE DU MINI MENTAL STATE EXAMINATION (A-MMSE) : FIDÉLITÉ, VALIDITÉ ET DONNÉES NORMATIVES CLINICAL DEMENTIA RATING SCALE VALIDATION IN TUNISIA N. Attia Romdhane, I. Ben Hamouda, S. Ouenniche, K. Ben Youssef, C. Mhenni, A. Mrabet N. Attia Romdhane, I. Ben Hamouda, S. Ouenniche, K. Ben Youssef, C. Mhenni, A. Mrabet 764 FIDÉLITÉ INTER-JUGES DE L’ÉCHELLE CLINICAL DEMENTIA RATING EN TUNISIE ARTICLES 809 RELIABILITY AND VALIDITY OF INSTRUMENTAL ACTIVITIES OF DAILY LIVING SCALE IN TUNISIA N. Attia Romdhane, I. Ben Hamouda, K. Ben Youssef, C. Mhenni, S. Ouenniche, A. Mrabet. 809 ±d«°j. ≤UzKW ´DOW ¸±CUÊ, «°∑ºU °s •Luœ…, Ød¥r °s ¥ußn,, ®d«“ ±NMw, ßFOb… Ë≤Og, √±U‰ Åb‚ Ë £∂U‹ ±IOU” «∞∑Q£Od«‹ ´Kv «∞∫OU… «∞Ou±OW )LDAI( ≠w ¢u≤f 801 °u´e¥e, √±U‰ ±d«°j. ©U¸‚ °KFZ, ßMOW °s §LFW, ≤Uœ¥W ´MUÊ, ≤UzKW ´DOW ¸±CUÊ, Ød¥r °s ¥ußn, ±MBn )SDG-A( Åb‚ Ë£∂U‹ Ë¢IMOs «∞MºªW «∞Fd°OW ∞±IOU” «ôØ∑µU» ´Mb «∞LºMOs 793 ±MBn °u´e¥e, √±U‰ ±d«°j. ßMOW °s §LFW, ©U¸‚ °KKFZ, ≤UzKW ´DOW ¸±CUÊ, √¸ËÈ ®d¥n, ≤u¸¥W Ëœ¥FW “Ød«ËÍ, °DU¸¥W ÆOU” Ë™Uzn «∞Hh «∞π∂Nw )BAF( : Åb‚, £∂U‹ Ë¢IMOs ≤ºªW ´d°OW 786 ±d«°j. ≥U∞W ±d«°j «∞ªOU¸Í, ≤UzKW ´DOW ¸±CUÊ, ©U¸‚ °KKFZ, Ød¥r °MOf, ≤Uœ¥W ´MUÊ, √±U‰ ≤uŸ √∞e≥OLd «∞MºªW «∞Fd°OW ±s «î∑∂U¸ «∞JKLU‹ «∞ªLf : «∞Bb‚ «∞ºd¥dÍ ∞∑AªOh «∞ªd· ±s ±MBn °u´e¥e, √±U‰ ±d«°j. ßMOW °s §LFW, ©U¸‚ °KKFZ, ≤UzKW ´DOW ¸±CUÊ, ≤u¸¥W Ëœ¥FW “Ød«ËÍ, √¸ËÈ ®d¥n , )goC SADA-A( 777 «∞MºªW «∞Fd°OW «∞LJOHW ∞Kπe¡ «∞c≥Mw ±s ßKr ÆOU” ±d÷ √∞e≥OLd 768 ±MBn °u´e¥e, √±U‰ ±d«°j. ©U¸‚ °KKFZ, ßMOW °s §LFW, ≤UzKW ´DOW ¸±CUÊ, ±NOU¸ ™On «∞Kt, ≤Uœ¥W °s ´Kw, Åb‚ Ë£∂U‹ Ë¢IMOs «∞MºªW «∞Fd°OW ∞KH∫h «∞Lu§e ∞K∫U∞W «∞c≥MOW )ESMM-A( 764 ±d«°j. «°∑ºU °s •Luœ…, ≤UzKW ´DOW ¸±CUÊ, Ød¥r °s ¥ußn, ®d«“ ±NMw, √±U‰ £∂U‹ «∞LIOU” «∞ºd¥dÍ ∞Kªd· )RDC( °Os •JLOs 754 ±d«°j. ≤UzKW ´DOW ¸±CUÊ, «°∑ºU °s •Luœ…, ßFOb… Ë≤Og, Ød¥r °s ¥ußn, ®d«“ ±NMw, √±U‰ Åb‚ Ë£∂U‹ «∞LIOU” «∞ºd¥dÍ ∞∑FOOs «∞ªd· )RDC( ≠w ¢u≤f œ¸«ßU‹ «ÅKOW ±∫Lb «∞Mu¸Í ¸±CUÊ, ©U¸‚ °KKFZ, ≤UzKW ´DOW ¸±CUÊ. ¢u≤f? ØOn ¥∑r ¢JOOn «ôî∑∂U¸«‹ «∞MHºOW «∞FB∂OW Ë«∞∑QØb ±s £∂U¢NU ËÅbÆNU ≠w 746 «∞πb¥b ßOÒb •πÒU , √±U‰ ±d«°j ±K∫o «ù≠∑∑U•OW 744 √±U‰ ±d«°j, ≤UzKW ´DOW ¸±CUÊ. «ù≠∑U•OW «∞L∫∑‡‡uÈ ßHd 68 ´‡‡bœ 70 - §u¥KOW («{U≠w) 8002 741 EDITORIAL Amel Mrabet* et Neila Attia Romdhane* * Service de Neurologie, Etablissement Public de Santé Charles Nicolle, boulevard du 9 Avril, 1006 Tunis Plusieurs études, dont la cohorte PAQUID en 1991 et l’étude de Stenberg en 2000, ont montré que les médecins traitants ne portent le diagnostic de démence que pour 50% des patients atteints (1,2). En effet, le diagnostic d’une démence requiert un protocole lourd et onéreux et un haut niveau d’expertise qui ne peuvent être obtenus que dans des centres spécialisés. C’est pourquoi, de nombreux pays ont instauré des consultations de Mémoire pour explorer et prendre en charge les troubles cognitifs et les changements émotionnels chez les personnes âgées (3). Q U ’ E S T- C E Q U ’ U N E MÉMOIRE ? C O N S U LTAT I O N DE Bien conduite, une consultation de Mémoire doit permettre le diagnostic et la prise en charge médicale et paramédicale du déclin cognitif chez les personnes âgées qui s’y présentent. Elle se compose d’une équipe multidisciplinaire. Les médecins sont en général des neurologues, psychiatres ou gériatres qui se sont spécialisés dans le neurocognitif. Les patients, présentant des troubles cognitifs, leur sont adressés par des médecins généralistes, gériatres ou autres spécialistes. Après l’anamnèse et l’examen clinique du patient, le médecin, en charge de la consultation de Mémoire, doit interroger le conjoint ou l’aidant principal du patient pour évaluer l’impact des troubles cognitifs sur la vie quotidienne en se basant sur des échelles validées à cet effet (Clinical Dementia Rating (CDR), Instrumental Activities of Daily Living (IADL) …). Des tests brefs, tels que l’Epreuve des 5 mots, la Frontal Assessment Battery (FAB), le Test de l’Horloge et éventuellement le MiniMental State Examination (MMSE), permettent au médecin d’évaluer rapidement quelques fonctions cognitives pour apprécier l’ampleur du déficit. Le recours à une évaluation neuropsychologique plus approfondie est toujours nécessaire pour objectiver la présence ou l’absence d’un déficit cognitif. Le médecin complétera son examen, quand nécessaire, par la demande d’une Neuroimagerie (TDM, IRM, SPECT…), un EEG ainsi qu’un bilan biologique comportant notamment une NFS, VS, ionogramme sanguin, TSH, FT4, Vit B12, Folates, VDRL, TPHA… Il peut aussi demander un dosage de marqueurs biologiques tels que l’Homocysteïne dans le sang, les protéines Aβ1 - 42 et Tau dans le LCR, un génotypage de l’APOE et pour les formes familiales de maladie d’Alzheimer, un génotypage de l’Amyloid Precursor Protein ou APP, presenilin 1 ou PS - 1 et presenilin 2 ou PS - 2 (7,8,9). Pour l’exploration neuropsychologique, il est recommandé que le conjoint ou l’aidant principal du patient participe à l’évaluation (10, 11). Après avoir déterminé la latéralité (personne droitière ou gauchère), le sexe, l’âge et le niveau d’étude, le neuropsychologue doit vérifier que le patient ne présente aucune déficience majeure (vision, audition, motricité des mains) l’empêchant de passer les tests. Le neuropsychologue commence par un interrogatoire destiné à préciser l’histoire de la maladie (chronologie des signes, fluctuations, évolution par pallier…), à évaluer l’humeur et le comportement du sujet et à estimer son degré de coopération. Il procèdera ensuite à une exploration approfondie de l’intelligence, des fonctions mnésiques, exécutives, attentionnelles, visuo-spatiales et instrumentales (langage, praxies et gnosies). Un staff, composé de médecins et de neuropsychologues, permet de retenir le diagnostic le plus probable au vu des résultats clinique, neuropsychologique, neuroradiologique et biologique. La confrontation des résultats des différentes explorations permet en général de préciser s’il s’agit d’oublis bénins, d’altérations cognitives liées à l’âge, d’une dépression, d’un Mild Cognitive Impairment (MCI), d’une démence, d’une confusion mentale ou d’une autre pathologie (12,13). En cas de démence, on doit préciser si celle-ci est primitive (démence type Alzheimer, démences fronto-temporales, démence à corps de Lewy, démence du Parkinson idiopathique, Chorée de Huntington), d’origine vasculaire ou bien secondaire à une autre étiologie (14,15,16,17,18,19). L’efficacité des traitements dépend de la précocité et de la précision du diagnostic. Dans le cas où une étiologie secondaire ou cause associée (hypothyroïdie, thyroïdite, anémie, syphilis, hydrocéphalie à pression normale, dépression) est diagnostiquée, un traitement adéquat peut ralentir l’évolution voire corriger les altérations cognitives observées. En cas de démence vasculaire ou mixte, une action sur les facteurs de risque vasculaires doit être entreprise pour prévenir les récidives d’accidents vasculaires cérébraux (contrôle des arythmies ou d’une hypertension artérielle par exemple). Les patients, présentant une maladie d’Alzheimer, une démence vasculaire ou une démence à corps de Lewy, peuvent être améliorés par les anti-cholinestérasiques. Les troubles majeurs du comportement sont en général contrôlés par les neuroleptiques sauf chez les patients présentant une démence à corps de Lewy où le recours à certains de ces produits peut être fatal. En dehors de la prise en charge médicamenteuse, la consultation de Mémoire permet d’informer le patient et sa famille sur les conséquences de la maladie et de leur apporter le soutien psychologique nécessaire pour y faire face. Une équipe paramédicale compétente, composée de kinésithérapeutes, de neuropsychologues et d’ergothérapeutes, est nécessaire pour rééduquer la motricité, remédier aux fonctions cognitives déficientes et prodiguer des conseils pour que l’environnement 741 A. Mrabet - Editorial de vie (matériel et humain) soit adapté au patient. DOIT-ON DÉVELOPPER DES CONSULTATIONS DE MÉMOIRE EN TUNISIE ? L’évolution de la pyramide des âges de la population tunisienne montre que la Tunisie n’échappera pas au phénomène mondial de vieillissement de la population. Le pourcentage des personnes âgées de plus de 60 ans était de 9,3% en 2004. Les études démographiques montrent que ce pourcentage passera à 17,7% en 2029 (4). L’enquête de l’Institut National de Neurologie, menée à Kélibia en 1985, a rapporté un taux de prévalence de 0,135 % pour la population âgée de 40 ans et plus. Ce taux était 4 fois inférieur à celui des USA quand ajusté sur la population mondiale (5). Une enquête porte à porte, menée conjointement en 2001 par l’Institut National de Santé Publique et le service de Neurologie de l’EPS Charles Nicolle de Tunis, a permis d’estimer la prévalence de la démence à 3,7% chez les Tunisiens âgés de plus de 65 ans (Mrabet El Bahri D, Mémoire de Master Spécialisé en Gériatrie, 2004). En Europe, la prévalence de la démence, pour la population âgée de 65 ans et plus, se situe entre 5,9% et 9,4% (6). Ainsi, la Tunisie commence à se rapprocher des taux européens. Avec le vieillissement prédit pour la population tunisienne, il devient évident que la démence constituera un problème de Santé Publique majeur dans les prochaines années. Il est temps de développer des consultations de Mémoire pour être en mesure de prévenir et de prendre en charge le nombre inexorablement croissant des personnes à risque ou présentant un déclin cognitif. PEUT-ON DÉVELOPPER DES CONSULTATIONS DE MÉMOIRE EN TUNISIE ? La Tunisie dispose actuellement d’un nombre appréciable de médecins qualifiés (neurologues, psychiatres et gériatres) pour assurer ces consultations dans les secteurs publics et privés. La Neuroimagerie et la Biologie sont bien développées en Tunisie. Une exploration biologique et radiologique approfondie peut être obtenue pour les patients couverts par une assurance maladie. Quelques services hospitaliers et cabinets privés disposent déjà de psychologues qui se sont spécialisés dans le domaine. Cependant, l’exploration neuropsychologique ne peut se faire sans tests validés et normalisés pour la population tunisienne âgée. Depuis 1999, les enseignants de Neuropsychologie à la Faculté des Sciences Humaines et Sociales de Tunis ont adapté de RÉFÉRENCES 1) Dartigues JF, Gagnon M, Michel P, Letenneur L, Commenges D, BarbergerGateau P et al. Le programme de recherche PAQUID sur l’épidémiologie de la démence : méthodes et résultats initiaux. Rev Neurol (Paris) 1991 ; 147 : 225-230. 2) Stenberg SA, Wolfson C, Baumgartner M. Undetected dementia in community-dwelling older people: the Canadian study of health and aging. J Am Geriatr Soc 2000 ; 48 : 1204-1210. 3) Pasquier F, Lebert F, Petit H. Organisation des centres de la mémoire et perspectives. Rev Neurol (Paris) 1999 ; 155[suppl] : 83-92. 4) Hajjem S, Achour N. Espérance de vie sans incapacité de la population tunisienne âgée. Tunis: Institut National de la Santé Publique, 2001 : 17-25. 5) Attia Romdhane N, Ben Hamida M, Mrabet Bahri A, Larnaout A, Samoud S, 742 nombreux tests et échelles à la population tunisienne. Notre Unité de Recherche « Neuropsychologie clinique et langage » s’est attelée à valider et à établir les normes pour les tests les plus fréquemment utilisés. Les premiers résultats sont publiés dans ce numéro de la Tunisie Médicale et ce afin de permettre aux différentes équipes tunisiennes de recourir à des outils fiables et d’utiliser les mêmes normes. Le Service de Neurologie de l’EPS Charles Nicolle ainsi que les premiers auteurs des articles publiés, peuvent être contactés pour obtenir un exemplaire de chaque version arabe ou tunisienne des tests adaptés. La création d’un ‘Centre Ressource’ pour les consultations de Mémoire est plus que souhaitable. Ce centre permettra de valider et d’établir des normes nationales que ce soit pour les tests et explorations utilisés en Clinique, Neuropsychologie, Neuroimagerie ou Biologie. Ce centre sera utile pour informer et former les professionnels ainsi que pour coordonner les recherches épidémiologiques, cliniques et thérapeutiques dans le domaine du déclin cognitif. CONCLUSION Les consultations de Mémoire ne peuvent répondre à tous les problèmes posés par la pathologie démentielle. Nous pensons qu’il est temps de développer un programme national pour permettre un diagnostic et une prise en charge précoces du déclin cognitif en impliquant notamment les médecins de première ligne ainsi que les médecins contrôleurs de la CNAM. Le programme national doit encadrer la prise en charge des personnes souffrant d’une Démence. Il doit favoriser l’accompagnement des malades à domicile en assurant les services d’auxiliaires de vie et encourager la création de centres d’accueil de jour. Il faut aussi organiser la prise en charge des malades en situation de crise dans des unités de soins de court et moyen séjours adaptées à la prise en charge des états démentiels. Cependant, il est difficile de penser que l’on pourra éviter les centres de séjour au long cours destinés à accueillir les personnes âgées ne bénéficiant d’aucun soutien familial. Enfin, l’implication des services sociaux, quand nécessaire, permettra de veiller à la « protection juridique des droits du patient et au maintien des repères qui fondent l’identité » (7). FINANCEMENT L’Unité de Recherche « Neuropsychologie clinique et langage » est financée par le Ministère de l’Enseignement Supérieur, de la Recherche Scientifique et de la Technologie. Oueslati S et al. Prevalence study of neurological disorders in Kelibia (Tunisia). Neuroepidemiology 1993 ; 12 : 285-299. 6) Berr C, Wancata J, Ritchie K. Prevalence of dementia in the elderly in Europe. Eur Neuropsychopharmacol 2005 ; 15 : 463-71. 7) Agence Nationale d'Accréditation et d'Evaluation en Santé (ANAES). Recommandations pratiques pour le diagnostic de la maladie d’Alzheimer. Presse Med 2001 ; 30 : 537-9. 8) Blennow Kaj. Cerebrospinal Fluid Protein Biomarkers for Alzheimer’s disease. NeuroRx 2004 ; 1 : 213-225. 9) St George-Hyslop PH. Molecular genetics of Alzheimer’s disease. Biol Psychiatry 2000 ; 47 : 183-199. 10) Mackinnon A, Mulligan R. Combining cognitive testing and informant report to increase accuracy in screening for dementia. Am J Psychiatry 1998 ; 155 : 1529-1535. LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) 11) Monnot M, Brosey M, Ross E. Screening for Dementia: Family Caregiver Questionnaires Reliably Predict Dementia. J Am Board Fam Pract 2005 ; 18 : 240-56. 12) Auriacombe S, Orgogozo JM. Syndrome démentiel. EMC-Neurologie 2004 ; 1 : 55–64. 13) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006 ; 367 : 1262-70. 14) American Psychiatric Association. Diagnostic and Statistical Manual of mental disorders. 4th ed. Washington DC : American Psychiatric Association, 1994. 15) Mc Khann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Clinical diagnosis of Alzheimer’s disease: report of the NINCDS-ADRDA work group. Neurology 1984 ; 34 : 939-944. 16) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer's disease : revising the NINCDS-ADRDA criteria. Lancet Neurol 2007 ; 6 : 734-46. 17) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration : a consensus on clinical diagnostic criteria. Neurology 1998 ; 51 : 1546-1554. 18) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies : third report of the DLB Consortium. Neurology 2005 ; 65 : 1863-72. 19) Hugonot-Diener LA. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In; Collection: consulter/prescrire : La consultation en Gériatrie. Paris : Masson, 2001. 743 EDITORIAL ANNEXE EPIDÉMIOLOGIE DES DÉMENCES EN TUNISIE Said Hajem*, Amel Mrabet** * Unité de Recherche sur le Vieillissement, Institut National de Santé Publique, Tunis ** Service de Neurologie, EPS Charles Nicolle, Tunis La Tunisie connaît actuellement un accroissement soutenu et considérable de la population âgée comme en témoigne l'importante augmentation de la proportion des personnes âgées de 60 ans et plus qui est passée de 4.1% en 1956 à 9.6% en 2004. Cette évolution de la structure par âge de la population tunisienne s’accompagnera inéluctablement de l’augmentation de l’incidence des pathologies dégénératives « dépendantes de l’âge » parmi lesquelles figure notamment la maladie d’Alzheimer (MA), forme la plus fréquente des démences. Elle constituerait, par conséquent, dans un avenir proche un enjeu énorme et croissant du point de vue de santé publique. La MA relève, en effet, d’un traitement spécifique dont les conséquences économiques et sociales sont considérables. En effet, toutes les études ont montré que le coût social et humain de cette maladie est élevé. La MA et les autres démences dégénératives ne sont pas la maladie d’une personne mais elles touchent également son entourage direct, cause supplémentaire de souffrances. D’où l’impérieuse nécessité de déterminer l’ampleur véritable des troubles cognitifs au sein de la population tunisienne âgée de 65 ans et plus. P R É VA L E N C E D E S D É M E N C E S A U S E I N D E L A P O P U L AT I O N T U N I S I E N N E  G É E Les données disponibles sur la prévalence des démences en Tunisie proviennent de l’étude épidémiologique entreprise, au cours de l’année 2001, conjointement par l’Unité de Recherche sur le Vieillissement et les Causes médicales de Décès de l’Institut National de Santé Publique et le Service de Neurologie de l’EPS Charles Nicolle. Elle a été entreprise auprès d’un sous-échantillon de 482 personnes (218 hommes et 264 femmes) enquêté dans le cadre de l’étude nationale sur la santé et les soins médicaux qui est un échantillon représentatif de la population tunisienne âgée de 65 ans et plus vivant à domicile. Sachant que l’évolution insidieuse de la plupart des démences rend leur repérage et leur diagnostic précoce difficiles et ne disposant pas d’éléments de diagnostic de certitude, les auteurs ont mis au point un outil fiable et efficace destiné à détecter le plus aisément possible les troubles cognitifs compatibles avec une démence. Cet outil a été développé et validé au niveau du service de Neurologie de l’EPS Charles Nicolle. Il s’agit d’un test d’évaluation des fonctions cognitives basé sur le Mini Mental 744 State Evaluation (MMSE) et adapté à la population tunisienne. Les critères de démence du DSM-IV ont été repris dans cette grille. Compte-tenu du fait que les signes d’alarme d’une démence débutante sont habituellement des troubles cognitifs repérés par le malade lui-même et/ou son entourage, la grille utilisée a été axée sur l’évaluation de tels troubles. Celle-ci comporte, en effet, un questionnement qui a pour objectif de déceler des troubles mnésiques, une désorientation temporo-spatiale, des troubles de l’attention, du calcul mental et du raisonnement (compréhension d’un proverbe tunisien, tableau 1). L’évaluation du fonctionnement cognitif des 482 personnes âgées de 65 ans et plus composant l’échantillon de l’étude, a montré que 18 d’entre elles répondent aux critères diagnostiques de démence que nous venons de fixer et ont été, par conséquent, déclarées démentes. Ce chiffre correspond à une prévalence de l’ordre de 3.7%. Cette prévalence diffère significativement selon le sexe : 4.6% chez les femmes contre seulement 2.8% chez les hommes. Cette étude a montré également que deux cas de démence sur 3 sont observés chez les femmes. Cette surreprésentation des femmes pourrait s’expliquer d’une part, par des différences biologiques, hormonales (rôle des œstrogènes) ou génétiques, mais aussi, d’autre part, par leur plus longue espérance de vie. L’âge est aussi un facteur fortement discriminant. En effet, la prévalence de la démence augmente de façon linéaire avec ce paramètre passant de seulement 0.3% chez les personnes appartenant à la classe d’âge 65-74 ans à 16.3% chez les personnes âgées de 85 ans et plus. Par ailleurs, le résultat du bilan étiologique avec d’une part, l’absence de lien entre démence et facteurs de risque vasculaire (hypertension artérielle et diabète) et d’autre part, le rôle confirmé des antécédents familiaux et personnels de maladies neurodégénératives, montre que, pour une grande majorité de nos malades, il s’agit d’un syndrome démentiel dégénératif. La cause la plus fréquente en est la maladie d’Alzheimer. La liaison fortement significative entre démence et antécédents psychiatriques (p<0.001), de dépression notamment, plaide en faveur de ce diagnostic étiologique. Il est, en effet, admis aujourd’hui qu’une proportion importante de malades présentant une maladie d’Alzheimer ont aussi un syndrome dépressif associé. LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 1 : Grille d’évaluation des fonctions cognitives 1) Mémoire * Oublis dans la vie quotidienne : Rapportés par le sujet lui-même = 1 Rapportés par l’entourage du sujet = 2 Non = 3 Si 2, préciser : conjoint, enfant ou autre à préciser : ………………………… * Age de début des oublis : 2) Orientation temporo-spatiale Le sujet peut-il identifier : Le jour de la semaine : oui = 1, non = 2 La saison actuelle : oui = 1, non = 2 Le lieu où il se trouve : oui = 1, non = 2 Le gouvernorat : oui = 1, non = 2 3) Attention 3-1- Pour sujet analphabète Citer les jours de la semaine à l’envers : |__| |__|__| |__| |__| |__| |__| |__| ¡U£ö∏∞« - ¡UF°¸ù« - fOLª∞« - WFLπ∞« - X∂º∞« - b•_« - sOM£ù« • possible (moins de 3 fautes sur 6) = 1 • impossible (3 fautes et plus sur 6) = 2 3-2- Pour sujet instruit Calcul mental : (100-7) : 5 fois jusqu’à 65 (93 –86 - 79 - 72 – 65) : • possible (moins de 3 fautes sur 5) = 1 • impossible (3 fautes et plus sur 5) = 2 4) Raisonnement logique Interprétation du proverbe : s¥bO∞« W°U©¸ s± W¥Òu® Ë WM∫∞« s± W¥Òu® |__| |__| 745 MISE AU POINT COMMENT SONT ADAPTÉS ET VALIDÉS LES TESTS NEUROPSYCHOLOGIQUES EN TUNISIE ? Mohamed Nouri Romdhane*, Tarek Bellaj**, Neila Attia Romdhane*** * Département de Psychologie, Institut Supérieur des Sciences Humaines de Tunis ** Département de Psychologie, Faculté des Sciences Humaines et Sociales de Tunis *** Service de Neurologie, Etablissement Public de Santé Charles Nicolle, Tunis M. N. Romdhane, T. Bellaj, N. Attia Romdhane. M. N. Romdhane, T. Bellaj, N. Attia Romdhane. COMMENT SONT ADAPTÉS ET VALIDÉS LES TESTS NEUROPSYCHOLOGIQUES EN TUNISIE ? HOW ARE NEUROPSYCHOLOGICAL TESTS ADAPTED AND VALIDATED IN TUNISIA? LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 746 - 753 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 746 - 753 RÉSUMÉ Pré-requis : Les tests neuropsychologiques sont des outils de mesure objectifs et standardisés des processus mentaux et émotionnels. Les tests élaborés en Occident ne peuvent pas être utilisés sans adaptation préalable sur une population arabophone. Ils doivent ensuite être soumis à des vérifications pour s’assurer de leur fidélité et de leur validité. Buts : Décrire les méthodes préconisées pour adapter et valider les tests neuropsychologiques en Tunisie. Méthodes : Synthétiser les résultats des recherches documentaires, notamment sur ‘PubMed’, sur les méthodes et techniques actuellement utilisées pour adapter et valider les tests neuropsychologiques. Résultats : L’adaptation n’est pas une simple traduction de contenu. C’est un travail de longue haleine qui se déroule en plusieurs étapes et qui doit respecter une méthodologie rigoureuse. Pour adapter les tests à une population donnée, il faut recourir à des banques de données lexicales et à des banques d’images conformes aux normes culturelles du pays. En Tunisie, ces banques de données existent depuis 1998. La présentation des principales techniques et tests statistiques utilisés pour étudier la fidélité et la validité des tests neuropsychologiques, a été simplifiée dans un souci didactique. L’interprétation du score d’un test doit tenir compte de l’effet des variables sociodémographiques. Cet effet peut être neutralisé par une correction appropriée établie à l’aide d’une analyse de régressions linéaires multiples. Conclusion : Les techniques, préconisées pour adapter et étudier la fidélité et la validité d’un test, sont nombreuses et quelques fois ardues. Elles requièrent une coopération interdisciplinaire notamment entre médecins, psychologues, linguistes, statisticiens… SUMMARY Background: Neuropsychological tests are objective and standardized instruments meant to assess mental and emotional processes. Tests developed in the Western world cannot be applied used to Arabic speaking population without prior adaptation. Then, they must be submitted to a series of checkups in order to verify its reliability and its validity. Aims: To describe methods which are relevant to adapt and to valid neuropsychological tests in Tunisia. Methods: To review documentary searches, for the most part on ‘PubMed’, about methods and techniques which are currently applied to adapt and to valid neuropsychological tests. Results: Test adaptation is not a simple translation of its content. It is a long term task which proceeds in several stages according to a rigorous methodology. To adapt a test to a given population, it is necessary to possess lexical and pictorial databases in conformity with the cultural standards of the country. In Tunisia, these databases came to existence, in 1998. The presentation of major techniques and statistical tests, used to study neuropsychological tests reliability and validity, has been made easy for a didactic purpose. Test scores interpretation must refer to the effect of socio-demographic data. This effect can be neutralized by an appropriate correction established with multiple linear regressions analysis. Conclusion: There are many techniques used to adapt and to study test reliability and validity and some of them are hard. Interdisciplinary cooperation between physicians, psychologists, linguist and statisticians is needed. M K O T S - C L É S Neuropsychologie- Adaptation des tests – Validité – Fidélité Receiver Operating Characteristic (ROC) – Score-seuil – Régressions linéaires multiples. E Y - W O R D S Neuropsychology - Test adaptation - Validity - Reliability - Receiver Operating Characteristic (ROC) – Cut-off score - Multiple linear regressions.(ROC) – Cut-off score –Tunisia. ?f≤u¢ w≠ UNÆbÅË UN¢U∂£ s± bØQ∑∞«Ë WO∂BF∞« WOºHM∞« ‹«¸U∂∑îô« nOOJ¢ r∑¥ nOØ .ÊUC±¸ WOD´ WKzU≤ ,ZFKK° ‚¸U© ,ÊUC±¸ ͸uM∞« bL∫± : Êu∏•U∂∞« »dG∞« w≠ WOM∂L∞« ‹«¸U∂∑îô« qLF∑º≤ Ê√ sJL¥ ô f≤u¢ w≠ .WO∞UFH≤ô«Ë WOM≥c∞« ‹«¸UºL∞« ”UOI∞ WMMI±Ë WO´u{u± qzUßË WO∂BF∞« WOºHM∞« ‹«¸U∂∑îô« q∏L¢ : W±UF∞« WOHKª∞« .UNÆbÅË UN¢U∂£ s± X∂∏∑K∞ ‰U∫¢ Ê√ Vπ¥ ULØ .WO°dF∞U° o©U≤ lL∑πL∞ UNHOOJ¢ ÊËœ .UNÆbÅ s± bØQ∑∞«Ë f≤u¢ w≠ WO∂BF∞« WOºHM∞« ‹«¸U∂∑îô« nOOJ∑∞ …¸dIL∞« Z≥UML∞« nÅË : ·«b≥_« s± bØQ∑∞«Ë WO∂BF∞« WOºHM∞« ‹«¸U∂∑îô« nOOJ¢ w≠ WKLF∑ºL∞« ‹UOMI∑∞«Ë Z≥UML∞« ‰u• - (PUBMED) ”œU± »u° ”vK´ UNM± WÅUî WI£uL∞« Àu∫∂∞« ZzU∑≤ nO∞u¢ : WOπNML∞« .UNÆbÅ 746 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) vK´ œUL∑´ô« VKD∑¥ U± lL∑πL∞ ‹«¸U∂∑îô« nOOJ∑∞. W±¸UÅË WIOÆœ WOπNM± Âd∑∫¢ …b¥b´ q•«d± d∂´ r∑¥ ÈbL∞« q¥u© qL´ u≥ q° Íu∑∫LK∞ WL§d¢ œdπ± fO∞ nOOJ∑∞«: ZzU∑M∞« ‹«Ëœ_«Ë ‹UOMI∑∞« r≥√ r¥bI¢ jOº∂¢ r¢ ,WOJ∑Øb¥œ W¥UG∞ .1998 cM± WOº≤u∑∞« ‹U±uKFL∞« „uM° ‹eπ≤√ bÆË. bK∂K∞ WÅUª∞« WO≠UI∏∞« dO¥UFL∞« Vº• ¸uB∞«Ë ‹ULKJK∞ ‹U±uKF± pM° dO£Q∑∞« «c≥ ‰UD°≈ sJL¥ YO•. ¸U∂∑´ô« sOF° WO≠«dGL¥b∞«Ë WO´UL∑§ô« q±«uF∞« dO£Q¢ bîQ° ¸U∂∑îô« ZzU∑≤ q¥ËQ¢ r∑¥. WO∂BF∞« WOºHM∞« ‹«¸U∂∑îô« ‚bÅË ‹U∂£ Wß«¸b∞ WOzUB•ù« .…œbF∑L∞« WODª∞« ‹«¸«b∫≤ô« qOK∫¢ WDß«u° tO∞≈ qÅu∑∞« r¢ VßUM± ÕöÅS° rK´ w≠ ÊuB∑ªL∞«Ë ¡U∂©_« sO° WÅUî ‹UÅUB∑îô« sO° ÊËUF∑∞« V§u∑º¢ wN≠. U≤UO•√ …bIF±Ë …b¥b´ UNÆbÅË UN¢U∂£ Wß«¸œË ‹«¸U∂∑îô« nOOJ∑∞ …¸U∑ªL∞« ‹UOMI∑∞« Ê≈: WL¢Uª∞« .¡UB•ù« w≠ ÊuB∑ªL∞«Ë WOMº∞_« w≠ ÊuB∑ªL∞«Ë fHM∞« - q∂I∑L∞« qL´ ‹UOÅUî qOK∫¢ s¥U∂∑∞« œbF∑± ¡UB•≈ - sOMI∑∞« ‚bB∞« - ‹U∂∏∞« - wßUOI∞« fHM∞« rK´ - WOºHM∞« ‹«¸U∂∑îô« nOOJ¢ - w∂BF∞« fHM∞« rK´ : WOßUß_« ‹ULKJ∞« .œbF∑L∞« wDª∞« ¸«b∫≤ô« Dans la littérature internationale, on relève plusieurs définitions du terme ‘test’. Parmi celles-ci, nous retenons la définition suivante du test : « … est une mesure objective et standardisée d’un échantillon de comportements (sample of behavior) »(1). Une telle définition indique les caractéristiques les plus importantes d’un test neuropsychologique. • Un test est, en premier lieu, un instrument de mesure qui permet de quantifier une caractéristique ou objet mesuré. Comme tout outil de mesure, on obtient par cette opération une quantité chiffrée qu’on appelle généralement ‘score’. L’interprétation d’un score obtenu par un sujet à un test psychométrique se fait par référence à des normes élaborées par des méthodes statistiques. En neuropsychologie, les tests permettent d’évaluer les aptitudes et les compétences conservées ou déficitaires des sujets. Ceci présuppose la connaissance du niveau normal ou pré-morbide du fonctionnement mental du sujet. Ainsi, la comparaison du niveau observé au niveau présupposé permet d’établir un diagnostic. Cette comparaison peut être normative (par référence aux normes préétablies sur une population appropriée) et/ou idiosyncrasique (dérivant de l’histoire du patient et de ses caractéristiques au présent). • L’objectivité de la mesure est une qualité exigée d’un test. La mesure doit être indépendante du testeur ou de l’observateur. C’est pourquoi, la conduite à tenir, lors de la passation d’un test, est strictement définie dans les manuels qui les accompagnent. La maîtrise des techniques de la passation nécessite un savoir et un savoir-faire professionnel qui est l’objet de la formation des psychologues praticiens. • La standardisation est une autre qualité essentielle à un test psychologique. Elle fixe des règles très strictes pour les conditions d’administration du test et la démarche à suivre (ordre des items, temps imparti à chaque tâche, le support du test, les explications à donner, la notation des réponses…). • Un test neuropsychologique est toujours une mesure d’un « échantillon de comportements ». Concrètement, un test est composé d’un certain nombre d’éléments, appelés items, qui peuvent prendre plusieurs formes : questions nécessitant des réponses verbales, activités à réaliser telles que le dessin d’une figure géométrique … Un test doit se composer d’un échantillon représentatif du très large ensemble des items possibles permettant de mesurer une fonction ou un processus mental. La représentativité est une condition essentielle de la validité d’un test. Les tests neuropsychologiques ont pour but de mesurer des processus mentaux et émotionnels inobservables directement. Chaque test est conçu pour mesurer un concept théorique abstrait (intelligence, mémoire, attention, contrôle émotionnel …). Ce concept est supposé exister chez l’individu et expliquer son comportement au quotidien et ses performances dans des tâches déterminées. On appelle ce type de concept des ‘constructs’ ou ‘construits’. Un score obtenu à un test tire sa signification du modèle théorique sous-jacent au construit (nature, structure et fonctionnement de la mémoire, de l’intelligence, de l’attention…). Ainsi, les tests neuropsychologiques ne sont utilisables et interprétables que dans le cadre théorique qui définit le construit évalué (2). L’évaluation neuropsychologique se réfère généralement à des tests conçus et élaborés en Europe ou aux Etats Unis. En Tunisie, le neuropsychologue ne peut les utiliser tels quels. L’adaptation des tests neuropsychologiques à la population tunisienne est indispensable car les processus cognitifs ne sont pas seulement sensibles aux affections cérébrales mais aussi aux caractéristiques du sujet telles que l’âge, le niveau d’étude, le niveau intellectuel pré-morbide, la langue et la culture … (3). Adaptation des tests neuropsychologiques en Tunisie On considère qu’il n’existe pas d’épreuves culture free comme il n’existe pas d’Homme culture free (4). La cognition, comme n’importe quel aspect du fonctionnement cognitif, n’est pas acontextuelle. Un sujet âgé qui n’a jamais dessiné peut être désavantagé du fait qu’il n’est pas familiarisé avec ce type de tâche. Autrement dit, même un matériel non verbal n’est pas nécessairement culture free. Quand il s’agit d’un test verbal, le problème est encore plus complexe. En effet, l’adaptation des tests neuropsychologiques ne peut être une simple traduction des items en Arabe. Les différences entre les langues ne sont pas seulement lexicales et syntaxiques. Ce sont aussi des différences perceptuelles et conceptuelles dans le sens où la langue que nous utilisons reflète notre conception de l’univers. Ainsi, un test développé en Irlande ne peut être utilisé sans adaptation en Nouvelle Zélande ou au Kenya même si ces trois pays sont anglophones. Il en est de même pour les pays francophones (France, Canada, Antilles, Cameroun…) ou arabophones (Tunisie, Egypte, Yémen…). Une des difficultés de l’adaptation des tests neuropsychologiques en Tunisie provient du pourcentage d’analphabètes qui demeure encore élevé malgré les efforts déployés. Le taux d’analphabétisme dans la population générale est de 22,9%. Il est de 76,8% pour la population âgée de plus de 60 ans (5). Cependant, le contexte socioculturel en Tunisie rend l’adaptation des tests possible sans préalable d’adaptation de type culturaliste (6). Notre système social, scolaire et économique se rapproche sur de nombreux plans de celui de 747 M. N. Romdhane - Adaptation et validation des tests en Tunisie certains pays d’Europe. Cependant, certaines spécificités caractérisant la culture tunisienne, comme la diglossie, le bilinguisme, la bidirectionnalité de la lecture et de l’écriture, doivent être considérées dans tout travail d’adaptation des tests neuropsychologiques. Par ailleurs, nous devons tenir compte des différences entre régions, générations et modèles socioculturels (rural ou urbain par exemple). Ainsi, sur un plan technique, l’adaptation d’outils peut durer plusieurs mois, voire quelques années. Elle se rapproche, dans sa démarche, de la construction d’un test. Schématiquement, la construction d’un test implique le recours à une approche analytique, empirique ou rationnelle, le développement et la sélection des items et de leur format, l’étude des qualités métrologiques et l’étalonnage (7). Pour la traduction, la première étape est celle de la traduction Forward A (vers la langue arabe). Elle est réalisée par deux traducteurs bilingues indépendants. La seconde étape réunit les deux traducteurs et le chef du projet pour mettre au point une version consensuelle, la version Forward B. La troisième étape est la traduction Backward qui consiste en une rétro-traduction de la version arabe vers la langue originale. Elle est réalisée par un 3ème traducteur bilingue. Nous avons eu le plus souvent recours à des universitaires tunisiens, enseignants d’anglais ou de français et exerçant à la Faculté des Sciences Humaines et Sociales de Tunis. Les trois traducteurs et le chef du projet comparent ensuite la version Backward à la version originale. Après discussion, les changements nécessaires sont apportés à la version Forward B. On obtient ainsi la version Forward C. Un test de compréhension est également réalisé auprès de médecins, de neuropsychologues et particulièrement de patients. La clarté, la compréhension et l’acceptabilité des items du test sont également évaluées. Les éventuelles modifications sont ensuite intégrées en prenant aussi l'avis de linguistes, sociologues et éducateurs. C’est ainsi qu’est obtenue la version Forward D. Un examen de la pertinence de chaque item est par la suite réalisé par les auteurs et des cliniciens ayant une expérience professionnelle avec la catégorie de patients visés par le test (neuropsychologues, neurologues, psychiatres, gériatres…). L’objectif est de détecter les items non adaptés ou nécessitant des modifications. Pour chaque item jugé non adapté, sont ajoutés en vue d’expérimentation 2 ou 3 autres items éventuellement remplaçants (crées ou empruntés à d’autres épreuves psychologiques). Depuis 1998, 2 banques de données ont été développées pour la construction et l’adaptation des tests en Tunisie. Elles ont permis l’adaptation de certains items au contexte socioculturel tunisien par le recours à des équivalents sémantiques pour les mots (remplacer tulipe par rose ou jasmin, musée par mosquée…) ou à des équivalents d’images (remplacer un cochon par un mouton…), tous issus des banques de données suivantes. Pour le choix des items verbaux en Arabe Tunisien, T. Bellaj en collaboration avec S. Ayadi Touré et M. Bouaziz, ont établi en 1998 une banque tunisienne de données lexicales à l’instar de ce qui a été fait pour l’Anglais et le Français (8, 9). Ils ont classé les exemplaires de chaque catégorie sémantique selon leur 748 fréquence d’apparition et leur degré de prototypie. Les auteurs ont retenu 28 catégories sémantiques : animaux, arbres, armes, boissons, couleurs, édifices/bâtiments, épices et herbes, fleurs, fruits, insectes, instruments de musique, jeux et jouets, légumes, maladies, métaux, meubles, noms féminins, noms masculins, oiseaux, outils, parties du corps, pays, poissons, professions, sports, ustensiles, véhicules, vêtements. Ce travail a été fait avec la participation de 148 étudiants de différentes régions de la Tunisie, ayant pour langue maternelle l’Arabe. Le dépouillement des données et les analyses statistiques ont permis de mettre au point, pour chaque catégorie sémantique, des listes de mots triés par ordre de fréquence. Pour constituer une banque tunisienne des items imagés, Khélif sous la direction de M. Bouaziz et T. Bellaj, a établi des normes pour les 260 items imagés de Snodgrass & Vanderwart (1980) auxquels ont été ajoutés 30 images culturellement spécifiques de la Tunisie comme Kobkab, Makfoul, Ghorbel… (10). Trois dimensions ont été prises en considération : l’accord sur le nom, la familiarité et la complexité visuelle de l’objet figurant dans l’image. Le matériel composé a été administré à 100 sujets Tunisiens. Des tableaux normatifs permettent ainsi de sélectionner, pour les versions à adapter, les items équivalents aux versions d’origine. Lors de l’adaptation des tests, toutes les règles d’application, de cotation et de notation du test original sont respectées. Quant aux consignes, elles sont toujours traduites en arabe dialectal. Une pré-expérimentation nous permet de vérifier la pertinence de leur formulation. L’expérimentation est le plus souvent réalisée sur des groupes de patients consultant au Service de Neurologie de l’EPS Charles Nicolle de Tunis. Ces patients ne doivent présenter aucune atteinte du système nerveux central. Les troubles neurologiques périphériques sont tolérés. Chaque groupe doit représenter les deux sexes (15 par sexe) et doit être composé de personnes d’âge et de niveau d’étude différents. La version finale du test est le résultat de l’analyse des observations issues de l’expérimentation mais aussi du bon sens. Sont retenus les items jugés les mieux adaptés à la population tunisienne. Les tests, ainsi adaptés, permettent de garantir les qualités psychométriques nécessaires à une utilisation scientifique. Qualités psychométriques d’un test neuropsychologique Dans la pratique professionnelle des psychologues et dans certaines spécialités médicales, on s’appuie de plus en plus sur les résultats des tests dans la prise de décision. Il est impératif de s’assurer que le test utilisé présente toutes les garanties quant à la qualité de sa mesure. Une commission internationale (The International Test Commission) a défini les normes psychométriques exigées pour l’agrément des tests. Deux qualités sont considérées comme fondamentales : la validité et la fidélité. Validité La validité d’un test est l’ensemble des preuves qui démontrent que les résultats fournis par le test ont bien la signification que le concepteur leur attribue. La validation d’un test porte à la fois sur la signification du score et sur les conséquences des LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) décisions prises à partir de ce résultat. La démarche de validation permet de répondre à une question fondamentale : « Les items mesurent-ils réellement le construit pour lequel le test a été élaboré? ». Par exemple, un score obtenu à un test d’attention mesure-t-il vraiment le processus attentionnel, uniquement ce processus et rien que ce processus ? Y-a-t-il d’autres processus mentaux qui interviennent dans la performance observée et qui peuvent biaiser le score ? Deux types de techniques sont classiquement utilisés : la validation interne et la validation externe. Validation interne La validation interne consiste à prouver que le contenu des items est pertinent (validité du contenu) et que le test mesure strictement le construit dans toutes ses facettes et rien de plus (validation du construit). La validation du contenu permet de s’assurer que le test se compose d’un échantillon d’items représentatifs de l’univers de la fonction cognitive ou du répertoire comportemental. Ainsi, la représentativité du test ne peut se décider que par rapport à la définition donnée au construit mesuré. Plus cette définition est claire et explicite, plus il sera aisé de juger de la validité du contenu d’un test. Plusieurs techniques statistiques sont utilisées. Le contenu peut être soumis aux jugements de 2 ou plusieurs experts qui jugeront du degré de liaison de chaque item au construit. Dans ce cas, l’indice de validité du contenu correspond à la corrélation inter-juges (coefficient de Spearman rho) ou au degré de concordance des jugements estimé par le coefficient kappa (11). Le coefficient alpha de Cronbach, indice de consistance interne, est couramment utilisé. Il indique le degré de cohérence des items qui sont tous censés mesurer le même construit. Ainsi, on peut purifier le contenu en éliminant les items qui affaiblissent le coefficient alpha car moins bien corrélés aux autres. Le coefficient alpha de Cronbach n’est acceptable qu’à partir de 0,7 et est d’autant plus excellent qu’il se rapproche de 1. Le tableau 1 résume l’interprétation des valeurs alpha (12). Tableau 1 : Interprétation des valeurs du coefficient alpha Valeurs alpha < 0,5 [0,5 à 0,7[ [0,70 à 0,80[ [0,80 à 0,90[ ≥ 0,90 Interprétation Faible Moyen ou médiocre Acceptable Bon Excellent Quand on adapte un test, on doit vérifier que la version adaptée évalue le même construit que le test original. Pour réaliser la validation du construit, le recours à plusieurs techniques, plus ou moins sophistiquées, est nécessaire. Généralement, ces techniques s’appuient sur des outils de Statistique Multivariée telles que l’Analyse factorielle en Composantes Principales (ACP) ou l’analyse de Multi-Trait Multi-method Matrix (MTMM). Par exemple, l’ACP permet de vérifier la structure uni ou pluridimensionnelle du test et sa conformité avec la définition théorique du construit mesuré. Ainsi, un test cognitif censé mesurer différents processus mentaux (mémoire, attention, praxie, langage…) doit être validé par l’ACP afin de s’assurer qu’il est composé d’items regroupés en facteurs correspondant aux processus visés par le test. Validation externe La validation externe est possible quand on dispose d’un critère externe. Ce critère peut être psychométrique ou clinique. Si le critère est psychométrique, on pourra établir la validité concourante du test. Il faut, pour ce faire, vérifier la concordance du test à valider avec un test de référence, censé mesurer le même construit et dont la validité a déjà été prouvée. Si les valeurs des deux scores sont normalement distribuées, on établira la corrélation de Pearson (‘r’), sinon on étudiera la corrélation des rangs de Spearman (rho). Une forte corrélation (|’r’| ou |rho| >0,70) entre les scores des 2 tests est une preuve de validité concourante. En effet, un coefficient de corrélation est considéré ‘faible’ si sa valeur absolue est ≤0.30, ‘léger’ si comprise entre 0.31 et 0.50, ‘modéré’ si comprise entre 0.51 et 0.70, ‘bon’ si comprise entre 0.71 et 0.90, enfin ‘excellent’ si >0.90 (13). On peut présenter les résultats sous forme d’un graphique en ‘nuage de points’ (scatter) et y tracer la droite de régression. La concordance entre les deux tests est vérifiée quand le coefficient r2 de cette droite est ≥0,50. Si le critère externe est clinique, on étudiera la liaison entre les résultats au test et le diagnostic de référence ou gold standard (Tableau 2). La population d’étude est ainsi répartie en 4 sousgroupes : Vrais Positifs (VP), Vrais Négatifs (VN), Faux Positifs (FP) et Faux Négatifs (FN). La validité clinique fait référence à la sensibilité [Se=VP/(VP+FN)] et à la spécificité [Sp=VN/(VN+FP)] du test ou de son score-seuil (14). Ces indices sont considérés médiocres si <0,8, bons si compris entre 0,8 et 0,9 et excellents si >0,9. On peut leur attribuer un intervalle de confiance à 95% égal à [1,96*√(pq/n)] où p=Se (ou Sp), q=1-Se (ou 1-Sp) et n=VP+FN (ou VN+FP). Tableau 2 : Validation clinique d’un test dichotomique Test Positifs Négatifs Diagnostic de référence Malades Non Malades Vrais Positifs (VP) Faux Positifs (FP) Faux Négatifs (FN) Vrais Négatifs (VN) Quand les critères sont dichotomiques, la validité clinique du test (‘Positif’/‘Négatif’) est établie en référence au gold standard (‘Malades’/’Non malades’). Pour juger de la valeur diagnostique du test, on établit le χ2 de Pearson qui permet de comparer la Se et la Sp. Le test de McNemar examine si les taux de FP et de FN sont différents. Enfin, le degré de concordance du test avec le gold standard est estimé par le coefficient kappa considéré faible si ≤ 0,20 ; léger si ]0,20 à 0,40] ; modéré si ]0,40 à 0,60] ; bon (substantiel) si ]0,60 à 0,80] et excellent (presque parfait) si > 0,80 (11). Lorsqu’un test fournit un résultat de type continu (comme un score), il faut déterminer le seuil qui permet de distinguer au mieux les valeurs pathologiques des valeurs normales. Un seuil est idéal quand il permet de séparer les positifs des négatifs, sans faux positifs, ni faux négatifs. Il présente alors une Se et une Sp égales à 1. Les courbes ROC (Receiver Operating 749 M. N. Romdhane - Adaptation et validation des tests en Tunisie Characteristic) permettent d’étudier les variations de la Se et de la Sp d’un test selon différentes valeurs de son score (15, 16). Une courbe ROC est un tracé des valeurs de la Se en fonction de 1-Sp (Figure 1). L’aire sous la courbe ROC est un estimateur global de la performance du test. Si le test n’est pas informatif, l’aire est de 1/2, s’il est parfaitement discriminatif, l’aire est de 1. Le résultat de l’analyse est fiable si le degré de signification est inférieur à 0,05. Dans l’exemple illustré par la figure 1, l’aire sous la courbe est égale à 0,968 avec un degré de signification p = 0,000. On peut conclure que le test est très discriminatif et que le résultat de l’analyse très fiable. Les courbes ROC permettent aussi de comparer deux ou plusieurs mesures. L’aire la plus élevée correspond à la mesure la plus performante (15). Une courbe ROC permet d’évaluer la performance d’un test mais aussi de déterminer son ou ses scores-seuil (cut-off). Il correspond à la valeur du score pour laquelle ‘Se+Sp’ est maximale, autrement dit, à celle qui présente le meilleur index de Youden (=Se+Sp-100). Le score qui présente l’index le plus élevé offre la meilleure valeur diagnostique (16). Cependant, le coût, pas forcément financier, peut guider le choix du seuil (15). Pour dépister la démence, on choisira le score-seuil qui présente la meilleure sensibilité pour une spécificité acceptable. Figure 1 : Exemple d’une courbe ROC Fidélité (Reliability) Un test qui n’est pas fidèle ne peut en aucun cas être valide. La fidélité est une qualité psychométrique qui renvoie à la précision de la mesure et à la notion d’erreur de mesure. Les 3 sources d’erreurs sont généralement liées au sujet lui-même (fatigue, ennui, état émotionnel…), au contenu du test (tâche inhabituelle, vocabulaire non familier, connotation des mots…) et à l’environnement (relation avec l’examinateur, conditions d’examen…). Théoriquement, on considère que toute mesure comporte une part d’erreur en fonction d’un certain nombre de biais (degré de précision de l’outil, compétence de l’examinateur…). A partir de ce postulat de base, on considère que tout score X obtenu par un sujet à un test peut être décomposé ainsi : X = V + E. Cette formule indique que la mesure (score X obtenu) comporte une part de vérité (V) et une part d’erreur (E). L’idéal psychométrique est qu’un test psychologique mesure strictement V sans aucune erreur possible (X = V + 0 d’où X/V = 1). 750 En réalité, la part du Vrai est inaccessible à l’observation directe. Pour l’estimer, plusieurs techniques sont utilisées pour quantifier la part de l’erreur selon différentes sources. Technique des formes parallèles Il s’agit de concevoir un test avec deux versions strictement équivalentes du point de vue du nombre d’items, du degré de difficulté, de la répartition des items, de la nature des réponses attendues… L’administration simultanée ou différée des deux formes A et B du test, à un échantillon d’individus, permet d’obtenir deux séries de scores. Le coefficient de fidélité sera celui de la corrélation entre les scores obtenus dans la forme A et dans la forme B. Technique de bissection (Split-half) Il s’agit d’administrer tous les items d’un test à un échantillon d’individus. Puis, le test sera scindé en deux parties égales (items pairs versus impairs). Chaque sujet aura deux scores : X1 pour la 1ère partie et X2 pour la 2ème partie. Le calcul du coefficient de corrélation entre ces deux scores permet d’estimer le coefficient d’homogénéité du test. Technique de consistance interne Cette technique est une extension de la précédente. Elle cherche à vérifier le degré de cohérence entre les réponses aux items d’un test. Elle a pour objectif de s’assurer que l’échantillonnage des items n’est pas biaisé et que le domaine du contenu est homogène. Plus les items sont cohérents, plus la fidélité est élevée. Deux types de coefficients sont utilisés : le coefficient alpha de Cronbach (Tableau 1) et le KR20 de Kuder-Richardson. Techniques du Test-Retest et des inter-juges (Interrater) Ces deux techniques se réfèrent à l’idée que la caractéristique mesurée par un test doit être relativement stable. Elle doit être indépendante du temps (Test-Retest). Par exemple, l’intelligence d’une personne adulte ne fluctue pas d’un jour à l’autre. Elle doit aussi être indépendante de l’examinateur (ou juge). Dans le test-retest, c’est le sujet qui est évalué deux fois dans un intervalle de temps suffisant pour exclure un effet d’apprentissage. Pour l’Interrater, ce sont les mêmes sujets (à partir de l’enregistrement de leurs réponses écrites ou filmées) qui sont évalués par deux ou plusieurs examinateurs. Plus les cotations des différents juges sont proches et concordantes plus le test est considéré fidèle. La technique Intrarater vérifie la consistance de la cotation d’une même personne à différentes occasions. Elle consiste à comparer les scores attribués par le même correcteur aux mêmes observations (rédigées ou filmées), cotées à deux moments différents (17). Pour examiner la fidélité au Test-Retest, à l’Interrater ou à l’Intrarater, plusieurs tests statistiques sont proposés (17, 18, 19, 20). Le choix des tests dépend du type de la variable (qualitative, quantitative : discrète ou continue). Le coefficient kappa est utilisé quand la variable est dichotomique ou plus généralement qualitative (11, 18). La concordance des 2 mesures est considérée faible si kappa ≤ 0.20, légère si compris entre 0.21 et 0.40, modérée si compris entre 0.41 et 0.60, bonne si comprise entre 0.61 et 0.80, enfin excellente si >0.80 (11). En 1986, Bland et Altman ont montré que le recours au coefficient de corrélation de Pearson est inapproprié pour évaluer la concordance inter-juges (19). Pour évaluer la concordance LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) entre deux mesures quantitatives continues, les chercheurs ont actuellement tendance à utiliser la Corrélation Intra-Classe (CIC) et la méthode de Bland et Altman (13, 19, 20, 21). Certains leur associent un test ‘t’ sur séries appariées pour infirmer ou confirmer la différence entre paires de cotation (22). En 1979, Shrout et Fleiss ont précisé les conditions d’utilisation de la CIC pour mesurer la fidélité inter-juges (20). Un intervalle de confiance à 95% est assigné au coefficient CIC. Une bonne fidélité est attribuée au test si la borne inférieure de cet intervalle est ≥0,75 (17). En 1986, Bland et Altman ont contesté le recours à la CIC et ont proposé une méthode graphique où chaque sujet est représenté par la moyenne de ses 2 cotations en abscisse, et par la différence entre ses 2 cotations en ordonnée (19, 21). Trois droites, parallèles à l’axe des abscisses, y représentent la moyenne des différences entre cotations ainsi que l’intervalle de confiance à 95% (±1,96*écart-type des différences). Cette méthode requière que la différence entre cotations soit normalement distribuée dans la population d’étude. Elle est donc dépendante de la taille de l’échantillon (23). Quand la variable quantitative est discrète ou ordinale, Kraemer propose de recourir aux tests non paramétriques, indépendants de la taille de l’échantillon (18). La concordance est évaluée à l’aide du coefficient rho de Spearman, considéré faible si ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90 et enfin excellent si >0.90 (13). Notons que certains auteurs préfèrent recourir au coefficient de corrélation intra-classe. Le test de Wilcoxon pour séries appariées complète l’analyse en évaluant la différence entre paires de cotation. Effet des variables sociodémographiques Plusieurs méthodes sont utilisées pour établir les normes des tests neuropsychologiques (24). Il est classique, pour établir des normes, de constituer des sous groupes homogènes de personnes, réparties selon les variables sociodémographiques auxquelles est lié le score obtenu à un test. Il est aussi souhaitable que chaque sous groupe compte au minimum 30 sujets. Ainsi, pour établir des normes selon le sexe, 4 classes d’âge et 4 classes de niveau d’étude, il faut près de 1000 sujets ‘normaux’. La méthode en écarts réduits de Barona et al (1984), ou Regression based normative data pour les anglo-saxons, s’impose depuis quelques années (25, 26, 27, 28, 29). Elle se base sur un modèle où la variable dépendante est le score obtenu à un test et où les variables indépendantes (ou prédicteurs) sont les variables sociodémographiques (sexe, âge et niveau d’étude). La méthode de Barona présente deux avantages majeurs. Elle permet d’établir une correction relativement précise et ce, selon les variables sociodémographiques qui influencent significativement le score brut. Elle est applicable même quand l’effectif de certains sous groupes, déterminé par la combinaison des différentes variables, est relativement faible (26). Le modèle est analysé à l’aide de Régressions Linéaires Multiples (RLM), notamment de type pas à pas ou stepwise. L’analyse par RLM produit au moins 2 tables que l’on doit examiner attentivement pour juger de la validité des résultats et ce avant d’établir une table de correction pour le score. La table qui analyse le modèle (Tableau 3) doit montrer que la variance expliquée par le modèle n’est pas liée au hasard. Le coefficient ‘F’, de l’analyse de variance (Anova), doit être significatif. Le coefficient de détermination ‘R2’ permet d’estimer le pourcentage de variation expliquée par le modèle. Plus le coefficient R2 est élevé, plus le modèle est considéré comme satisfaisant. Un R2 < 0,2 est jugé insuffisant pour considérer que les variables sociodémographiques étudiées influencent le score obtenu au test (28). Dans la table des coefficients (Tableau 4), on doit vérifier si l’ensemble des prédicteurs contribuent au modèle. L’équation, obtenue par RLM, fournit une constante ‘C’ et pour chaque prédicteur, un coefficient non standardisé ‘B’ avec son erreur standard ‘SE’ ainsi qu’un coefficient standardisé ‘β’. Les coefficients B et β peuvent être négatifs, positifs ou nuls. L’importance relative d’un prédicteur est jugée sur la valeur de son β. Un prédicteur est jugé négligeable quand son β est proche de 0. Quand le ‘t’ ( = B/SE) n’est pas significatif, le prédicteur est jugé non influent. Ne sont retenus que les prédicteurs non négligeables et qui influencent significativement le modèle. Un score prédit est ainsi établi pour chaque sujet : Score prédit = C + B1*Sexe + B2*Age + B3*Niveau d’étude La différence entre le score brut et le score prédit constitue le résidu (residual). La moyenne des résidus doit être égale à 0. Les résidus permettent de valider le modèle par vérification graphique de la normalité de leur distribution comme l’illustre la figure 2 (28). Les valeurs moyennes (moy) pour le sexe (coté par exemple 0 = Homme et 1 = Femme), l’âge et le niveau d’étude (NE) sont établies pour la population d’étude en début de RLM. Après avoir validé le modèle et sélectionné les prédicteurs influents et non négligeables, on peut calculer la correction à apporter au score pour chaque profil de sujet. Tout en respectant les signes des différents ‘B’, la correction est établie comme suit (27) : {[B1*(Sexe – Sexe moy) + B2*(Age – Age moy) + B3*(NE – NE moy)]} Quant le score est lié à plus d’une caractéristique démographique (âge et niveau d’étude par exemple), il n’est pas aisé de dresser la table de correction. Il faut calculer le nombre d’années nécessaires (d’âge ou de niveau d’étude) pour modifier le score d’un point (29). Ce nombre est égal à 1/B (B correspondant dans l’équation de régression). Il traduit l’étendue de la classe d’âge ou de niveau d’étude. On dresse ensuite la table de correction. Score ajusté = Score brut + Correction (la correction étant positive ou négative) Tableau 3 : Table du modèle analysé par RLM Modèle Constante Age Niveau d’étude F (Anova) ‘p’ R R2 R2 ajusté 88,666 0,000 0,672 0,452 0,447 751 M. N. Romdhane - Adaptation et validation des tests en Tunisie Tableau 4 : Table des coefficients produits par RLM Prédicteurs Constante Niveau d’étude Age Sexe Coefficients Non standardisés B SE 86,875 2,320 0,520 0,051 -0,172 0,033 La validation de l’équation de régression est une étape incontournable pour établir des prévisions (28). Pour ce faire, on peut procéder à une seconde RLM sur un échantillon non utilisé pour établir l’équation initiale et dont l’effectif est au moins égal au tiers de la population initiale. La variable dépendante devient le score précédemment ajusté. Cette RLM doit montrer que le score tel que ajusté n’est plus influencé par les prédicteurs. Figure 2 : Normalité de la distribution des résidus Standardisés β 0 0,540 -0,273 0,007 ‘t’ ‘p’ 37,451 10,223 -5,176 0,139 0,000 0,000 0,000 0,890 CONCLUSION Notre article peut sembler ‘ardu’ à des lecteurs peu habitués à la Statistique. Ce n’est pas par hasard que les premiers grands psychologues aient été des statisticiens (Galton, Spearman, Thurstone, Burt…) ! Les économistes ont pris le relais et, avec le développement de l’Informatique, les méthodes de Statistique Multivariée sont devenues plus accessibles. Cependant, la méthodologie n’est pas synonyme de Statistique. La méthodologie, utilisée par la recherche médicale moderne, doit beaucoup à la Psychologie et plus précisément à la Psychométrie. Enfin, nous n’insisterons jamais assez sur l’importance de la collaboration entre médecins, psychologues, linguistes, statisticiens, … La coopération interdisciplinaire est devenue indispensable car nul ne peut prétendre, au XXIème siècle, détenir tout le savoir. Et comme dit le proverbe « une seule main ne permet pas d’applaudir » ! REMERCIEMENTS Nous remercions tous ceux qui ont contribué à la constitution des banques tunisiennes de données lexicales et d’images et en particulier les Professeurs Moncef Bouaziz et Zakia Bouaziz ainsi que mesdames Sonia Ayadi Touré et Sonia Khélif. RÉFÉRENCES 1) Anastasi A. Psychological testing. 6th edition. New York: Macmillan, 1988. 2) American Educational Research Association, American Psychological Association, National Council on Measurement in Education. Standards for Educational and Psychological Testing. Washington: American Psychological Association, 1985. 3) Adams RL, Boake C, Crain C. Bias in a neuropsychological test classification related to education, age, and ethnicity. Journal of Consulting and Clinical Psychology 1982;50:143-145. 4) Curran HV. Cross-cultural perspectives on cognition. In Claxton G (Eds.), Cognitive psychology (pp. 300-335). London: International Library of Psychology, Routledge & Kegan, 1980. 5) Institut National de la Statistique : Données officielles relatives au recensement de 2004 effectué en Tunisie. http://www.ins.nat.tn/fr/rgpheduc4.php (Date de consultation: 07/07/2008) 6) Fontaine C. Réflexions méthodologiques sur la pratique des tests en Afrique du nord. Revue de Psychologie Appliquée 1959;9:171-175. 7) Golden CJ, Sawicki RF, Franzen MD. Test construction. In Goldstein J & Hersen M (Eds.), Handbook of psychological assessment. New York: Pergamond Press Inc, 1990. 8) Battig WF, Montague WE. Category norms for verbal items in 56 categories: A replication and extension of the Connecticut category norms. Journal of Experimental Psychology Monographs 1969;80:1-46 9) Dubois D. Analyse de 22 catégories sémantiques du français: organisation catégorielle, lexique et récupération. L’Année Psychologique 1983;83:465489. 10) Snodgrass, J.G., & Vanderwart, M.. A standardized set of 260 pictures: Norms for name agreement, image agreement, familiarity, and visual complexity. Journal of Experimental Psychology: Human Learning and Memory 1980;6:174-215. 752 11) Viera AJ, Garrett JM. Understanding interobserver agreement: the kappa statistic. Fam Med 2005;37:360-3. 12) Nunnaly JC, Bernstein IR. Psychometric Theory. 3rd edition. New York: McGraw-Hill Series in Psychology, 1994. 13) Colle F, Rannou F, Revel M, Fermanian J, Poiraudeau S. Impact of quality scales on levels of evidence inferred from a systematic review of exercise therapy and low back pain. Arch Phys Med Rehabil 2002;83:1745-52. 14) Altman DG, Bland JM. Diagnostic tests. 1: Sensitivity and specificity. BMJ 1994;308:1552. 15) Altman DG, Bland JM. Diagnostic tests 3: receiver operating characteristic plots. BMJ 1994;309:188. 16) Le CT. A solution for the most basic optimization problem associated with an ROC curve. Stat Methods Med Res 2006;15:571-84. 17) Rousson V, Gasser T, Seifert B. Assessing intrarater, interrater and test-retest reliability of continuous measurements. Stat Med 2002;21:3431-46. 18) Kraemer HC. Correlation coefficients in medical research: from product moment correlation to the odds ratio. Stat Methods Med Res 2006;15:525-45. 19) Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986;1:307-10. 20) Shrout PE, Fleiss JL. Intraclass Correlations: Uses in Assessing Rater Reliability. Psychological Bulletin 1979;2:420-428. 21) Bland JM, Altman DG. A note on the use of the intraclass correlation coefficient in the evaluation of agreement between two methods of measurement. Comput Biol Med 1990;20:337-40. 22) Graham RC, Smith NM, White CM. The reliability and validity of the physiological cost index in healthy subjects while walking on 2 different tracks. Arch Phys Med Rehabil 2005;86:2041-6. 23) Yi Q, Wang PP, He Y. Reliability analysis for continuous measurements: LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) equivalence test for agreement. Stat Med 2008;27:2816-25. 24) Chatfield M, Matthews FE, Brayne C (the Medical Research Council Cognitive Function and Ageing Study). Using the mini-mental state examination for tracking cognition in the older population based on longitudinal data. J Am Geriatr Soc 2007;55:1066-71. 25) Barona A, Reynolds CR, Chastain R. A demographically based index of premorbid intelligence for the WAIS-R. J Cons Clin Psychol 1984;52:885-887. 26) Delaloye C, Ludwig C, Borella E, Chicherio C, De Ribaupierre A. L’Empan de lecture comme épreuve mesurant la capacité de mémoire de travail : normes basées sur une population francophone de 775 adultes jeunes et âgés. Revue Européenne de Psychologie Appliquée/European Review of Applied Psychology 2008;58:89-103. 27) Monsch AU, Foldi NS, Ermini-Funfschilling DE, Berres M, Taylor KI, Seifritz E et al. Improving the diagnostic accuracy of the Mini-Mental State Examination. Acta Neurol Scand 1995;92:145-50. 28) Deguen S. Méthodes multivariées (1) : La régression linéaire multiple. Sang Thrombose Vaisseaux 1998;10:586-90. 29) Blesa R, Pujol M, Aguilar M, Santacruz P, Bertran-Serra I, Hernandez G, Sol JM, Pena-Casanova J. Clinical validity of the ‘mini-mental state’ for Spanish speaking communities. Neuropsychologia 2001;39:1150-1157. 753 ARTICLE ORIGINAL VALIDATION DE L’ÉCHELLE CLINICAL DEMENTIA RATING EN TUNISIE Neila Attia Romdhane*, Ibtissem Ben Hamouda*, Saida Ouenniche**, Karim Ben Youssef**, Chiraz Mhenni***, Amel Mrabet* * Service de Neurologie, EPS Charles Nicolle, Tunis ** Hôpital Régional de Zaghouan *** Institut National de Protection de l’Enfance, La Manouba N. Attia Romdhane, I. Ben Hamouda, S. Ouenniche, K. Ben Youssef, C. Mhenni, A. Mrabet. N. Attia Romdhane, I. Ben Hamouda, S. Ouenniche, K. Ben Youssef, C. Mhenni, A. Mrabet. VALIDATION DE L’ÉCHELLE CLINICAL DEMENTIA RATING EN TUNISIE CLINICAL DEMENTIA RATING SCALE VALIDATION IN TUNISIA LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 754 - 762 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 754 - 762 RÉSUMÉ Pré-requis : L’échelle Clinical Dementia Rating (CDR) est une échelle clinique et fonctionnelle. Elle permet d’évaluer la sévérité d’un déclin cognitif tout en appréciant son impact sur la vie quotidienne. Buts : Etablir les qualités psychométriques de l’échelle CDR et préciser ses scores-seuil pour le diagnostic de démence au sein de la population tunisienne âgée. Méthodes : Nous avons étudié 130 sujets répartis en trois groupes (‘Normal’=57, ‘MCI’=26 et ‘Démence’=47) selon les consensus internationaux. 48 sujets ont bénéficié d’une double cotation par l’échelle CDR. Résultats : La consistance interne de l’échelle est globalement excellente (alpha =0,971), notamment pour le groupe ‘Démence’ (alpha=0,938). La fidélité ‘inter-juges’ est plus satisfaisante pour le score CDR-SB (Sum of Boxes, coté sur 18) que pour le score CDRGlobal (cotation catégorielle sur 3). Le sexe, l’âge et le niveau d’étude n’ont aucun effet sur les scores CDR. Bien que les deux scores soient fortement corrélés (rho=0,969), l’analyse Receiver Operating Characteristic (ROC) montre que le score CDR-SB (aire=0,97) diagnostique mieux la démence que le score CDR-Global (aire=0,91). Les scores-seuil sont CDR-SB=3 (sensibilité=95%, spécificité=89%, kappa=0,822) et CDR-Global=1 (sensibilité=66%, spécificité=96%, kappa=0,663). Conclusion : L’échelle CDR est globalement fiable. Le score CDRSB est plus valide que le score CDR-Global pour le diagnostic de la démence à un stade précoce. Nous recommandons cette échelle aux médecins de première ligne pour le dépistage de la démence. Nous la conseillons aux spécialistes pour quantifier et objectiver l’impact des troubles cognitifs sur la vie quotidienne des patients. SUMMARY Background: Clinical Dementia Rating (CDR) is a clinical and functional scale. It allows the evaluation of a cognitive decline severity while appreciating its impact on daily living. Aims: To establish CDR scale psychometric qualities and to choose its cut-offs for dementia diagnosis in Tunisian Elderly. Methods: We have studied 130 subjects dispatched in three groups (‘Normal’=57, ‘MCI’=26 and ‘Dementia’=47) according to international consensus. 48 subjects have been assessed twice by the CDR scale. Results: CDR scale internal consistency is globally excellent (alpha=0.971), mainly for dementia group (alpha=0.938). Interrater agreement is more satisfactory for the CDR-SB score (Sum of Boxes, scored on 18) than for the Global CDR score (categorical quotation from 0 to 3). Sex, age and education have no effect on CDR scores. Although both scores are highly correlated (rho=0.969), Receiver Operating Characteristic (ROC) analysis shows that, the CDR-SB score (area=0.97) diagnoses Dementia better than the Global CDR score (area=0.91). Cut-off scores are CDR-SB=3 (sensibility=95%, specificity=89%, kappa=0.822) and Global CDR=1 (sensitivity=66%, specificity=96%, kappa=0.663). Conclusion: CDR scale is globally reliable. The CDR-SB score is more valid than the CDR Global score for dementia diagnosis at an early stage. We recommend this scale to primary care physicians for dementia screening. We suggest it, to specialized physicians, as a tool to quantify and to ascertain cognitive disorders impact on daily living. M K O T S - C L É S Démence – Echelle Clinical Dementia Rating – Validité – Fidélité – Régressions Linéaires Multiples – Receiver Operating Characteristic (ROC) – Score-seuil – Tunisie. E Y - W O R D S Dementia – Clinical Dementia Rating scale – Validity – Reliability –Multiple Linear Regressions –Receiver Operating Characteristic (ROC) – Cut-off score –Tunisia. f≤u¢ w≠ ·dª∞« sOOF∑∞ Íd¥dº∞« ”UOIL∞« ‹U∂£ Ë ‚bÅ .j°«d± ‰U±√ ,wMN± “«d® ,nßu¥ s° r¥dØ ,gO≤Ë …bOFß ,…œuL• s° ÂUº∑°« ,ÊUC±¸ WOD´ WKzU≤ : Êu∏•U∂∞« .WO±uO∞« …UO∫∞« vK´ ÁdO£Q¢ Èb± XÆu∞« fH≤ w≠ «œb∫± ,wM≥c∞« nFC∞« …b• W§¸œ rOOI¢ s± sJL¥ UOHO™Ë U¥d¥dß UßUOI± (CDR) ·dªK∞ Íd¥dº∞« ”UOIL∞« q∏L¥ : W±UF∞« WOHKª∞« ,f≤u¢ w≠ sOMºL∞« bM´ ·dª∞« hOªA∑∞ W¥b∫∞« ‹U§¸b∞« j∂{Ë ·dªK∞ Íd¥dº∞« ”UOIL∞ W¥d∑±uJOº∞« hzUBª∞« Wß«¸œ : ·«b≥_« UBª® 48 l∑L¢ .)·dª∞U° sO°UB± 47 Ë nOH© wM≥– nFC° sO°UB± 26 ,sO¥œU´ 57( WOL∞UF∞« dO¥UFL∞« Vº• ‹U´uLπ± W£ö£ vK´ sO´“u± ,UBª® 130 rOOI∑° UMLÆ : WOπNML∞« .”UOIL∞« fHM° n´UC± rOOI∑° UO{d± d∏Ø√ ÊUØ bI≠ sOLJ∫∞« sO° ‹U∂∏∞« U±√ .)0.938 = UH∞√( ·dª∞U° sO°UBL∞« W´uLπL∞ ’uBª∞U° ,)0.971 = UH∞√( “U∑L± W±U´ ”UOILK∞ wKî«b∞« ‹U∂∏∞« Ê√ sO∂¢ : ZzU∑M∞« 754 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) dO£Q¢ Í√ wLOKF∑∞« Èu∑ºL∞«Ë√ sºK∞ ,fMπK∞ fO∞ t≤√ sO∂¢ .)3 vK´ wHOMB¢ rOÆd¢( Global-CDR qÅU∫∞« s± ,18 vK´ rÆd¥ Íc∞« ,(Sum of Boxes( CDR-SB qÅU∫K∞ W∂ºM∞U° qC≠√ hOªA¢ s± sJL¥ )0.97 = ¡UC≠( CDR-SB Ê√ sO∂¥ ROC qOK∫¢ ÊS≠ ,)0.969 = ˸( …uI° sOD°«d∑± sOKÅU∫∞« Ê√ s± r¨d∞« vK´ . ·dªK∞ Íd¥dº∞« ”UOIL∞« w≠ ZzU∑M∞« vK´ WOßUº•( Global-CDR Èb∞ ”1“ Íb∫∞« qÅU∫∞«Ë )0.822 = U∂Ø ,89% = WOÅuBî ,95% = WOßUº•( CDR-SB Èb∞ ”3“ Íb∫∞« qÅU∫∞« sO´ .)0.91 = ¡UC≠( Global-CDR s± ·dªK∞ .)0.663 = U∂Ø ,96% = WOÅuBî ,66% = wÅu≤ p∞c∞ .Á¸uN™ W¥«b° WK•d± w≠ ·dª∞« hOªA¢ w≠ Global-CDR qÅU∫∞« s± U¢U∂£ d∏Ø√ CDR-SB qÅU∫∞« Ê√Ë qLπL∞« w≠ X°U£ ·dªK∞ Íd¥dº∞« ”UOIL∞« Ê√ sO∂¢ : WL¢Uª∞« .WO±uO∞« …UO∫∞« vK´ WOM≥c∞« ‹U°«dD{ô« dO£Q∑∞ w´u{u±Ë wLØ rOOI∑Ø t∞ULF∑ß« sOB∑ªL∞« ¡U∂©ú∞ sJL¥ ULØ .·dªK∞ dJ∂L∞« nAJK∞ t∞ULF∑ßU° ‰Ë_« nB∞« ¡U∂©√ .f≤u¢ - Íb• qÅU• (ROC) - q∂I∑L∞« qL´ ‹UOÅUî - œbF∑L∞« ¸«b∫≤ô« - ‚bÅ - ‹U∂£ (CDR) ·dªK∞ Íd¥dº∞« sOOF∑∞« rKß - ·dî : WOßUß_« ‹ULKJ∞« La démence résulte de lésions cérébrales qui provoquent de multiples déficits cognitifs retentissant sur les activités de la vie quotidienne du sujet qui en est atteint. Ces déficits se traduisent par une perte progressive de l’autonomie, fréquemment ressentie par l’entourage du patient bien avant son objectivation par les tests neuropsychologiques (1). L’impact sur la vie quotidienne est apprécié par le clinicien qui peut se fier à son seul jugement ou recourir à certaines échelles pour l’objectiver (2, 3, 4, 5). L’appréciation de cet impact est importante car toutes les classifications et derniers consensus, des états Mild Cognitive Impairment (MCI) et démentiels, incluent un critère qui fait référence à l’impact des troubles cognitifs sur la vie quotidienne (6, 7, 8, 9, 10, 11, 12). L’échelle Clinical Dementia Rating (CDR) a été proposée par Hughes et al en 1982 dans le cadre d’une étude prospective sur les démences de type Alzheimer ou DTA (5). Cette échelle est clinique et fonctionnelle. L’évaluation est réalisée par rapport aux performances antérieures du sujet, autrement dit avant la détérioration cognitive. L’échelle CDR a été validée par Morris pour 26 sujets après confirmation neuropathologique du diagnostic de DTA, même à un stade léger (13). La fidélité inter-juges a été établie pour les cliniciens mais aussi pour les non cliniciens après entrainement sur enregistrements vidéo (14, 15). Bien qu’initialement développée et validée pour la DTA, nous avons émis l’hypothèse que l’échelle CDR devrait permettre de diagnostiquer tout type de démence étant donné qu’elle évalue la sévérité du déficit cognitif, qui n’est pas seulement mnésique, et qu’elle mesure son impact sur la vie quotidienne du sujet. Pour vérifier notre hypothèse, nous nous proposons d’établir les qualités psychométriques de l’échelle CDR et de préciser ses scores-seuil pour le diagnostic de démence au sein de la population tunisienne âgée. M AT É R I E L E T M É T H O D E S Nous ne présenterons dans cette partie que l’essentiel et la spécificité du matériel et des méthodes utilisés pour cette étude. Pour les détails méthodologiques, le lecteur pourra se référer à l’article de Romdhane et al publié dans ce même numéro de la Tunisie Médicale . Population d’étude La consultation de Mémoire, du Service de Neurologie de l’Etablissement Public de Santé (EPS) Charles Nicolle, a permis l’inclusion de 83 patients âgés de 50 ans et plus, qui ont consulté entre 2005 et 2006. N’ont été inclus que les patients ayant bénéficié d’un examen médical, neurologique, biologique, radiologique (TDM, IRM et/ou SPECT) et neuropsychologique approfondi des fonctions cognitives et conatives. Une enquête sur le Grand Tunis, organisée de janvier à mai 2006 par le Service de Neurologie de l’EPS Charles Nicolle en collaboration avec le Département de Psychologie de la Faculté des Sciences Humaines et Sociales de Tunis (FSHST), a permis l’inclusion de 47 sujets issus de la population normale âgée de 50 ans et plus. Ces personnes ont bénéficié d’une exploration neuropsychologique approfondie et d’un contrôle médical. Les critères d’exclusion ont été les mêmes pour les deux sources de recrutement : troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques, pathologie neurologique ou psychiatrique chronique survenant avant l’âge de 50 ans et pouvant engendrer des troubles cognitifs, antécédents d’abus pour la consommation de médicaments, de drogue ou d’alcool et enfin vie dans une institution ‘fermée’. Les patients présentant une pathologie chronique (telle que Cardiopathie, Hypertension Artérielle, Diabète ou autre) n’ont été exclus que lorsque leur pathologie n’était pas contrôlée par des traitements appropriés. Les 130 sujets ainsi inclus ont été répartis en 3 groupes. Le groupe ‘Normal’ est constitué de 57 volontaires, totalement autonomes, issus de la consultation de Mémoire ou de l’enquête sur le Grand Tunis et qui ne présentent aucune plainte cognitive ou conative. Le groupe ‘MCI’ est composé de 26 sujets, issus de la consultation de Mémoire, qui répondent aux critères de Petersen avec une ‘autonomie relative’ (en dehors de certaines activités complexes) pour les actes de la vie quotidienne (1, 6). Enfin, le groupe ‘Démence’ réunit 47 patients, issus de la consultation de Mémoire, qui répondent aux critères des classifications et des derniers consensus sur les démences, avec ‘dépendance d’un tiers’ pour accomplir une ou plusieurs tâches de la vie quotidienne (7, 8, 9, 10, 11, 12). Notre population d’étude se compose de 64 hommes et 66 femmes. Ils sont âgés de 50 à 95 ans et leur niveau d’étude varie de 0 à 21 années. Les trois groupes ne diffèrent pas statistiquement pour leurs caractéristiques démographiques (Tableau 1). Présentation de l’échelle CDR L’échelle CDR évalue six axes ou items. Dans sa version la plus récente, les intitulés des items sont les suivants : ‘Mémoire’, ‘Orientation’, ‘Capacité de jugement et résolution des problèmes’, ‘Activités poursuivies hors de chez soi’, ‘Maison et passe-temps’ et ‘Prise en charge personnelle’ (cf. Annexe). Chaque item est décrit selon 5 stades croissants de sévérité (0, 0.5, 1, 2 et 3). Un score égal à 0 signifie l’absence de 755 N. Attia Romdhane - Validation de l’échelle CDR en Tunisie Tableau 1 : Caractéristiques démographiques de la population d’étude Variables sociodémographiques Sexe (nombre) Masculin Féminin Age (ans) Moyenne (Std) Médiane Min – Max Niveau d’étude (ans)Moyenne (Std) Médiane Min – Max Normal (N=57) 25 32 64,77 (8,99) 63 50 – 95 8,46 (6,71) 9,00 0 – 21 Groupe MCI (N=26) 14 12 66,31 (9,27) 66 50 – 87 8,46 (6,51) 6,00 0 – 21 Démence (N=47) 25 22 68,04 (8,10) 70 51 – 82 6,43 (7,40) 3,00 0 – 21 ‘p’* 0,556 0,064 0,124 * ‘p’ du χ2 (Sexe) ou du Kruskal-Wallis (Age et Niveau d’étude). détérioration. Un score égal à 0,5 correspond à une détérioration discutable. En revanche les scores 1, 2 ou 3 indiquent une détérioration plus marquée, considérée respectivement comme légère, modérée ou sévère. La version originale de l’échelle CDR n’était que clinique et ne se basait sur aucune exploration neuropsychologique (16). Actuellement, l’échelle est évaluée à l’aide d’un questionnaire de 9 pages dont 6 sont réservées à l’entretien avec un informant (proche parent ou aidant principal) pour explorer les 6 axes de l’échelle. Le questionnaire de 3 pages, réservé au patient, explore mais aussi teste les axes cognitifs (‘Mémoire’, ‘Orientation’, ‘Capacité de jugement et résolution des problèmes’). Le questionnaire et la grille, utilisés actuellement pour la cotation de l’échelle CDR, résultent de nombreuses recherches organisées ou coordonnées par l’Alzheimer's Disease Research Center (ADRC), Department of Neurology, Washington University School of Medicine, St Louis, Missouri, USA (17). Différents travaux réalisés sous l’égide du Mapi Research Institute, ont permis l’adaptation du questionnaire et de la grille dans plusieurs langues (http://alzheimer.wustl.edu/cdr/PDFs/Translations/). La version française pour la France a été publiée en mai 2006. Il n’y a pas encore de grille ni de questionnaire en langue Arabe (dialectal ou classique). La formation des cliniciens ou autres intervenants, à la cotation de l’échelle CDR à partir d’enregistrements vidéo, est possible sur le site : http://alzheimer.wustl.edu/cdrtraining/browsebtrp/applicationstep1.htm. Pour résumer les résultats de l’évaluation par l’échelle, on a initialement proposé un score, désigné CDR-Global, qui ne prend que 5 valeurs (0, 0.5, 1, 2 ou 3) et qui permet de classer les sujets selon un gradient croissant de détérioration cognitive (‘Aucune’, ‘Discutable’, ‘Légère’, ‘Modérée ou ‘Sévère’). Ce score est établi à l’aide d’un algorithme de cotation catégorielle où la ‘Mémoire’ (‘M’) constitue l’axe principal alors que les autres axes sont secondaires (5). L’algorithme suivant avait été proposé pour établir manuellement le score CDR-Global : « Si au moins 3 axes secondaires ont le même score que ‘M’, le score CDR-Global est celui de ‘M’. Si trois, ou plus, des axes secondaires ont un score inférieur ou supérieur à ‘M’, le score de CDR-Global est celui de la majorité des axes secondaires. Si trois des axes secondaires sont d'un côté de ‘M’, et deux de l'autre le score CDR-Global est celui de ‘M’ ». Cet algorithme a été très contesté car il produisait des scores CDR globaux 756 incongrus et incompatibles avec les objectifs de l’échelle mais aussi parce que des examinateurs entrainés n’obtenaient pas les mêmes valeurs pour le score CDR-Global (16, 18, 19). Pour la cotation du CDR-Global, Morris a proposé de nouvelles règles qui complètent l’algorithme initial sans se substituer à lui (16, 19). Pour faciliter et homogénéiser la cotation du CDR-Global, une application informatique, établie selon l’algorithme de Morris, a été mise à la disposition des cliniciens et des chercheurs sur le site de l’ADRC. Elle est accessible à l’adresse http://www.biostat.wustl.edu/~adrc/cdrpgm/index.html. Après saisie par simple clic des scores par item, le score CDR-Global est affiché en quelques secondes. Il n’est donc plus question d’établir manuellement le score CDR-Global. Ousset et al ont vérifié, de manière centralisée sur le site de l’ADRC, le score CDR-Global pour chacun des 358 patients qui composent leur population d’étude (20). En 1988, Berg et al (cités par Morris) ont proposé le score ‘CDR Sum of Boxes’ qui résulte de la somme des scores obtenus pour chaque axe (16). On le désigne actuellement par CDR-SB. Il varie de 0 à 18. Ce score est plus quantitatif que le CDR-Global qui, rappelons le, ne prend que 5 valeurs (0, 0.5, 1, 2 ou 3). Procédures et modalités d’exploration Tous les examens et explorations utilisés pour établir le gold standard ont été administrés après consentement du sujet ou de son aidant principal. Les conditions de passation et modalités de cotation des différents tests neuropsychologiques ont été respectées. Les médecins n’ont pas bénéficié d’un entrainement préalable sur enregistrement vidéo. La cotation a été établie à partir de l’observation clinique car il n’existe pas de questionnaire adapté aux populations arabo-musulmanes. Enfin, hormis quelques cas de patients qui se sont toujours présentés seuls (certains volontaires du groupe ‘Normal’ ou du groupe ‘MCI’), toutes les cotations de l’échelle CDR ont tenu compte des réponses du patient confrontées à celles de l’informant. Quarante huit sujets (‘Normal’=7, ‘MCI’=19, ‘Démence’=22) ont été cotés, pour l’échelle CDR, par un Médecin Généraliste et par un Neurologue. Cette double évaluation a permis d’étudier la fidélité inter-juges qui est détaillée dans l’article de Ben Hamouda et al, publié dans ce même numéro de la Tunisie Médicale . LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Nous avons calculé le CDR-SB pour les 130 patients qui composent la population d’étude et pour les 48 patients qui ont bénéficié d’une double évaluation par l’échelle CDR (un score par examinateur). Le score CDR-Global a été établi, pour tous les patients, après double saisie sur le site de l’ADRC. sur les valeurs de la sensibilité et la spécificité (faibles si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%), du χ2 de Pearson (qui compare la sensibilité et la spécificité), du coefficient kappa (faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80) et du ‘p’ du test de McNemar (qui compare les taux de faux positifs et de faux négatifs). Nous avons calculé l’intervalle de confiance à 95% (IC95%) de la sensibilité et de la spécificité pour chaque score-seuil. Toutes les analyses statistiques uni et multivariées ont été réalisées avec SPSS pour Windows (version 13.0). Le seuil de signification, retenu pour tous les tests, est p<0,05. Analyse statistique Nous avons calculé le coefficient alpha de Cronbach pour l’ensemble de la population et pour chaque groupe d’étude. Il est médiocre si <0,70, acceptable de [0,70 à 0,80[, bon de [0,80 à 0,90[ et enfin excellent quand ≥0,90). L’analyse de la qualité des items, par comparaison des coefficients alpha quand les items sont un à un supprimés, nous a permis de vérifier la consistance interne des items qui composent l’échelle CDR. La fidélité ‘inter-juges’ a été étudiée sur les 48 sujets sans distinction diagnostique. La concordance des juges est évaluée à l’aide du coefficient ‘rho’ de Spearman, considéré faible si |rho| ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90, enfin excellent si |rho| >0.90. La différence entre paires de cotation est évaluée par le test de Wilcoxon pour séries appariées. Les cotations sont jugées concordantes si ‘p’ est non significatif. Dans le groupe ‘Normal’, nous avons étudié l’effet du sexe sur le score (Mann-Whitney) et celui de l’âge et du niveau d’étude (corrélations de Spearman). Des Régressions Linéaires Multiples (RLM), de type ‘pas à pas’, nous ont permis de juger de l’effet simultané des variables sociodémographiques dans le groupe ‘Normal’ puis dans l’ensemble de la Population d’étude. Un coefficient de détermination dit ‘R2’, estimant le pourcentage de variation expliquée par le modèle soumis à la RLM, permet de juger si les variables sociodémographiques influencent le score. Un R2 <0,2 est considéré comme insuffisant pour corriger le score selon les variables sociodémographiques étudiées. Nous avons comparé par l’analyse Receiver Operating Characteristic (ROC) les pouvoirs discriminants des deux scores CDR pour le diagnostic de démence. Un score est considéré d’autant plus discriminant que l’aire sous sa courbe ROC est proche de 1. Les résultats de la courbe ROC sont considérés fiables quand le degré de signification est inférieur à 0,05. L’analyse ROC nous a permis d’établir les scores-seuil pour le CDR-SB et le CDR-Global. Le choix du score-seuil s’est basé R É S U LTAT S Fidélité de l’échelle CDR Rappelons que l’échelle CDR se compose des items ‘Mémoire’, ‘Orientation’, ‘Capacité de jugement et résolution des problèmes’, ‘Activités poursuivies hors de chez soi’, ‘Maison et passe-temps’ et ‘Prise en charge personnelle’. Pour étudier la fiabilité de l’échelle CDR, il faut d’abord vérifier que tous les items qui la composent sont cohérents et contribuent à sa consistance interne et ce par l’étude du coefficient alpha de Cronbach (Tableau 2). Dans le groupe ‘Normal’, les items ‘Orientation’, ‘Capacité de jugement et résolution des problèmes’, ‘Activités poursuivies hors de chez soi’ et ‘Prise en charge personnelle’ sont constants (égaux à 0). De ce fait, l’analyse n’a porté, pour ce groupe, que sur les items ‘Mémoire’ et ‘Maison et passe-temps’ (alpha=0,127). Il s’agit des personnes âgées qui présentent des oublis considérés comme ‘bénins’ mais qui peuvent interférer avec certaines activités de ‘Maison et passe-temps’. Dans le groupe ‘MCI’, l’échelle CDR présente une bonne consistance interne (alpha=0,843) qui peut être légèrement améliorée (alpha=0,877) si on supprime l’item ‘Prise en charge personnelle’. Il semble évident que cet item (qui n’est jamais coté 0,5) ne soit pas touché au stade ‘MCI’. Dans le groupe ‘Démence’, la consistance interne de l’échelle est excellente (alpha=0,938). Pour l’ensemble de la population d’étude, l’échelle CDR présente une excellente consistance interne (alpha=0,971) et tous les items y sont cohérents. Notons que les items ‘Activités poursuivies hors de chez soi’, ‘Maison et passe-temps’ et ‘Capacité de jugement et résolution des problèmes’ constituent les axes qui contribuent le plus à la consistance interne de Tableau 2 : Consistance interne et cohérence des items de l’échelle CDR α de Cronbach si item supprimé Items CDR Groupe ‘Normal’ Mémoire 0,0000001 Orientation 0,133* Jugement et résolution 0,133* Activités hors de chez soi 0,133* Maison et passe-temps 0,0001 Prise en charge personnelle 0,133* α de Cronbach 0,127 Groupe ‘MCI’ 0,839 0,779 0,796 0,791 0,797 0,877 0,843 Groupe ‘Démence’ 0,937 0,936 0,921 0,919 0,915 0,933 0,938 Population d’étude 0,970 0,968 0,963 0,961 0,960 0,971 0,971 * Items constants (=0). 757 N. Attia Romdhane - Validation de l’échelle CDR en Tunisie l’échelle CDR, confirmant ainsi sa fiabilité pour la mesure de l’impact sur la vie quotidienne. La fidélité ‘inter-juges’ permet d’estimer le degré de stabilité des scores obtenus pour l’échelle CDR selon l’examinateur (Tableau 3). Les écarts entre paires de scores ne sont pas significatifs. Les médecins qui ont administré l’échelle sont plus concordants pour le CDR-SB (rho=0,82) que pour le CDRGlobal (rho=0,70). Tableau 3 : Fidélité inter-juges pour la cotation globale de l’échelle CDR Scores/tests CDR-Global CDR-SB Spearman rho p 0,70 0,000 0,82 0,000 Wilcoxon z p -0,72 0,47 -1,11 0,27 Effet des variables sociodémographiques Avant de procéder à la validation clinique de l’échelle CDR, il convient de vérifier si les scores CDR-SB et CDR-Global doivent être ajustés sur les variables sociodémographiques (sexe, âge et niveau d’étude). L’analyse univariée montre que le CDR-SB et le CDR-Global sont indépendants du sexe et de l’âge mais légèrement corrélés au Niveau d’étude (0,04 < p < 0,05). Analysées simultanément par RLM dans le groupe ‘Normal,’ les variables sociodémographiques n’influencent plus le score CDR-SB et ont un effet jugé insuffisant sur le score CDRGlobal (R2=0,186 donc <0,2). Dans les RLM de contrôle, réalisées sur l’ensemble de la population d’étude, le CDRGlobal devient totalement indépendant des variables sociodémographiques et le R2 (=0,036), pour le score CDR-SB, est insignifiant. Ces résultats nous permettent de conclure que les scores CDR-Global et CDR-SB sont indépendants des variables sexe, âge et niveau d’étude. elles ne permettent pas de valeurs intermédiaires. Le score-seuil pour ‘Démence probable’ répond à la meilleure sensibilité pour une spécificité égale à 100. Le score-seuil pour ‘Démence possible’ correspond au score qui offre la meilleure valeur diagnostique. Le tableau 5 permet de comparer les scores-seuil possibles pour le CDR-SB ou le CDR-Global. Nous avons retenu, comme scores-seuil pour ‘Démence possible’, CDR-Global=1 ou CDR-SB=3 et pour ‘Démence probable’, CDR-Global=2 ou CDR-SB=6,5. Figure 1 : Evolution de la sensibilité et de la spécificité du score CDRSB pour le diagnostic de démence Figure 2 : Evolution de la sensibilité et de la spécificité du score CDRGlobal pour le diagnostic de démence Validité clinique et scores-seuil de l’échelle CDR L’analyse ROC nous a permis de comparer les pouvoirs discriminants des scores CDR-SB et CDR-Global pour le diagnostic de démence (Tableau 4). Les résultats indiquent que le CDR-SB (aire=0,97) présente un excellent pouvoir discriminant et qu’il permet de mieux diagnostiquer la démence que le CDR-Global (aire=0,91). Tableau 4 : Pouvoirs discriminants des scores selon l’analyse ROC Scores CDR-SB CDR-Global Aire 0,971* 0,914* IC** (95%) Min Max 0,949 0,994 0,867 0,961 * p<0,000 ; ** IC : Intervalle de confiance L’évolution de la sensibilité en fonction de la spécificité pour le CDR-SB (coté sur 18) est présentée sur la figure 1. Les courbes qui tracent l’évolution de la sensibilité en fonction de la spécificité pour le CDR-Global expliquent pourquoi ce dernier est moins performant que le CDR-SB (Figure 2). En effet, les 2 courbes se croisent entre CDR-Global=0,5 et CDR-Global=1. Les valeurs du CDR-Global étant discrètes (0, 0.5, 1, 2, ou 3), 758 Figure 3 : Distribution du score CDR-SB selon les valeurs du score CDR-Global LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 5 : Critères de sélection des scores-seuil de l’échelle CDR Scores CDR Démence Oui Oui Non 47 15 SB ≥2 Sensibilité Spécificité (IC %)+ (IC %)+ Kappa Mc Nemar 80,74* 0,766 p=0,000 89,07* 0,822 p=0,065 57,39* 0,613 p=0,000 40,31* 0,473 p=0,000 60,39* 0,663 p=0,004 44,23* 0,508 p=0,000 82% 100% Non 0 68 (74 à 90) Oui 45 9 95% 89% Non 2 74 (90 à 100) (82 à 96) Oui 26 0 55% ≥3 ≥6,5 100% Non 21 83 (41 à 70) Oui 47 37 100% 55% ≥0.5 Global χ2++ Non 0 46 (45 à 66) Oui 31 3 66% 96% ≥1 Non 16 80 (52 à 80) Oui 21 0 45% Non 26 83 (30 à 59) ≥2 (92 à 100) 100% + IC % : Intervalle de confiance à 95 % en pourcent ; ++ χ2 de Pearson ; * p=0,000 Dans une enquête de dépistage de la démence, où nous avons intérêt à identifier le plus de sujets à risque, le score-seuil CDRSB=3 présente une meilleure valeur diagnostique que le scoreseuil CDR-Global=1. La figure 3 présente la distribution des scores CDR-SB selon les valeurs du CDR-Global. Elle permet de visualiser les scores-seuil retenus pour le CDR-SB. Figure 4 : Concordance des scores CDR-SB et CDR-Global selon le diagnostic Concordance des scores CDR-Global et CDR-SB Dans notre population d’étude, les scores CDR-SB et CDRGlobal sont très fortement corrélés (rho=0,969 et p=0,000). Cependant, ils sont moins liés dans le groupe ‘MCI’ (rho=0,631 et p=0,001) que dans le groupe ‘Normal’ ou ‘Démence’ (rho>0,95 et p=0,000). La figure 4 illustre la concordance des scores CDR-SB et CDRGlobal selon les scores-seuil retenus pour ‘Démence possible’. On peut y noter que de nombreux cas de démence se situent sous le seuil CDR-Global=1 alors que le seuil CDR-SB=3 sépare assez nettement le groupe ‘Démence’ des groupes ‘Normal’ et ‘MCI’. Selon ces seuils, les scores CDR-SB et CDR-Global sont concordants pour 85% des cas (kappa=0,665) et ne sont discordants que pour des cas classés CDR-SB≥3 et CDR-Global<1 (p McNemar<0,000). 759 N. Attia Romdhane - Validation de l’échelle CDR en Tunisie DISCUSSION L’étude du coefficient alpha de Cronbach nous a permis de vérifier que l’échelle CDR présente une fiabilité bonne pour le diagnostic des états MCI et excellente pour le diagnostic des démences. Les items ‘Activités poursuivies hors de chez soi’, ‘Maison et passe-temps’ et ‘Capacité de jugement et résolution des problèmes’ constituent les axes qui contribuent le plus à la consistance interne de l’échelle CDR. Elle est donc fiable pour mesurer l’impact sur la vie quotidienne. Dans notre revue de la littérature, nous n’avons trouvé aucun auteur qui ait étudié l’alpha de Cronbach pour vérifier la validité du contenu de l’échelle CDR. Nos résultats confirment ce qui semblait implicite : l’échelle CDR est très fiable pour le diagnostic d’une détérioration cognitive et pour l’appréciation de son impact sur la vie quotidienne. Dans notre revue documentaire, la fidélité de l’échelle CDR n’a été examinée que pour vérifier la concordance ‘inter-juges’ et estimer le degré de stabilité des cotations. L’échelle CDR avait été établie pour le dépistage et le suivi des DTA. Son intérêt pour les essais cliniques multicentriques a rapidement été saisi (21). C’est pourquoi de très nombreux efforts ont été déployés pour développer des questionnaires standardisés et les adapter à différentes langues et cultures, entrainer les examinateurs sur des observations et des enregistrements vidéo standardisés et ce en vue de stabiliser au mieux la cotation de l’échelle (21, 22, 23, 24, 25). C’est ainsi que l’évaluation par l’échelle CDR est devenue appropriée aux essais thérapeutiques multicentriques. Ousset et al (20) considèrent, qu’à l’avenir, il sera nécessaire que les médecins français utilisent un guide standardisé pour coter l’échelle CDR comme l’ont déjà recommandé Tractenberg et al (23). A l’instar des évaluateurs Français, nos examinateurs n’ont pas eu recours à un questionnaire standardisé pour coter l’échelle CDR. C’est pourquoi, nous considérons qu’une adaptation tunisienne de ce questionnaire s’impose avant que ne soit généralisé le recours à l’échelle CDR pour évaluer les traitements des démences en Tunisie. Dans notre étude, les médecins qui ont administré l’échelle sont plus concordants pour le score CDR-SB (rho=0,82) que pour le score CDR-Global (rho=0,70) et les écarts entre paires de scores ne sont pas significatifs. Nous pouvons en conclure que la fidélité ‘inter-juges’ est satisfaisante pour les scores CDR-SB et CDR-Global. Choi et al trouvent aussi que les corrélations entre examinateurs sont plus élevées pour le CDR-SB (0,97 à 1) que pour le CDR-Global (0,90 à 0,96) et ce dans une étude regroupant 41 cas de DTA, 37 cas de démence vasculaire et 34 sujets contrôles (26). Dans cette étude, le CDR-SB est fortement corrélé au CDR-Global (coefficient de corrélation de concordance=0,99). Pour l’ensemble de notre population d’étude, les scores CDR-SB et CDR-Global sont aussi très fortement corrélés (rho=0,969 ; p=0,000). Il en est de même pour le groupe ‘Normal’ ou ‘Démence’ (rho>0,95 et p=0,000). Les scores CDR-SB et CDR-Global sont toutefois moins liés dans le groupe ‘MCI’ (rho=0,631 et p=0,001). Une double voire une triple évaluation par l’échelle CDR nous semble recommandée pour ce groupe. Une étude australienne a montré que le score CDR-Global établi 760 par un non clinicien à partir des réponses du seul informant n’est que modérément concordant avec celui établi par un clinicien après examen du patient (27). La confrontation des réponses du patient avec celles de l’informant, est donc nécessaire même si un patient ‘Normal’ ou ‘MCI’ a tendance à se présenter seul. Rubin et al, en 1993, ont constaté que les personnes âgées non démentes sont en général moins performantes que les plus jeunes quand le protocole d’évaluation psychologique dure 2 heures. Leur étude a aussi montré que l’âge n’a aucun effet sur les évaluations cliniques brèves (28). Une étude brésilienne, qui a porté sur 295 cas de démence et 48 sujets normaux, ne trouve aucune corrélation significative entre le score CDR-Global et l’âge ou le niveau d’étude (29). L’étude française ne trouve aucune différence significative entre les stades du CDR-Global selon le sexe ou l’âge (20). Dans notre étude, les scores CDRGlobal et CDR-SB se sont avérés indépendants du sexe, de l’âge et du niveau d’étude. Ces résultats concordent avec le principe qui guide l’évaluation par l’échelle CDR. Cette échelle clinique est brève. Etant établie par rapport aux performances antérieures du sujet, le profil sociodémographique du patient ne devrait pas intervenir. Il est donc logique d’observer que les variables sociodémographiques n’influencent pas les scores de l’échelle CDR. Pour Morris et al (1997), l’échelle CDR, par son score CDRGlobal, est largement reconnue comme fiable et valide pour l’évaluation de la DTA (30). Dans une étude sur les DTA probables, Fillenbaum et al constatent que les scores CDR-SB et CDR-Global présentent des validités comparables avec des tests neuropsychologiques qui évaluent indépendamment l’Orientation ou la Mémoire (31). Lynch et al, en 2006, ont montré que le score CDR-SB est plus utile que le score CDRGlobal pour faire ou exclure le diagnostic de démence chez des personnes qui présentent de légers déficits cognitifs (32). Dans notre étude, nous nous sommes intéressés à la validité de l’échelle CDR pour le diagnostic de la démence en général. L’analyse ROC a montré que le score CDR-SB (aire=0,97) présente un meilleur pouvoir discriminant que le score CDRGlobal (aire=0,91). Les études suivantes ont eu recours à une méthodologie différente et se sont surtout référées à un gold standard basé sur les critères du DSM-III-R. Pour l’étude finlandaise réalisée pour le dépistage de la démence chez les sujets âgés de 75 ans et plus, la concordance entre le score CDR-Global et les critères du DSM-III-R est modérée avec un kappa=0,56 (33). Il en est de même pour l’étude réalisée à Singapour qui trouve un kappa=0,58 (34). Ces auteurs ont noté que l’échelle CDR présente une meilleure discrimination pour les démences légères avec les critères du DSM-IV qu’avec ceux du DSM IIIR. L’étude brésilienne, précédemment citée, trouve une bonne concordance (kappa=0,75) entre l’échelle CDR et le DSM-IIIR (29). Elle trouve pour le score-seuil CDR-Global=1, une sensibilité de 83% et une spécificité de 100%. Une étude portugaise, où le gold standard se réfère aux critères du DSMIV, a porté sur 156 sujets ayant un score MMSE ≤26/30 (35). Les auteurs ont ainsi volontairement exclu la majorité des sujets normaux et MCI chez qui le score MMSE est en général ≥27. Dans cette étude, le score-seuil CDR-Global=1 a une sensibilité LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) de 91% et une spécificité de 100% avec une concordance quasi parfaite (kappa=0,93). Dans notre étude, où le gold standard se base notamment sur les critères du DSM-IV, les courbes ROC nous ont permis d’établir les scores-seuil pour ‘Démence possible’ et ‘Démence probable’. Pour ‘Démence possible’, nous avons retenu les scores-seuil CDR-Global=1 (sensibilité=66%, spécificité =96% et kappa=0,663) ou CDR-SB=3 (sensibilité=95%, spécificité=89% et kappa=0,822). En 2000, Daly et al, dans une étude prospective de 165 sujets suivis pendant 3 ans avec un CDR-Global initial ≤0,5, rapportent que le taux de conversion vers la DTA est de 50% quand le CDR-SB initial était ≥2 alors qu’il n’est que de 10% quand le CDR-SB initial ≤1,0 (36). Une analyse discriminante leur a permis de constater que c’est le score CDR-SB qui contribue le plus à l’identification des sujets à risque. Morris et al, en 2001, après 9,5 ans de suivi d’une cohorte de sujets présentant un CDR-Global initial ≤0,5, ont constaté que 100% des sujets du groupe désigné «CDR 0.5/DAT» (axe Mémoire ≥0,5 et au moins 3 axes secondaires ≥0,5) se sont convertis en DTA légère ou plus sévère (37). Le score CDR-SB initial moyen de ce groupe était égal à 3,1 avec un écart type=0,07 alors qu’il était inférieur à 2 pour les autres groupes. Les résultats de Daly et al et de Morris et al corroborent les nôtres et nous permettent de conclure que dans le cadre d’une enquête de dépistage de la démence, où nous avons intérêt à identifier le plus de sujets à risque, le seuil CDR-SB=3 est le plus recommandé. Il correspond en fait à un score ‘CDR moyen’ (=CDR-SB/6) de 0,5. L’échelle CDR s’est avérée globalement fiable et très performante pour le diagnostic précoce de la démence, quelle soit de type Alzheimer ou autre. Le score CDR-SB présente un meilleur pouvoir discriminant que le score CDR-Global pour le diagnostic de la démence, en particulier à un stade précoce. Nous recommandons cette échelle aux médecins de première ligne pour le dépistage de la démence. Nous la conseillons aux spécialistes pour quantifier et objectiver l’impact des troubles cognitifs sur la vie quotidienne des patients. Cependant, pour les essais thérapeutiques multicentriques, il est nécessaire que les examinateurs soient préalablement entrainés et aient recours au questionnaire standardisé proposé par l’ADRC et ce après son adaptation à la population tunisienne âgée. RÉFÉRENCES 1) Petersen RC. Mild Cognitive Impairment: Where are we? Alzheimer Dis Assoc Disor 2005;19:166-169. 2) Katz S, Ford Ab, Moskowitz Rw, Jackson Ba, Jaffe Mw. Studies of illness in the Aged. The index of ADL: A standardized measure of biological and psychosocial function. JAMA 1963;185:914-9. 3) Lawton MP, Brody EM. Assessment of older people: Self-maintaining and Instrumental Activities of Daily Living. Gerontologist 1969;9:179-86 4) Reisberg B, Ferris SH, de Leon MJ, et al: The Global Deterioration Scale for assessment of primary degenerative dementia. Am J Psychiatry 1982;139:1136–1139. 5) Hughes CP, Berg L, Danziger WL, Coben LA and Martin RL. A new clinical scale for the staging of dementia. Br J Psychiatry1982;140:566-572. 6) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 7) American Psychiatric Association. Diagnostic and Statistical Manual of mental disorders. 4th ed. Washington DC: American Psychiatric Association, 1994. 8) Mc Khann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Clinical diagnosis of Alzheimer’s disease: report of the NINCDS-ADRDA work group. Neurology 1984;34:939-944. 9) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer's disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 10) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 11) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 12) Hugonot-Diener L. A. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In; Collection: consulter/prescrire : La consultation en Gériatrie. Paris : Masson, 2001. 13) Morris JC, McKeel DW Jr, Fulling K, Torack RM, Berg L. Validation of clinical diagnostic criteria for Alzheimer's disease. Ann Neurol 1988; 24:17-22. 14) Burke WJ, Miller JP, Rubin EH, Morris JC, Coben LA, Duchek J, Wittels IG, Berg L. Reliability of the Washington University Clinical Dementia Rating. Arch Neurol 1988;45:31-2. 15) McCulla MM, Coats M, Van Fleet N, Duchek J, Grant E, Morris JC. Reliability of clinical nurse specialists in the staging of dementia. Arch Neurol 1989;46:1210-1. 16) Morris JC. The Clinical Dementia Rating (CDR): current version and scoring rules. Neurology 1993;43:2412-4. 17) Alzheimer's Disease Research Center (ADRC) - Washington University of St Louis. CDR Homepage. http://alzheimer.wustl.edu/cdr/default.htm (Date de consultation: 03/10/2007) 18) Gelb DJ, St Laurent RT. Alternative calculation of the global clinical dementia rating. Alzheimer Dis Assoc Disord 1993;7:202-11.) 19) Gelb DJ, St Laurent RT. Clinical dementia rating. Neurology 1994;44:1983-4. 20) Ousset PJ, Andrieu S, Reynish E, Puel M, Vellas B. Clinical evaluation of dementia in a cohort of 358 patients with the French version of the Clinical Dementia Rating (CDR) scale. Rev Med Int 2003;24:283-287. 21) Morris JC, Ernesto C, Schafer K, Coats M, Leon S, Sano M, Thal LJ, Woodbury P. Clinical dementia rating training and reliability in multicenter studies: the Alzheimer's Disease Cooperative Study experience. Neurology 1997;48:1508-10.) 22) Rockwood K, Strang D, Mac Knight C, Downer R, Morris JC. Inter rater reliability of the Clinical Dementia Rating in a multi center trial. J Am Geriatr Soc 2000; 48:558-9. 23) Tractenberg RE, Schafer K, Morris JC. Inter-observer disagreements on clinical dementia rating assessment: interpretation and implications for training. Alzheimer Dis Assoc Disord 2001; 15:155-61. 24) Schafer KA, Tractenberg RE, Sano M, Mackell JA, Thomas RG, Gamst A, Thal LJ, Morris JC; Alzheimer's Disease Cooperative Study. Reliability of monitoring the clinical dementia rating in multicenter clinical trials. Alzheimer Dis Assoc Disord 2004;18:219-22. 25) Homma A, Meguro K, Dominguez J, Sahadevan S, Wang YH, Morris JC. Clinical dementia rating workshop: the Asian experience. Alzheimer Dis Assoc Disord 2006;20:318-21. 26) Choi SH, Lee BH, Kim S, Hahm DS, Jeong JH, Yoon SJ, Jeong Y, Ha CK, Nab DL. Interchanging scores between clinical dementia rating scale and global deterioration scale. Alzheimer Dis Assoc Disord 2003;17:98-105. 27) Waite L, Grayson D, Jorm AF, Creasey H, Cullen J, Bennett H, Casey B, Broe GA. Informant-based staging of dementia using the clinical dementia rating. Alzheimer Dis Assoc Disord 1999;13:34-7. 28) Rubin EH, Storandt M, Miller JP, Grant EA, Kinscherf DA, Morris JC, Berg L. Influence of age on clinical and psychometric assessment of subjects with very mild or mild dementia of the Alzheimer type. Arch Neurol 1993;50:3803. 29) Fagundes Chaves ML, Camozzato AL, Godinho C, Kochhann R, Schuh A, de Almeida VL, Kaye J. Validity of the clinical dementia rating scale for the detection and staging of dementia in Brazilian patients. Alzheimer Dis Assoc Disord 2007;21:210-7. 30) Morris JC. Clinical dementia rating: a reliable and valid diagnostic and staging measure for dementia of the Alzheimer type. Int Psychogeriatr 1997;9S1:173-6. 31) Fillenbaum GG, Peterson B, Morris JC. Estimating the validity of the clinical Dementia Rating Scale: the CERAD experience. Consortium to Establish a Registry for Alzheimer's Disease. Aging (Milano) 1996;8:379-85. 32) Lynch CA, Walsh C, Blanco A, Moran M, Coen RF, Walsh JB, Lawlor BA. The clinical dementia rating sum of box score in mild dementia. Dement Geriatr Cogn Disord 2006;21:40-3. 33) JuvaK, SulkavaR, ErkinjuttiK, YlikoskiR, ValvanneJ, TilvisR. Usefulness of the clinical Dementia Rating scale in screening for dementia. International 761 N. Attia Romdhane - Validation de l’échelle CDR en Tunisie Psychogeriatrics 1995;7:17–24. 34) Lim WS, Chin JJ, Lam CK, Lim PP, Sahadevan S. Clinical dementia rating: experience of a multi-racial Asian population. Alzheimer Dis Assoc Disord 2005;19:135-42. 35) Macedo Montano MB, Ramos LR. Validity of the Portuguese version of Clinical Dementia Rating. Rev Saude Publica 2005;39:912-7. 36) Daly E, Zaitchik D, Copeland M, Schmahmann J, Gunther J, Albert M. Predicting conversion to Alzheimer disease using standardized clinical information. Arch Neurol 2000;57:675-80. 37) Morris JC, Storandt M, Miller JP, McKeel DW, Price JL, Rubin EH, Berg L. Mild cognitive impairment represents early-stage Alzheimer disease. Arch Neurol 2001;58:397-405. Annexe : Grille d’évaluation clinique de la démence (CDR) NB : Ne noter que les aggravations par rapport aux performances précédentes dues à une perte cognitive et non les limitations dues à d'autres facteurs. Adresse du site internet : http://alzheimer.wustl.edu/cdr/PDFs/Translations/France%20French.pdf 762 ARTICLE ORIGINAL FIDÉLITÉ INTER-JUGES DE L’ÉCHELLE CLINICAL DEMENTIA RATING EN TUNISIE Ibtissem Ben Hamouda*, Neila Attia Romdhane*, Karim Ben Youssef**, Chiraz Mhenni***, Amel Mrabet* * Service de Neurologie, EPS Charles Nicolle, Tunis ** Hôpital Régional de Zaghouan *** Institut National de Protection de l’Enfance, La Manouba I. Ben Hamouda, N. Attia Romdhane, K. Ben Youssef, C. Mhenni, A. Mrabet. I. Ben Hamouda, N. Attia Romdhane, K. Ben Youssef, C. Mhenni, A. Mrabet. FIDÉLITÉ INTER-JUGES DE DEMENTIA RATING EN TUNISIE INTERRATER RELIABILITY OF THE CLINICAL DEMENTIA RATING SCALE IN TUNISIA L’ÉCHELLE CLINICAL LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 763 - 767 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 763 - 767 RÉSUMÉ Pré-requis : L’échelle Clinical Dementia Rating (CDR), proposée pour l’évaluation des Démences de Type Alzheimer (DTA), comporte 2 scores : CDR-Global (selon l’algorithme informatisé de Morris) et CDR-SB (Sum of Boxes). Buts : Evaluer la fidélité inter-juges et vérifier si les discordances entre examinateurs modifient la validité du CDR par rapport au diagnostic de référence. Méthodes : La population d’étude se compose de 48 sujets répartis en 3 groupes : ‘Normal’ (N=7), ‘MCI’ (N=19) et ‘Démence’ (N=22). Deux médecins ont évalué les patients. Les cotations sont comparées à l’aide des corrélations de Spearman, du test de Wilcoxon pour séries appariées et du kappa. Résultats : Pour la cotation des items, les coefficients kappa sont en faveur d’une concordance légère à modérée (0,33 à 0,47). L’item ‘Maison et passe-temps’ est le moins stable alors que ‘Prise en charge personnelle’ est le plus stable. La concordance entre examinateurs est plus élevée pour le CDR-SB (rho=0,82) que pour le CDR-Global (rho=0,70). Les écarts entre paires de cotation ne sont pas significatifs. La fidélité ‘inter-juges’ est satisfaisante pour les scores CDR-Global et CDR-SB même si les concordances des examinateurs avec le diagnostic de référence ne sont pas similaires (kappa1=0,447 et kappa2=0,518). Conclusion : Malgré les faiblesses observées pour la cotation de 4 items sur 6, les scores CDR-Global et CDR-SB demeurent stables. Cependant, pour permettre la comparabilité des évaluations, dans les essais thérapeutiques multicentriques, il est préférable de coter l’échelle CDR à l’aide d’une adaptation tunisienne du questionnaire standardisé recommandé par Morris et al. SUMMARY Background: The Clinical Dementia Rating (CDR) scale, designed to evaluate Dementia of the Alzheimer Type (DAT), includes 2 scores: Global-CDR (according to the computerized Morris’s algorithm) and CDR-SB (Sum of Boxes). Aims: To evaluate the Interrater reliability and to check if disagreements between raters could modify CDR validity according the gold standard diagnosis. Methods: The population of study is composed of 48 subjects divided into 3 groups: ‘Normal’ (N=7); ‘MCI’ (N=19) and ‘Dementia’ (N=22). Two physicians have evaluated all cases. Physicians’ ratings are assessed by the mean of Spearman correlations, Wilcoxon test for related samples and kappa. Results: For items rating, kappa is in favor of a fair to moderate agreement (0.33 to 0.47). Rating of “Home and hobbies” item is the least stable, while that of “Personal care” item is the most stable. Physicians agreement is higher for CDR-SB (rho=0.82) than for Global-CDR (rho=0.70). Differences between paired ratings are not significant. Interrater reliability is satisfactory for Global-CDR and CDR-SB scores even if physicians’ agreements with the gold standard are not similar (kappa1=0.447 and kappa2=0.518). Conclusion: Despite the weaknesses observed for the rating of 4 items over 6, Global-CDR and CDR-SB scores remain stable. However, to allow evaluation comparability in the frame of multicenter trials, it is better to rate CDR with a Tunisian adaptation of the standardized questionnaire recommended by Morris et al. M K O T S - C L É S Echelle Clinical Dementia Rating - Fidélité inter-juges - Démence Tunisie E Y - W O R D S Clinical Dementia Rating scale – Interrater reliability – Dementia – Tunisia sOLJ• sO° (CDR) ·dªK∞ Íd¥dº∞« ”UOIL∞« ‹U∂£ .j°«d± ‰U±√ ,wMN± “«d® ,nßu¥ s° r¥dØ ,ÊUC±¸ WOD´ WKzU≤ ,…œuL• s° ÂUº∑°« : Êu∏•U∂∞« ) WO±ö´ùU° sOOF∑K∞ f¥¸u± WI¥d© Vº•( Global-CDR : sOKÅU∫∞« WDß«u° p∞– Ë dLO≥e∞√ Ÿu≤ s± ·dª∞« rOOI∑∞ ·dªK∞ Íd¥dº∞« ”UOIL∞« Õd∑Æ« : W±UF∞« WOHKª∞« (Sum of Boxes) CDR-SB Ë .l§dL∞« hOªA∑∞« l± W≤¸UIL∞« bM´ ULNMO° ‹U≠ö∑îô« WOL≥√ Èb±Ë sOLJ• sO° ”UOIL∞« ‹U∂£ W§¸œ rOOI¢ v∞≈ ‰UIL∞« ·bN¥ : ·«b≥_« s± hª® qØ rOÆ .)hª® 22( ”·dî” W´uLπ±Ë )hª® 19( ” nOH© wM≥– ‰ö∑´«” W´uLπ± ,)’Uª®√ 7( ”ÍœU´ ” W´uLπ± : ‹U´uLπ± 3 s± WMOF∞« ÊuJ∑¢ : WOπNML∞« .”U∂Ø” Ë ”sºJJ∞Ë” ¸U∂∑î« ,”ÊU±dO∂ß” ◊U∂¢¸« sOLJ∫∞« W≤¸UIL∞ UMKLF∑ß« .sO∂O∂© ·d© YO• U¢U∂£ qÆ_« ”WOKº¢ Ë ‰eM±” bM∂∞« vK´ rJ∫∞« ÊUØ .Íd¥dº∞« ”UOIL∞« œuM° rOOI¢ w≠ )0.47 v∞≈ 0.33( jßu∑± v∞≈ nOHî ‚UH¢« vK´ sOLJ∫∞« sO° ”U∂J∞«” ‰b¥ : ZzU∑M∞« 763 I. Ben Hamouda - Fidélité inter-juges de la CDR en Tunisie bπ≤ r∞ .)0.70 = ˸( GLOBAL-CDR l± W≤¸UIL∞U° )0.82 = ˸) CDR-SB ‰ W∂ºM∞U° UO{d± d∏Ø√ ÊUØ bI≠ ,sOKÅU∫K∞ sOLJ∫∞« sO° ‹U∂∏∞« U±√ .U¢U∂£ d∏Ø_« ”WÅUª∞« ÊËRA∞« ¡UCÆ” ÊUØ .)0.518 = 2 U°UØ Ë 0.447 =1 U°UØ ( l§dL∞« hOªA∑∞« l± ULNOÆUH¢« w≠ sOLJ∫∞« sO° nOHD∞« ‚¸UH∞« r¨¸ UO{d± sOKÅU∫∞« ‹U∂£ ÊuJ¥ p∞c° .sOKÅU∫∞« ZzU∑≤ w≠ sOLJ∫∞« sO° UƸU≠ ö°UÆ Íd¥dº∞« rOOI∑∞« ÊuJ¥ v∑•Ë .ÊU∑°U£ CDR-SB Ë GLOBAL-CDR sOKÅU∫∞« vI∂¥ ,6 s± œuM° 4 ’uBî w≠ sOLJ∫∞« sO° U≥UME•ô w∑∞« nFC∞« ◊UI≤ r¨¸ : WL¢Uª∞« .tzUØd®Ë f¥¸u± t±bÆ Íc∞« ,‹U≠UI∏∞« Ë »uFA∞« s± W´uLπ± l± rKÆQ∑L∞« ÊUO∂∑ßô« s± WOº≤u¢ Wªº≤ ‰ULF∑ß« ,ö∂I∑º± ,V§u∑º¥ ,W≤¸UILK∞ .f≤u¢ - ·dî - sOLJ• sO° ‹U∂£ ·dªK∞ Íd¥dº∞« ”UOIL∞« : WOßUß_« ‹ULKJ∞« L’échelle Clinical Dementia Rating (CDR) a été proposée par Hughes et al en 1982 dans le cadre d’une étude prospective sur les Démences de Type Alzheimer ou DTA (1). L’évaluation est réalisée par rapport aux performances cognitives antérieures du sujet pour six axes : ‘Mémoire’, ‘Orientation’, ‘Capacité de jugement et résolution des problèmes’, ‘Activités poursuivies hors de chez soi’, ‘Maison et passe-temps’ et ‘Prise en charge personnelle’. Dans la version proposée par Morris en 1993, l’évaluation par l’échelle CDR ne se basait sur aucune exploration neuropsychologique (2). Pour interpréter les résultats de l’échelle CDR, on peut établir par cotation catégorielle le score CDR-Global. Il permet de classer les DTA selon un gradient croissant de détérioration cognitive (‘Aucune’, ‘Discutable’, ‘Légère’, ‘Modérée ou ‘Sévère’). Un autre score, proposé en 1988 par Berg et al (cités par Morris, 1993), est de plus en plus utilisé (2). C’est le score CDR Sum of Boxes (CDR-SB) qui résulte de la somme des scores obtenus pour chaque axe de l’échelle CDR. Le CDR-SB, qui varie de 0 à 18, est plus quantitatif que le CDR-Global qui ne prend que 5 valeurs (0, 0.5, 1, 2 ou 3). Dans une étude sur les DTA probables, Fillenbaum et al (1996) ont constaté que les scores CDR-SB et CDR-Global présentent des validités comparables avec des tests neuropsychologiques (3). Lynch et al (2006) ont démontré que le score CDR-SB est plus utile que le score CDR-Global pour faire ou exclure le diagnostic de Démence chez des personnes qui présentent de légers déficits cognitifs (4). La fidélité ‘inter-juges’ permet d’estimer le degré de stabilité de la cotation d’un score selon l’examinateur. Ne disposant pas encore de questionnaire standardisé pour l’Arabe Tunisien, nous nous proposons de vérifier la fidélité inter-juges sur la cotation selon la grille de l’échelle CDR dans sa version française. Nous vérifierons aussi si les discordances entre examinateurs modifient la validité du diagnostic établi par l’échelle CDR quand comparé au diagnostic de référence (‘Normal’, ‘MCI’ ou ‘Démence’). M AT É R I E L E T M É T H O D E S Population d’étude La consultation de Mémoire, du Service de Neurologie de l’Etablissement Public de Santé (EPS) Charles Nicolle de Tunis, a permis l’inclusion de 48 sujets âgés de 50 ans et plus, qui ont consulté entre 2005 et 2006. N’ont été inclus que les patients ayant bénéficié d’un examen médical, neurologique, biologique, radiologique (TDM, IRM et/ou SPECT) et neuropsychologique approfondi des fonctions cognitives et conatives. Les critères d’exclusion sont : troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques, pathologie neurologique ou 764 psychiatrique chronique survenant avant l’âge de 50 ans et pouvant engendrer des troubles cognitifs, antécédents d’abus pour la consommation de médicaments, de drogue ou d’alcool et enfin vie dans une institution ‘fermée’. Les patients présentant une pathologie chronique (telle que Cardiopathie, Hypertension Artérielle, Diabète ou autre) n’ont été exclus que lorsque leur pathologie n’était pas contrôlée par les médicaments. Les 48 sujets inclus ont été répartis en 3 groupes. Le groupe ‘Normal’ est constitué de 7 volontaires totalement autonomes sans aucune plainte cognitive ou conative. Le groupe ‘MCI’ est composé de 19 sujets qui répondent aux critères de Petersen et qui présentent une ‘autonomie relative’ (en dehors de certaines activités complexes) pour les actes de la vie quotidienne (5). Enfin, le groupe ‘Démence’ réunit 22 patients qui répondent aux critères des derniers consensus établis pour les différents types de démence avec ‘dépendance d’un tiers’ pour accomplir une ou plusieurs tâches de la vie quotidienne (6, 7; 8; 9). Présentation de l’échelle CDR L’échelle CDR évalue six axes ou items décrits selon 5 stades croissants de sévérité (0, 0.5, 1, 2 et 3). Un score égal à 0 signifie l’absence de détérioration. Un score égal à 0.5 correspond à une détérioration discutable. En revanche les scores 1, 2 ou 3 indiquent une détérioration, considérée respectivement comme légère, modérée ou sévère. La grille de l’échelle CDR qui précise les stades pour chaque axe est téléchargeable à l’adresse : http://alzheimer.wustl.edu/cdr/PDFs/Translations/France%20French.pdf L’algorithme actuellement utilisé pour établir le CDR-Global est celui proposé par Morris (1993) car il complète l’algorithme initial sans se substituer à lui (2, 10). Pour faciliter et homogénéiser la cotation du CDR-Global, une application informatique a été mise à la disposition des cliniciens et des chercheurs sur le site de l’Université Washington de Saint Louis (Missouri, USA) http://www.biostat.wustl.edu/~adrc/cdrpgm/index.html où se situe l’Alzheimer's Disease Research Center (11). Après saisie par simple clic des scores par item, le score CDR-Global est affiché en quelques secondes. Procédures et modalités d’exploration Tous les examens et explorations, utilisés pour établir le diagnostic de référence, ont été administrés après consentement du sujet ou de son aidant principal. Les conditions de passation et modalités de cotation des différents tests neuropsychologiques ont été respectées. Les 2 cotations de l’échelle CDR ont été réalisées par un Médecin Généraliste et par un Neurologue. Les médecins n’ont LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) pas bénéficié d’un entrainement préalable sur enregistrement vidéo (12). La cotation a été établie à partir de l’observation clinique car il n’existe pas de questionnaire standardisé pour l’Arabe Tunisien. Enfin, hormis quelques cas de patients qui se sont toujours présentés seuls (certains volontaires du groupe ‘Normal’ ou du groupe ‘MCI’), toutes les cotations de l’échelle CDR ont tenu compte des réponses du patient confrontées à celles de l’informant (conjoint ou accompagnateur). Pour les 48 patients, nous avons calculé le CDR-SB pour chaque examinateur. Le score CDR-Global a été établi après double saisie sur le site de l’ADRC pour chaque examinateur. Analyse statistique Toutes les analyses statistiques ont été réalisées avec SPSS pour Windows (version 13.0). Le seuil de signification, retenu pour tous les tests, est p < 0,05. Pour les scores CDR-SB et CDR-Global, la concordance des examinateurs est évaluée à l’aide du coefficient ‘rho’ de Spearman, considéré faible si |rho| ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90, enfin excellent si |rho| >0.90. La différence entre paires de cotation est évaluée par le test de Wilcoxon pour séries appariées. Les cotations sont jugées concordantes si ‘p’ est non significatif. Pour les scores par item et pour le score CDR-Global, nous avons calculé le coefficient kappa entre examinateurs. Il est considéré faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80. Nous avons aussi comparé la concordance des examinateurs avec le diagnostic de référence. Nous avons examiné la corrélation de leurs scores CDR-SB dans chaque groupe diagnostic. Nous avons comparé leurs coefficients kappa estimant le degré de concordance du CDR-Global (=0, =0.5, ≥1) avec le diagnostic de référence (‘Normal’, ‘MCI’ ou ‘Démence’).. R É S U LTAT S Les coefficients kappa établis pour la cotation des items sont en faveur d’une concordance légère à modérée (de 0,33 à 0,47) (Tableau 1). Les concordances modérées ont été observées pour les items ‘Capacité de jugement et résolution des problèmes’ et ‘Prise en charge personnelle’. Bien que les corrélations de Spearman soient très significatives (p = 0,000), le coefficient rho n’est acceptable que pour 2 items pour lesquels il est > 0,7 (‘Activités poursuivies hors de chez soi’ et ‘Prise en charge personnelle’). Les écarts entre paires de scores sont significatifs (p(Wilcoxon) < 0,05) pour 2 items (‘Activités poursuivies hors de chez soi’ et ‘Maison et passe-temps’). La cotation de l’item ‘Maison et passe-temps’ est la moins stable (rho= 0,67 ; p(Wilcoxon) = 0,02 et kappa = 0,33) alors que la cotation de l’item ‘Prise en charge personnelle’ est la plus stable (rho= 0,82 ; p(Wilcoxon) = 0,38 et kappa = 0,47). Malgré les faiblesses et les écarts observés pour la cotation de 5 items sur 6, les deux scores CDR sont demeurés stables. Les médecins qui ont administré l’échelle sont plus concordants pour le CDR-SB (rho= 0,82) que pour le CDR-Global (rho= 0,70). Les écarts entre paires de scores ne sont pas significatifs (Tableau 1). Quand étudiée par groupe diagnostique, la concordance entre examinateurs n’est satisfaisante que pour le groupe Démence (Tableau 2). Les examinateurs ont eu plus de difficultés à s’accorder pour l’évaluation des groupes ‘Normal’ et ‘MCI’. Les examinateurs n’ont été que légèrement concordants dans leur cotation du CDR-Global (kappa = 0,35) quand on se réfère au tableau 1. En revanche, la concordance de chaque examinateur avec le diagnostic de référence est plus élevée. Le kappa du premier examinateur est égal à 0,447 et celui du second à 0,518 (Tableau 3). La figure 1 décrit la distribution du CDR-SB en fonction des valeurs du CDR-Global selon l’examinateur. Elle permet de rendre compte de la concordance globale des 2 scores CDR à différents stades de détérioration cognitive. Tableau 1 : Concordances inter-juges pour la cotation de l’échelle CDR Echelle CDR Items Scores Mémoire Orientation Jugement et résolution Activités hors de chez soi Maison et passe-temps Prise en charge personnelle CDR-Global CDR-SB Spearman rho 0,64 0,66 0,66 0,74 0,67 0,82 0,70 0,82 p 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 Wilcoxon z -0,60* -0,13* -0,89** -2,03** -2,35** -0,88** -0,72** -1,11** kappa p 0,55 0,90 0,37 0,04 0,02 0,38 0,47 0,27 0,37 0,37 0,46 0,38 0,33 0,47 0,35 - * Analyse sur les rangs positifs ; ** Analyse sur les rangs négatifs. Tableau 2 : Concordance des examinateurs pour le score CDR-SB Groupe ou Population Groupe ‘Normal’ Groupe ‘MCI’ Groupe ‘Démence’ Population d’étude Nombre 7 19 22 48 rho de Spearman 0,38 0,47 0,72 0,82 p 0,398 0,043 0,000 0,000 765 I. Ben Hamouda - Fidélité inter-juges de la CDR en Tunisie Tableau 3 : Concordance du CDR-Global avec le diagnostic de référence selon l’examinateur Score CDR-Global Examinateur 1 Examinateur 2 0 0.5 ≥1 0 0.5 ≥1 Groupe ‘Normal’ 2 5 0 3 4 0 Figure 1 : Distribution par examinateur du CDR-SB selon le CDRGlobal DISCUSSION L’échelle CDR a été validée par Morris pour 26 sujets après confirmation neuropathologique du diagnostic de DTA, même à un stade léger (13). La fidélité inter-juges a été établie pour les cliniciens mais aussi les non cliniciens et notamment les paramédicaux (14, 15). L’échelle CDR avait été établie pour le dépistage et le suivi des DTA. Sa fiabilité et sa validité pour l’évaluation de la DTA ayant été démontrée, Morris et al l’ont proposée pour les essais cliniques multicentriques des traitements de la DTA (1, 2, 10, 12, 13). De très nombreux efforts ont depuis été déployés pour développer des questionnaires standardisés et les adapter à différentes langues et cultures, entrainer les examinateurs sur des observations cliniques ou des enregistrements vidéo standardisés et ce afin de stabiliser la cotation de l’échelle CDR (11, 16, 17, 18, 19). Ces auteurs ont démontré l’efficacité d’un protocole de formation à partir d’enregistrements vidéo pour les examinateurs non expérimentés. La formation a permis de limiter la discordance entre examinateurs à 1 stade CDR. Aucune différence significative n’a été observée entre cliniciens 766 Groupe ‘MCI’ 2 15 2 1 17 1 Groupe ‘Démence’ 0 7 15 0 8 14 kappa 0,447 0,518 et non cliniciens. Des difficultés ont été rapportées pour la cotation en démence incertaine (détérioration discutable) et Normal aging (aucune détérioration). Dans le cadre d’un essai thérapeutique, Rockwood et al (2000) ont utilisé le coefficient kappa pour vérifier la concordance entre examinateurs (16). La concordance pour le CDR-Global est de 0,62 alors qu’entres items de l’échelle CDR, kappa varie de 0,33 à 0,88. Ils n’ont pu considérer comme fiable l’évaluation des démences débutantes. Tractenberg et al (2001) ont étudié les concordances et les discordances entre examinateurs par rapport à un gold standard (17). Ils ont confirmé que les examinateurs non expérimentés ont plus de difficultés pour distinguer les stades ‘normal’ et ‘discutable’. Le coefficient kappa, des examinateurs non expérimentés par rapport au gold standard, est égal à 0,74 pour le CDR-Global et varie de 0,27 à 1 pour la cotation des items (‘Orientation’ = 0,27 et ‘Prise en charge personnelle’ = 1). Schafer et al (2004) ont étudié la fiabilité des questionnaires standardisés pour coter l’échelle CDR (18). Le coefficient kappa, entre examinateurs très expérimentés et le gold standard, est égal à 0,83 pour le CDR-Global et varie de 0,66 à 0,81 pour la cotation des items (‘Orientation’ = 0,66 et ‘Prise en charge personnelle’ = 0,81). Pour Homma et al (2006), le coefficient kappa, entre le CDR-Global japonais et celui du gold standard américain, est égal à 0,755 (19). Les différences socioculturelles ont imposé une adaptation des questionnaires permettant l’entretien semi-structuré avec l’informant (proche parent ou aidant principal). C’est ainsi que l’évaluation par l’échelle CDR est devenue appropriée pour les essais thérapeutiques en Asie. Dans notre étude, les examinateurs n’ayant pas été préalablement entrainés par enregistrement vidéo, les coefficients kappa n’ont pas été établis par rapport au gold standard américain. Les coefficients kappa établis entre nos examinateurs indiquent une concordance légère à modérée pour la cotation des items (‘Maison et passe-temps’ = 0,33… ‘Orientation’ = 0,37 … ‘Prise en charge personnelle’ = 0,47). Rappelons que, pour la majorité des auteurs sus cités, les items ’Orientation et ‘Prise en charge personnelle’ représentent en général les deux extrêmes dans leur concordance avec le gold standard. Dans notre étude, bien que l’item ‘Prise en charge personnelle’ soit le plus stable, son kappa est plutôt faible quand comparé à celui d’autres auteurs (16, 17, 18). En revanche, le kappa de l’item ‘Orientation’ est plus élevé que celui de Rockwood et al ou de Tractenberg et al (16, 17). Quoique les études diffèrent de part leur références et méthodes, il est évident que les coefficients kappa de Schafer et al sont deux LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) fois plus élevés que ceux que nous avons établis (18). Il sera nécessaire, dans l’avenir, de fournir un guide standardisé de cotation pour l’évaluation de l’échelle CDR (17, 20). A l’instar des évaluateurs français, nos examinateurs n’ont pas eu recours à un questionnaire standardisé pour coter l’échelle CDR. C’est pourquoi, nous considérons qu’une adaptation tunisienne de ce questionnaire s’impose avant que soit généralisée l’utilisation de l’échelle CDR pour des essais thérapeutiques en Tunisie. Dans notre étude, les examinateurs n’ont été que légèrement concordants pour la cotation du CDR-Global (kappa = 0,35). Les coefficients kappa sont compris entre 0,6 et 0,9 quand établis par rapport au gold standard américain (16, 17, 18, 19). Rappelons que notre score CDR-Global a été établi par l’application informatique disponible sur le site de l’ADRC (ADRC). C’est pourquoi, nous pouvons considérer que le kappa, que nous avons obtenu pour le CDR-Global, ne traduit que les différences observées pour la cotation des items. Malgré les faiblesses et les écarts observés pour la cotation de 4 items sur 6, les scores CDR-Global et en particulier CDR-SB sont demeurés stables dans notre étude. Les médecins qui ont administré l’échelle sont plus concordants pour le CDR-SB (rho= 0,82) que pour le CDR-Global (rho= 0,70) et les écarts entre paires de scores ne sont pas significatifs. Dans une étude regroupant 41 cas de DTA, 37 cas de Démence vasculaire et 34 sujets contrôles, Choi et al (2003) ont comparé les corrélations entre examinateurs (21). Elles sont plus élevées pour le CDR-SB (0,97 à 1) que pour le CDR-Global (0,90 à 0,96). Dans certains cas, il est difficile d’évaluer l’échelle CDR à partir des réponses du patient. Une étude australienne a montré que le score CDR-Global établi par un non clinicien à partir des réponses du seul informant n’est que modérément concordant avec celui établi par un clinicien après examen du patient (22). Comme de certains auteurs l’ont aussi rapporté, nos examinateurs ont eu plus de difficultés à s’accorder pour l’évaluation des groupes ‘Normal’ et ‘MCI’ (12, 16, 17). Nous pensons qu’il faut procéder à une double évaluation pour les sujets normaux et MCI ou présentant une démence discutable ou débutante. Les réponses du patient doivent être confrontées à celles d’un informant, même si à ce stade de détérioration cognitive ‘discutable’, les patients ont tendance à se présenter seuls. Malgré les faiblesses et les écarts observés pour la cotation de 4 items sur 6, les scores CDR-SB et CDR-Global sont demeurés stables. C’est pourquoi, nous pouvons conclure que la fidélité ‘inter-juges’ est satisfaisante pour ces 2 scores qui résument l’évaluation par l’échelle CDR. Afin que les résultats des évaluations par l’échelle CDR soient comparables, lors d’un essai multicentrique par exemple, il est nécessaire que les examinateurs se basent sur le questionnaire standardisé, proposé par Morris et al (11), après son adaptation à la Population Tunisienne. RÉFÉRENCES 1) Hughes CP, Berg L, Danziger WL, Coben LA, Martin RL. A new clinical scale for the staging of dementia. Br J Psychiatry 1982;140:566-572. 2) Morris JC. The Clinical Dementia Rating (CDR): current version and scoring rules. Neurology 1993;43:2412-2414. 3) Fillenbaum GG, Peterson B, Morris JC. Estimating the validity of the clinical Dementia Rating Scale: the CERAD experience. Consortium to Establish a Registry for Alzheimer's Disease. Aging 1996;8:379-385. 4) Lynch CA, Walsh C, Blanco A, Moran M, Coen RF, Walsh JB, Lawlor BA. The clinical dementia rating sum of box score in mild dementia. Dement Geriatr Cogn Disord 2006;21:40-43. 5) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 6) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer's disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 7) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 8) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 9) Hugonot-Diener LA. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In; Collection: consulter/prescrire : La consultation en Gériatrie. Paris : Masson, 2001.10) 10) Morris JC. Clinical dementia rating: a reliable and valid diagnostic and staging measure for dementia of the Alzheimer type. Int Psychogeriatr 1997;9S1:173-176. 11) Alzheimer's Disease Research Center (ADRC) - Washington University of St Louis. CDR Homepage. http://alzheimer.wustl.edu/cdr/default.htm (Date de consultation: 03/10/2007) 12) Morris JC, Ernesto C, Schafer K, Coats M, Leon S, Sano M, Thal LJ, Woodbury P. Clinical dementia rating training and reliability in multicenter studies: the Alzheimer's Disease Cooperative Study experience. Neurology 1997;48:1508-10. 13) Morris JC, McKeel DW Jr, Fulling K, Torack RM, Berg L. Validation of clinical diagnostic criteria for Alzheimer's disease. Ann Neurol 1988;24:1722. 14) Burke WJ, Miller JP, Rubin EH, Morris JC, Coben LA, Duchek J, Wittels IG, Berg L. Reliability of the Washington University Clinical Dementia Rating. Arch Neurol 1988;45:31-2. 15) McCulla MM, Coats M, Van Fleet N, Duchek J, Grant E, Morris JC. Reliability of clinical nurse specialists in the staging of dementia. Arch Neurol 1989;46:1210-1211. 16) Rockwood K, Strang D, Mac Knight C, Downer R, Morris JC. Inter rater reliability of the Clinical Dementia Rating in a multi center trial. J Am Geriatr Soc 2000; 48:558-9. 17) Tractenberg RE, Schafer K, Morris JC. Inter-observer disagreements on clinical dementia rating assessment: interpretation and implications for training. Alzheimer Dis Assoc Disord 2001; 15:155-61. 18) Schafer KA, Tractenberg RE, Sano M, Mackell JA, Thomas RG, Gamst A, Thal LJ, Morris JC; Alzheimer's Disease Cooperative Study. Reliability of monitoring the clinical dementia rating in multicenter clinical trials. Alzheimer Dis Assoc Disord 2004;18:219-22. 19) Homma A, Meguro K, Dominguez J, Sahadevan S, Wang YH, Morris JC. Clinical dementia rating workshop: the Asian experience. Alzheimer Dis Assoc Disord 2006;20:318-21. 20) Ousset PJ, Andrieu S, Reynish E, Puel M, Vellas B. Clinical evaluation of dementia in a cohort of 358 patients with the French version of the Clinical Dementia Rating (CDR) scale. Rev Med Int (2003);24:283-287. 21) Choi SH, Lee BH, Kim S, Hahm DS, Jeong JH, Yoon SJ, Jeong Y, Ha CK, Nab DL. Interchanging scores between clinical dementia rating scale and global deterioration scale. Alzheimer Dis Assoc Disord 2003;17:98-105. 22) Waite L, Grayson D, Jorm AF, Creasey H, Cullen J, Bennett H, Casey B, Broe GA. Informant-based staging of dementia using the clinical dementia rating. Alzheimer Dis Assoc Disord 1999;13:34-7. 767 ARTICLE ORIGINAL VERSION ARABE DU MINI MENTAL STATE EXAMINATION (A-MMSE) : FIDÉLITÉ, VALIDITÉ ET DONNÉES NORMATIVES Tarek Bellaj*, Sonia Ben Jemaa*, Neila Attia Romdhane**, Mehyar Dhiffallah*, Nadia Ben Ali*, Moncef Bouaziz***, Amel Mrabet** * Département de psychologie, Faculté des Sciences Humaines et Sociales de Tunis ** Service de Neurologie, EPS Charles Nicolle, Tunis - *** Laboratoire de Neurosciences - Faculté des Sciences de Tunis. T. Bellaj, S. Ben Jemaa, N. Attia Romdhane, M. Dhiffallah, N. Ben Ali, M. Bouaziz, A. Mrabet. T. Bellaj, S. Ben Jemaa, N. Attia Romdhane, M. Dhiffallah, N. Ben Ali, M. Bouaziz, A. Mrabet. VERSION ARABE DU MINI MENTAL STATE EXAMINATION (A-MMSE) : FIDÉLITÉ, VALIDITÉ ET DONNÉES NORMATIVES MINI MENTAL STATE EXAMINATION ARABIC VERSION : (A-MMSE) RELIABILITY, VALIDITY AND NORMATIVE DATA LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) :768 - 776 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) :768 - 776 RÉSUMÉ Pré-requis: Le Mini Mental State Examination (MMSE) est l’outil de dépistage de la démence le plus utilisé au monde. Il est traduit et adapté à plusieurs langues et cultures. But: Présenter une version arabe du MMSE (A-MMSE) et vérifier ses qualités psychométriques et fournir les données normatives. Méthodes: L’A-MMSE est le résultat d’une traduction et d’une adaptation qui ont respecté le rationnel de construction du test de Folstein et al en 1975 et les caractéristiques culturelles de la population Tunisienne. L’expérimentation de l’A-MMSE a porté sur 73 sujets normaux, 57 patients présentant un Mild Cognitive Impairment (MCI) et 56 patients souffrant d’une démence selon les critères du DSM-IV et des derniers consensus internationaux. Résultats: L’influence des variables âge et niveau d’étude sur les performances s’est avérée significative engendrant l’établissement d’une table de correction pour le score initial. Le test A-MMSE présente une consistance interne acceptable (alpha de Cronbach =0,72) associée à une excellente stabilité des scores dans le temps (rho=0,95). L’aire sous la courbe Receiver Operating Characteristic (ROC), estimateur de l’efficacité globale du test, est de 0,96. Le score-seuil 26 est indiqué dans une optique de dépistage (sensibilité=95%, spécificité=82% et kappa=0,69) alors que le scoreseuil 24 est plus adapté au diagnostic de Démence, (sensibilité=71%, spécificité=99% et kappa=0,77). La validité concourante du A MMSE avec l’échelle Clinical Dementia Rating n’est pas établie (CDR-SB : rho=-0,69 et CDR-Global : rho=-0,67, donc <0,70). Conclusion: Le test A-MMSE est fiable et valide pour distinguer les sujets déments des sujets non déments. SUMMARY Background: The Mini Mental State Examination (MMSE) is the most worldwide scale used to detect dementia. It has been translated and adapted to many languages and cultures. Aim: To introduce an Arabic version of the MMSE (A-MMSE) and to verify its psychometric properties and to provide normative data. Methods: The A-MMSE is the result of a translation and an adaptation in respect to the test construction rational of Folstein et al (1975) and to the Tunisian population cultural characteristics. A MMSE experimentation is conducted on a sample of 73 normal subjects, 57 patients with Mild Cognitive Impairment (MCI) and 56 patients with Dementia according to DSM-IV criteria and latest international consensus. Results: The influence of the variables Age and Education on the performance is statistically significant requiring an adjustment of the rough scores according to the respective weight of these variables. The A-MMSE has an acceptable internal homogeneity (Cronbach’ alpha=0.72) with an excellent test-retest reliability (rho=0.95). The Area Under Curve (AUC) assessed by Receiver Operating Characteristic (ROC) analysis is equal to 0.96. The cut-off score 26 is proposed for Dementia screening (sensitivity=95%, specificity=82% and kappa=0.69). The cut-off score 24 is more suitable for Dementia diagnosis (sensitivity =71%, specificity =99% and kappa=0.77). The concurrent validity of the A MMSE with the Clinical Dementia Rating scale is not established (CDR-SB’ rho=0.69; Global-CDR’ rho=-0.67, so <0.70). Conclusion: The A-MMSE is reliable and valid to distinguish demented from not demented subjects. M K O T S - C L É S Démence – MMSE – Version arabe – Fidélité – Validité – Données normatives. E Y - W O R D S Dementia – MMSE – Arabic version –Reliability – Validity – Normative data. (A-MMSE) WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« sOMI¢Ë ‹U∂£Ë ‚bÅ .j°«d± ‰U±√ ,e¥e´u° nBM± ,wK´ s° W¥œU≤ ,tK∞« nO{ ¸UON± ,ÊUC±¸ WOD´ WKzU≤ ,WFL§ s° WOMß ,ZFKK° ‚¸U© : Êu∏•U∂∞« .‹U≠UI£ Ë ‹UG∞ …b´ v∞≈ t∑L§d¢ XL¢ .·dª∞« ·UAJ∑ßô r∞UF∞« w≠ ôULF∑ß« d∏Ø_« rKº∞« (MMSE) WOM≥c∞« W∞U∫K∞ e§uL∞« h∫H∞« d∂∑F¥ : W±UF∞« WOHKª∞« ,W¥¸UOFL∞« ‹UODFL∞« dO≠u¢Ë WOßUOI∞« tBzUBî s± X∂∏∑∞«Ë WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« r¥bI¢ : ·«b≥_« hzUBª∞«Ë )1975( ÁdO¨ Ë s¥U∑A∞u≠ Áœb• ULØ ”UOIL∞« ¡UM° fß√ U∑±d∑•« nOOJ¢Ë WL§d¢ w∑OKLF∞ U§U∑≤ WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« q∏L¢ : WOπNML∞« ‹«œb∫± vK´ œUL∑´ôU° ·dª∞U° UC¥d± 56 Ë jßu∑± wM≥– nFC° UC¥d± 57 Ë U¥uß UBª® 73 s± WO°dF∞« WªºM∞« UNO≠ X°d§ w∑∞« WMOF∞« ÊuJ∑¢ .wº≤u∑∞« lL∑πLK∞ WO≠UI∏∞« .WOL∞UF∞« ‹UÆUH¢ô« dî¬Ë DSM-IV ◊UIM∞« q¥u∫¢ »u§Ë bØR¥ UL± wLOKF∑∞« Èu∑ºL∞«Ë sº∞« ÍdOG∑± WOL≥√ WO≠«d¨uL¥b∞«-WO´UL∑§ô« q±«uF∞« dO£Q¢ Èb± …œbF∑L∞« WODª∞« ‹«¸«b∫≤ô« qOK∫¢ ZzU∑≤ X∑∂£√ : ZzU∑M∞« 768 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) «“U∑L± U¢U∂£Ë WOM≥c∞« W∞U∫K∞ e§uL∞« h∫H∞« s± WO°dF∞« WªºMK∞ )0,72 = UH∞√( ôu∂I± UOKî«œ UÆUº¢« Wß«¸b∞« ZzU∑≤ X∑∂£√ ULØ .‹«dOG∑L∞« Ác≥ s± qØ Ê“Ë Vº• W∞u∫± ◊UI≤ v∞≈ ÂUª∞« X∂£ .(0.96) e≥UM¥ (ROC) q∂I∑L∞« qL´ ‹UOÅUî qOK∫¢ bM´ wM∫ML∞« jª∞« X∫¢ ¡UCH∞« Ê√ sO∂¢ bI≠ Íd¥dº∞√ p∫L∞« d∂´ ‚bB∞« hª¥ ULO≠ U±√ .)0.95 = ˸( …œU´ù« bM´ .·dª∞« hOªA∑∞ 24 W§¸b∞« ‰ULF∑ß«Ë )0.69 = U°UØ q±UF±Ë 82% = WOÅuBî ,95% = WOßUº•( ·dªK∞ dJ∂L∞« ·UAJ∑ßô« bM´ 26 W§¸b∞« vK´ œUL∑´ô« Èb§_« s± t≤√ p∞cØ .t° sO°UBL∞« dO¨ s± ·dª∞U° sO°UBL∞« eOOL¢ w≠ ‚bB∞«Ë ‹U∂∏∞U° nB∑¢ WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« Ê√ sO∂¢ : WL¢Uª∞« .W¥¸UOF± ‹UODF± - ‚bB∞« - ‹U∂∏∞« - WO°dF∞« WªºM∞« - WOM≥c∞« W∞U∫K∞ e§uL∞« h∫≠∞« - ·dª∞« : WOßUß_« ‹ULKJ∞« L’affaiblissement cognitif, caractéristique de la démence, est objectivement évalué en utilisant une batterie de tests neuropsychologiques qui exige un temps important pour son administration et une compétence professionnelle spécifique pour son interprétation. Dans le cadre des études épidémiologiques ou des essais thérapeutiques, une évaluation rapide et brève des troubles cognitifs s’impose. Pour ce, des tests particuliers ont été développés. Le plus connu et le plus utilisé au monde étant sans équivoque le Mini Mental State Examination (MMSE) de Folstein et al (1). Sa validité a été démontrée par une très forte corrélation avec les scores d’autres tests neuropsychologiques (2, 3, 4) et avec le degré d’atrophie corticale (5). Sa fidélité est amplement démontrée. Les corrélations au test-retest varient de 0,75 à 0,89 (2) et ceux de la fidélité inter-juges sont supérieurs à 0,80 (6). Sa spécificité comme test de détection des syndromes démentiels est bien marquée. D’après Anthony, LeResche & Niaz (7) et Dick et al (8), elle varie de 82,4% à 95,7% alors que sa sensibilité moyenne varie entre 76% et 87%. Le score MMSE dépend de plusieurs facteurs dont l’âge (9), le niveau d’étude (10), la sévérité du déficit cognitif (11) et les critères de référence adoptés (12). Malgré ses qualités métrologiques, le recours des cliniciens à la version originale ou traduite du MMSE n’est pas approprié dans des sociétés non occidentales. La nature de la tâche exigée par certains items est non adéquate pour des sujets peu ou pas scolarisés essentiellement dans les items relatifs à l’orientation, au comptage à rebours, à l’épellation d’un mot à l’envers, à la lecture, à l’écriture et à la tâche de praxie grapho-constructive. En Tunisie, le pourcentage d’analphabètes dans la population générale en 2004 est élevé (22,9%) et il est encore plus important (76,8%) pour la population âgée de plus de 60 ans, tranche d’âge à risque de développer un syndrome démentiel (13). Pour les pays africains, arabes ou asiatiques, une simple traduction du MMSE et le développement de données normatives ne suffisent pas. Un effort d’adaptation est indispensable du fait de leurs spécificités socioculturelles. Ainsi, le MMSE a été adapté et modifié donnant naissance aux versions Chinoise (14), Coréenne (15), Indienne (16), Brésilienne (17), Japonaise (18), Israélienne (19), Sri Lankaise (20), Nigérienne (21) et Turque (22). Une recherche bibliographique sur PubMed associant les termes « Mini Mental State Examination » et « Arab » ou « Arabic » ne donne qu’une seule référence, celle de Inzelberg et al (23) réalisée auprès d’une communauté arabe sous occupation israélienne à « Wadi Ara ». L’objectif de ce travail est de développer une version arabe du MMSE (A MMSE) adaptée aux caractéristiques socioculturelles des sujets tunisiens et ayant les qualités psychométriques requises (fidélité, validité, scores-seuil, sensibilité et spécificité). M AT É R I E L E T M É T H O D E Adaptation et présentation du A MMSE Le MMSE comprend 11 items explorant 6 domaines cognitifs (orientation, enregistrement des informations, attention et calcul mental, rappel de mots, langage et praxie constructive). L’adaptation a concerné aussi bien les subtests verbaux que non verbaux. Les tâches et les situations servant de stimulus aux comportements étudiés doivent être suffisamment familières aux sujets pour éviter d’injecter des épiphénomènes qui risquent de parasiter le fonctionnement mental. La plupart des items n’ont subi aucune modification autre que la traduction. D’autres ont subi des modifications partielles basées sur une pré-expérimentation. Le développement de la version arabe du MMSE a respecté les étapes décrites par Van de Vijver & Hambleton (24) : traductions forward et backward, révision après confrontation des traductions et préexpérimentation des items adaptés. L’acceptabilité et la signification des items choisis ont été testées et chaque item mal adapté a été remplacé. Le dépouillement pré-expérimental, les observations des sujets examinés et le bon sens ont permis de choisir l’item le mieux adapté. Ces différentes phases ont duré 6 mois environ. Orientation Les repères temporaux (année, mois, jour du mois) ne se sont pas avérés les mêmes chez tous les sujets. Certains d’entre eux recourent encore à des repères arabo-musulmans (année de l’Hégire et mois lunaire) d’autres à des repères occidentaux (administratifs). Vu cette divergence, nous acceptons les réponses correctes relatives aux deux types de repères. Ainsi, pour l’orientation temporelle, le seul item à être modifié est celui de la date du jour, remplacé par l’heure dans la journée. Les questions portent donc sur le jour de la semaine, l’heure du jour, le mois, la saison et l’année. Pour l’orientation spatiale, aucune modification n’est apportée. Les questions concernent : le lieu où l’on est pendant l’examen (nom de l’hôpital ou nom du médecin si le test est réalisé en cabinet), l’étage, la ville, le gouvernorat et le pays où le sujet se trouve. Pour tous les items relatifs à l’orientation, ne sont acceptées que les réponses exactes et ce après vérification avec le patient. Ce dernier a le droit de corriger une réponse erronée. La cotation est binaire : 0 si la réponse est fausse et 1 pour la réponse correcte avec un maximum de 10 points. Enregistrement Il comporte trois items à répéter puis à rappeler. Dans la séquence "ballon, clé, citron", le mot ballon a été remplacé par "fenêtre" appartenant au registre linguistique adulte. Les trois mots à enregistrer sont devenus. ÕU‡‡‡‡‡‡∑H± ,Êu‡‡‡‡LO∞ ,„U‡‡‡‡∂® 769 T. Bellaj - Version arabe du Mini Mental State Examination Ces mots doivent être présentés au rythme d’un mot par seconde pour ne pas induire le groupement des mots et leur répétition comme un seul item. Un point est octroyé pour chaque mot répété correctement au premier essai (maximum 3 points). Attention-concentration L’attention et le contrôle mental sont évalués par une tâche exigeant le maniement d’apprentissages élémentaires automatiques. Le sujet doit soustraire 7 de 100 cinq fois. Or, le calcul mental est une tâche fortement dépendante de l’expérience scolaire. L’item "épeler à l’envers un mot de cinq lettres (MONDE)" exige une conscience phonologique qui le rend impossible à réaliser pour un sujet qui n’a pas suivi un apprentissage formel de la lecture. Nous avons remplacé cet item par un autre plus écologique où nous demandons au sujet de réciter les jours de la semaine à l’envers en commençant par le dimanche. Nous retenons comme réponses correctes les cinq premiers jours dans l’ordre indirect. Un point est donné pour chaque réponse correcte. entrecoupées. La praxie constructive peut être évaluée autrement puisqu’un sujet âgé qui n’a jamais tenu de crayon entre les doigts peut dessiner un carré déformé sans que cela traduise des troubles de l’activité constructive et ce malgré le malaise et la résistance qu’éprouvent ces sujets face à ce type de tâche. Nous avons proposé une tâche constructive issue du test de construction (stick construction) de Butters & Barton (27) où le sujet est invité à construire une figure complexe à l’aide d’allumettes. Nous comptons un point si la tâche est réalisée en moins d’une minute. Au total A l’instar de la version originale du MMSE, le A MMSE a un score maximal de 30 points avec 10 points pour l’orientation temporo-spatiale, 3 points pour l’enregistrement, 5 points pour la concentration, 3 points pour la mémoire, 8 points pour le langage et 1 point pour la praxie constructive. Toutes les règles d’administration, de cotation et de notation ont été respectées. Les consignes ont été traduites en arabe dialectal tunisien. Langage La partie langage a subi peu de modifications. Les deux items de dénomination (montre, stylo) ont été maintenus. Un point est accordé pour chaque dénomination correcte. L’item original "no ifs, ands, or buts" de la répétition verbale, "pas de si, ni de mais" dans la version française, a été traduit par ‘UHOØ ô Ë ‘ö´ ô. Un point est donné pour une répétition totalement correcte. Pour l’exécution d’ordres, nous avons légèrement modifié la troisième partie de la même commande. Le sujet doit exécuter les 3 ordres successifs suivants : "Prendre une feuille de papier, la plier par le milieu et la poser sur la table". Cette modification est suggérée par la version turque du MMSE (25), ces auteurs ayant observé que certains sujets étaient choqués de devoir jeter des objets à terre. Nous comptons un point par item correctement exécuté (maximum 3 points). Les items de lecture et d’écriture sont réservés aux sujets scolarisés. Dans d’autres versions, ces items ont été remplacés par d’autres n’exigeant ni lecture ni écriture. La version coréenne propose de les remplacer par 2 items de raisonnement et de jugement social issus de l’échelle d’intelligence WAIS R (26). Or, ce changement touche à la validité même du test puisqu’il n’explore plus les mêmes fonctions. Ainsi, pour ces deux items nous n’avons procédé qu’à la traduction. Nous comptabilisons 1 point si la phrase (avec sujet et verbe) est construite en 30 secondes, sans tenir compte des fautes d’orthographe ou de syntaxe. Population d’étude Trois groupes ont été retenus pour cette étude (‘Normal’, ‘MCI’, ‘Démence’) à partir des résultats de l’anamnèse, de l’examen neurologique, de la biologie, de la neuroimagerie (TDM, IRM et/ou SPECT) et d’un examen neuropsychologique approfondi des fonctions cognitives et conatives. Le groupe ‘Normal’ se compose de 73 sujets (volontaires ou accompagnants de patients) sans aucune plainte cognitive ou conative et chez qui les activités de la vie quotidienne sont pleinement conservées. Le groupe ‘MCI’ compte 57 sujets répondant aux critères de Petersen du déficit cognitif léger (28, 29). Enfin le groupe ‘Démence’ réunit 56 sujets répondant aux critères du DSM IV (30) et des derniers consensus pour les différents types de démence (31-35). Le tableau 1 décrit les caractéristiques démographiques des 3 groupes composant notre population d’étude. Aucune différence statistiquement significative n’est observée pour la répartition du sexe (X2(2)=3,28 ; p=0,194), de l’âge (X2(2) du Kruskal Wallis =0,44 ; p=0,802) ou du niveau d’étude (X2(2) du Kruskal Wallis =1,27 ; p=0,531). Aucun sujet ne présente des troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques. Tous les patients, présentant une autre pathologie neurologique ou psychiatrique chronique pouvant engendrer des troubles cognitifs, ont été exclus. Aucun sujet n’a abusé de médicaments, de drogue ou d’alcool. Les personnes présentant une hypertension, un diabète et ou une autre pathologie chronique correctement contrôlés par les médicaments n’ont pas été exclues. Les patients, qui présentent une démence sévère avec des performances neuropsychologiques franchement déficientes ont été exclus. Enfin, les sujets, qui ne vivent plus dans leur cadre familial ou qui vivent dans une institution ‘fermée’, ont aussi été exclus. Praxie constructive Il s’agit d’une tâche « papier crayon » où le sujet est invité à copier un dessin représentant deux formes géométriques Procédures et modalités d’exploration Tous les participants ont été consentants et informés de l’objectif du travail. Les patients ont été examinés de manière individuelle Mémoire Pour le rappel libre, le sujet est invité à citer de mémoire les mots qu’il a répétés dans la phase d’enregistrement. Un point est attribué pour chaque mot rappelé correctement (maximum 3 points). 770 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) Tableau 1 : Caractéristiques démographiques de la population d’étude Variables démographiques Sexe Age (ans) Niveau d’étude (ans) Féminin (%) Masculin (%) Moyenne (Ecart type) Min - Max Moyenne (Ecart type) Min - Max Normal (N=73) 43 (59%) 30 (41%) Groupe MCI (N=57) 30 (53%) 27 (47%) Démence (N=56) 24 (43%) 32 (57%) Signification 66,11 (9,53) 50-95 64,93 (9,56) 50-94 65,54 (8,96) 50-89 p= 0,802b 6,34 (5,92) 0-21 7,46 (6,68) 0-21 6,38 (6,86) 0-21 p= 0,531b p= 0,194a a χ2 (comparaison de fréquence), b χ2 (test de Kruskal Wallis) au Service de Neurologie de l’EPS Charles Nicolle. Tous les examens et explorations utilisés pour constituer le gold standard ont été administrés après consentement du sujet ou de son aidant principal. Les conditions de passation et modalités de cotation des différents tests neuropsychologiques ont été respectées. Le test A-MMSE a été administré par des neuropsychologues ou des psychologues cliniciens. 48 patients ont été re-testés par le A-MMSE 6 à 12 semaines après l’évaluation initiale. 106 sujets ont bénéficié d’une évaluation concourante par l’échelle Clinical Dementia Rating (CDR). Le score Sum of boxes (CDR SB) et le score CDR-Global ont été calculés pour chaque cas comme décrit dans l’article d’Attia Romdhane et al dans ce même numéro de la Tunisie Médicale. Analyse statistique Les effets des variables sociodémographiques sont analysés par régressions linéaires multiples (RLM), de type "pas à pas". Un R2 <0,2 est insuffisant pour considérer les variables Sexe, Age et Niveau d’Etude (NE) comme influentes. Tout en respectant les signes des différents B (coefficients non standardisés) fournis par les RLM, la ‘Correction’ pour chaque score est égale à : {[B1*(Sexe – Sexe moy) + B2*(Age – Age moy) + B3*(NE – NE moy)]} Pour déterminer la fidélité, deux aspects sont examinés : la consistance interne et la stabilité. Pour la consistance interne, nous calculons le coefficient alpha de Cronbach pour l’ensemble de la population d’étude. Il est médiocre si < 0,70, acceptable de [0,70 à 0,80[, bon de [0,80 à 0,90[ et enfin excellent quand ≥ 0,90). Quant à la stabilité, nous examinons le coefficient de corrélation ‘rho’ de Spearman et le test de Wilcoxon pour séries appariées. Le coefficient |rho| est considéré faible si ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90 et excellent si >0.90. Plus le ‘p’ du test de Wilcoxon est proches de 1 et plus la différence entre paires de cotation est proche de 0. La Corrélation Intra-Classe (CIC) et son intervalle de confiance à 95% (IC95%) sont aussi examinés. Une bonne fidélité est attribuée au test si la borne inférieure de cet intervalle est ≥0,75. La validité clinique du test A-MMSE pour le diagnostic de Démence est établie à partir des résultats de la courbe Receiver Operating Characteristic (ROC). Elle permet la représentation graphique de la relation existante entre la sensibilité et la spécificité d’un test. Plus l’aire sous la courbe ROC tend vers 1, avec un degré de signification inférieur 0,05 et plus le score est considéré comme discriminant. Les résultats de l’analyse ROC nous permettent de choisir les scores-seuil du A-MMSE selon leur sensibilité et leur spécificité (faibles si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%), le χ2 de Pearson (qui rend compte de la valeur diagnostique), le degré de concordance kappa (faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80) et le ‘p’ du test de McNemar (qui compare les taux de faux positifs et de faux négatifs). Nous avons calculé l’intervalle de confiance à 95% (IC95%) de la sensibilité et de la spécificité pour chaque score-seuil. La validité concourante avec l’échelle CDR est appréciée par le coefficient de corrélation de Spearman (r>0,70). Elle est examinée avec le score CDR-Global et le score CDR-SB. Toutes les analyses statistiques uni et multivariées sont réalisées avec SPSS (version 13.0) pour Windows. Le seuil de signification, retenu pour tous les tests, est p<0,05. R É S U LTAT S Distribution des scores du A-MMSE au sein des groupes La répartition par groupe, des scores globaux et par items obtenus au A MMSE, est résumée au tableau 2. Il est intéressant de noter que chez les sujets normaux un effet plafond a été observé au niveau des items : enregistrement (100%), répétition (100%), exécution d’ordres (99%), dénomination (99%) et orientation (82%). Des effets plafond ont été aussi notés au niveau des mêmes subtests dans le groupe ‘MCI’ et le groupe ‘Démence’. En outre, un effet plancher est observé dans le groupe ‘Démence’ pour les items : praxie (71%), rappel (37%), attention (30%) et lecture & écriture (23%). Des effets similaires, mais à moindre degré sont observés pour les sujets MCI ou normaux. Quant aux scores totaux, un effet plafond 30/30 est noté chez 14% des normaux et 9% des MCI. La distribution du score total du A-MMSE s’écarte significativement d’une distribution normale selon le test de normalité de Shapiro Wilk pour le groupe ‘Normal’ (W=0,90 ; 771 T. Bellaj - Version arabe du Mini Mental State Examination Tableau 2 : Scores du A-MMSE par groupe (Normal=73, MCI=57, Démence=56) Subtest Orientation Moyenne (écart type) Normal MCI Démence 9,78 (0,51) 9,46 (0,85) 8,05 (1,84) Scores planchers (%) Normal MCI - - Scores plafonds (%) Démence Normal MCI Démence - 82% 63% 30% 3,00 (0) 2,98 (0,13) 2,86 (0,52) - - 2% 100% 98% 91% Attention 4,55 (1,01) 4,89 (0,41) 3,14 (2,22) 1% - 30% 78% 93% 52% Rappel 2,27 (0,85) 2,01 (0,91) 1,09 (0,99) 5% 9% 37% 48% 31% 7% Dénomination 1,99 (0,12) 2,00 (0) 1,86 (0,44) - - 4% 99% 100% 89% 1,00 (0) 0,98 (0,13) 0,95 (0,23) - 2% 5% 100% 98% 95% 2,99 (0,12) 2,94 (0,33) 2,40 (1,13) - - 14% 99% 96% 77% Enregistrement Répétition Exécution d’ordres Lecture & Ecriture 1,55 (0,68) 1,65 (0,61) 1,30 (0,83) 11% 7% 23% 66% 72% 54% Praxie constructive 0,74 (0,44) 0,58 (0,49) 0,29 (0,46) 26% 42% 71% 74% 58% 29% Score A-MMSE 27,88 (1,63) 27,49 (1,65) 21,96 (4,43) - - - 14% 9% - p<0,0001) ainsi que pour le groupe ‘MCI’ (W= 0,93 ; p<0,0021) et le groupe ‘Démence’ (W=0,95 ; p<0,0332). C’est pourquoi nous utilisons des tests non paramétriques pour comparer les groupes. Les scores totaux médians diffèrent selon le groupe (χ2(2) du Kruskal Wallis =79,02 ; p<0,000). La comparaison des groupes, deux à deux par le test de Mann Whitney, révèle que les performances du groupe ‘Démence’ sont significativement inférieures à celles du groupe ‘Normal’ (Z= 8,07 ; p<0,000) et à celles du groupe ‘MCI’ (Z= 7,27 ; p<0,000). Notons que les groupes ‘Normal’ et ‘MCI’ ne sont pas statistiquement différents (Z= 1,43 ; p=0,152). Effets des variables sociodémographiques Les effets des variables sociodémographiques sont examinés par RLM, de type pas à pas, dans le groupe ‘Normal’. Le tableau 3 montre que le pourcentage de variation expliquée par le modèle (estimé par R2) est égal 58%. La variable sexe n’a aucun effet alors qu’il existe un effet significatif du niveau d’étude et de l’âge. Ainsi, il faut tenir compte de ces deux derniers pour interpréter les résultats obtenus au A-MMSE. Une table de correction a été établie pour aboutir à un score ajusté qui tienne compte des variables âge et niveau d’étude. Le score ajusté correspond à la somme algébrique du score brut obtenu auquel on ajoute ou retranche (selon le signe) la valeur de la ‘Correction’ affichée au tableau 4. Tableau 3 : Effet des variables sociodémographiques dans le groupe Normal Prédicteurs Coefficients RLM* Modèle RLM* B** β*** t p F P R2 Constante 30,46 33,58 0,000 Niveau 0,18 0,66 8,53 0,000 49,06 0,000 0,58 Etude Age -0,06 -0,33 -4,27 0,000 Sexe -0,01 -0,08 0,939 *RLM : Régressions Linéaires Multiples, **B : coefficient non standardisé, ***β : coefficient standardisé. 772 Tableau 4 : Table de correction du score initial du test A-MMSE Niveau d’étude 0-4 5-10 11-15 ≥16 Age ≤55 0 -1 -2 -3 56-72 1 0 -1 -2 73-90 2 1 0 -1 >90 3 2 1 0 Pour vérifier que la correction apportée permet d’éliminer l’effet du niveau d’étude et de l’âge, nous avons analysé par RLM le score ajusté sur l’ensemble de la population d’étude. Les résultats confirment que le score ajusté est totalement indépendant de l’âge et du niveau d’étude. Ainsi pour un patient, âgé de 64 ans, ayant fait 12 années d’études et ayant obtenu un score de 29 au A-MMSE, on doit enlever 1 point à son score initial pour obtenir un score ajusté de 28. Ce dernier correspond au score présumé si les effets des variables âge et niveau d’étude sont stabilisés. Pour un sujet non scolarisé, âgé de 86 ans, ayant obtenu un score de 20 au A-MMSE, nous ajouterons 2 points à son score initial pour aboutir à un score ajusté de 22. Fidélité du test A-MMSE La consistance interne du test A-MMSE est appréciée par le coefficient alpha de Cronbach. La valeur obtenue pour l’ensemble de la population d’étude est juste acceptable (alpha =0,72). La majorité des items contribuent à la consistance du test et en particulier l’item ‘orientation’. L’item ‘répétition’ est le moins homogène. La question de sa suppression pourrait se poser. Pour la fidélité au test-retest, le score A-MMSE moyen, lors de la première passation, est égal à 25,40 avec un écart-type de 4,98 et lors de la deuxième passation, est égal à 25,25 avec un écart-type de 4,58. La différence entre paires de scores n’est pas significative selon le test de Wilcoxon (Z=-0,70 ; p=0,484). Il n’y a donc pas d’effet significatif d’apprentissage entre les deux passations. La concordance au test-retest estimée par le coefficient de corrélation de Spearman est très LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) élevée (rho=0,95 ; p<0,000). Le coefficient de corrélation intra-classe (CIC) est de 0,97 avec un IC95% de 0,95 à 0,98. Ces corrélations sont hautement significatives indiquant que les performances au A-MMSE sont stables dans le temps. Pour conclure, le test A-MMSE présente une consistance interne acceptable. L’évaluation est très fidèle sans effet d’apprentissage ni de reclassement, associée à une excellente stabilité des scores dans le temps. Validité du test A MMSE La validité est étudiée sur le score ajusté (par la correction proposée au tableau 4) et ce afin de neutraliser l’effet des variables sociodémographiques sur le scores global du A-MMSE. Nous nous proposons de vérifier la validité clinique du test AMMSE ainsi que sa validité concourante avec l’échelle CDR. Validité clinique Il s’agit d’apprécier le pouvoir discriminant du A-MMSE, autrement dit sa capacité à distinguer les sujet du groupe ‘Démence’ des autres sujets (groupe ‘MCI’ ou groupe ‘Normal’). L’aire sous la courbe ROC, estimateur de l’efficacité globale du test, est de 0,96 avec p<0,000 (Figure 1). Le test A MMSE est excellent et très fiable pour distinguer les sujets déments des sujets non déments. plus sûr (spécificité=99% et kappa=0,77) bien que sa sensibilité soit faible (71%). La figure 3 résume les résultats. Validité concourante Le score CDR-Global est inversement très corrélé au score AMMSE ajusté (rho= -0,67, p<0,000). La figure 4 montre que les 2 scores ne sont pas très concordants pour les sujets cotés 0.5 ou 1 par le CDR-Global. Ils sont plus concordants pour les cotations extrêmes. En effet, tous les sujets avec CDRGlobal=0 sont au-dessus du score-seuil A-MMSE ajusté=26 et inversement, tous ceux, dont le CDR-Global est ≥2, se situent sous le score-seuil A-MMSE ajusté=26. Le score CDR-SB est légèrement mieux corrélé avec le score AMMSE ajusté (rho= -0,69; p<0,000). Ainsi la validité concourante du test-A-MMSE et de l’échelle CDR ne peut être établie car les 2 coefficients rho sont <0,70. Leur liaison n’est que modérée. La figure 5 illustre le résultat de l’évaluation concourante par le test A-MMSE et par l’échelle CDR. Il semble que le recours combiné aux scores-seuil CDR-SB=3 et A-MMSE ajusté=26 permettent de reconnaître tous les sujets du groupe ‘Démence’. Figure 2 : Sensibilité et spécificité du test A-MMSE pour le diagnostic de la démence Figure 1 : Validité clinique du A-MMSE par l’analyse ROC. Tableau 5 : Critères de sélection des scores-seuil A-MMSE pour le diagnostic de la démence. Démence Score-seuil A-MMSE Oui Non Oui 55 57 Non 1 73 Oui 53 24 Non 3 106 Oui 43 6 Non 13 124 Oui 40 1 Non 16 129 Oui 31 0 Non 25 130 ≤27 Données normatives et scores-seuil La figure 2, issue de l’analyse de la courbe ROC, nous permet de localiser les scores-seuil que l’on peut proposer pour le test A -MMSE. Le tableau 5 résume les résultats obtenus pour 5 scores-seuil décroissants allant de 27 à 23 et pour lesquels ont été appréciées la sensibilité, la spécificité, la valeur diagnostique et la concordance avec le gold standard (estimée par kappa et le test de McNemar). Il en ressort que le score A-MMSE ajusté =26 est le plus indiqué dans une optique de dépistage (sensibilité=95%, spécificité=82% et kappa=0,69). En revanche, pour le diagnostic de Démence, le score A-MMSE ajusté =24 est ≤26 ≤25 ≤24 ≤23 Sensibilité Spécificité (IC95%)+ (IC95%)+ 2++ Kappa p Mc Nemar 98% (96 à 100) 56% (48 à 64) 48,29* 0,42 0,000 95% (90 à 100) 82% (76 à 88) 93,63* 0,69 0,000 77% (66 à 88) 95% (91 à 99) 105,06* 0,75 0,167 71% (60 à 82) 99% (98 à 100) 113,72* 0,77 0,000 55% (42 à 68) 100% 86,36* 0,63 0,000 + IC95% : Intervalle de confiance à 95 % en pourcent ; ++ χ2 de Pearson ; * p=0,000 773 T. Bellaj - Version arabe du Mini Mental State Examination Figure 3 : Scores-seuil et distribution des scores A-MMSE par groupe Figure 4 : Scores-seuil et distribution des scores A-MMSE selon le score CDR-Global Figure 5 : Concordance des scores A-MMSE et CDR-SB dans la population d’étude 774 DISCUSSION Le principal objectif de cette étude est de présenter la version arabe du MMSE (A-MMSE), de vérifier ses qualités psychométriques et de fournir aux cliniciens et chercheurs tunisiens les normes appropriées. L’adaptation en langue arabe du MMSE a consisté en une traduction de tous les items associés à des changements de contenu pour quelques items : ‘orientation’, ‘enregistrement’, ‘exécution d’ordres’ et ‘praxie constructive’. L’étude de la fidélité du A-MMSE montre des résultats mitigés. La consistance interne du A-MMSE n’est qu’acceptable alors que la fidélité au test-retest se révèle excellente, attestant la stabilité du score global dans le temps, sans effet d’apprentissage ni de reclassement. Le coefficient de corrélation, obtenu pour le test-retest du A-MMSE (rho=0,95), est similaire à ceux trouvés dans les travaux de Folstein et al (1) ou de Blesa et al (36). En revanche, l’alpha de Cronbach est à peine acceptable (alpha=0,72) quoique supérieur à celui de la version Suédoise Holm & Söderhamn pour laquelle ce coefficient (alpha=0,58) est médiocre (37). L’effet plancher noté au niveau des items relatifs à la praxie constructive, le rappel et l’attention montre que ces items semblent exigeants et assez difficiles pour des patients. En revanche, l’effet plafond observé au niveau des items ‘enregistrement’, ‘dénomination’, ‘répétition’ et ‘exécution d’ordres’ suggère que ces items sont très faciles. Ces effets sont des indices en faveur de la vulnérabilité à la baisse de la consistance interne de l’échelle comme l’atteste le faible coefficient alpha de Cronbach que nous avons trouvé. En outre, l’apparition des effets plancher et plafond, dans un test, affaiblit son pouvoir discriminant (38). Le score global du A-MMSE est sensible aux effets de l’âge et du niveau d’étude (notre travail, Crum et al (39), Blesa et al (36) et Rosselli et al (40)). Jacqmin-Gadda et al (41) trouvent, dans une étude longitudinale sur des sujets âgés de 65 ans et plus, que la baisse des scores du MMSE concerne essentiellement les sujets les plus âgés et les moins scolarisés. De faux positifs peuvent être observés chez des sujets de bas niveau d’étude. Les sujets peu scolarisés auraient le plus de difficultés dans les items d’orientation par rapport à la saison, des soustractions sérielles, d’épellation à l’envers, de lecture, d’écriture et de dessin de figure géométrique (42). Dans notre population d’étude, l’effet du niveau d’éducation s’est avéré plus fort que celui de l’âge. Ce résultat corrobore celui trouvé dans une population Hispanique où les items, relatifs à la lecture, l’écriture et le calcul, se sont avérés les plus sensibles à l’effet du niveau d’éducation (43). Les mêmes auteurs constatent que chez les sujets non scolarisés ou peu scolarisés, la spécificité du MMSE s’affaiblie à 50%. Pour Ostrosky-Solis et al (43), ceci indique que le MMSE a peu d’intérêt dans la détection et le diagnostic des syndromes démentiels auprès des sujets de bas niveau d’éducation. Quant à l’effet du sexe, quelques études rapportent des performances qui désavantageraient les femmes dans les items des séries de soustractions et les hommes dans l’épellation et autres tâches du langage (42). Dans notre étude, l’effet du sexe n’est pas significatif. C’est le résultat le plus fréquemment observé lorsqu’on analyse les variables LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) sociodémographiques simultanément (44). En effet, il n’y a pas de raison pour qu’un homme et une femme, ayant le même âge et le même niveau d’étude, diffèrent dans un test évaluant des compétences élémentaires générales. Afin de contrôler l’effet des variables sociodémographiques, nous avons proposé une correction aux scores bruts selon ces variables. Les analyses de validité ont été réalisées après ajustement des scores bruts. L’utilisation de 3 groupes pour l’étude des qualités psychométriques est novatrice. Elle examine le diagnostic de la démence en se référant à un continuum allant de la normalité (groupe ‘Normal’) à la pathologie démentielle (groupe ‘Démence’) en passant par un groupe intermédiaire de patients ‘MCI’. Quant aux données normatives, les scores-seuil 23/24 ont été très fréquemment cités (1,39). Notre score-seuil 24, pour le diagnostic de la démence, cadre parfaitement avec ces données et nous rassurent quand à la possibilité de comparaisons interculturelles avec les autres versions du MMSE. Notre adaptation de ce test pour l’orientation, l’attention, le langage et la praxie constructive est donc satisfaisante. Un score-seuil de 25 a été noté par Blesa et al (36) qui pensent que cet écart d’un point pourrait revenir à l’évolution des caractéristiques socioculturelles de la population. Dans notre étude, au scoreseuil 26, le test A-MMSE est très sensible (95%) et relativement spécifique (82%) alors qu’au score-seuil 24, il est très spécifique (99%) mais peu sensible (71%). Ce dernier résultat diffère de celui trouvé par Anthony et al pour qui la sensibilité est de 87% et la spécificité de 82% à ce seuil (7). La validité diagnostique différentielle du A-MMSE, dans des populations présentant différents syndromes démentiels (Alzheimer, frontotemporal, à corps de Lewy…), reste à vérifier. La validité concourante du test A-MMSE n’a pas été établie avec l’échelle CDR. Cette dernière évalue un axe non exploré par le MMSE. Il s’agit de l’axe ‘Jugement et résolution de problèmes’. Le test A-MMSE et l’échelle CDR sont plus complémentaires que concourants. Le test A-MMSE est facile à administrer, ce qui lui permet d’être incorporé dans la pratique clinique de routine. Grâce à sa fidélité au test-retest, il est très utile pour suivre les changements cognitifs chez des sujets consultants en Neurologie, en Psychiatrie ou en Gériatrie… Dans les études visant à dépister la démence au sein de la population générale, le score-seuil 26 est le plus indiqué de part son excellente sensibilité. Rappelons que le test A-MMSE n’est fiable que pour le diagnostic et le dépistage de la démence. Il ne permet pas de distinguer les états ‘MCI’ des sujets normaux. En fait, les syndromes démentiels et apparentés posent un problème de société de plus en plus ardu et rendent nécessaire une réflexion approfondie pour leur dépistage, leur prévention et leur prise en charge. L’adaptation et la construction d’outils plus appropriés demeurent indispensables. RÉFÉRENCES Society;1992;40:922-935. 11) Henderson AS. The Epidemiology of Alzheimer’s Disease. British Medical Bulletin 1986;42:3-10. 12) Kay DWK, Henderson AS, Scott R, Wilson J, Richwood D, Grayson DA. Dementia and depression among elderly living in the Hobart community: The effect of the diagnostic criteria on the prevalence rates. Psychological Medicine 1985;15:771–788. 13) Institut National de la Statistique : Données officielles relatives au recensement de 2004 effectué en Tunisie. http://www.ins.nat.tn/fr/rgpheduc4.php (Date de consultation le 07/07/2008) 14) Katzman R, Zhang M, Ouang-Ya-Qu WZ, Liu WT, Yu E, Wong SC, Salmon DP, Grant I.. A Chinese version of the Mini-Mental State Examination: Impact of illiteracy in a Shanghai dementia survey. Journal of Clinical Epidemiology 1988;41:971-978 15) Park JH, Kwon YC. Modification of the Mini-Mental State Examination for use in the elderly in a non-western society. Part I. Development of Korean version of Mini-Mental State Examination. International Journal of Geriatric Psychiatry 1990;5:381–387. 16) Shaji S, Promodu K, Abraham T, Roy KJ, Verghese A. An epidemiological study of dementia in a rural community in Kerala, India. Br J Psychiatry. 1996;168:745-9. 17) Almeida OP. Mini mental state examination and the diagnosis of dementia in Brazil. Arquivos de Neuro-Psiquiatria 1998;56:605-12. (Abstract) 18) Maki N, Ikeda M, Hokoishi K, Nebu A, Hirono N, Tanabe H. Japanese version of the Short-Memory Questionnaire and Mini-Mental State Examination in relation to demographic variables: community survey of elderly healthy residents in Nakayama, Japan. No To Shinkei 1999;51:209-13. (Abstract) 1) Folstein MF, Folstein SE, McHugh PR. “Mini-mental State”: a practical method for grading the cognitive status of patients for the clinician. Journal of Psychiatric Research 1975;12:189–198. 2) Thal LJ, Grundman M, Golden R. Alzheimer’s disease: a correlational analysis of the Blessed Information-Memory-Concentration Test and the Mini-Mental State Examination. Neurology 1986;36:262-264. 3) Fillenbaum GG, Heyman A, Wilkinson WE, HaynesCS. Comparison of two screening tests in Alzheimer’s disease. The correlation and reliability of the Mini-Mental State Examination and the modified Blessed Test. Archives of Neurology 1987;44:924-927. 4) Farber JF, Schmitt FA, Logue PE. Predicting intellectual level from the MMSE. Journal of the American Geriatric Society 1988;36:509-510. 5) Tsai L, Tsuang MT. The Mini-mental state test and. computerized tomography. American Journal of Psychiatry 1979;136:436-438. 6) Folstein, MF, Robins LN, Helzer JE. The Mini-Mental State Examination. Archives of General Psychiatry 1983; 40:812. 7) Anthony JC, LeResche L, Niaz U, Von Korff MR, Folstein MF. Limits of the ‘Mini-Mental State’ as a screening test for dementia and delirium among hospital patients. Psychological Medicine 1982;12:397-408 8) Dick JPR, Ghiloff RJ, Stewart A, Blackstock J, Bielawska C, Paul EA. MiniMental State Examination in neurological patients. Journal of Neurology Neurosurgery and Psychiatry 1984;47:496–499. 9) Bleecker ML, Bolla-Wilson K, Kawas C, Agnew J. Age-specific norms for the Mini-Mental State Exam. Neurology 1988;38:1565-1568. 10) Tombaugh TN, McIntyre NJ. The Mini-Mental State Examination: a comprehensive review. Journal of the American Geriatric REMERCIEMENTS Nous remercions les enseignants de Lettres de la Faculté des Sciences Humaines et Sociales de Tunis qui ont contribué à la traduction du test. Nous souhaitons aussi remercier tous les psychologues qui ont contribué à la collecte des données : - Les psychologues praticiens ou stagiaires au service de Neurologie de l’EPS Charles Nicolle : Lamia Ftouhi, Nadya Anane, Fathia Horchani, Nouria Oudiaa Zakraoui, Aroua Cherif, Nadia Ouali, Aymen Khalsi et Soumaya Belhaj ; - Les étudiants en 4ème année neuropsychologie (2005/2006) qui ont réalisé l’enquête de validation : Emna Makni, Nidhaleddine El Maazi, Faten Channoufi, Asma Chaïrat, Sonia Akkari, Nesrine Ben Khalifa et Yosra Beji ; - Feriel Zneydi. Adaptation du Mini mental State Tunisia. Mémoire de maîtrise. Université de Sciences Humaines et Sociales de Tunis 2000. 775 T. Bellaj - Version arabe du Mini Mental State Examination 19) Werner P, Heinik J, Mendel A, Reicher B, Bleich, A. Examining the reliability and validity of the Hebrew version of the Mini Mental State Examination. Aging 1999;11:329-34. 20) De Silva HA, Gunatilake SB. Mini Mental State Examination in Sinhalese: a sensitive test to screen for dementia in Sri Lanka. International Journal of Geriatric Psychiatry 2002;17:134-9 21) Imam I, Onifade A, Durodoye MO, Aje A, Sogaolu AO, Kehinde O, Ogunniyi A. Performance of normal Nigerian students on the mini-mental state examination. Nigerian Journal of Medicine 2003;12:126-9. 22) Küçükdeveci AA, Kutlay S, Elhan AH, Tennant A. Preliminary study to evaluate the validity of the mini-mental state examination in a normal population in Turkey. International Journal of Rehabilitation Research 2005;28:77-9. 23) Inzelberg R, Schechtman E, Abuful A, Masarwa M, Mazarib A, Strugatsky R, Farrer LA, Green RC, Friedland RP. Education effects on cognitive function in a healthy aged Arab population. International Psychogeriatry 2007;19:593603. 24) Van de Vijver F, Hambleton RK. Translating Tests: Some Practical Guidelines. European Psychologist 1996;1:89-99. 25) Elhan AH, Kutlay S, Küçükdeveci AA, çotuk ç, Öztürk G, Tesio L, Tennant A. Psychometric properties of the Mini-Mental State Examination in patients with acquired brain injury in Turkey. Journal of Rehabilitation Medicine 2005;37:306-311. 26) Wechsler D. WAIS-R. Paris: Les Editions du Centre de Psychologie Appliquée, 1983. 27) Butters N, Barton M. Effect of parietal lobe damage on the performance of reversible operations in space. Neuropsychologia 1970;8:205-214. 28) Petersen RC. Mild Cognitive Impairment: Where are we? Alzheimer Disease and Associated Disorders 2005;19:166-169.?? 29) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 30) American Psychiatric Association. Diagnostic and statistical manual of mental disorders. Washington DC:APA;1994. 31) Mc Khann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Clinical diagnosis of Alzheimer’s disease: report of the NINCDS-ADRDA work group. Neurology 1984;34:939-944. 32) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J, Delacourte A et al. Research criteria for the diagnosis of 776 Alzheimer's disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 33) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 34) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 35) Hugonot-Diener L. A. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In: La consultation en Gériatrie. Collection: consulter/prescrire. Paris, Masson Ed. 2001. 36) Blesa R, Pujol M, Aguilar M, Santacruz P, Bertran-Serra I, Hernandez G, Sol JM, Pena-Casanova J. Clinical validity of the ‘mini-mental state’ for Spanish speaking communities. Neuropsychologia 2001;39:1150-1157. 37) Holm B, Söderhamn O. Factors associated with nutritional status in a group of people in an early stage of dementia. Clinical Nutrition 2003;22:385-389. 38) Dickés P. La psychométrie: théories et méthodes de la mesure en psychologie. Paris: Presses Universitaires de France, 1994. 39) Crum RM, Anthony JC, Bassett SS, Folstein MF. Population based norms for the Mini-Mental State Examination by age and educational level. JAMA 1993;269:2386-2391. 40) Rosselli M. The relation of education and gender on the attention items of the Mini-Mental State Examination in Spanish speaking Hispanic elders. Archives of Clinical Neuropsychology 2006;21:677-686. 41) Jacqmin-Gadda H, Fabrigoule C, Commenges D, Dartigues JF. A 5-year longitudinal study of the Mini-Mental State Examination in normal aging. American Journal of Epidemiology 1997;145:478-507. 42) Jones RN, Gallo JJ. Education and Sex Differences in the Mini-Mental State Examination: Effects of Differential Item Functioning. The Journals of Gerontology Series B: Psychological Sciences and Social Sciences 2002;57:548-558. 43) Ostrosky-Solis F, Lopez G, Ardila A. Sensitivity and Specificity of the minimental state examination in a Spanish-speaking population. Applied Neuropsychology 2000;7:25-31. 44) Lemaître H, Crivello F, Grassiot B, Alpérovitch A, Tzourio C, Mazoyer B. Age- and sex-related effects on the neuroanatomy of healthy elderly. Neuroimage 2005;26:900-911. ARTICLE ORIGINAL VERSION ARABE DE L’ALZHEIMER’S DISEASE ASSESSMENT SCALE COGNITIVE SUBSCALE (A-ADAS COG) Sonia Ben Jemaa*, Tarek Bellaj*, Neila Attia Romdhane**, Nouria Oudiaa Zakraoui**, Aroua Cherif**, Moncef Bouaziz***, Amel Mrabet** * Département de psychologie, Faculté des Sciences Humaines et Sociales de Tunis -** Service de Neurologie, EPS Charles Nicolle, Tunis *** Laboratoire de Neurosciences - Faculté des Sciences de Tunis. S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, N. Oudiaa Zakraoui, A. Cherif, M. Bouaziz, A. Mrabet. S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, N. Oudiaa Zakraoui, A. Cherif, M. Bouaziz, A. Mrabet. VERSION ARABE DE L’ALZHEIMER’S DISEASE ASSESSMENT SCALE - COGNITIVE SUBSCALE (A-ADAS COG) ARABIC VERSION OF THE ALZHEIMER’S DISEASE ASSESSMENT SCALE - COGNITIVE SUBSCALE (A-ADAS COG) LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 777 - 785 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 777 - 785 RÉSUMÉ Pré-requis: L’Alzheimer’s Disease Assessment Scale (ADAS) est utilisée pour décrire les troubles inhérents à la maladie d’Alzheimer et d’étudier leur progression. Il n’existe aucune version arabe de l’ADAS. Buts: Présenter une adaptation Arabe de la partie Cognitive de l’ADAS (A-ADAS Cog). Vérifier la fidélité et la validité de l’AADAS Cog pour le diagnostic de Démence de Type Alzheimer (DTA). Méthodes: La population d’étude se compose de trois groupes (107 ‘Témoins’, 71 sujets ‘Non DTA’ et 29 patients ‘DTA’). Ils ont aussi été explorés par l’A-MMSE et la CDR. Résultats: Les analyses de régressions linéaires multiples montrent que le score A-ADAS Cog dépend de l’âge et du niveau d’étude. Une table de correction est établie pour contrôler ces effets. La consistance interne de l’échelle A-ADAS Cog est bonne. Le coefficient alpha de Cronbach est de 0,86 pour la population d’étude, de 0,87 pour les ‘DTA’ et de 0,65 pour les ‘Non DTA’. Au test-retest, les performances sont stables (rho=0,95). L’échelle A-ADAS Cog différencie les 3 groupes par son score global et ses scores aux subtests. L’échelle possède un excellent pouvoir discriminant pour le diagnostic de la DTA (aire ROC=0,921). Le score-seuil 10 (sensibilité=93% et spécificité=81%) est indiqué pour le dépistage de la DTA. L’échelle A-ADAS Cog respecte les stades évolutifs de l’échelle CDR. Sa validité concourante est établie avec l’A-MMSE (rho=-0,73), le CDR-SB (rho=0,80) et le CDR-Global (rho=0,73). Conclusion: Les résultats indiquent que l’échelle A-ADAS Cog est fidèle et valide. Elle est très sensible pour le dépistage de la DTA. SUMMARY Background: The Alzheimer’s Disease Assessment Scale (ADAS) is used to describe disorders inherent to Alzheimer’s disease and to study their progression. There is not any Arabic version of the ADAS. Aims: To introduce an adapted Arabic version of the ADAS Cognitive subscale (A-ADAS Cog). To verify A-ADAS Cog reliability and validity for Dementia of the Alzheimer Type diagnosis (DAT). Methods: Three groups (107 ‘Controls’, 71 ‘Non DTA’ cases and 29 ‘DTA’ patients) are enrolled in the study. They have also been assessed with A-MMSE test and CDR scale. Results: Multiple linear regressions analysis show that A-ADAS Cog score depends on Age and Education. A correction tables is drawn up to control these effects. A-ADAS Cog internal consistency is good. Cronbach’ alpha is equal to 0.86 for the whole population, to 0.87 for 'DTA' group and to 0.65 for 'Non DTA' group. In test-retest, A-ADAS Cog performances are stable (rho=0.95). The A-ADAS Cog scale differentiates the 3 groups by its global score and its subtests scores. At Receiver Operating Characteristic (ROC) analysis, A-ADAS Cog scale has an excellent discriminating power for DAT diagnosis (AUC=0.921). Cut-off score 10, with its sensitivity=93% and specificity=81%, is valuable for DAT screening. A-ADAS Cog scale respects CDR scale evolutionary stages. Its concurrent validity is established with A-MMSE (rho=-0.73), CDRSB (rho=0.80) and Global CDR (rho=0.76). Conclusion: All results indicate that A-ADAS Cog scale is reliable and valid. This scale is very sensitive for DAT screening. M K O T S - C L É S Maladie d’Alzheimer – Alzheimer’s Disease Assessment Scale Cognitive (ADAS Cog) – Adaptation – Validité – Fidélité – Données normatives. E Y - W O R D S Alzheimer’s disease – Alzheimer’s disease Assessment Scale Cognitive subscale (ADAS Cog) – Arabic version – Validity – Reliability – Normative data. (A-ADAS Cog) dLO≥e∞√ ÷d± ”UOÆ rKß s± wM≥c∞« ¡eπK∞ WHOJL∞« WO°dF∞« WªºM∞« .j°«d± ‰U±√ ,e¥e´u° nBM± , n¥dA∞« È˸√ ,ÍË«dØ“ l¥œË √ W¥¸u≤ ,ÊUC±¸ WOD´ WKzU≤ ,ZFKK° ‚¸U© ,WFL§ s° WOMß : Êu∏•U∂∞« .dLO≥e∞√ ÷d± ”UOÆ rKß s± WO°d´ Wªº≤ W¥√ b§u¢ ô .U≥¸uD¢ Wß«¸œË dLO≥e∞√ ÷d± s´ WL§UM∞« ‹U°«dD{ô« nÅu∞ dLO≥e∞√ ÷d± ”UOÆ rKß qLF∑º¥ : W±UF∞« WOHKª∞« .dLO≥e∞√ Ÿu≤ s± ·dª∞« hOªA¢ w≠ UNÆbÅË UN¢U∂£ Wß«¸œË dLO≥e∞√ ÷d± ”UOÆ rKß s± wM≥c∞« ¡eπK∞ WHOJL∞« WO°dF∞« WªºM∞« ÂbI≤ : ·«b≥_« ¡eπK∞ WHOJL∞« WO°dF∞« WªºM∞U° WMOF∞« XB∫≠. dLO≥e∞√ ÷dL° U°UB± 29 Ë dLO≥e∞√ dO¨ ÷d± s´ r§UM∞« ·dª∞U° »UB± 71 Ë ÍœU´ hª® 107 s± WMOF∞« ÊuJ∑¢ : WOπNML∞« .·dªK∞ Íd¥dº∞« rKº∞U° Ë WOM≥c∞« W∞U∫K∞ e§uL∞« h∫H∞« s± WO°dF∞« WªºM∞U° ,dLO≥e∞√ ÷d± ”UOÆ rKß s± wM≥c∞« ÷d± ”UOÆ rKß s± wM≥c∞« ¡eπ∞« s± WO°dF∞« WªºMK∞ wKLπ∞« qÅU∫∞« vK´ wLOKF∑∞« Èu∑ºL∞«Ë sº∞« dO£Q¢ Èb± …œbF∑L∞« WODª∞« ‹«¸«b∫≤ô« qOK∫¢ ZzU∑≤ X∑∂£√ : ZzU∑M∞« q±UØ bM´ 0.86 e≥UM¢ ŒU∂≤ËdØ UH∞√ l± U∂O© UOKî«œ UÆUº¢« rKºK∞ Ê√ ZzU∑M∞« XMO°. tL߸ r¢ Íc∞« ‰Ëbπ∞« Vº• W∞u∫± ◊UI≤ v∞≈ ÂUª∞« ◊UIM∞« q¥u∫¢ »u§Ë bØR¥ UL± ,dLO≥e∞√ 777 S. Ben Jemaa - Version Arabe de l’ADAS Cog (A-ADAS Cog) ‚bB∞« hª¥ ULO≠ U±√ .)0.95 = ˸( …œU´ù« bM´ rKº∞« ‹U∂£ sº• Wß«¸b∞« X∑∂£√ ULØ .dLO≥e∞√ dO¨ ÷d± s´ r§UM∞« ·dª∞U° sO°UBL∞« bM´ 0.65 Ë dLO≥e∞√ w{d± bM´ 0.87 ,WMOF∞« qOK∫¢ bM´ wM∫ML∞« jª∞« X∫¢ ¡UCH∞« ”UOÆ dN™√ ULØ .ÁœuM° nK∑ªL° ZzU∑M∞« ¸U∂∑´U°Ë wKLπ∞« qÅU∫∞« ¸U∂∑´U° W£ö∏∞« ‹U´uLπL∞« sO° eOOL∑K∞ …bO§ …¸bÆ rKºK∞ Ê√ sO∂¢ bI≠ bM´ 10 W§¸b∞« vK´ œUL∑´ô« Èb§_« s± t≤√ X∂£ .)0.921 = ¡UC≠ ( t° sO°UBL∞« dO¨ s± dLO≥e∞√ ÷d± eOOL¢ w≠ rKºK∞ W∞ôb∞« ‹«– …¸bÆ (ROC) q∂I∑L∞« qL´ ‹UOÅUî W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« l± 0.73 = ◊U∂¢¸« q±UFL° w±“ö∑∞« ‚bB∞« …uÆ ZzU∑M∞« XMO° ULØ .)%81= WOÅuBî ,%93 = WOßUº•( dLO≥e∞√ ÷dL∞ dJ∂L∞« ·UAJ∑ßô« (Global CDR Ë CDR-SB) ·dªK∞ Íd¥dº∞« rKº∞« l± 0.76 Ë 0.80 ◊U∂¢¸« q±UFL°Ë WOM≥c∞« .t° sO°UBL∞« dO¨ s± dLO≥e∞√ ÷dL° sO°UBL∞« eOOL¢ w≠ ‚bB∞«Ë ‹U∂∏∞U° nB∑¢ dLO≥e∞√ ÷d± ”UOÆ rKß s± wM≥c∞« ¡eπK∞ WHOJL∞« WO°dF∞« WªºM∞« Ê≈: WL¢Uª∞« .W¥¸UOF± ‹UODF± - ‹U∂∏∞« - ‚bB∞«- WO°d´ Wªº≤ - dLO≥e∞√ ÷d± ”UOÆ rKß s± wM≥c∞« ¡eπ∞« - dLO≥e∞√ ÷d± : WOßUß_« ‹ULKJ∞« L’Alzheimer’s Disease Assessment Scale (ADAS) est utilisée pour caractériser les anomalies inhérentes à la maladie d’Alzheimer. Elle est également sensible à la progression de la maladie, particulièrement dans les stades modérés (1, 2). En se basant sur cette sensibilité, l’outil a été utilisé pour évaluer l’efficacité des traitements développés. L’ADAS, mise au point par Rosen et al en 1984, comprend une partie cognitive (ADAS Cog), évaluant la mémoire, le langage et les praxies, et une partie non cognitive (ADAS-non Cog) ayant pour objectif d’apprécier les troubles comportementaux au cours des Démences de Type Alzheimer (DTA). Les deux parties de l’ADAS peuvent être utilisées séparément. Dans la plupart des travaux, l’intérêt s’est plutôt porté sur l’adaptation de la partie cognitive. Certaines études longitudinales ont noté que les symptômes non cognitifs (agitation, humeur dépressive, délires, hallucinations) sont épisodiques, n’empirent pas nécessairement avec le temps et tendent à ne pas être fortement corrélés entre eux (3). Depuis sa première publication, l’ADAS est devenu un outil très largement employé en clinique neuropsychologique. Le recours à l’ADAS Cog a engendré de nombreuses adaptations à différentes langues et cultures. Nous pouvons citer, à titre indicatif, l’existence d’une version espagnole (4) et italienne (5) développées en 1994, française élaborée par le groupe GRECO en 1996 (6), grecque en 1997 (7), slovaque (8) et chinoise (9) publiées en 2000, brésilienne en 2001 (10) et turque en 2006 (11). En Tunisie, nous ne disposons pas encore d’une version arabe adaptée de cet outil. Dans sa version originale (1), ainsi que dans plusieurs autres (4-11), l’ADAS Cog comporte des subtests qui exigent que le patient sache lire (comme dans les subtests de rappel de mots et de reconnaissance de mots), écrire (comme pour le subtest praxies idéatoires) et posséder des habiletés grapho-motrices (c’est le cas du subtest des praxies constructives). Ce sont autant de facteurs à prendre obligatoirement en compte lorsqu’on se propose d’adapter cet outil à la population tunisienne. Cette dernière présente un taux relativement important d’illettrés (22,9%), surtout parmi ses sujets âgés de plus de 60 ans (76,8%), selon les données du dernier recensement de l’Institut National de la Statistique en 2004 (12). En 2001, nous avons adapté à la population tunisienne une version arabe de l’ADAS Cog., désignée A-ADAS Cog. Depuis, différents travaux ont été réalisés et leurs résultats colligés en vue d’établir la fidélité, la validité et les normes de l’A-ADAS Cog. M AT É R I E L E T M É T H O D E S Adaptation et présentation de l’échelle A-ADAS Cog Notre adaptation a respecté les objectifs théoriques fondamentaux de la version originale tout en répondant aux contraintes et aux 778 usages de la langue Arabe et au dialecte Tunisien. Nous nous sommes inspirés de la version française pour l’ordre de passation des subtests et pour le système de cotation. Pour le choix des stimuli, nous nous sommes basés sur un travail préliminaire tunisien, de Bellaj et al, portant sur les catégories sémantiques et décrit dans l’article de Romdhane et al dans ce même numéro de la Tunisie Médicale . Ce travail nous a permis de relever les catégories sémantiques les plus et les moins productives. Nous avons opté pour un ordre de fréquence allant de 6 à 20. Ceci nous a permis d’éviter les exemplaires prototypiques sur-appris des catégories et les items trop peu fréquents ou qui comportent une connotation régionale et qui risquent d’être méconnus par l’ensemble de la population. Nous avons contrôlé la variable longueur des mots en optant pour des items bi ou tri syllabiques. Nous avons également fait en sorte que les stimuli soient pertinents et les consignes formulées dans un langage assez simple pour qu’elles soient compréhensibles par l’ensemble des sujets. Nous avons supprimé la composante « lecture » et « écriture » puis préexpérimenté l’échelle. L’ADAS Cog est une échelle comportant 11 subtests explorant trois axes : la mémoire, le langage et les praxies. L’examen débute par un entretien semi structuré de 10 minutes qui permet de coter les trois premiers subtests (intelligibilité du langage oral, compréhension et manque de mots). Le score global maximal est de 70. Plus les scores sont élevés, plus les déficits cognitifs sont importants (le 0 signifiant l’absence de troubles). Subtests ‘intelligibilité du langage oral’, ‘compréhension’ et ‘manque de mots’ L’intelligibilité du langage oral indique la sévérité de l'atteinte de l’expression et évalue la clarté du discours spontané et propositionnel. Le subtest ‘compréhension’ renseigne sur la sévérité de la détérioration de la compréhension orale. Le ‘manque de mots’ évalue la capacité du sujet à trouver le ‘bon’ mot dans une situation d'échange verbal ainsi que la sévérité du manque de mots. Chaque subtest est coté de 0 à 5 selon un gradient de sévérité défini (0= aucune difficulté, 5= difficulté sévère). Aucune modification n’a été apportée à ces subtests. L’entretien porte sur des questions d’ordre général impliquant des connaissances autobiographiques, épisodiques et sémantiques et ne comporte pas d’aspects culturels ou scolaires qui nécessiteraient une adaptation particulière. Subtest ‘rappel de mots’ Il est destiné à évaluer non seulement la mémoire épisodique, mais aussi les capacités d’apprentissage. Il consiste à faire apprendre au patient une liste de 10 mots en 3 essais successifs. LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) A chaque essai, l’ordre des items change. Le score correspond au nombre moyen de mots non restitués aux 3 essais (score/10). Dans notre version, c’est l’expérimentateur qui lit les items au patient lors des 3 phases d’apprentissage et lui demande de les répéter afin de ne pas défavoriser ni exclure les sujets illettrés ou peu scolarisés. Comme pour la version originale, nous avons veillé à ce que les mots sélectionnés soient concrets, bi ou trisyllabiques et appartiennent à différentes catégories sémantiques. Nous avons cependant apporté des modifications quant au choix des critères sémantiques. Les 10 catégories sémantiques retenues sont celles qui possèdent un degré de productivité acceptable, à savoir les: animaux, légumes, véhicules, aliments, métiers, ustensiles, métaux, organes, moyen de transports, et épices (un item par catégorie). Ces items ont un ordre de fréquence variant entre 6 et 20. Sur les 10 catégories, 5 sont celles d’objets vivants et les 5 autres celles d’objets non vivants et ce afin de détecter un éventuel ‘déficit catégoriel spécifique’ (specific category impairment). Bien que bien établis (13-17), les débats, sur la nature des déficits en mémoire sémantique dans la ‘DTA’, continuent (18, 19). Subtest ‘dénomination’ Il s’agit de dénommer 12 objets réels ainsi que les doigts de la main. Le score correspond au nombre de réponses incorrectes (score/5). Ce subtest implique des capacités langagières mais explore aussi la représentation et l’organisation des savoirs (accessibilité vs disponibilité) en mémoire sémantique. Dans notre version, nous avons remplacé les dessins d’objets relatifs aux items lit, peigne, masque, sifflet, portefeuille, hochet, harmonica, stéthoscope et entonnoir. Nous avons proposé à la place clé, pomme, vache, verre, chaussure, poire, bague, chien et cuillère et ce pour deux raisons. En effet certains items (masque, sifflet, portefeuille, hochet, harmonica, stéthoscope et entonnoir) sont chargés culturellement ou scolairement. Nous avons veillé à ce qu’il y ait autant d’objets réels et familiers appartenant à des catégories d’objets vivants qu’à des catégories d’objets non vivants. Subtest ‘orientation’ Il évalue 8 composantes spatio-temporelles. La cotation est basée sur le total des réponses incorrectes (score/8). Nous avons remplacé les questions qui portent sur le nom du patient (précédemment posées au cours de l’entretien clinique), sur la date et l’année (qui risquent de désavantager les personnes non scolarisées ou qui ne connaissent que le calendrier de l’Hégire) par des questions portant sur le gouvernorat, la ville et le pays dans lesquels nous nous trouvons. Ces questions permettent de renseigner sur l’orientation spatiale du sujet et sur la dimension temporelle de la mémoire autobiographique et épisodique. Subtest ‘exécution d’ordres’ L’exécution d’ordres, ou praxie idéomotrice, fait partie avec les deux subtests suivants du groupe des praxies gestuelles (par opposition aux praxies spécialisées). Ce subtest évalue la capacité du sujet à réaliser 5 actes comportant une à 5 composantes. Dans cette épreuve, l’accent est mis sur la réalisation des 5 composantes et non sur la capacité du sujet à se rappeler la consigne. Le score correspond au nombre de composantes non exécutées (score/5). L’expérimentateur demande au sujet d’écouter attentivement ce qu’il lui demande, puis d’exécuter. Nous ne lui avons apporté aucune modification, ni de contenu ni de forme. Subtest ‘praxies idéatoires’ Il évalue la capacité du sujet à réaliser correctement 5 gestes principaux relativement complexes. Afin de ne pas défavoriser les sujets non scolarisés, nous avons supprimé la composante écriture. Nous demandons au sujet d’allumer une bougie à l’aide d’une boite d’allumettes. Le nombre de composantes à réaliser et leur degré de complexité a été maintenu. Les 5 gestes à accomplir sont : ouvrir la boite d’allumette, en sortir une allumette, l’allumer, allumer la bougie, éteindre l’allumette. Nous n’avons apporté aucun changement aux critères de cotation. C’est la réalisation des 5 composantes qui importe. Le score compte le nombre de composantes non exécutées (score/5). Subtest ‘praxies constructives’ Il évalue la capacité du sujet à reproduire des figures géométriques (cercle, 2 rectangles superposés, un losange et un cube). Le score est gradué selon le nombre de figures incorrectes (score/5). Nous avons remplacé la situation de dessin (qui nécessite l’utilisation d’un stylo) par une autre où le sujet n’exerce pas d’habiletés scolaires. Dans notre version, nous demandons au sujet de reproduire 4 figures géométriques, de niveau de difficulté croissant, à l’aide d’allumettes tout en veillant à ce que la tête de l’allumette coïncide avec le sens de la flèche. Nous avons conservé le système de cotation de la version originale. Subtest ‘reconnaissance de mots’ Il évalue la capacité du sujet à reconnaître au sein d’une liste de 24 mots (concrets, imageables, non ambigus, bi ou trisyllabiques et de fréquence similaire) 12 cibles, préalablement présentées, appartenant à 12 catégories sémantiques. Deux types d’erreurs sont retenus : omission ou fausse reconnaissance. Les 12 catégories sémantiques que nous avons retenus sont : couleurs, épices, meubles, fruits, reptiles, armes, fleurs, oiseaux, aliments, lieux, légumes, animaux. Le subtest comporte deux essais successifs. Au deuxième essai, les cibles sont maintenues alors que les distracteurs changent. Le score correspond à la moyenne des erreurs sur les deux essais (score/12). Lors de la passation de ce subtest, nous notons le nombre de fois où le sujet a omis ce qu'il est appelé à faire, c’est à dire les oublis de la consigne, et ce pour les deux essais. Pour réduire les risques d’interférence entre les subtests ‘rappel de mots’ et ‘reconnaissance de mots’, nous avons maintenu le subtest ‘rappel de mots’ en 4ème position et la ‘reconnaissance de mots’ en dernier. Nous avons aussi évité que les subtests portent sur les mêmes catégories sémantiques. Subtest ‘rappel des consignes’ Dans ce subtest, le clinicien comptabilise le nombre de fois où le patient a oublié une consigne et ou on la lui a répétée (score/5). Aucune modification n’a été apportée à ce subtest. 779 S. Ben Jemaa - Version Arabe de l’ADAS Cog (A-ADAS Cog) Population d’étude L’étude a porté sur une population totale de 207 sujets répartis en 3 groupes ‘Témoins’, ‘Non DTA’ et ‘DTA’ (Tableau 1). Les 3 groupes ne présentent pas de différence statistiquement significative pour le sexe, de l’âge ou du Niveau d’Etude (NE). Le groupe ‘Témoins’ se compose de 107 sujets normaux, âgés de 50 à 95 ans, ne présentant ni plaintes cognitive ni conative et parfaitement autonomes pour les activités de la vie quotidienne. Le groupe ‘DTA’ est constitué de 29 patients dont l’âge varie de 50 à 89 ans et qui présentent une DTA dont le diagnostic repose sur les critères du DSM IV et du NINCDS-ADRDA work group révisés par Dubois et al en 2007 (20, 21, 22). Le groupe ‘Non DTA’ réunit 71 patients, âgés de 50 à 94 ans qui présentent un état MCI ou une démence de type non Alzheimer (Frontotemporale, à Corps de Lewy, vasculaire …) et ce conformément aux derniers consensus établis pour les états MCI et démentiels (23, 24, 25, 26, 27). Ont été exclus, les sujets présentant des troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques. Ont aussi été exclus les patients présentant une autre pathologie neurologique ou psychiatrique chronique pouvant engendrer des troubles cognitifs, les sujets aux antécédents d’abus de consommation de médicaments, de drogue ou d’alcool ainsi que les personnes qui vivent ‘isolées’. Les patients présentant une pathologie chronique courante en Gériatrie (hypertension, diabète ou autre) n’ont été exclus que lorsque leur pathologie n’était pas contrôlée par les médicaments. Procédures et modalités d’exploration Tous les participants ont été consentants et informés de l’objectif du travail. Les patients ont été examinés de manière individuelle au Service de Neurologie de l’EPS Charles Nicolle. Ils ont bénéficié d’un examen neurologique, biologique, de neuroimagerie (TDM, IRM et/ou SPECT) ainsi que d’un examen neuropsychologique approfondi des fonctions cognitives (langage, mémoire, praxies, gnosies…) et conatives. Les conditions de passation et modalités de cotation des différents tests neuropsychologiques ont été respectées. Cinquante quatre sujets ont été re-testés par l’échelle A-ADAS Cog 4 à 6 semaines après l’évaluation initiale. Cent neuf sujets ont bénéficié d’une évaluation concourante par l’échelle Clinical Dementia Rating (CDR). Le score Sum of boxes (CDR-SB) et le score CDR-Global ont été établis pour chaque cas (Attia Romdhane et al dans ce même numéro de la Tunisie Médicale ). De même, 152 sujets ont été testés par la version arabe du Mini Mental State Examination (A-MMSE), leurs scores ajustés ont été utilisés pour la validation concourante (Bellaj et al dans ce même numéro de la Tunisie Médicale ). Analyse statistique Pour étudier l’effet des variables Sexe, Age et Niveau d’étude (NE), nous avons procédé à une série de Régressions Linéaires Multiples (RLM), de type pas à pas, pour le score global et les scores par subtests de l’A-ADAS Cog. Un R2 < 0,2 est insuffisant pour considérer les variables sociodémographiques comme influentes. Selon les coefficients non standardisés ‘B’, fournis par l’analyse RLM, la ‘Correction’ se calcule comme suit : {[B1*(Sexe – Sexe moy) + B2*(Age – Age moy) + B3*(NE – NE moy)]} Le sexe (0 ou 1), l’âge et NE moyens sont ceux de la population soumise à la RLM. Pour juger de la fidélité de l’échelle A-ADAS Cog, nous avons examiné la cohérence interne des subtests qui la composent. Nous avons calculé le coefficient alpha de Cronbach pour l’ensemble de la population et pour chaque groupe d’étude. Il est médiocre si < 0,70, acceptable de [0,70 à 0,80[, bon de [0,80 à 0,90[ et enfin excellent quand ≥ 0,90). La comparaison des coefficients alpha, quand les items sont un à un supprimés, permet de vérifier la consistance interne des items qui composent l’échelle A-ADAS Cog. Pour juger de la stabilité dans le temps du score A-ADAS Cog, nous avons calculé le coefficient de corrélation rho de Spearman et effectué le test de Wilcoxon pour séries appariées. Plus le coefficient rho et le ‘p’ du test de Wilcoxon sont proches de 1 et plus les cotations sont jugées concordantes. Nous avons aussi étudié la Corrélation Intra-Classe (CIC) et assigné un intervalle de confiance à 95% (IC95%) au coefficient CIC. Une bonne fidélité est attribuée au test si la borne inférieure de cet intervalle est ≥0,75. La vérification de la validité discriminante nous permet de savoir si l’échelle A-ADAS Cog distingue le construit mesuré (en l’occurrence ‘DTA’) des autres construits (‘Non DTA’ et ‘Témoins’). L’échelle A-ADAS Cog ne présentera une validité discriminante que si seuls les sujets ‘DTA’ présentent un score significativement supérieur à celui des deux autres groupes, tant Tableau 1 : Caractéristiques démographiques de la population d’étude Caractéristiques démographiques Sexe (%) Age (ans) Niveau d’étude (ans) 780 Masculin Féminin Moyenne Ecart-Type Min-Max Moyenne Ecart-Type Min-Max Témoins (N=107) 50 (47%) 57 (53%) 67,5 7,9 50-95 5,9 5,8 0-21 Groupe Non DTA (N=71) 34 (48%) 37 (52%) 67,1 9,2 50-94 6,3 7,1 0-21 DTA (N=29) 14 (48%) 15 (52%) 68,8 8,7 50-89 6,2 6,8 0-21 Tests : X2/Anova p = 0,983 p = 0,671 p = 0,919 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 2 : Effet des variables sociodémographiques dans le groupe Témoin Prédicteurs Constante Niveau Etude Age Sexe B** -0,497 -0,151 0,099 - Coefficients RLM* β*** t -0,286 -0,374 -4,460 0,333 3,975 -0,044 -0,512 p 0,775 0,000 0,000 0,610 F 20,152 Modèle RLM* p R2 0,000 0,279 *RLM : Régressions Linéaires Multiples, **B : coefficient non standardisé, ***β : coefficient standardisé. pour les performances globales que pour celles obtenues aux subtests pris individuellement. Par une série d’ANOVA, nous avons comparé les scores globaux moyens et les scores moyens aux subtests chez les patients ‘DTA’, ‘Non DTA’ et ‘Témoins’. L’analyse Receiver Operating Characteristic (ROC) a permis de vérifier la validité clinique de l’échelle A-ADAS Cog pour le diagnostic de DTA. Plus l’aire sous la courbe ROC tend vers 1 avec un degré de signification inférieur 0,05 et plus l’échelle AADAS Cog est considérée comme discriminante et ses résultats fiables. Les résultats de l’analyse ROC ont permis de déterminer le ou les scores-seuil de l’A-ADAS Cog. Nous avons établi, pour chaque seuil potentiel, sa sensibilité et sa spécificité (faibles si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%), le χ2 de Pearson (qui rend compte de la valeur diagnostique), le degré de concordance kappa (faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80) et le ‘p’ du test de McNemar (qui compare les taux de faux positifs et de faux négatifs). Nous avons calculé l’intervalle de confiance à 95% (IC95%) de la sensibilité et de la spécificité pour chaque score-seuil. La validité concourante est étudiée pour apprécier le degré de liaison de l’échelle A-ADAS Cog avec d’autres outils sensibles au processus démentiel et en particulier à la DTA (échelle CDR et test A-MMSE). Elle peut être appréciée par le coefficient de corrélation des rangs de Spearman qui est considéré faible si |rho| ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90, enfin excellent si |rho| >0.90. La validité concourante n’est établie que si rho est >0,70. Toutes les analyses statistiques ont été réalisées avec SPSS (v. 13.0) ou STATISTICA (v. 5.0) pour Windows. Le seuil de signification, retenu pour tous les tests, est p < 0,05. ‘praxies constructives’ où le R2 est <0,2, les autres subtests sont tous indépendant des variables sociodémographiques (Sexe, Age et NE). Tableau 3 : Table de correction du score global A-ADAS Cog NE*/Age 50-59 60-69 0-6 1 0 7-12 2 1 13-19 3 2 ≥20 4 3 *NE : Niveau d’études 70-79 -1 0 1 2 80-89 -2 -1 0 1 ≥90 -3 -2 -1 0 Analyse de la fidélité La consistance interne a été analysée à l’aide du coefficient alpha de Cronbach. (Tableau 4). Pour la population d’étude (N=207), la consistance interne de l’échelle A-ADAS Cog est bonne (alpha=0,857). Elle n’est bonne que pour le groupe ‘DTA’ (alpha=0,866) et est médiocre pour le groupe ‘Non DTA’ (alpha=0,652). Pour ce dernier groupe, les subtests ‘dénomination’ et ‘praxies’ affaiblissent la consistance interne de l’échelle. En revanche, dans le groupe ‘DTA’ tous les subtests sont cohérents. L’échelle A-ADAS Cog est consistante pour explorer les patients ‘DTA’ mais non fiable pour évaluer les sujets ‘Non DTA’. La fidélité au test-retest, ou stabilité dans le temps de l’évaluation par l’A-ADAS Cog, est étudiée sur un échantillon de 54 sujets. Les scores sont très fortement corrélés (rho=0,95 ; p=0,000) mais les différences entre paires de cotations ne sont pas nulles (Z=-4,78 ; p=0,000). Ce dernier résultat indique que les cotations peuvent différer de quelques points. Enfin, la corrélation intra-classe (CIC) permet de conclure à une bonne fidélité au Test-Retest de l’A-ADAS Cog (CIC=0,981 ; IC95% : 0,968 à 0,989). R É S U LTAT S Effet des variables sociodémographiques Les tests neuropsychologiques sont en général influencés par les variables Sexe, Age et Niveau d’Etude (NE). Analysées simultanément par RLM dans le groupe ‘Normal,’ les variables Age et NE influencent significativement le score global (R2 = 0,279 ; p = 0,000) comme le montre le tableau 2. Une table de correction du score global A-ADAS Cog, selon l’Age et le NE, est établie (Tableau 3). La RLM de contrôle, réalisée sur l’ensemble de la population d’étude, montre que le score global corrigé est dépendant de ces variables. Les RLM pratiquées pour les scores des subtests montrent, qu’en dehors des subtests ‘rappel de mots’, ‘orientation’ et Analyse de la validité Validité discriminante La comparaison des scores moyens A-ADAS Cog montre que l’outil discrimine nettement les 3 groupes (F (2,204) =96,08 ; p =0,000). Les performances moyennes des ‘DTA’ sont significativement plus élevées que celles des deux autres groupes (p<0,000). La Figure 1 montre que les ‘Témoins’ ont les meilleurs scores et qu’ils plafonnent même dans certains subtests, exception faite des subtests impliquant la mémoire épisodique (‘rappel de mots’ et ‘reconnaissance de mots’) et à une moindre mesure le subtest ‘praxies constructives’. Les ANOVA, et l’analyse post 781 S. Ben Jemaa - Version Arabe de l’ADAS Cog (A-ADAS Cog) Tableau 4 : Consistance interne et cohérence des subtests de l’échelle A-ADAS Cog Subtests Intelligibilité du langage oral Compréhension Manque de mots Rappel de mots Dénomination Orientation Exécution d’ordres Praxies idéatoires Praxies constructives Reconnaissance de mots Rappel de consignes Alpha de Cronbach Groupe Témoin 0,264 0,253 0,269 0,236 0,245 0,231 0,252 0,271 0,061 0,306 0,210 0,261 hoc par le test de Newman-Keuls, montrent que les ‘Témoins’ ont des performances significativement meilleures que celles des ‘DTA’ en particulier pour les ‘rappel de mots’, ‘reconnaissance de mots’ et ‘praxies constructives’ (p<0,000). Les performances à l’A-ADAS Cog permettent aussi de distinguer les sujets ‘DTA’ des sujets ‘Non DTA’. Les degrés de signification sont en général p<0,000 sauf pour ‘dénomination’ (p<0,012), ‘exécution d’ordres’ (p<0,001) et ‘praxies idéatoires’ (p<0,014). Validité clinique et scores-seuil L’aire sous la courbe ROC est égale à 0 ,921 avec un p<0,000. L’échelle A-ADAS Cog présente donc un excellent pouvoir discriminant pour le diagnostic de ‘DTA’. La figure 2 décrit l’évolution de la sensibilité en fonction de la spécificité du score ajusté A-ADAS Cog. Les 2 courbes se croisent au score AADAS Cog=11. Pour sélectionner le ou les scores-seuil de l’A-ADAS Cog, nous avons établi, pour trois scores-seuil potentiels, les différents indices détaillés au tableau 5. Tous les coefficients kappa ne témoignent que d’un degré de concordance modéré avec le gold standard. Il est difficile de trancher entre les scores-seuil 11 et 10. Le score-seuil 11 présente de bonnes sensibilité (=83%) et spécificité (=85%) et le coefficient kappa le plus élevé (=0,523). Le score-seuil 10 a une excellente sensibilité (=93%), une bonne spécificité (=81%) et la meilleure valeur diagnostique (χ2=65,71). C’est le plus utile pour le dépistage de la DTA. Validité concourante Elle a été étudiée avec les scores CDR-SB, CDR-Global, AMMSE ajusté. La corrélation des scores de l’A-ADAS Cog et de l’A-MMSE (rho= -0,73 ; p<0,000) est forte et négative (Figure 3). Les scores de l’échelle CDR sont positivement corrélés et légèrement plus concordants avec le score global ajusté de l’AADAS Cog. Pour le CDR-Global, rho est égal à 0,76 et avec le CDR-SB, rho est égal à 0,80 (Figure 4). La distribution du score A-ADAS Cog selon le CDR-Global est homogène et respecte les stades évolutifs du déclin cognitif observé au cours de la démence et décrit par l’échelle CDR (Figure 5). 782 α de Cronbach si subtest supprimé Groupe Non DTA Groupe DTA 0,649 0,857 0,630 0,847 0,647 0,854 0,654 0,859 0,658 0,862 0,632 0,842 0,614 0,858 0,657 0,861 0,549 0,844 0,587 0,864 0,603 0,850 0,652 0,866 Population d’étude 0,846 0,841 0,844 0,859 0,851 0,832 0,849 0,853 0,842 0,839 0,838 0,857 Figure 1 : Scores aux différents subtests de l’échelle A-ADAS Cog dans les 3 groupes. Int = intelligibilité du langage oral ; Comp = compréhension ; M Mot = manque de mot ; Rap.mots = rappel de mots ; Dénom = dénomination ; Ordres = exécution d’ordres ; Praxies C = praxies constructives ; Rec. = reconnaissance ; Rap.c = rappel de consignes. Figure 2 : Sensibilité et spécificité du score A-ADAS Cog ajusté LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 5 : Critères de sélection des scores-seuil pour l’échelle A-ADAS Cog Score A-ADAS Cog Oui DTA Oui Non 27 34 Sensibilité (IC95%)+ 93% Spécificité (IC95%)+ 81% ≥10 Non Oui 2 24 144 26 (84 à 100) 83% (75 à 87) 85% Non Oui 5 20 152 22 (69 à 97) 69% (80 à 91) 88% Non 9 156 (52 à 86) (83 à 92) ≥11 ≥12 χ2++ Kappa p Mc Nemar 65,71* 0,506 0,000 63,22* 0,523 0,000 49,41* 0,477 0,029 + IC95% : Intervalle de confiance à 95 % en pourcent ; ++ χ2 de Pearson ; * p=0,000 Figure 3 : Validité concourante des scores A-ADAS Cog et A-MMSE Figure 4 : Validité concourante des scores A-ADAS Cog et CDR-SB Figure 5 : Distribution des scores A-ADAS Cog selon les stades évolutifs définis par le score CDR-Global DISCUSSION L’ADAS Cog constitue actuellement le principal outil de suivi du déclin des fonctions cognitives dans les essais thérapeutiques portant sur la DTA (28). L’échelle a également montré son utilité pour le diagnostic précoce de la DTA (29). Nous savons, par ailleurs, qu’il est important de disposer d’outils de dépistage, d’évaluation et de suivi adaptés à la Population Tunisienne. Notre objectif est de mettre à la disposition des cliniciens la version cognitive de l’ADAS arabe adaptée, valide et étalonnée pour la population Tunisienne âgée. Lors de l’adaptation, nous avons tenu compte des facteurs culturels. Le travail ne s’est pas limité à une traduction des items. Nous avons respecté et conservé les objectifs des différents subtests, leur soubassement théorique, la structure originelle, le mode de passation, le nombre d’items, ainsi que le mode de scoring de chaque subtest. Les modifications apportées à l’outil ont été faites pour améliorer et adapter ses items et sa passation à la population cible. Lors de cette adaptation, nous avons tenu compte des spécificités socioculturelles arabes et Tunisiennes, particulièrement dans les subtests ‘rappel de mots’, ‘dénomination’ et ‘reconnaissance de mots’. Ce sont en effet les subtests chargés en composantes verbales qui sont les plus sensibles aux facteurs culturels (30). Nos résultats montrent que les performances à l’A-ADAS Cog sont négativement affectées par l'avance en âge. Cet impact n'a pas été observé dans la version chinoise (31) et islandaise (32). Il a été rapporté dans d'autres versions, notamment l'italienne (5) et l'espagnole (33,34). De tels effets sont classiques et attendus car, du moins sur le plan psychométrique, l'efficience intellectuelle générale diminue avec l'âge (35). Dans leurs travaux, Zec et al (36,37) et Wang et al (38) ne relèvent pas d'effet négatif d'un niveau d’étude bas sur les performances à l’ADAS Cog. Toutefois, la littérature regorge de références relatives à la contamination des performances par le niveau d’étude (5, 10, 33, 39, 40, 41). Schwarb, Kobere et Spiegel (42) notent que les scores de l’ADAS Cog sont fortement corrélés au niveau d'intelligence générale tel qu'évalué par l'échelle d'intelligence pour adulte de Wechsler et les Matrices Progressives de Raven (PM 47). Nos résultats montrent l'existence d'un effet négatif et significatif du niveau d’étude sur les performances à l’A-ADAS Cog. Les divergences observées entre les résultats des différents travaux peuvent être expliquées 783 S. Ben Jemaa - Version Arabe de l’ADAS Cog (A-ADAS Cog) par la différence dans la taille des échantillons des différentes études, le recours à des classes scolaires rapprochées ou extrêmes mais aussi aux méthodes utilisées pour l'analyse des données. Des études prospectives (39,43) ont montré que le niveau d’étude pourrait même prédire le déclin dans le temps des performances à l’ADAS Cog. Ainsi, les études transversales peuvent ne pas refléter les changements longitudinaux surtout lorsque les niveaux d’étude des sujets sont relativement proches et que l'effectif n'est pas très important. Nous avons proposé une correction du score A-ADAS Cog selon l'âge et le niveau d’étude afin de neutraliser ces effets fréquemment observés pour les tests neuropsychologiques. La correction nous permettra d’ajuster le score A-ADAS Cog selon les caractéristiques démographiques de la population tunisienne (en transition) et ce à court et à moyen terme. Elle permettra d’éviter le problème d'illettrisme posé par les sujets âgés de plus de 60 ans et répondre aux besoins d’une population tunisienne vieillissante et dont l’espérance de vie augmente chaque année (12). Rappelons que, dans la version originale, ainsi que dans plusieurs autres versions (française, italienne…), l’ADAS Cog comporte des items qui font appel à la lecture et à des habiletés grapho-motrices dont il nous a fallu tenir compte lors de l’adaptation de l'échelle. Nous avons supprimé la composante ‘lecture’ et ‘écriture’ sans douter, par ailleurs, de l'utilité clinique et neuropsychologique de leur évaluation. Le coefficient alpha de Cronbach de l’échelle A-ADAS Cog est bon (0,866 pour les ‘DTA’ et 0,857 pour toute la population d’étude). Des coefficients aussi bons sinon excellents, variant entre 0,86 et 0,96, sont rapportés dans la littérature (9, 11, 31, 34). Le score global A-ADAS Cog s’est avéré très stable dans le temps comme en témoigne le coefficient de corrélation intraclasse (CIC=0,981 ; IC95% : 0,968 à 0,989). Le coefficient de corrélation de Spearman est aussi excellent (rho=0,95). Dans la version originale, Rosen et al rapportent un coefficient de 0,91 pour les ‘DTA’ (1). Dans la version Coréenne, il est de 0,73 pour les ‘Témoins’ et de 0,91 pour les ‘DTA’ (44). L’échelle A-ADAS Cog distingue parfaitement les 3 groupes quand on compare les scores globaux et ceux des différents subtests. Des résultats similaires ont été rapportés par les études Slovaque (8), Chinoise (38) et Turque (11). La validité clinique de l’échelle A-ADAS Cog, appréciée par l’analyse ROC, est excellente (aire=0,921) pour le diagnostic de la ‘DTA’. Elle est équivalente à celle de Youn et al où l’aire=0,942 (44). Nous avons retenu 2 scores-seuil pour l’A-ADAS COG : le score 10 (sensibilité=93% et spécificité=81%) et le score 11 (sensibilité=83% et spécificité=85%). Pour Youn et al, la sensibilité est de 90% et la spécificité de 82% au score-seuil 15/16. Dans cette version coréenne, le groupe témoin a un niveau d’étude plus bas que celui des patients. Rappelons que les performances à l’ADAS Cog sont négativement affectées par la scolarité. Dans la version Grecque de Tsolaki, le scoreseuil est de 13/14 (7). Dans la version turque, la sensibilité est de 90% et la spécificité de 86% pour le score-seuil 12 (11). Notre groupe DTA compte quelques cas de DTA précoces (CDR-Global=0.5). C’est peut être pourquoi, des score-seuil rapportés par la littérature, notre score-seuil 10 est le plus bas. Il sera très utile pour dépister la DTA. Nous avons établi la validité concourante de l’A-ADAS Cog avec l’A-MMSE et l’échelle CDR. La liaison est négative avec le score A-MMSE (rho= -0,73) et positive avec les scores CDRSB (rho= 0,80) et CDR-Global (rho= 0,76). Ces fortes concordances (>0,70) sont en faveur de la validité de notre instrument. Les mêmes résultats ont été trouvés par d’autres auteurs avec des coefficients de corrélation qui varient entre 0,7 et 0,9 (9, 11, 44). Ce travail nous permet de disposer de données normatives et d'apporter les corrections nécessaires aux scores en fonction de l'âge et du niveau d’étude. Les indices obtenus montrent que l’échelle A-ADAS Cog est un outil fidèle et valide et très sensible pour détecter la DTA. Elle est très corrélée à l’échelle CDR donc aux stades évolutifs de la ‘DTA’. Elle peut être utilisé chez la population tunisienne tant pour le dépistage précoce que pour l’évaluation et le suivi de la ‘DTA’ en pratique clinique quotidienne et dans le domaine de la recherche. REMERCIEMENTS Nous remercions tous ceux qui ont contribué à la constitution des banques tunisiennes de données lexicales et des items imagés et en particulier le Professeur Zakia Bouaziz et Mesdames Sonia Ayadi Touré et Sonia Khélif. Nous sommes aussi redevables à toutes les personnes qui ont contribué à l’expérimentation du test. Nous remercions aussi tous les psychologues qui ont contribué à la collecte des données : - Les psychologues praticiens ou stagiaires au service de Neurologie de l’EPS Charles Nicolle : Lamia Ftouhi, Fathia Horchani, Nadya Anane, Nadia Ben Ali, Mehyar Dhiffallah, Nadia Ouali, Aymen Khalsi, Hanène Kahouaji et Soumaya Belhaj ; - Les étudiants en 4ème année neuropsychologie (2005/2006) qui ont réalisé l’enquête de validation : Emna Makni, Nidhaleddine El Maazi, Faten Channoufi, Asma Chaïrat, Sonia Akkari, Nesrine Ben Khalifa et Yosra Beji ; - Les auteurs de Mémoires de Maitrise de Neuropsychologie ou en DEA de Psychologie clinique à la Faculté des Sciences Humaines et Sociales de Tunis : Najoua Bahba, Jihane Bannay, Malika Ben Béchir, Emna Derbali et Atef Labbadi. RÉFÉRENCES 1) Rosen WG, Mohs RC, Davis KL. A new rating scale for Alzheimer’s disease. Am J Psychiatry 1984;141:1356-64. 2) Stern RG, Mohs RC, Davidson M, Schmeidler J, Silverman J, KramerGinsberg E, Searcey T, Bierer L, Davis KL. A longitudinal study of Alzheimer’s disease: measurement, rate, and predictors of cognitive deterioration. Am J Psychiatry 1994;151:390–396. 3) Mohs RC. The Alzheimer’s Disease Assessment Scale. Int Psychogeriatr 1996;8:195–203. 784 4) Manzano JM, Llorca G, Ledesma A, Lopez-Ibor JJ. Spanish adaptation of the Alzheimer’s disease assessment scale (ADAS). Actas Luso Esp Neurol Psiquiatr Cienc Afines 1994; 22:64-70. (Abstract) 5) Fioravanti M, Nacca D, Buckley AN. The Italian version of the Alzheimer’s Disease Assessment Scale (ADAS): psychometric and normative characteristics from a normal aged population. Archives of Gerontology and Geriatrics 1994;19:21-30. 6) Puel M, Hugonot-Diener L. Presentation by the GRECO group of the French LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) adaptation of a cognitive assessment scale used in Alzheimer type dementia. Presse Med 1996;25:1028-32. 7) Tsolaki M, Fountoulakis K, Nakopoulou E, Kazis A, Mohs RC. Alzheimer’s Disease Assessment Scale: the validation of the scale in Greece in elderly demented patients and normal subjects. Dement Geriatr Cogn Disord 1997;8:273-80. 8) Kolibas E, Korinkova V, Novotny V, Vajdickova K, Hunakova D. ADAS-cog (Alzheimer’s Disease Assessment Scale-cognitive subscale) - validation of the Slovak version. Bratisl Lek Listy 2000;101:598-602. (Abstract) 9) Chu LW, Chiu KC, Hui SL, Yu GK, Tsui WJ, Lee PW. The reliability and validity of the Alzheimer’s Disease Assessment Scale Cognitive Subscale (ADAS-Cog) among the elderly Chinese in Hong Kong. Ann Acad Med Singapore 2000;29:474-85. 10) Schultz RR, Siviero MO, Bertolucci PH. The cognitive subscale of the Alzheimer’s Disease Assessment Scale in a Brazilian sample. Braz J Med Biol Res 2001;34:1295-302. (Abstract) 11) Mavioglu H, Gedizlioglu M, Akyel S, Aslaner T, Eser E. The validity and reliability of the Turkish version of Alzheimer’s Disease Assessment ScaleCognitive Subscale (ADAS-Cog) in patients with mild and moderate Alzheimer’s disease and normal subjects. Int J Geriatr Psychiatry 2006;21:259–265. 12) Institut National de la Statistique: Données officielles relatives au recensement de 2004 effectué en Tunisie. http://www.ins.nat.tn/fr/rgpheduc4.php (Date de consultation le 07/07/2008) 13 Zannino GD, Perri R, Pasqualetti P, Caltagirone C, Carlesimo GA. Categoryspecific semantic deficit in Alzheimer’s patients: The role of semantic distance. Neuropsychologia 2006;44:52–61. 14) Tippett L J, Meier SL, Blackwood K, Diaz-Asper C. Category specific deficits in Alzheimer’s disease: fact or artefact? Cortex 2007;43:907-920. 15) Zannino GD, Perri R, Caltagirone C, Carlesimo GA. Category-specific naming deficit in Alzheimer’s disease: The effect of a display by domain interaction. Neuropsychologia 2007;45:1832–1839. 16) Hernàndez M, Costa A, Juncadella M, Sebastiàn-Gallés N, René R. Categoryspecific semantic deficits in Alzheimer’s disease: A semantic priming study. Neuropsychologia 2008;46:935–946. 17) Moreno-Martinez FJ, Laws KR, Schulz J. The impact of dementia, age and sex on category fluency: Greater deficits in women with Alzheimer’s disease. Cortex 2008; doi:10.1016/j.cortex.2007.11.008. (in press). Available online at sciencedirect.com: http://www.psy.herts.ac.uk/pub/klaws/flucortex.pdf 18) Laws KR, Gale TM, Leeson VC, Crawford JR. When is category specific in Alzheimer’s disease? Cortex 2005;41:452-463. 19) Masterson J, Druks J, Kopelman M, Clare L, Garley C , Hayes M. Selective naming (and comprehension) deficits in Alzheimer’s disease Cortex 2007;43:921-934. 20) American Psychiatric Association. Diagnostic and Statistical Manual of mental disorders. 4th ed. Washington DC: American Psychiatric Association, 1994. 21) Mc Khann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Clinical diagnosis of Alzheimer’s disease: report of the NINCDS-ADRDA work group. Neurology 1984;34:939-944. 22) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer’s disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 23) Petersen RC. Mild Cognitive Impairment: Where are we? Alzheimer Dis Assoc Disor 2005;19:166-169. 24) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 25) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 26) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 27) Hugonot-Diener LA. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In; Collection: consulter/prescrire : La consultation en Gériatrie. Paris : Masson, 2001. 28) Bartha R, Smith M, Rupsingh R, Rylett J, Wells J L, Borrie, M J. High field 1H MRS of the hippocampus after donepezil treatment in Alzheimer disease. Progress in Neuro-Psychopharmacology & Biological Psychiatry 2008;32:786–793 29) Zec RF, Landreth ES., Vicari SK, Feldman E, Belman J, Andrise A, Robbs R, Kumar V et Becker R. Alzheimer disease assessment scale: useful for both early detection and staging of dementia of the Alzheimer type. Alzheimer Dis Assoc Disord 1992;6:89-102. 30) Verhey F R, Houx P, Van Lang N, Huppert F, Stoppe G, Saerens J, Böhm P, De Vreese L, Nordlund A, et al.. Cross-national comparison and validation of the Alzheimer’s Disease Assessment Scale: results from the European Harmonization Project for Instruments in Dementia (EURO-HARPID). Int J Geriatr Psychiatry 2004;19:41–50. 31) Liu HC, Lee TE, Chuang YY, Lin KN, Fuh JL, Wang PN. The Alzheimer’s disease assessment scale: findings from a low-education population. Dement Geriatr Cogn Disord 2002;13:21-6. 32) Hannesdottir K, Snædal J. A study of the Alzheimer’s Disease Assessment Scale-Cognitive (ADAS-Cog) in an Icelandic elderly population. Nord J Psychiatry 2002;56:201–206. 33) Pena-Casanova J, Aguilar M, Santacruz P, Bertran-Serra I, Hernandez G, Sol JM, Pujol A, Blesa R. Adaptation and normalization of the Alzheimer’s disease Assessment Scale for Spain (NORMACODEM) (II). Neurologia 1997;12:69-77. (Abstract) 34) Pena-Casanova J, Aguilar M, Santacruz P, Bertran-Serra I, Hernandez G, Sol JM, Pujol A, Blesa R. Adaptation and normalization of the Alzheimer's disease Assessment Scale for Spain (NORMACODEM) (II). Neurologia 1997;12:69-77. (Abstract) 35) Van der Linden M, Hupet M. Le vieillissement cognitif. 1994. Paris: P.U.F. 36) Zec RF, Landreth ES, Vicari SK, Belman J, Feldman E, Andrise A, Robbs R, Becker R, Kumar V. Alzheimer Disease Assessment Scale: a subtest analysis. Alzheimer Dis Assoc Disord 1992;6:164-81. 37) Zec RF, Landreth ES, Vicari SK, Feldman E, Belman J, Andrise A, Robbs R, Kumar V, Becker R. Alzheimer disease assessment scale: useful for both early detection and staging of dementia of the Alzheimer type. Alzheimer Dis Assoc Disord 1992;6:89-102. 38) Wang H, Yu X, Li S, Chen Y, Li H, He J. The Cognitive Subscale of Alzheimer’s Disease Assessment Scale, Chinese Version in Staging of Alzheimer Disease. Alzheimer Dis Assoc Disord 2004;18:231-235. 39) Doraiswamy PM, Krishen A, Stallone F, Martin WL, Potts NL, Metz A, DeVeaugh-Geiss J. Cognitive performance on the Alzheimer's Disease Assessment Scale: effect of education. Neurology 1995;45:1980-4. 40) Doraiswamy PM, Bieber F, Kaiser L, Krishnan KR, Reuning-Scherer J, Gulanski B.. The Alzheimer's Disease Assessment Scale: patterns and predictors of baseline cognitive performance in multicenter Alzheimer's disease trials. Neurology 1997;48:1511-7. 41) Chey J, Na DR, Park S, Park E, Lee S. Effects of education in dementia assessment: evidence from standardizing the Korean-Dementia Rating Scale. Clin Neuropsychol 1999;13:293-302. 42) Schwarb S, Koberle S, Spiegel R. The Alzheimer’s Disease Assessment Scale (ADAS): an instrument for early diagnosis of dementia?. Int Journal of Geriatric Psychiatry 1988;3: 45-53. 43) Doraiswamy PM, Kaiser L, Bieber F, Garman RL. The Alzheimer's disease assessment scale: evaluation of psychometric properties and patterns of cognitive decline in multicenter clinical trials of mild to moderate Alzheimer's disease. Alzheimer Disease and Associated Disorders 2001;15:174-183. 44) Youn JC, Lee DY, Kim KW, Lee JH, Jhoo JH, Lee KU, Ha J, Woo JI. Development of the Korean version of Alzheimer’s Disease Assessment Scale (ADAS-K). Int J Geriatr Psychiatry 2002;17:797–803. 785 ARTICLE ORIGINAL VERSION ARABE DE L’ÉPREUVE DES 5 MOTS : VALIDATION CLINIQUE POUR LE DIAGNOSTIC DE DÉMENCE DE TYPE ALZHEIMER Hela Mrabet Khiari*, Neila Attia Romdhane*, Tarek Bellaj**, Karim Bennys***, Nadya Anane*, Amel Mrabet* * Service de Neurologie, EPS Charles Nicolle, 1006 Tunis - ** Département de Psychologie, Faculté des Sciences Humaines et Sociales, 1006 Tunis *** Unité de Neurologie comportementale et dégénérative, Service de Neurologie B, Hôpital Gui de Chauliac, Montpellier, France. H. Mrabet Khiari, N. Attia Romdhane, T. Bellaj, K. Bennys, N. Anane, A. Mrabet. H. Mrabet Khiari, N. Attia Romdhane, T. Bellaj, K. Bennys, N. Anane, A. Mrabet. VERSION ARABE DE L’ÉPREUVE DES 5 MOTS : VALIDATION CLINIQUE POUR LE DIAGNOSTIC DE DÉMENCE DE TYPE ALZHEIMER FIVE WORDS TEST ARABIC VERSION: CLINICAL VALIDITY FOR DEMENTIA OF THE ALZHEIMER TYPE DIAGNOSIS LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 786 - 792 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 786 - 792 RÉSUMÉ Pré-requis: La Démence de Type Alzheimer (DTA) est considérée comme une démence amnésique progressive. Pour améliorer son dépistage en Tunisie, il est utile que les praticiens disposent d’un outil simple, fiable et adapté au contexte socioculturel Tunisien. Buts: Vérifier la validité de la version arabe de l’épreuve des ‘5 mots’ (E5M) et préciser ses scores-seuil pour le diagnostic de DTA en Tunisie. Méthodes: L’E5M a été adaptée à l’Arabe Tunisien (liste des mots et consignes). La population d’étude se compose de 134 sujets répartis en 3 groupes : ‘Normal’ (N=76), ‘DTA’ (N=25), ‘Non DTA’ (N=33). Résultats: L’influence du sexe, âge et niveau d’étude a été analysée par régressions linéaires multiples et une table de correction a été établie pour les scores de l’E5M qui en sont influencés. L’analyse Receiver Operating Characteristic a permis de comparer le pouvoir discriminant de différents scores de l’E5M et d’établir un score-seuil pour chacun. Le Score Total Pondéré (STP) présente le meilleur pouvoir discriminant. C’est le score le plus sensible de l’E5M (sensibilité=81%, spécificité=86% et kappa=0,59). Le Score Total (ST) est très spécifique mais peu sensible (sensibilité=70%, spécificité=93% et kappa=0,65). La combinaison des résultats obtenus aux scores ST et STP n’améliore pas le diagnostic par l’E5M qui peut omettre 1 cas de DTA sur 5. Conclusion: L’E5M est très commode de par sa simplicité et sa rapidité de passation. Elle est valide pour le diagnostic de DTA mais ne peut suffire pour son dépistage. SUMMARY Background: Dementia of the Alzheimer Type (DAT) is considered as a progressive amnestic dementia. To improve DAT screening in Tunisia, it is useful that practioners have an easy test which is reliable and adapted to the Tunisian socio-cultural context Aims: To examine the clinical validity of the Arabic version of the ‘5 Words Test’ (5WT) and to specify its cut-off scores for DAT diagnosis in Tunisia. Methods: The 5WT has been adapted to the Tunisian Arabic (list of words and instructions). The population of study is composed of 134 subjects divided into 3 groups: ‘Normal’ (N=76), ‘DAT’ (N=25), ‘Not DAT’ (N=33). Results: The influence of the variables sex, age and education is analyzed by multiple linear regressions and a table of correction is established for 5WT scores influenced by these variables. Receiver Operating Characteristic analysis has helped to compare 5WT various scores discriminating power and to establish a cut-off for each. The Weighted Total Score (WTS) has the best discriminating power. It is the 5WT most sensitive score (sensitivity=81%, specificity=86% and kappa=0.59). The Total Score (TS) is very specific but not sensitive (sensitivity=70%, specificity =93% and kappa=0.65). TS and WTS results combination do not improve 5WT diagnosis as it can omit 1 DAT case over 5. Conclusion: The 5WT is very convenient by its simplicity and its administration speed. It is valid for the diagnosis of DAT but is inadequate for its screening. M K O T S - C L É S Démence Type Alzheimer – Mémoire épisodique – Epreuve des 5 mots –Validité – Fidélité – Données normatives E Y - W O R D S Dementia of the Alzheimer Type – Episodic memory – The 5 words test – Validity – Reliability – Normative data dLO≥e∞√ Ÿu≤ s± ·dª∞« hOªA∑∞ Íd¥dº∞« ‚bB∞« : fLª∞« ‹ULKJ∞« ¸U∂∑î« s± WO°dF∞« WªºM∞«: Ê«uMF∞« .j°«d± ‰U±√ ,ÊUM´ W¥œU≤ ,fOM° r¥dØ ,ZFKK° ‚¸U© ,ÊUC±¸ WOD´ WKzU≤ ,͸UOª∞« j°«d± W∞U≥ : Êu∏•U∂∞« WO≠UI∏∞« hzUBªK∞ UHOJ∑± Ë U∑°U£ d¥dL∑∞« qNß «¸U∂∑î« d≠u¢ ÊS≠ p∞c∞ …dØ«c∞U° nFC° U©U∂¢¸« ·dª∞« Ÿ«u≤√ d∏Ø√ dLO≥e∞√ Ÿu≤ s± ·dª∞« d∂∑F¥ : W±UF∞« WOHKª∞« .f≤u¢ w≠ dJ∂L∞« t≠UAJ∑ß« sOº∫∑∞ ͸Ëd{ wº≤u∑∞« lL∑πLK∞ .f≤u¢ w≠ dLO≥e∞√ Ÿu≤ s± ·dª∞« hOªA∑° `Lº¢ w∑∞« W¥b∫∞« ‹U§¸b∞« W∂∫Å tMOMI¢Ë tÆbÅ Wß«¸œË fLª∞« ‹ULKJ∞« ¸U∂∑î« r¥bI¢ : ·«b≥_« : ‹U´uLπ± Àö£ v∞≈ ÊuL∑M¥ UBª® 134 s± Wß«¸b∞« WMO´ ÊuJ∑¢ ) ‹ULOKF∑∞«Ë ‹ULKJ∞« WLzUÆ ( WOº≤u∑∞« WO°dFK∞ fLª∞« ‹ULKJ∞« ¸U∂∑î« nOOJ¢ r¢ : WOπNML∞« .)UC¥d± 33( dLO≥e∞√ Ÿu≤ dO¨ ·dî Ë )UC¥d± 25( dLO≥e∞√ ·dî ,)UBª® 76( Êu¥œUF∞« Vº• ZzU∑M∞« `OKB¢ s± sJL¥ ‰Ëb§ ¡UM∂° X∫Lß w∑∞« …œbF∑L∞« WODª∞« ‹«¸«b∫≤ô« ‰ULF∑ßU° WO≠«d¨uL¥b∞«-WO´UL∑§ô« q±«uF∞« dO£Q¢ qOK∫¢ r¢ : ZzU∑M∞« 786 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) .fLª∞« ‹ULKJ∞« ¸U∂∑î« ZzU∑≤ w≠ q±«uF∞« Ác≥ dO£Q¢ Èb± sO∂¢ .qÅU• qJ∞ W¥b• ‹U§¸œ vK´ ‰uB∫∞«Ë fLª∞« ‹ULKJ∞« ¸U∂∑î« ZzU∑≤ nK∑ªL∞ W¥eOOL∑∞« …uI∞« sO° W≤¸UIL∞« s± (ROC) q∂I∑L∞« qL´ ‹UOÅUî qOK∫¢ sJ± 86% = WOÅuBî ,81% = WOßUº•( fLª∞« ‹ULKJ∞« ¸U∂∑î« w≠ WOßUº• d∏Ø_« qÅU∫∞« u≥Ë . W¥eOOL∑∞« …uI∞« w≠ vK∏L∞« WπO∑M∞« q∏L¥ ‰bFL∞« ŸuLπL∞« qÅU∫∞« Ê√ qÅU∫∞« ZzU∑≤ lL§ Ê√ sO∂¢ ULØ .)0.65 = U°UØ Ë 93% = WOÅuBî ,70% = WOßUº•( WOßUº∫∞« qOKÆ tMJ∞ «b§ ’Uî t≤√ dN™ bI≠ ÂUF∞« qÅU∫∞« U±√ .)0.59 = U°UØ Ë .dLO≥e∞√ Ÿu≤ s± ·dª∞U° sO°UBL∞« s± fLî vK´ W∞U• ‹uH¥ Íc∞« fLª∞« ‹ULKJ∞« ¸U∂∑îôU° hOªA∑∞« sº∫¥ ô ÂUF∞« qÅU∫∞« Ë ‰bFL∞« ŸuLπL∞« tBOªA∑∞ ÁœdHL° wHJ¥ ô t≤√ u∞Ë dLO≥e∞√ Ÿu≤ s± ·dª∞U° sO°UBL∞« hOªA¢ w≠ ‚œUÅ u≥ Ë Ád¥dL¢ W´dßË t∑©Uº° qCH° Íbπ± fLª∞« ‹ULKJ∞« ¸U∂∑î« Ê≈ : WL¢Uª∞« .dJ∂L∞« W¥¸UOF± ‹UODF± - ‹U∂∏∞« ‚bB∞« - fLª∞« ‹ULKJ∞« ¸U∂∑î« - À«b•_« …dØ«– - dLO≥e∞√ Ÿu≤ s± ·dª∞« : WOßUß_« ‹ULKJ∞« La Démence Type Alzheimer (DTA ou DAT pour les anglosaxons) est considérée comme une démence amnésique progressive comportant deux phases successives (1). La phase pré-démentielle (prodromal AD) se caractérise par un syndrome amnésique progressif de type « hippocampique », parfois associé à un dysfonctionnement exécutif. La phase suivante démentielle, correspond à la diffusion des lésions aux aires néocorticales associatives. Elle se caractérise par l’atteinte d’autres domaines cognitifs (langage, praxies, gnosies…) et l’apparition de troubles comportementaux responsables d’une perte d’autonomie. Il est établi que la progression des symptômes suit celle des lésions cérébrales qui se révèlent au niveau des structures temporo-mésiales (2). Au cours de la DTA, l’altération cognitive prédominante et la plus précoce est celle de la mémoire épisodique. C’est la mémoire des événements inscrits dans un contexte temporo-spatial. Elle permet le stockage de mots (mémoire épisodique verbale) et de figures (mémoire épisodique non verbale). Différents outils permettent d’’explorer la mémoire épisodique, notamment verbale : Rey Auditory Verbal Learning Test (RAVLT), California Verbal Learning Test (CVLT), Hopkins Verbal Learning Test (HVLT), Free and Cued Selective Recall reminding Test (FCSRT) … Cependant, ces outils, plutôt complexes, ne peuvent être administrés et interprétés que par des neuropsychologues entrainés. L’épreuve des 5 mots (E5M) a été proposée en 2002, par Dubois et al, pour mettre à la disposition du médecin un outil d’exploration de la mémoire épisodique verbale, utilisable au lit du patient (3). Nous nous proposons, dans le cadre de ce travail, de vérifier la validité de l’E5M et de préciser ses scores-seuil pour le diagnostic de DTA en Tunisie. M AT É R I E L E T M É T H O D E S Population d’étude La population d’étude se compose de 134 patients répartis en 3 groupes ‘Normal’, ‘DTA’ et ‘Non DTA’ (Tableau 1). Les 3 groupes ne présentent pas de différence statistiquement significative pour la répartition du sexe, de l’âge ou du Niveau d’Etude (NE). Le groupe ‘Normal’ est constitué de 76 sujets chez qui les activités de la vie quotidienne sont totalement conservées. Le groupe ‘DTA’ se compose de 27 patients répondant aux critères du DSM IV et du NINCDS-ADRDA workgroup révisés par Dubois et al en 2007 ou présentant une forme prodromale de la DTA (4, 5, 6, 1). Le groupe ‘Non DTA’ compte 31 patients présentant soit un MCI (non amnésique) soit une démence de type non Alzheimer (Fronto-temporale, avec Corps de Lewy, vasculaire ou autre) et ce conformément aux derniers consensus établis pour les états MCI ou démentiels (7, 8, 9, 10). N’ont pas été retenus dans la population d’étude, les sujets présentant des troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques ainsi que les patients présentant une pathologie neurologique ou psychiatrique chronique survenant avant l’âge de 50 ans et pouvant engendrer des troubles cognitifs. Ont aussi été exclus les sujets aux antécédents d’abus de consommation de médicaments, de drogue ou d’alcool ainsi que les personnes âgées qui vivent dans une institution ‘fermée’. Les patients présentant une pathologie chronique courante en Gériatrie (hypertension, diabète ou autre) n’ont été exclus que lorsque leur pathologie n’était pas contrôlée par les médicaments. Tableau 1 : Caractéristiques sociodémographiques de la population d’étude Variables sociodémographiques Sexe (nombre) Age (ans) Niveau d’étude (ans) Masculin Féminin Moyenne (Std) Médiane Min – Max Moyenne (Std) Médiane Min – Max ‘Normal’ (N=76) 52 24 66,55 (8,65) 65,00 51 – 81 6,88 (6,47) 6,00 0 – 21 Groupe ‘Non DTA’ (N=31) 15 16 67,39 (8,82) 64,00 52 – 91 4,90 (7,31) 0,00 0 – 21 ‘DTA’ (N=27) 15 12 71,37 (8,21) 73,00 60 86 4,81 (6,29) 0,00 0 - 18 p* 0,12 0,10 0,09 *p : X2 (Sexe), Kruskal-Wallis (Age et Niveau d’étude). 787 H. Mrabet Khiari - Version arabe de l’épreuve des 5 mots Présentation de l’E5M L’E5M se base sur l’apprentissage d’une liste de 5 mots concrets. Chaque mot appartient à une catégorie sémantique différente et n’est pas prototypique de sa catégorie. Autrement dit, chaque mot, utilisé par l’épreuve, se situe après les 5 ou 6 mots les plus caractéristiques de sa catégorie sémantique. Adaptation de l’E5M L’E5M a été adaptée à l’Arabe Tunisien par K. Bennys, T. Bellaj et A. Mrabet en 2003. Pour respecter les catégories sémantiques et le degré de prototypie utilisés pour construire l’E5M, ils ont eu recours à la banque tunisienne des équivalents sémantiques établie T. Bellaj et al en 1998 (cf. l’article de Romdhane et al dans ce même numéro la Tunisie Médicale ). C’est ainsi que, dans la version tunisienne de l’E5M, 3 mots ont été maintenus après traduction en arabe tunisien. Il s’agit de ‘Limonade’, ‘Sauterelle’ et ‘Camion’. Des équivalents pour la prototypie selon la catégorie sémantique ont été proposés pour les 2 autres mots : ‘Mosquée’ pour remplacer ‘Musée’ et ‘Bol’ pour remplacer ‘Passoire’. Pour l’indiçage, les intitulés des catégories sémantiques ont été traduits comme suit : ‘ustensile de cuisine’, ‘moyen de transport’, ‘boisson’, ‘bâtiment’ et ‘insecte’. Cotation de l’E5M Différents scores et pourcentages (issus des scores initiaux de l’E5M) ont été proposés pour interpréter les résultats. Ils sont résumés au tableau 2. Les scores ‘Rappel Immédiat Indicé’, ‘Pourcentage d’Indiçage Immédiat’, ‘Rappel Différé Indicé’, ‘Pourcentage d’Indiçage Différé’ ne sont pas cotés quand le rappel libre (immédiat ou différé) est égal à 5/5. Dans notre étude, nous n’avons retenu que les scores pour lesquels une cotation est toujours obtenue. Il s’agit des scores RIL (Rappel Immédiat Libre), SA (Score d’Apprentissage), RDL (Rappel Différé Libre), SM (Score de Mémoire) ; (Taux d’oublis), ST (Score Total), TRL (Total Rappels Libres) et STP (Score Total Pondéré). Analyse statistique Pour étudier l’effet des variables sociodémographiques (Sexe, Age et NE), nous avons procédé à une série de Régressions Linéaires Multiples, de type pas à pas, pour chaque score de l’E5M. Un R2 < 0,2 est insuffisant pour considérer les variables sociodémographiques comme influentes. Tout en respectant les signes des différents B (coefficients non standardisés) fournis par les analyses de Régressions Linéaires Multiples, la ‘Correction’ pour chaque score est égale à : {[B1*(Sexe – Sexe moy) + B2*(Age – Age moy) + B3*(NE – NE moy)]} Passation de l’E5M L’E5M se compose de deux parties séparées par une tâche cognitive intercurrente. La première partie correspond à l’apprentissage de la liste des 5 mots qui est réalisé en 3 étapes successives : présentation de la liste de mots, encodage sémantique et rappel immédiat (libre et indicé). La dernière étape permet de contrôler que les mots ont bien été enregistrés. En cas d’échec de l’apprentissage ou de l’identification catégorielle d’au moins un des cinq mots, cette étape est reprise avec un maximum de trois essais. Seul le premier résultat est retenu pour la cotation du rappel immédiat. Immédiatement après cette première partie, on effectue une tâche cognitive intercurrente de quelques minutes. Une épreuve d’empan de chiffres (direct et inverse) est en général utilisée. La seconde partie du test permet d’étudier la mémorisation proprement dite. Elle est évaluée par le rappel différé (libre et indicé). Le sexe (codé 0 ou 1), l’âge et NE moyens sont ceux de la population soumise à l’analyse de Régressions Linéaires Multiples. L’analyse Receiver Operating Characteristic (ROC) a permis de comparer le pouvoir discriminant des scores de l’E5M pour le diagnostic de DTA. Plus l’aire sous la courbe ROC tend vers 1 avec un degré de signification inférieur 0,05 et plus le score est considéré comme discriminant et ses résultats fiables. Etant donné que la répartition des scores de l’E5M n’obéit pas à la Loi Normale, nous avons établi pour chacun un score-seuil selon les résultats de l’analyse ROC. La sensibilité, la spécificité et l’index de Youden (=Sensibilité + Spécificité – 100) au score-seuil, ont été précisés pour tous les scores de l’E5M. La sensibilité et la spécificité sont faibles si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%. Pour les trois scores l’E5M les plus discriminants, nous avons Tableau 2 : Principaux scores proposés pour interpréter l’E5M Intitulé du Score Code Rappel Immédiat Libre RIL Rappel Immédiat Indicé RII Pourcentage d’indiçage immédiat %RII Score d’apprentissage SA Rappel Différé Libre RDL Rappel Différé Indicé RDI Pourcentage d’indiçage différé %RDI Score de mémoire SM Taux d’oublis Oublis Score Total ST Total Rappels Libres TRL Score Total Pondéré STP 788 Calcul Total Mots évoqués en rappel immédiat spontané 5 Mots non évoqués spontanément mais évoqués en immédiat après indiçage 5 [RII*100]/[5–RIL] 100 RIL+RII 5 Mots évoqués en rappel différé spontané 5 Mots non évoqués spontanément mais évoqués en différé après indiçage 5 [RDI*100]/[5–RDL] 100 RDL+RDI 5 [(SA–SM)*100]/SA 100 RIL+RII+RDL+RDI (=SA+SM) 10 RIL+RDL 10 2*RIL+RII+2*RDL+RDI (=ST+TRL) 20 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) Tableau 3 : Effet des variables sociodémographiques dans le groupe ‘Normal’ Scores E5M Total Rappels Libres (TRL) Score Total Pondéré (STP) Prédicteurs B** 10,756 0,026 -0,019 20,756 0,026 -0,019 - Constante Niveau Etude Age Sexe Constante Niveau Etude Age Sexe Coefficients RLM* β*** t P 23,30 0,000 0,31 2,97 0,004 -0,30 -2,85 0,006 0,045 0,42 0,674 44,95 0,000 0,31 2,97 0,004 -0,30 -2,85 0,006 0,045 0,42 0,674 F 9,91 9,91 Modèle RLM* P R2 0,000 0,21 0,000 0,21 *RLM : Régressions Linéaires Multiples, **B : coefficient non standardisé, ***β : coefficient standardisé. calculé l’intervalle de confiance à 95% (IC95%) de leur sensibilité et de leur spécificité aux scores-seuil respectifs. Nous avons aussi examiné leur concordance, au score-seuil, avec le diagnostic de référence (Gold Standard) à l’aide du coefficient kappa. Ce dernier est considéré faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80. L’analyse des données a été réalisée à l’aide du logiciel SPSS pour Windows (version 13.0). Le seuil de signification retenu, pour touts les tests, est p <0,05. Figure 1 : Validité clinique des scores STP, TRL, SM et ST par analyse ROC R É S U LTAT S Effet des variables sociodémographiques Les analyses de Régressions Linéaires Multiples montrent que les variables Sexe, Age et Niveau d’Etude (NE) semblent avoir peu d’effet sur les scores RIL (R2 = 0,14), RDL (R2 = 0,07) et aucun effet sur les scores SA, SM, Oublis et ST. Les coefficients R2 du RIL et du RDL étant < 0,2, aucune correction à ces scores n’a été apportée. En revanche, les Régressions Linéaires Multiples mettent en évidence un léger effet Age et NE pour le TRL (R2 = 0,21) et le STP (R2 = 0,21) comme l’illustre le tableau 3. Dans le groupe ‘Normal’, le coefficient rho de corrélation de Spearman entre les scores TRL et STP est égal à 1. C’est pourquoi les résultats des Régressions Linéaires Multiples ne diffèrent que pour la constante. L’efficacité de l’ajustement des scores TRL et STP a été contrôlée par une seconde analyse de Régressions Linéaires Multiples sur l’ensemble de la population d’étude et pour chaque score. Une seule table de correction a été établie pour ajuster les scores TRL et STP (Tableau 4). 1 point doit être ajouté aux sujets âgés de plus de 80 ans, analphabètes ou du niveau primaire. 1 point doit être retranché pour les sujets jeunes (< 56 ans) et d’un niveau scolaire élevé (> 15 années d’études). Tableau 4 : Table de correction des scores TRL et STP NE*/Age 50-55 0-6 0 7-15 0 >15 -1 *NE : Niveau d’étude 56-80 0 0 0 >80 1 0 0 Validité clinique de l’E5M Nous avons examiné le pouvoir discriminant des différents scores pour le diagnostic de DTA en comparant les aires de leurs courbes ROC respectives (Tableau 5). Le taux d’oublis présente le plus faible pouvoir discriminant (aire = 0,64 ; p = 0,026). L’aire la plus élevée est celle du score STP ajusté (= 0,87), suivie par celles du SM, du TRL ajusté et du ST (toutes égales à 0,84). Tous ces résultats sont très fiables (p = 0,000). La figure 1 montre que l’aire du TRL ajusté est sous-jacente à celle du STP ajusté et que l’aire du ST chevauche celle du SM. Scores-seuil et diagnostic de DTA Un score-seuil a été établi pour chaque score de l’E5M (Tableau 5). Les scores-seuil, de l’E5M que nous retenons comme les plus discriminants pour le diagnostic de DTA, sont les suivants : STP ≤ 17, ST ≤ 9 et SM ≤ 4. Les scores-seuil correspondent au point de croisement des courbes de sensibilité et de spécificité de chaque score (Figures 2 et 3). Le graphique, type Box plot, représente la distribution des scores SM, ST et STP ajusté selon le groupe d’étude (Figure 4). Les scores-seuil du SM, du ST et du STP ajusté y sont symbolisés chacun par une droite. Aucun sujet du groupe ‘Normal’ ou ‘Non DTA’ ne se situe sous le score-seuil du SM ou celui du ST témoignant de leur excellente spécificité. Cependant, de nombreux sujets ‘DTA’ se situent au dessus de ces mêmes scores-seuil témoignant du manque de sensibilité du 789 H. Mrabet Khiari - Version arabe de l’épreuve des 5 mots Tableau 5 : Validité clinique et scores-seuil de l’E5M pour le diagnostic de DTA Score Code Score Total Pondéré* STP* ST Score Total Score de Mémoire Aire p Seuil Sensibilité Spécificité Youden** 0,87 0,000 ≤ 17 81 86 67 0,84 0,000 ≤9 70 93 64 SM 0,84 0,000 ≤4 70 98 69 Total Rappels Libres* TRL* 0,84 0,000 ≤8 85 79 65 Rappel Différé Libre RDL 0,80 0,000 ≤4 81 72 53 Rappel Immédiat Libre RIL 0,78 0,000 ≤4 85 66 52 SA 0,74 0,000 ≤4 52 95 47 Oublis 0,64 0,026 ≥ 10 26 98 24 Score d'Apprentissage Taux d'oublis * Scores STP et TRL ajustés, ** Youden (index) = Sensibilité + Spécificité – 100 SM et du ST. Le score-seuil retenu pour le STP ajusté n’est pas suffisamment spécifique puisque quelques sujets du groupe ‘Non DTA’ présentent des scores ≤ 17. A ce seuil, le STP ajusté témoigne d’une bonne sensibilité qui lui permet de détecter plus de sujets ‘DTA’ que le SM ou le ST. Le score-seuil 17 du STP ajusté offre une bonne sensibilité (=81%) avec un IC95% de 67 à 96%, une bonne spécificité (=86%) avec un IC95% de 79 à 93% et un kappa=0,59 témoignant d’un degré de concordance modéré avec le Gold Standard. Le score-seuil 9 du ST a une faible sensibilité (=70%) avec un IC95% de 53 à 88%, une excellente spécificité (=93%) avec un IC95% de 89 à 98% et un bon kappa (=0,65). Enfin, le score-seuil 4 du SM présente aussi une faible sensibilité (=70%) avec un IC95% de 53 à 88%, une excellente spécificité (=98%) avec un IC95% de 96 à 100% et le meilleur kappa (=0,75). La combinaison des résultats obtenus à 2 scores de l’E5M (STP ajusté et SM ou bien STP ajusté et ST) ne permet pas de détecter tous les cas de DTA. Les scores ne sont totalement concordants que pour 70% des cas. Le score-seuil du STP ajusté, permet d’identifier plus de sujets DTA (11%) que les scores-seuil du ST ou du SM. Enfin, pour les 19% restants (soit près de 1 cas sur 5), aucun score-seuil ne permet de détecter la DTA. Figure 3 : Evolution de la sensibilité et de la spécificité des scores ST et SM Score ST Score SM Figure 4 : Scores-seuil et distribution des scores SM, ST et STP NB : Le Score STP est ajusté selon la table de correction (Tableau 4) Figure 2 : Evolution de la sensibilité et de la spécificité du score STP NB : Le Score STP est ajusté selon la table de correction (Tableau 4) DISCUSSION L’E5M a été conçue pour mettre à la disposition des praticiens un outil simple et fiable pour le dépistage des troubles de la mémoire d’origine organique, en particulier au cours de la DTA (3). De part sa construction, un trouble attentionnel à l’encodage est écarté par le contrôle de l’enregistrement réalisé au cours de 790 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) la première phase de l’épreuve. Il en est de même pour les ‘simples’ difficultés de récupération qui sont contrôlées par le recours aux indices sémantiques utilisés pour l’encodage. Pour Dubois et al (2002), la performance des patients atteints de DTA se caractérise par un rappel libre diminué et une aide partielle de l’indiçage responsables d’un score ST < 10 à l’E5M (3). En 2003, face au succès rencontré par l’E5M et pour satisfaire la demande des Neurologues, des Psychiatres et des Gériatres Tunisiens confrontés à une population tunisienne vieillissante, nous avons décidé d’adapter l’E5M à l’Arabe Tunisien. Dans notre démarche d’adaptation, nous avons respecté les catégories sémantiques et le degré de prototypie utilisés pour construire l’E5M. Chaque mot, de la version tunisienne de l’E5M, se situe après les 5 ou 6 mots les plus caractéristiques de sa catégorie et ce selon la banque tunisienne des équivalents sémantiques. Les consignes et les indices ont été traduits en tenant compte des spécificités linguistiques et socioculturelles de la population tunisienne. L’architecture globale de l’E5M est donc parfaitement respectée bien que le rappel d’une liste de 5 mots ne soit pas approprié pour l'évaluation de la mémoire à long terme. En effet, la quantité d'information à retenir est très réduite (infra-span) car inférieure à l’empan (7 ± 2 mots). Cependant, cette critique ne touche pas la pertinence de l’E5M pour le diagnostic des démences puisque la quantité des mots rappelés par des malades d’Alzheimer dans les tâches d’empan dépasse généralement leur performance en rappel libre (11). Nous pensons avoir respecté les règles généralement requises pour adapter un test neuropsychologique à une autre population. Mais notre adaptation est-elle cliniquement aussi valide que la version originale ? Après avoir testé la version tunisienne de l’E5M sur un échantillon de 134 sujets issus de la population tunisienne âgée de plus de 50 ans, nous avons commencé par étudier l’influence des variables sociodémographiques sur les scores de l’E5M. Les Régressions Linéaires Multiples n’ont mis en évidence qu’un léger effet Age et Niveau d’étude pour les scores TRL et le STP. Une table de correction a été proposée pour ajuster ces 2 scores. Ainsi nous pourrons établir, pour chaque score de l’E5M, des scores-seuil indépendants des facteurs Age et Niveau d’étude. Une étude Lyonnaise, portant sur 191 sujets normaux, âgés de 50 à 90 ans, conclut que les performances de leurs sujets à l’E5M n’est sensible qu’à l’âge (12). Les auteurs considèrent que l’absence d’influence du niveau socio-éducatif (ou niveau d’étude) peut s’expliquer par l’indépendance de l’E5M de ce facteur du fait du petit nombre de mots à mémoriser. Ils suggèrent aussi que la perception non scolaire du test, par les sujets qui y sont soumis, peut faciliter sa réalisation. Ils notent cependant que la littérature neuropsychologique montre que la plupart des tests cognitifs est sensible au niveau socio-éducatif. Nous n’avons pas, dans notre étude, usé des mêmes méthodes pour examiner l’effet des variables sociodémographiques. Par la correction que nous apportons aux scores TRL et STP, à des personnes peu ou pas scolarisées et âgées de 80 ans et plus, nos résultats deviennent plus concordants avec ceux de l’étude Lyonnaise. L’examen des résultats de cette dernière nous permet de noter que les plus gros écarts, entre la classe d’âge la plus basse et la plus élevée, sont observés pour les scores STP et TRL (12). Pour vérifier la validité clinique de l’E5M, nous avons calculé, à l’aide des courbes ROC, l’aire couverte par chaque score quand il diagnostique la DTA. L’aire la plus élevée est celle du score STP ajusté (= 0,87), suivie par celles du SM, du TRL ajusté et du ST. Ces 4 scores sont les plus discriminants pour le diagnostic de la DTA par l’E5M. L’aire du TRL ajusté est sousjacente à celle du STP ajusté. Le recours à ce dernier peut nous dispenser du score TRL. L’aire du SM et du ST se chevauchent aussi. Nous avons retenu le score ST car c’est celui qui a été proposé par les constructeurs de l’E5M (3). Au croisement de leurs courbes respectives de sensibilité et de spécificité, le score STP ajusté est égal à 17 et le ST à 9. Ce sont ces valeurs que nous avons retenues comme scores-seuil. Dans la publication princeps, une sensibilité de 91% et une spécificité de 87% ont été attribuée pour le score-seuil du ST (< 10 ou ≤ 9) pour le diagnostic de DTA (3). Dans cet article, les chiffres obtenus pour les valeurs prédictives positives et négatives ont été transposés à ceux de la sensibilité et de la spécificité et vice versa. Conformément aux résultats publiés dans un tableau de la publication princeps, nous avons recalculé ces indices. C’est ainsi que nous avons trouvé que, pour un ST < 10, la sensibilité est de 82% et la spécificité de 93%. Cowppli-Bony et al ont obtenu une moindre sensibilité (63%) pour une spécificité similaire (91%) pour un ST < 10 (13). Dans notre étude, nous avons obtenu une sensibilité intermédiaire (70%) avec une spécificité comparable (93%) pour le même score-seuil du ST. En 2005, le STP a été proposé par Cowppli-Bony et al pour améliorer les performances diagnostiques de l’E5M (13). Ce score est inspiré du Memory Impairment Screen (MIS) où le rappel libre a un poids plus important que le rappel indicé (coefficient 2 pour le rappel libre et coefficient 1 pour le rappel indicé). Cowppli-Bony et al ont établi que le STP, qui privilégie les rappels libres, améliore les performances de l’E5M dans la détection de la DTA (13). Le score STP est une variable discrète variant de 0 à 20. Cette variable est beaucoup moins plafonnée que la majorité des scores établis pour interpréter l’E5M (12). Le recours au STP permet donc au praticien de favoriser la sensibilité (pour détecter un maximum de patients atteints de DTA) au risque de détecter un nombre important de faux positifs (13). Pour Cowppli-Bony et al, le score-seuil (STP≤ 17) permet une nette amélioration de la sensibilité et confère à l’E5M une meilleure performance diagnostique (sensibilité = 84% et spécificité = 85%). Ces résultats sont comparables à ceux de notre étude où la sensibilité du STP ajusté est de 81% et la spécificité est de 86 %. Nos résultats confirment que le STP, bien que moins spécifique, permet d’identifier plus de sujets DTA que le ST. Notons enfin que, pour près de 1 cas sur 5, aucun score-seuil de l’E5M ne permet de détecter la DTA. Les sujets non détectés sont tous âgés de moins de 65 ans et d’un niveau d’étude plutôt élevé. L’E5M ne parait pas indiquée pour explorer cette catégorie de patients. 791 H. Mrabet Khiari - Version arabe de l’épreuve des 5 mots Pour conclure, nous retiendrons que l’E5M est très pratique de par sa simplicité et sa rapidité de passation. Elle est valide pour le diagnostic de DTA mais ne peut suffire pour son dépistage. REMERCIEMENTS Nous souhaitons remercier Melle Sihem Chouichi, neuropsychologue, qui a administré le protocole à l’origine des données analysées. RÉFÉRENCES 1) Dubois B, Albert ML. Amnestic MCI or prodromal Alzheimer’s disease? Lancet Neurol 2004;3:246–48 2) Sarazin M, Dubois B. [A guide to diagnosis of Alzheimer's disease]. Rev Prat 2005;55:1879-90. 3) Dubois B, Touchon J, Portet F, Ousset PJ, Vellas B, Michel B. [«The 5 words»: a simple and sensitive test for the diagnosis of Alzheimer’s disease]. Presse Med 2002;31:1696-9. 4) American Psychiatric Association. Diagnostic and statistical manual of mental disorders. Washington DC:APA;1994. 5) Mc Khann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Clinical diagnosis of Alzheimer’s disease: report of the NINCDS-ADRDA work group. Neurology 1984;34:939-944. 6) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer's disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 7) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 792 8) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 9) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 10) Hugonot-Diener LA. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In: La consultation en Gériatrie. Collection: consulter/prescrire, Masson Ed., 2001. 11) Cherry BJ, Buckwalter JG, Henderson VW. Better preservation of memory span relative to supraspan immediate recall in Alzheimer’s disease. Neuropsychologia 2002;40:846-52 12) Croisile B, Astier JL, Beaumont C. [Standardization of the 5-words test in a group of 191 normal subjects aged 50 to 90 years]. Rev Neurol (Paris) 2007;163:323-33. 13) Cowppli-Bony P, Fabrigoule C, Letenneur L, Ritchie K, Alpérovitch A, Dartigues JF, Dubois B. Validity of the five-word screening test for Alzheimer’s disease in a population based study. Rev Neurol (Paris) 2005;161:1205-1 ARTICLE ORIGINAL LA FRONTAL ASSESSMENT BATTERY (FAB) : FIDÉLITÉ, VALIDITÉ ET ÉTALONNAGE D’UNE FORME ARABE Sonia Ben Jemaa*, Tarek Bellaj*, Neila Attia Romdhane**, Aroua Chérif**, Nouria Oudiaa Zakraoui**, Moncef Bouaziz***, Amel Mrabet** * Département de psychologie, Faculté des Sciences Humaines et Sociales de Tunis -** Service de Neurologie, EPS Charles Nicolle, Tunis *** Laboratoire de Neurosciences - Faculté des Sciences de Tunis. S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, A. Cherif, N. Oudiaa Zakraoui, M. Bouaziz, A. Mrabet. S. Ben Jemaa, T. Bellaj, N. Attia Romdhane, A. Cherif, N. Oudiaa Zakraoui, M. Bouaziz, A. Mrabet. LA FRONTAL ASSESSMENT BATTERY (FAB) : FIDÉLITÉ, VALIDITÉ ET ÉTALONNAGE D’UNE FORME ARABE FRONTAL ASSESSMENT BATTERY: RELIABILITY, VALIDITY AND STANDARDIZATION OF AN ARABIC FORM LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 793 - 800 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 793 - 800 RÉSUMÉ Pré-requis: La Frontal Assessment Battery (FAB) permet, au chevet du patient, l’évaluation des dysfonctionnements exécutifs cognitifs et comportementaux. Elle a été traduite dans plusieurs langues mais pas en Arabe. Buts: Présenter la version adaptée à l’arabe de la FAB (A-FAB), étudier sa fidélité et sa validité et fournir les valeurs normatives. Méthodes: L’A-FAB est administrée à une population composée de 3 groupes : ‘Témoin’ (N=99), ‘Frontal’ (N=53) et ‘Non Frontal (N=41). L’A-MMSE et la CDR ont aussi été administrés. Résultats: L’analyse de Régressions Linéaires Multiples révèle un effet âge et niveau d’étude. Une table de correction permet de contrôler ces effets. L’analyse factorielle en composantes principales montre que l’A-FAB explore 2 axes dénommés « Planification et inhibition » et « Abstraction ». La consistance interne de l’A-FAB est acceptable (alpha=0,72) à l’instar des autres versions publiées de la FAB. L’A-FAB possède un excellent pouvoir discriminant. L’aire sous la courbe ROC est de 0,986 avec p<0,000. Le score-seuil 12 associe une sensibilité=100% à une spécificité=90% avec un excellent kappa (0,832). Le score-seuil 11 présente une sensibilité moindre (79%) mais une spécificité (98%) et un kappa (0,809) excellents. La validité concourante de l’A-FAB est établie avec les scores CDR Global (rho=-0,717) et CDR-SB (rho=-0,760). Elle ne n’est pas avec l’A-MMSE (rho=0,594 donc <0,7). Conclusion: L’A-FAB est un test fidèle et valide. Elle peut être utilisée pour le dépistage ou le diagnostic des dysfonctionnements cognitifs et comportementaux inhérents aux syndromes frontaux. SUMMARY Background: The Frontal Assessment Battery (FAB) allows a bedside evaluation of cognitive and behavioral executive dysfunctions. It has been translated to many languages but not to Arabic. Aims: To introduce the Arabic adapted version of FAB (A-FAB), to study its reliability and validity and to provide normative data. Methods: The A-FAB was administered to a population composed of 3 groups: ‘Control’ (N=99), ‘Frontal’ (N=53) and ‘Non Frontal (N=41). The A-MMSE and the CDR have been also administered. Results: Multiple linear regression analysis reveals an effect for age and education. A correction table helps to control these effects. Principal component analysis shows that A-FAB explores 2 factors called “Planning and inhibition” and “Abstraction”. A-FAB internal consistency is satisfactory (alpha = 0.72) as it is for other published versions of FAB. A-FAB shows an excellent discriminating power. The area under ROC curve is equal to 0.986 with p<0.000. The cutoff score 12 has a 100% sensitivity and 90% specificity with an excellent kappa (0.832). The cut-off score 11 shows a lower sensitivity (79%) but a higher specificity (98%) with an excellent kappa (0.809). A-FAB concurrent validity is established with the Clinical Dementia Rating scale: Global CDR (rho=-0.717) and CDR-SB (rho=-0.760). It is not established with A-MMSE (rho=0.594, so <0.7). Conclusion: A-FAB is a valid and reliable test. It is useful for screening or diagnosis of cognitive or behavioral dysfunctions inherent to frontal syndromes. M K O T S - C L É S Syndrome frontal – Dysfonctionnement exécutif – Frontal Assessment Battery (FAB) – Version arabe – Régressions Linéaires Multiples – Fidélité – Validité – Données normatives. E Y - W O R D S Frontal syndrome – Executive dysfunction – Frontal Assessment Battery (FAB) – Arabic version – Multiple Linear Regressions – Reliability – Validity – Normative data WO°d´ Wªº≤ sOMI¢Ë ‹U∂£ ,‚bÅ : (FAB) wN∂π∞« hH∞« nzU™Ë ”UOÆ W¥¸UD° .j°«d± ‰U±√ ,e¥e´u° nBM± ,ÍË«dØ“ l¥œË√ W¥¸u≤ ,n¥dA∞« È˸√ ,ÊUC±¸ WOD´ WKzU≤ ,ZFKK° ‚¸U© ,WFL§ s° WOMß : Êu∏•U∂∞« …bF∞ W¥¸UD∂∞« Ác≥ XL§d¢. i¥dL∞« d¥dß bM´ W¥cOHM∑∞« WOØuKº∞«Ë WOM≥c∞« ‹U°«dD{ô« rOOI∑∞ …«œ√ (FAB) wN∂π∞« hH∞« nzU™Ë ”UOÆ W¥¸UD° q∏L¢ : W±UF∞« WOHKª∞« .WO°dF∞« dO¨ ‹UG∞ .W¥¸UOFL∞« ‹UODFL∞« dO≠u¢Ë UN¢U∂£Ë UNÆbÅ Wß«¸œ l± (A-FAB) wN∂π∞« hH∞« nzU™Ë ”UOÆ W¥¸UD° s± WO°dF∞« WªºM∞« r¥bI¢ : ·«b≥_« Èu∑º± w≠ UC¥d±41 Ë aLK∞ wN∂π∞« hH∞« Èu∑º± w≠ UC¥d± 53 ,U¥œU´ UBª® 99 s± ÊuJ∑¢ WMO´ vK´ wN∂π∞« hH∞« nzU™Ë ”UOÆ W¥¸UD° s± WO°dF∞« WªºM∞« X¥d§√: WOπNML∞« .·dªK∞ Íd¥dº∞« ”UOIL∞« Ë WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« p∞cØ X¥d§√. wN∂π∞« hH∞« dO¨ aL∞« 793 S. Ben Jemaa - Version Arabe de la FAB (A-FAB) .‹«dOG∑L∞« Ác≥ s± qØ Ê“Ë Vº• W∞u∫± ◊UI≤ v∞≈ ÂUª∞« ◊UIM∞« q¥u∫¢ »u§Ë bØR¥ UL± wLOKF∑∞« Èu∑ºL∞«Ë sº∞« dO£Q¢ Èb± …œbF∑L∞« WODª∞« ‹«¸«b∫≤ô« qOK∫¢ ZzU∑≤ X∑∂£√ : ZzU∑M∞« Ê√ X∑∂£√ .)0.72 = UH∞√( ôu∂I± UOKî«œ UÆUº¢« W¥¸UD∂K∞ Ê√ ZzU∑M∞« XMO° ULØ .œdπL∞« dOJH∑∞« Ë nJ∞«Ë jODª∑∞« : sOK±U´ Ë– q• v∞≈ wK±UF∞√ qOK∫∑∞« Èœ√ bI≠ ,‚bB∞« hª¥ ULO≠ U±√ XMO´ ULØ .dJ∂± ·UAJ∑ß« …«œQØ )WOÅuBª∞« s± 90% Ë WOßUº∫∞« s± 100 %(12 W¥b∫∞« W§¸b∞« sOOF¢ s± qOK∫∑∞« «c≥ sJ± ROC .)0.986 = ¡UC≠ ( eOOL∑K∞ …bO§ …¸bÆ W¥¸UD∂K∞ ·dªK∞ Íd¥dº∞« ”UOIL∞« l± wN∂π∞« h∫H∞« nzU™Ë ”UOÆ W¥¸UD∂∞ w±“ö∑∞« ‚bB∞« …uÆ ZzU∑M∞« XMO° .X°U£ nAØ …«œQØ )WOÅuBª∞« s± 98% Ë WOßUº∫∞« s± 79%(11 W¥b∫∞« W§¸b∞« .)0.70> «–≈ ,0.594 = ˸( WOM≥c∞« W∞U∫K∞ e§uL∞« h∫H∞« s± WO°dF∞« WªºM∞« l± w±“ö∑∞« ‚bB∞« sO∂¥ r∞ «dOî√ )-0.717= ÂUF∞« CDR Ë -0.760 = CDR-SB ◊U∂¢¸« q±UF±( WOØuKº∞«Ë WOM≥c∞« ‹U°«dD{ôU° oKF∑L∞« nAJK∞ Ë√ dJ∂L∞« ·UAJ∑ßö∞ UNOK´ œUL∑´ô« sJL¥ .W∑°U£Ë WÆœUÅ wN∂π∞« hH∞« nzU™Ë ”UOÆ W¥¸UD∂∞ WO°dF∞« WªºM∞« Ê√ sO∂¢ : WL¢Uª∞« .wN∂π∞« hH∞U° WD∂¢dL∞« W¥¸UOF± ‹UODF± - ‹U∂£ - ‚bÅ - WO°d´ Wªº≤ - wN∂π∞« hH∞« nzU™Ë ”UOÆ W¥¸UD° - W¥cOHM∑∞« nzU™u∞« »«dD{« - wN∂π∞« hH∞« ·dî : WOßUß_« ‹ULKJ∞« L’appréciation des fonctions frontales et de leurs multiples facettes (cognitive, motivationnelle et comportementale) ainsi que l’identification du syndrome dysexécutif, nécessitent la prise en considération de la fragmentation et de la modularité des fonctions exécutives (1). Bien que les fonctions exécutives soient traditionnellement attribuées aux lobes frontaux, des troubles exécutifs sont également observés lors de lésions non frontales (2). En pratique clinique, des batteries neuropsychologiques, permettant l’évaluation des fonctions exécutives, existent mais leurs protocoles sont lourds et leurs résultats manquent de spécificité (3). Leur utilisation sur des patients hospitalisés n’est pas commode et requière beaucoup de temps. Le MMSE, traditionnellement le test le plus utilisé, est plutôt orienté vers le dépistage des troubles mnésiques et langagiers. Or, nous avons besoin de tests spécifiques et concis qui explorent les diverses fonctions « associées » aux régions frontales et qui sont déficitaires ou susceptibles de l’être dans les atteintes neurologiques (4). Dubois et al (4) ont mis au point une batterie d’évaluation des fonctions frontales au chevet du patient : la FAB (Frontal Assessment Battery) qui se compose de 6 subtests. La FAB présente des avantages multiples : elle est rapide (environ 10 minutes de passation), facile à passer et ne nécessite pas de compétences particulières de la part de l’examinateur pour repérer les déficits. Elle est bien acceptée par les patients et elle est ciblée. Ses subtests permettent une appréciation exhaustive des composantes cognitives et comportementales des fonctions exécutives, connues pour être reliées aux lobes frontaux et corrélées à l’activité métabolique des lobes frontaux (5). En effet, des arguments neuropsychologiques et neurophysiologiques confirment le fait que ces sphères cognitives et comportementales explorées par la FAB mettent en jeu des réseaux neuronaux distincts : le contrôle inhibiteur est associé aux régions frontales médianes (6) alors que les capacités de conceptualisation feraient plus appel aux régions frontales dorsolatérales (7, 8). La FAB a fait l’objet de quelques adaptations qui ont donné lieu aux versions espagnole en 2003 (9), chinoise en 2004 (10), italienne en 2005 (2) et plus récemment, en 2007, japonaise (11,12). Cet outil a fait ses preuves dans l’appréciation et le diagnostique des troubles cognitifs et comportementaux qui accompagnent le syndrome dysexécutif. Notre objectif est double : valider la version arabe (A-FAB) adaptée de la FAB et fournir des données normatives pour la population tunisienne âgée. 794 M AT É R I E L E T M É T H O D E S Adaptation et présentation de l’A-FAB Dans l’adaptation de la FAB, nous avons respecté les objectifs théoriques fondamentaux de la version originale tout en répondant aux contraintes et aux usages de la langue Arabe et au dialecte Tunisien. Nous avons maintenu l’ordre de passation des subtests et le système de cotation. Les changements ont porté sur le contenu des subtests verbaux. Nous avons puisé dans la banque de données lexicale tunisienne de Bellaj et al (présentée dans l’article de Romdhane et al de ce même numéro de la Tunisie Médicale ) et ce afin de procéder à un contrôle méthodologique rigoureux des variables (fréquence d’usage des mots, longueur et prototypie). Nous avons retenu les items dont l’ordre de fréquence varie entre 6 et 20, évitant ainsi les exemplaires prototypiques et les mots très peu fréquents. La FAB est composée de 6 subtests (2 cognitifs et 4 comportementaux) explorant la conceptualisation, la flexibilité mentale, la programmation motrice, la sensibilité à l’interférence, le contrôle inhibiteur et l’autonomie par rapport à l’environnement. Chaque subtest est coté sur 3 point. Le score total est égal à la somme des résultats aux 6 subtests et varie donc entre 0 et 18. Subtest ‘similitudes’ (conceptualisation) Ce subtest cognitif évalue le raisonnement abstrait. Il s’agit pour le sujet d’extraire une caractéristique commune catégorielle à partir de 2 ou de 3 items. Ce subtest comprend 3 paires d’items : appartenant aux catégories fruits, meuble et fleurs. La première et la troisième paire d’items ont subi des modifications afin que les concepts soient familiers, connus et proches du contexte culturel et linguistique tunisien. Les trois paires utilisées dans l’A-FAB sont : «“u± - dL¢ » ; «wßdØ - W∞ËU© » ; « sOLßU¥ - qH≤dÆ - qÒ≠ ». Seules les réponses catégorielles sont considérées comme correctes, soit : fruits, meubles ou fleurs. 1 point est accordé par bonne réponse. Dans la version japonaise (11), ce subtest a aussi été modifié car dans la culture japonaise, les items ‘table et chaise’ font penser à des ‘équipements pour les études’ ou pour le ‘travail’. C’est pourquoi, ils ont inclus ces deux réponses comme possibilité de réponse correcte pour l’item. Subtest ‘fluidité lexicale’ (flexibilité mentale) Il évalue la capacité d’opérer une recherche active dans le lexique mental en utilisant des stratégies auto-générées dans une situation non routinière. Dans la version originale, le sujet LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) doit énoncer en 1 minute le plus grand nombre de mots de la langue française commençant par la lettre «S». Or, ces tâches de fluence phonémique sont fortement et négativement affectées par le faible degré de scolarisation. Ceci est dû au fait qu’énoncer des mots commençant par une lettre donnée implique que le sujet connaisse l’orthographe du mot, autrement dit qu’il possède des connaissances phonologiques et une conscience méta-phonologique, aptitude qui n’est acquise qu’avec une scolarisation formelle. En effet, comme Joanette et al (13) le rappellent, l’acquisition du langage écrit participe à la latéralisation des systèmes gouvernant le langage. Selon que l’on détienne ou non le code de l’écriture, l’organisation cérébrale de notre patrimoine linguistique est différente, sur le plan de la distribution des habiletés langagières, dans chacun des deux hémisphères. Un défaut d’acquisition du langage écrit chez les sujets peu scolarisés rendrait-elle plus équitable cette répartition ? Afin de ne pas désavantager les sujets peu ou pas scolarisés, cette épreuve a été remplacée par une épreuve de fluence sémantique alternée qui permet d’évaluer les capacités de flexibilité mentale à travers l’alternance (switching) d’un critère sémantique à un autre. La recherche active dans le lexique à partir d’un critère sémantique est plus habituelle et ne nécessite pas le passage obligé par la méta-phonologie. Dans ce contexte, l’aspect alternance est non habituel et permet donc une bonne évaluation de la flexibilité. Nous avons choisi deux catégories sémantiques de niveau de productivité équivalent : les ‘animaux’ et les ‘fruits’. Ce subtest a subi des modifications dans la version chinoise (10) et la version japonaise (11). La langue chinoise ne contenant pas d’alphabet, le critère formel a été remplacé par un critère catégoriel (animaux), bien qu’il soit établi que les deux critères n’impliquent pas les mêmes structures cérébrales (14,15), ni les mêmes processus cognitifs sous-jacents. La langue Japonaise, quant à elle, est basée sur les syllabes et non sur des lettres. Dans cette version, le sujet est appelé à énoncer des items commençant par la syllabe ‘ka’ (11). l’autorégulation comportementale en offrant une situation conflictuelle entre une commande verbale et une information sensorielle. Le sujet doit obéir à la commande verbale initiale et freiner ce qu’il voit après. Il doit gérer et autoréguler son comportement par rapport à la contradiction entre la commande verbale et l’information visuelle. Aucune modification n’a été apportée à ce subtest. Subtest ‘Go-no go’ (contrôle inhibiteur) Cet autre subtest comportemental jauge la capacité d’inhiber une réponse introduite de manière inappropriée par un apprentissage antérieur et une information sensorielle concomitante, c’est à dire le domaine du contrôle inhibiteur et l’aptitude à contrôler l’impulsivité. Il permet aussi de mettre en évidence les fausses alertes. Aucune modification n’a été apportée à ce subtest. Subtest ‘comportement de préhension’ (autonomie par rapport à l’environnement) Il apprécie la tendance spontanée d’adhérer à l’environnement en explorant les comportements d’imitation, d’utilisation et de préhension. Ce subtest permet de mettre en évidence la dépendance/indépendance des indices ou stimuli sensoriels provenant de l’environnement. Aucune modification n’a été apportée à ce subtest. Population d’étude L’étude a porté sur une population totale de 193 sujets répartis en 3 groupes ‘Témoins’, ‘Non Frontal’ et ‘Frontal’ (Tableau 1). Les 3 groupes ne diffèrent pas statistiquement quant au sexe, à l’âge ou au Niveau d’Etude (NE). Le groupe ‘Témoins’ se compose de 99 sujets normaux, âgés de 50 à 95 ans, ne présentant ni plaintes cognitive ni conative et parfaitement autonomes pour les activités de la vie quotidienne. Le groupe ‘Frontal’ est constitué de 53 patients dont l’âge varie de 50 à 80 ans et qui présentent des signes frontaux de part leur statut Mild Cognitive Impairment (MCI) ‘Frontal’ (16) ou de part le type ou le stade évolutif de leur syndrome démentiel (17, 18, 19, 20, 21). Le groupe ‘Non Frontal’ réunit 41 patients, âgés de 50 à 85 ans et qui présentent soit un MCI « non frontal » soit un syndrome démentiel sans atteinte frontale ou trouble dysexécutif (16, 19, 20, 21). Ont été exclus, les sujets présentant des troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques. Les patients présentant une pathologie neurologique ou psychiatrique Subtest ‘séquences motrices’ (programmation) Ce subtest est comportemental. Il explore l’organisation temporelle, le maintien et l’exécution successive d’actions motrices, c’est à dire la programmation et la planification motrice. Aucune modification n’a été apportée à ce subtest. Subtest ‘consignes contradictoires’ (sensibilité à l’interférence) Il fait partie des subtests comportementaux. Il estime Tableau 1 : Caractéristiques sociodémographiques de la population d’étude Caractéristiques démographiques Sexe (%) Age (ans) Niveau d’étude (ans) Masculin Féminin Moyenne Ecart type Min-Max Moyenne Ecart type Min-Max Témoins (N=99) 51 (51,5%) 48 (48,5%) 64,19 9,29 50-95 7,79 6,04 0-21 Groupe Non Frontal (N=41) 17 (41,5%) 24 (58,5%) 65,17 7,94 50-85 7,83 6,13 0-19 Tests : X2/Anova Frontal (N=53) 28 (52,8%) 25 (47,2%) 64,45 8,28 50-80 6,15 7,11 0-21 p=0,484 p=0,834 p=0,278 795 S. Ben Jemaa - Version Arabe de la FAB (A-FAB) chronique survenant avant l’âge de 50 ans et associant des troubles cognitifs n’ont pas été retenus. Ont aussi été exclus les sujets aux antécédents d’abus de consommation de médicaments, de drogue ou d’alcool. Tous les sujets vivent dans leur cadre familial. Les patients présentant une pathologie chronique courante en Gériatrie (hypertension, diabète ou autre) n’ont été exclus que lorsque leur pathologie n’était pas contrôlée par les médicaments. Procédures et modalités d’exploration Tous les participants ont été consentants et informés de l’objectif du travail. Les patients ont été examinés de manière individuelle au Service de Neurologie de l’EPS Charles Nicolle. Ils ont bénéficié d’un examen neurologique, biologique, d’une neuroimagerie (TDM, IRM et/ou SPECT) ainsi que d’un examen neuropsychologique approfondi des fonctions cognitives (langage, mémoire, praxies, gnosies…) et conatives. Les conditions de passation et modalités de cotation des différents tests neuropsychologiques ont été respectées. Cent et un sujets ont bénéficié d’une évaluation concourante par l’échelle Clinical Dementia Rating (CDR). Le score Sum of boxes (CDR-SB) et le score CDR-Global ont été calculés pour chaque cas comme décrit dans l’article d’Attia Romdhane et al dans ce même numéro de la Tunisie Médicale. De même, 171 participants ont été testés par la version arabe du Mini Mental State Examination (A-MMSE). Le score ajusté de l’A-MMSE a été utilisé pour la validation concourante et ce comme décrit dans l’article de Bellaj et al dans ce même numéro de la Tunisie Médicale. Analyse statistique Pour étudier l’effet des variables Sexe, Age et Niveau d’Etude (NE), nous avons procédé à une série de Régressions Linéaires Multiples, de type pas à pas, pour le score global de l’A-FAB ainsi que les scores obtenus à chaque subtest de l’échelle. Un R2 < 0,2 est insuffisant pour considérer les variables sociodémographiques comme influentes. Tout en respectant les signes des différents B (coefficients non standardisés) fournis par les analyses de Régressions Linéaires Multiples, la ‘Correction’ à apporter au score respecte la formule : {[B1*(Sexe – Sexe moy) + B2*(Age – Age moy) + B3*(NE – NE moy)]} Le sexe (codé 0 ou 1), l’âge et NE moyens sont ceux de la population soumise à l’analyse de Régressions Linéaires Multiples. Pour juger de la fidélité de l’A-FAB, nous avons calculé le coefficient alpha de Cronbach pour l’ensemble de la population. Il est médiocre si < 0,70, acceptable de [0,70 à 0,80[, bon de [0,80 à 0,90[ et enfin excellent quand ≥ 0,90). Nous avons eu recours à l’Analyse factorielle en Composantes Principales (ACP), avec rotation varimax, pour valider le construit de l’AFAB. L’analyse ROC (Receiver Operating Characteristic) a permis d’évaluer la validité clinique de l’A-FAB pour le diagnostic de ‘Syndrome Frontal’. Plus l’aire sous la courbe ROC tend vers 1 avec un degré de signification inférieur 0,05 et plus l’A-FAB (par son score global) est considérée comme discriminante et ses résultats fiables. Les résultats de l’analyse ROC nous ont permis de délimiter les valeurs du score de l’A-FAB pouvant constituer un score-seuil. Le choix du score-seuil s’est basé sur les valeurs de la sensibilité et la spécificité (médiocres si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%), du χ2 de Pearson (qui compare la sensibilité et la spécificité), du coefficient Kappa (faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80) et du ‘p’ du test de McNemar (qui compare les taux de faux positifs et de faux négatifs). Nous avons calculé l’intervalle de confiance à 95% (IC95%) de la sensibilité et de la spécificité pour chaque score-seuil. La validité concourante de l’A-FAB est appréciée par le coefficient de corrélation des rangs de Spearman (|rho|>0,70). Elle a été examinée avec les scores de l’échelle CDR et celui du A-MMSE ajusté. Toutes les analyses statistiques uni et multivariées ont été réalisées avec SPSS (version 13.0) pour Windows. Le seuil de signification, retenu pour tous les tests, est p < 0,05. R É S U LTAT S Effet des variables sociodémographiques Les facteurs Age, Sexe et NE ont été analysés simultanément Tableau 2 : Effet des variables sociodémographiques dans le groupe ‘Témoins’ Prédicteurs Constante Niveau Etude Age Sexe B** 18,905 0,124 -0,070 - Coefficients RLM* β*** t 15,087 0,385 4,440 0,334 -3,845 0,034 0,362 p 0,000 0,000 0,000 0,718 F 23,373 Modèle RLM* p R2 0,000 0,327 *RLM : Régressions Linéaires Multiples, **B : coefficient non standardisé, ***β : coefficient standardisé. Tableau 3 : Table de correction du score A-FAB NE*/Age 0-5 6-13 ≥14 *NE : Niveau d’études 796 50-57 0 -1 -2 58-72 1 0 -1 73-86 2 1 0 ≥87 3 2 1 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 4 : Validité du construit et Consistance interne de l’A-FAB Items Séquences motrices Fluence alternée Sensibilité à l’interférence Go-NoGo Préhension Similitudes Alpha de Cronbach par une RLM dans le groupe ‘Normal’. Contrairement à la variable Sexe, les facteurs Age et NE semblent influencer significativement le score global de l’A-FAB (R2 = 0,327 ; p = 0,000) comme on peut le noter sur le tableau 2. Une table de correction, selon l’Age et le NE, a donc été établie pour le score global de l’A-FAB comme l’illustre le tableau 3. La deuxième RLM de contrôle, réalisée sur l’ensemble de la population, montre que le score global une fois corrigé (ou ajusté) devient totalement indépendant des variables Sexe, Age et NE. Validité du construit et fidélité Le construit de l’A-FAB a été abordé par une ACP, avec rotation varimax afin de mettre en évidence le ou les facteurs explorés par ce test. L’ACP aboutit à une résolution en deux facteurs permettant d’expliquer 60% de la variance totale observée (Tableau 4). Nous pouvons considérer que les facteurs dégagés renvoient à : - la planification et l’inhibition expliquant 39% de la variance totale, signalées par une saturation élevée pour les subtests ‘Séquences motrices (programmation)’, ‘Fluence alternée (flexibilité mentale)’, ‘Consignes contradictoires (sensibilité à l’interférence)’ et ‘ Go-no go (contrôle inhibiteur)’ ; - l’abstraction expliquant 21% de la variance et déterminée par des performances élevées dans les subtests de ‘Similitudes’ (conceptualisation) et ‘Comportement de préhension’ (autonomie par rapport à l’environnement). La structure bi-factorielle de l’A-FAB explique pourquoi le coefficient alpha de Cronbach (alpha=0,720) n’est qu’acceptable (Tableau 4). Validité Clinique Elle est vérifiée par l’analyse ROC. L’aire sous la courbe est égale à 0,986 avec un p<0,000. L’A-FAB présente donc un excellent pouvoir discriminant pour le diagnostic des dysfonctionnements frontaux. La figure 1 décrit la progression de la sensibilité en fonction de la spécificité du score global ajusté de l’A-FAB. Le tableau 5 nous permet de choisir le score-seuil le plus adéquat pour le dépistage et pour le diagnostic d’un syndrome frontal. Les coefficients kappa obtenus pour les scores 11 et 12 indiquent que la concordance, entre les résultats à l’A-FAB et ceux du gold standard, est excellente pour chaque seuil (Tableau 5). Les deux courbes se croisent au score A-FAB ajusté égal à 12 (Figure 1). A ce seuil, la sensibilité est égale à 100%, la spécificité à 90% et le coefficient kappa à 0,83 (Tableau 5). La Analyse en Composantes Principales Facteur 1 0,827 0,813 0,703 0,640 0,083 0,196 Facteur 2 -0,026 -0,064 0,356 0,470 0,746 0,708 0,720 figure 2 permet de valider cet excellent score-seuil pour le dépistage d’un syndrome frontal. Au seuil 11, la sensibilité est assez bonne (79%) mais la spécificité (98%) et le kappa (0,80) sont excellents. Le scoreseuil 11 semble le plus adéquat pour confirmer le diagnostic d’un syndrome frontal. Figure 1 : Sensibilité et spécificité du score A-FAB ajusté Figure 2 : Score-seuil et Distribution du score A-FAB par groupe Validité concourante La matrice des corrélations de Spearman, entre le score ajusté d’A-FAB et les scores CDR-Global, CDR-SB et A-MMSE-30 ajusté, montre que le |rho| le plus élevé est celui de l’A-FAB avec le CDR-SB (rho=-0,760 ; p=0,000), suivi par le CDRGlobal (rho=-0,717 ; p=0,000) et enfin par l’A-MMSE ajusté (rho=0,594 ; p=0,000). 797 S. Ben Jemaa - Version Arabe de la FAB (A-FAB) Tableau 5 : Critères de sélection d’un score-seuil pour l’A-FAB A-FAB Oui Démence frontale Oui Non 53 14 ≤12 Sensibilité (IC %)+ Spécificité (IC %)+ 90% 100% Non Oui 0 42 126 3 79% Non Oui 11 36 137 0 (68 à 90) 68% Non 17 140 (55 à 81) Kappa ‘p’ Mc Nemar 137,40* 0,832 0,000 127,83* 0,809 0,057 116,90* 0,754 0,000 (85 à 95) 98% ≤11 ≤10 χ2++ (96 à 100) 100% + IC % : Intervalle de confiance à 95 % en pourcent ; ++ χ2 de Pearson ; * p=0,000 La figure 3 illustre la concordance des évaluations par l’A-FAB et l’échelle CDR. Le recours combiné aux scores-seuil CDR SB=3 et A-FAB ajusté=12 permet de reconnaître presque tous les sujets du groupe ‘Frontal’. La figure 4 montre que tous les sujets présentant un score CDR-Global=0 sont au-dessus du seuil A-FAB ajusté=12. Elle montre aussi que tous les sujets ayant un score A-FAB ≤12 présentent un score CDR-Global au moins ≥0.5. Enfin, tous les sujets ayant un score CDR-Global ≥1 sont sous le seuil A-FAB ajusté=12. Figure 5 : Concordance des scores A-FAB et A-MMSE Figure 3 : Validité concourante des scores A-FAB et CDR-SB Figure 4 : Distribution du score A-FAB selon le CDR-Global Bien que la corrélation soit très significative (p=0,000), elle n’est pas suffisante pour conclure à une validité concourante entre l’A-FAB et l’A-MMSE-30 (rho=0,594 donc <0,7). La figure 5 décrit les résultats d’une évaluation combinée par l’AFAB et l’A-MMSE. Elle montre que tous les sujets du groupe ‘Frontal’ sont identifiés par le score-seuil A-FAB ajusté=12. En revanche, au score-seuil A-MMSE ajusté=26, plusieurs patients frontaux ne sont pas identifiés. DISCUSSION Un dysfonctionnement exécutif peut survenir non seulement au cours du vieillissement normal (22), mais également suite à une lésion frontale focale corticale et/ou sous-corticale ou comme conséquence d’une multitude d’autres processus pathologiques vasculaires ou traumatiques (21, 23, 24)). On le retrouve précocement au cours des démences fronto-temporales ou DFT (12, 18, 25, 26), aux stades légers à modérés des Démences de Type Alzheimer ou DTA (19, 26, 27) et des démences à Corps de Lewy (20, 28). Il est aussi présent dans les démences du Parkinson Idiopathique ou associant un syndrome parkinsonien comme la paralysie supranucléaire progressive (PSP) et la dégénérescence cortico-basale (18, 29, 30). Il est fréquent dans des maladies auto-immunes et inflammatoires comme la sclérose en plaques et les encéphalites, voire même au cours 798 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) d’atteintes psychiatriques comme la schizophrénie (31). De ce fait, être en mesure de distinguer de manière fiable entre des performances exécutives normales et pathologiques particulièrement chez les personnes âgées, devient nécessaire. Par ailleurs, chez les patients présentant un syndrome démentiel, les dysfonctionnements frontaux sont souvent noyés dans les déficiences cognitives générales d’où l’utilité d’un outil adapté, valide et fidèle de dépistage et d’évaluation. A notre connaissance, il n’existe pas de test d’évaluation des fonctions exécutives en Tunisie, ni dans les pays arabes où les rares travaux (32), utilisant cet outil, se réfèrent à la version originale (4). C’est pourquoi nous avons adapté la version française de la FAB à l’arabe. Or, l’adaptation des tests psychologiques et neuropsychologiques est un pré requis à leur utilisation, et la prise en compte des facteurs culturels est indispensable et longuement soulignée dans la littérature (10, 11, 33, 34, 35). L’adaptation a porté sur les 2 premiers subtests de l’échelle (‘conceptualisation’ et ‘flexibilité mentale’) sans toucher au rationnel ni au système de cotation. Nos résultats montrent que le score global de l’A-FAB est affecté négativement par les facteurs âge et niveau d’étude. Ces mêmes effets ont été retrouvés par Appollonio et al (2) pour la version Italienne. Toutefois, ni Mok et al (10) dans la version chinoise, ni Kugo et al (11) pour la version japonaise, ne rapportent de tels effets. L’effet négatif d’un faible niveau scolaire sur les performances à des tâches cognitives est classique et attendu (36, 37, 38). La scolarité étant établie sur des activités langagières et mnésiques, il n’est pas surprenant d’en déceler l’impact quand on emploie des épreuves calquées sur des situations scolaires. Une différence dans le traitement de l’information est un des éléments d’explication de l’effet ‘faible scolarité’ : les sujets auraient recours à des stratégies différentes, peut-être moins pertinentes, leurs outils cognitifs ne seraient pas appropriés aux épreuves… L’étude de la fidélité a montré que l’A-FAB possède une cohérence interne acceptable (alpha=0,72). Ce coefficient est comparable à l’alpha=0,70 rapporté par Nakaaki et al (12) et à l’alpha=0,71 de Kugo et al (11). Il est légèrement inférieur à l’alpha=0,77 de Mok et al (10) ou à l’alpha=0,78 de Dubois et al (4). Tous ces coefficients ne sont qu’acceptables car <0,80. L’ACP que nous avons réalisé montre que l’A-FAB se compose de 2 facteurs. Ceci peut expliquer pourquoi les coefficients alpha de Cronbach, obtenus pour les différentes versions de la FAB, ne peuvent être plus élevés. Le premier facteur dégagé par l’ACP se compose des subtests mettant en jeu les processus de ‘planification et inhibition’. Il regroupe les ‘Séquences motrices’ qui renvoie aux capacités de programmation et de planification, la ‘Fluence alternée’ (flexibilité mentale) qui nécessite des aptitudes d’organisation (planification) des réponses en même temps que l’inhibition d’une stratégie de recherche habituelle et enfin les subtests ‘Consignes contradictoires’ (sensibilité à l’interférence) et ‘ Gono go’ (contrôle inhibiteur) qui mettent en jeu des capacités d’inhibition. Le second facteur dégagé par l’ACP correspond aux capacités d’abstraction. Il regroupe le subtest ‘similitudes’ où le sujet doit faire preuve de capacités de raisonnement abstrait et pour lequel sont jugées ses capacités d’abstraction et de catégorisation et le subtest ‘préhension’ où, pour avoir une performance optimale, le sujet doit faire preuve de bonnes capacités d’abstraction (isoler, exclure et être indépendant des stimuli et indices environnementaux et sensoriels). Dubois et al (4) ont constaté que les subtests ‘similitudes’ et ‘préhension’ (composant le second facteur de notre ACP) permettent de classer correctement 69.7% des patients DFT et PSP. Dans l’interprétation d’une ACP, le second facteur est considéré comme plus spécifique que le premier (plus général). La constatation de Dubois et al confirme les résultats de notre ACP qui montrent que la FAB explore deux axes et que le second (‘Abstraction’) est plus spécifique que le premier (‘Planification et Inhibition’). Nous n’avons pas eu l’opportunité d’étudier la fidélité de l’AFAB au test-retest. Il aurait aussi été intéressant d’examiner la validité concourante de l’A-FAB avec des tests explorant spécifiquement les fonctions exécutives. Nous n’avons pu l’étudier qu’avec l’A-MMSE et l’échelle CDR. Bien que toutes les corrélations soient très significatives, la validité concourante n’a pu être établie entre l’A-FAB et l’AMMSE (rho=0,594, donc <0,70) alors qu’elle l’a été avec l’échelle CDR tant pour le CDR-SB (rho=0.760) que pour le CDR-Global (rho=0,717). Certains travaux (10, 11) rapportent des coefficients de corrélation plus élevés entre la FAB et le MMSE (respectivement ‘r’=0,77 et 0,72). Appollonio et al (2) et Dubois et al (4) ne constatent pas de corrélation significative entre la FAB et le MMSE. L’absence de validité concourante entre les deux tests est attendue étant donné qu’ils ne mesurent pas le même construit théorique. En effet, le MMSE est un outil d’appréciation de l’efficience cognitive globale et n’évalue aucunement les syndromes exécutifs. Notre score-seuil 12 est intermédiaire entre le score-seuil 13/14, établi pour la version italienne (2), et le score-seuil 10 de la version japonaise (11). La valeur diagnostique de notre second score-seuil 11 de l’A-FAB (sensibilité=79% et spécificité=98%) est à rapprocher de celle du score-seuil 10 de la version japonaise (sensibilité=85% et spécificité=92%), ces deux scores-seuil étant plus spécifiques que sensibles. Salavesky et al (39), après avoir procédé à des analyses ROC, ont trouvé que la FAB différencie la DFT de la DTA au score-seuil 11 (sensibilité=81 % et spécificité=72%). Pour la démence légère, ils ont rapporté que c’est le score-seuil 12 qui permet de différencier la DFT de la DTA (sensibilité de=77% et spécificité de 87%). Pour conclure, nous avons validé le construit de l’A-FAB, qui bien qu’explorant 2 axes, présente une consistance interne acceptable. L’A-FAB présente un excellent pouvoir discriminant pour diagnostiquer un syndrome frontal. Par ses 2 scores-seuil, elle peut contribuer au dépistage et au diagnostic des troubles cognitifs et comportementaux inhérents aux dysfonctionnements frontaux au sein de la population tunisienne âgée. REMERCIEMENTS Nous remercions toutes les personnes qui ont contribué à la collecte des données : 799 S. Ben Jemaa - Version Arabe de la FAB (A-FAB) - Les psychologues praticiens ou stagiaires au service de Neurologie de l’EPS Charles Nicolle : Nadya Anane, Fathia Horchani, Lamia Ftouhi, Mehyar Dhiffallah, Nadia Ben Ali et Hanène Kahouaji ; - Les étudiants en 4ème année neuropsychologie (2005/2006) qui ont réalisé l’enquête de validation : Emna Makni, Nidhaleddine El Maazi, Faten Channoufi, Asma Chaïrat, Sonia Akkari, Nesrine Ben Khalifa et Yosra Beji ; - Les auteurs de Mémoires de Maitrise de Neuropsychologie à la Faculté des Sciences Humaines et Sociales de Tunis : Atef Labbadi et Olfa Masmoudi. RÉFÉRENCES 1) Godefroy O. Frontal syndrome and disorders of executive functions. J Neurol 2003;250:1-6. 2) Appollonio I, Leone M, Isella V, Piamarta F, Consoli T, Villa ML, Forapani E, Russo A et Nichelli P. The Frontal Assessment Battery (FAB): normative values in an Italian population sample. Neurol Sci 2005;26:108-116. 3) Siri S, Benaglio A, Frigerio A, Binetti G and Cappa SF. A brief neuropsychological assessment for the differential diagnosis between frontotemporal dementia and Alzheimer’s disease. European Journal of Neurology 2001;8:125-132. 4) Dubois B, Slachevsky A, Litvan I, and Pillon B. The FAB A frontal assessment battery at bedside. Neurology 2000;55:1621-1626. 5) Sarazin M, Pillon B, Giannakopoulos P, Rancurel G, Samson Y, Dubois B. Clinicometabolic dissociation of cognitive functions and social behaviour in frontal lobe lesions. Neurology 1998;51:142-148 6) Konishi S, Nakajima K, Uchida I, Kikyo H, Kameyama M, Miyashita Y. Common inhibitory mechanism in human inferior prefrontal cortex revealed by event-related functional MRI. Brain 1999;122:981-991. 7) Randolph C, Braun AR, Goldberg TE, & Chase TN. Semantic fluency in Alzheimer’s, Parkinson’s, and Huntington’s disease: dissociation of storage and retrieval failures. Neuropsychology 1993;7:82-88. 8) Pasquier F, Lebert F, Grymonprez L & Petit H. Verbal fluency in dementia of frontal lobe type and dementia of Alzheimer type. Journal of Neurology, Neurosurgery, and psychiatry 1995;58:81-84. 9) Del Alamo R A, Alonso C M, Marín C L. FAB: a preliminar Spanish application of the frontal assessment battery to 11 groups of patients. Rev Neurol 2003;36:605-8. 10) Mok VC, Wong A, Yim P, Fu M, Lam W W, Hui A C, Yau C, and Wong K S. The Validity and Reliability of Chinese Frontal Assessment Battery in Evaluating Executive Dysfunction Among Chinese Patients With Small Subcortical Infarct. Alzheimer Dis Assoc Disord 2004;18:68-74. 11) Kugo A, Terada S, Ata T, Ido Y, Kado Y, Ishihara T, Hikiji M, Fujisawa Y, Sasaki K, Kuroda S. Japanese version of the Frontal Assessment Battery for dementia. Psychiatry Research 2007;153:69-75. 12) Nakaaki S, Murata Y, Sato J, Shinagawa Y, Matsui T, Tatsumi H, Furukawa T A. Reliability and validity of the Japanese version of the Frontal Assessment Battery in patients with the frontal variant of frontotemporal dementia. Psychiatry and Clinical Neurosciences 2007;61:78-83. 13) Joanette Y, Goulet P & Daoust H. Incidence et profils des troubles de communication verbale chez les cérébro-lésés droits. Revue de Neuropsychologie 1991;1:3-27. 14) Cardebat D, Démonet J F, Viallard G, Faure S, Puel M et Celsis P. Brain Functional Profiles in Formal and Semantic Fluency Tasks: A SPECT Study in Normals. Brain and Language 1996;52:305–313. 15) Kitabayashi Y, Ueda H, Tsuchida H, Iizumi H, Narumoto J, Nakamura K, Kita H, et Fukui K. Relationship between regional cerebral blood flow and verbal fluency in Alzheimer’s disease. Psychiatry and Clinical Neurosciences 2001;55:459-463 16) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 17) American Psychiatric Association. Diagnostic and Statistical Manual of mental disorders. 4th ed. Washington DC: American Psychiatric Association, 1994. 18) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 19) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer’s disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 20) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 800 21) Hugonot-Diener LA. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In; Collection: consulter/prescrire : La consultation en Gériatrie. Paris : Masson, 2001. 22) Uekermann J, Thoma P et Daum I. Proverb interpretation changes in aging. Brain and Cognition 2008;67:51-57. 23) Leskela M, Hietanen M, Kalska H, Ylikoski R, Pohjasvaara T, Mantyla R, Erkinjuntti T. Executive functions and speed of mental processing in elderly patients with frontal or nonfrontal ischemic stroke. Eur J Neurol 1999;6:653-661. 24) Brooks J, Fos LA, Greve KW, Hammond JS. Assessment of executive function in patients with mild traumatic brain injury. J Trauma 1999;46:159-163. 25) Slachevsky A, Villalpando J M, Sarazin M, Hahn-Barma V, Pillon B, Dubois B. Frontal Assessment Battery and Differential Diagnosis of Frontotemporal Dementia and Alzheimer Disease Arch Neurol 2004;61:1104-1107. 26) Lipton AM, Ohman KA, Womack KB, Hynan LS, Ninman ET, and Lacritz LH. Subscores of the FAB differentiate frontotemporal lobar degeneration from AD. Neurology 2005;65:726-731. 27) Mathuranath PS, Nestor PJ, Berrios GE, Rakowicz W, and Hodges JR. A brief cognitive test battery to differentiate Alzheimer’s disease and frontotemporal dementia. Neurology 2000;55:1613-1620. 28) Metzler-Baddeley C. A review of cognitive impairments in dementia with Lewy bodies relative to Alzheimer’s disease and Parkinson’s disease with dementia. Cortex 2007;43:583-600. 29) Takagi R, Kajimoto Y, Kamiyoshi S, Miwa H, Kondo T. The frontal assessment battery at bed side (FAB) in patients with Parkinson’s disease. No To Shinkei 2002;54:897-902. 30) Litvan I, Agid Y, Calne D, Campbell G, Dubois B, Duvoisin RC, Goetz CG, Golbe LI, Grafman J, Growdon JH, Hallett M, Jankovic J, Quinn NP, Tolosa E, Zee DS. Clinical research criteria for the diagnosis of progressive supranuclear palsy (Steele-Richardson-Olszewski syndrome): report of the NINDS-SPSP international workshop. Neurology 1996;47:1-9. 31) Nimatoudis I, Spyridi S, Kantartzis S, Sokolaki S, Panagiotidis P, Nassika Z, Kaprinis G. The frontal assessment battery at bedside (FAB) in patients with schizophrenia. European Psychiatry 2007;22:S128 32) Shelley B P, Al-Khabouri J, Hussein S S, Raniga S B. Frontotemporal dementia in Oman: Cognitive behavioural profile and neuroimaging characteristics; A prospective hospital-based study. Journal of the Neurological Sciences 2007;260:167-174. 33) Salmon DP, Riekkinen PJ, Katzman R, et al. Cross-cultural studies of dementia: a comparison of mini-mental state examination performance in Finland and China. Arch Neurol 1989;46:769-772. 34) Baddeley A, Gardner JM, Grantham-McGregor S. Cross-cultural cognition: developing tests for developing countries. Applied Cognitive Psychology 1995;9:173-195. 35) Rorty R. The brain as hardware, culture as software. Inquiry 2004;47:219-235. 36) Cardebat D, Doyon B, Puel M, Goulet P & Joanette Y. Évocation lexicale formelle et sémantique chez des sujets normaux. Performances et dynamique de production en fonction du sexe, de l’âge et du niveau d’études. Acta Neurologica Belgica 1990;90:207-217. 37) Janowsky J & Thomas-Thrapp LJ. Complex figure recall in the elderly: a deficit in memory or constructional strategy. Journal of Clinical and Experimental Neuropsychology 1993;15:159-169. 38) Desgranges B, Eustache F & Rioux P. Effets de l’âge et du niveau scolaire sur différents sous-systèmes mnésiques. L’année Psychologique 1994;94: 345-367. 39) Salavesky A, Villalpando JM, Sarazin M, Halin Barma V, Pillon and Dubois B. Frontal assessment battery and differential diagnosis of frontotemporal dementia and Alzheimer disease. Arch Neurology 2004;61:1104-1107. ARTICLE ORIGINAL VERSION ARABE DE LA GERIATRIC DEPRESSION SCALE (A-GDS) : FIDÉLITÉ, VALIDITÉ ET DONNÉES NORMATIVES Tarek Bellaj*, Sonia Ben Jemaa*, Nadya Anane**, Neila Attia Romdhane**, Karim Ben Youssef***, Hanène Kahouaji*, Moncef Bouaziz****, Amel Mrabet** * Département de psychologie, Faculté des Sciences Humaines et Sociales de Tunis - ** Service de Neurologie, EPS Charles Nicolle, Tunis *** Hôpital Régional de Zaghouan - **** Laboratoire de Neurosciences - Faculté des Sciences de Tunis. T. Bellaj, S. Ben Jemaa, N. Anane, N. Attia Romdhane, K. Ben Youssef, H. Kahouaji, M. Bouaziz, A. Mrabet. T. Bellaj, S. Ben Jemaa, N. Anane, N. Attia Romdhane, K. Ben Youssef, H. Kahouaji, M. Bouaziz, A. Mrabet. VERSION ARABE DE LA GERIATRIC DEPRESSION SCALE (A GDS) : FIDÉLITÉ, VALIDITÉ ET DONNÉES NORMATIVES GERIATRIC DEPRESSION SCALE ARABIC VERSION: RELIABILITY, VALIDITY AND NORMATIVE DATA LA TUNISIE MEDICALE - 2008 ; VOL 86 (N°07) : 801 - 808 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 801 - 808 RÉSUMÉ Pré-requis : La GDS constitue l’instrument de dépistage et de suivi de la dépression le plus utilisé au monde pour les sujets âgés. Elle est très utile pour les patients cérébro-lésés. But : Développer une version Arabe de la GDS (A-GDS), évaluer ses qualités psychométriques et établir ses scores seuils. Méthodes : La GDS a été traduite et administrée à 41 sujets âgés déprimés sélectionnés conformément aux critères diagnostiques du DSM-IV et à 116 sujets Témoins. Résultats : La RLM révèle que l’âge, le sexe, le niveau d’éducation et le score au MMSE n’affectent pas les scores à l’A-GDS. La consistance interne de l’échelle est très élevée (alpha de Cronbach =0,89). La fidélité au test-retest est excellente (rho= 0,96). La moyenne des scores A-GDS du groupe des patients déprimés est significativement différente de celle du groupe contrôle. L’A-GDS offre une excellente validité clinique. L’analyse par la courbe ROC montre que l’A-GDS présente un grand pouvoir discriminant pour le diagnostic de dépression avec une aire sous la courbe égale à 0,98. Son score-seuil optimal est 11 (sensibilité=98%, spécificité=91% et kappa=0,83). Le score-seuil pour ‘dépression sévère’ est à 20 (spécificité=100%). Conclusion : Nous avons établi que l’A-GDS est un instrument valide et fidèle pour l’évaluation de la dépression chez les sujets Tunisiens âgés. SUMMARY Background: The Geriatric Depression Scale (GDS) is the most world wide used tool to depict and follow depression in elderly. It is useful for patients with brain lesions. Aim: To develop an Arabic version of the GDS (A-GDS), to assess its psychometric properties and to set up its cut-off scores. Methods: GDS was translated to Arabic and administrated to 41 elderly depressed subjects according to DSM-IV criteria and to 116 controls. Results: RLM show that age, gender, education and MMSE score have no significant effects on A-GDS scores. The scale internal consistency is very high (Cronbach’ alpha=0.89). Test-retest reliability, established for 58 subjects, is also very high (rho=0.96). A-GDS mean scores of the depressed group are significantly higher than those of the control group. Furthermore, A-GDS has an excellent clinical validity. In ROC curve analysis, A-GDS displayed a high discriminating power for depression diagnosis with an area under the curve equal to 0.98. Its optimal cut-off score is 11 (sensitivity=98%, specificity=91%, and kappa=0.83). Its cut-off score for severe depression is 20 (specificity=100%). Conclusion: We have established that A-GDS is a reliable and valid instrument for the assessment of depression in Tunisian elderly. M K O T S - C L É S Geriatric Depression Scale (GDS) – Version arabe – Personnes âgées – Fidélité – Validité – Données normatives. E Y - W O R D S Geriatric Depression Scale (GDS) – Arabic version – Elderly – Reliability – Validity – Normative data. (A-GDS) sOMºL∞« bM´ »Uµ∑Øô« ”UOI±∞ WO°dF∞« WªºM∞« sOMI¢Ë ‹U∂£Ë ‚bÅ .j°«d± ‰U±√ ,e¥e´u° nBM± ,nßu¥ s° r¥dØ ,ÊUC±¸ WOD´ WKzU≤ ,ÊUM´ W¥œU≤ ,WFL§ s° WOMß ,ZFK° ‚¸U© : Êu∏•U∂∞« ‹U°«dD{U° sO°UBL∞« v{dL∞« l± «b§ bOH± u≥Ë . sOMºL∞« bM´ »Uµ∑Øô« WF°U∑±Ë wBI∑∞ r∞UF∞« w≠ ôULF∑ß« d∏Ø_« ¸U∂∑îô« sOMºLK∞ »Uµ∑Øô« ”UOI± q∏L¥ : W±UF∞« WOHKª∞« .⁄U±b∞« w≠ .W¥b∫∞« ‹U§¸b∞« sOOF¢Ë WOßUOI∞« tBzUBî rOOI¢ l± sOMºLK∞ »Uµ∑Øô« ”UOI± s± WO°dF∞« WªºM∞« œ«b´≈ : ·«b≥_« .U¥œU´ UBª®116 vK´ Ë IV-DSM dO¥UF± Vº• U∂µ∑J± UMº± UBª® 41 vK´ Íd§√Ë WO°dFK∞ sOMºLK∞ »Uµ∑Øô« ”UOI± r§d¢ : WOπNML∞« ”UOI± s± WO°dF∞« WªºM∞U° ZzU∑M∞« vK´ d£R¢ ô WOM≥c∞« W∞U∫K∞ e§uL∞« h∫H∞« ZzU∑≤Ë wLOKF∑∞« Èu∑ºL∞«Ë fMπ∞«Ë sº∞« Ê√ œbF∑L∞« wDª∞« ¸«b∫≤ô« qOK∫¢ dN™√ : ZzU∑M∞« ‰bF± s± l≠¸√ v{dL∞« W´uLπ± ZzU∑≤ ‰bF± ÊUØË .)0.96 = ˸( …œU´ù« bM´ «“U∑L± ‹U∂∏∞«Ë .)0.89 = ŒU∂≤ËdØ UH∞√( «b§ lH¢d± wKî«b∞« ‚Uº¢ô« Ê√ sO∂¢ ULØ .sOMºLK∞ »Uµ∑Øô« q∂I∑L∞« qL´ ‹UOÅUî qOK∫¢ bM´ wM∫ML∞« jª∞« X∫¢ ¡UCH∞« Ê√ sO∂¢ bI≠ .bO§ ‚bÅ ‹«– sOMºLK∞ »Uµ∑Øô« ”UOI± s± WO°dF∞« WªºM∞« Ê√ dN™ ULØ WD°UC∞« W´uLπL∞« ZzU∑≤ 801 T. Bellaj - Version arabe de la Geriatric Depression Scale .100% = WOÅuBî 20 W§¸b∞« d≠u¢ sO• w≠ ,0.83 = U°UØ Ë 91% = WOÅuBî , 98% = WOßUº• d≠u¢ w∑∞« 11 W§¸b∞« vK´ œUL∑´ô« Èb§_« s± t≤√ p∞cØ X∂£ .(0.98) e≥UM¥ (ROC) .sOOº≤u∑∞« sOMºL∞« bM´ »Uµ∑Øô« rOOI¢ w≠ WÆœUÅË W∑°U£ …«œ√ sOMºLK∞ »Uµ∑Øô« ”UOI± s± WO°dF∞« WªºM∞« Ê√ sO∂¢ : WL¢Uª∞« .W¥¸UOF± ‹UODF± - ‚bB∞« - ‹U∂∏∞« - sOMºL∞« - WO°dF∞« WªºM∞« - sOMºLK∞ »Uµ∑Øô« ”UOI± : WOßUß_« ‹ULKJ∞« La dépression constitue l’un des problèmes de Santé Publique les plus fréquents chez le sujet âgé (1). En effet, l’avance en âge projette la personne dans une crise émotionnelle du fait de contraintes nouvelles et multiples imposées par une santé qui se fragilise, des limitations fonctionnelles, des ruptures et des pertes affectives ou sociales… La résolution positive de cette crise consiste à intégrer les multiples éléments de sa vie en ayant conscience d’avoir joué un rôle adéquat, d’avoir relevé les défis à chaque étape… La résolution négative consiste à voir sa vie comme une série d’échecs et d’occasions ratées, avec un sentiment envahissant de crainte de la mort, d’amertume et de regret pouvant conduire au suicide ou à ses équivalents (refus d’alimentation, de soins …) ou bien à l’augmentation de la morbidité physique avec passage à la chronicité ou survenue de rechutes. Les dépressions du sujet âgé sont largement sousdiagnostiquées et sous-traitées (2). Il est parfois difficile de distinguer les signes dépressifs authentiques des modifications liées au vieillissement physiologique ou aux symptômes induits par une affection somatique ou iatrogène, fréquente à cet âge (3, 4). Il est donc nécessaire de disposer d’outils permettant le dépistage de la dépression en vue d’une prise en charge précoce. Ces outils doivent être fidèles, valides et rapides à administrer. C’est pour répondre à ce besoin que l’échelle de dépression gériatrique ou Geriatric Depression Scale (GDS) a été développée. La GDS constitue l’instrument de dépistage et de suivi de la dépression le plus utilisé au monde pour les sujets âgés (5, 6). Cette échelle a la particularité d’inclure peu d’items riches en symptômes somatiques qui risquent de majorer l’évaluation des symptômes dépressifs. Elle explore davantage les perturbations récentes de l’attention et de la mémoire qui sont plus fréquentes dans la dépression gériatrique. Son administration et sa cotation sont simples et non liées à un système nosologique particulier (5, 6). Elle est destinée à évaluer la présence et l’intensité des signes dépressifs chez le sujet âgés non dément. La GDS est très fortement corrélée aux échelles de dépression comme celles de Hamilton (7), de Zung (8) et de Beck (9). Elle est faiblement corrélée aux échelles de dépistage des syndromes démentiels comme le Mini Mental State Examination, de Folstein et al, développé en 1975 (10). Dans sa version originale, la GDS est composée de 30 questions fermées où le sujet doit répondre par oui ou par non (5, 6). Une version à 15 items a aussi été proposée (11). Les auteurs y ont conservé les items les plus corrélés à la symptomatologie dépressive. En dehors des versions anglophones validées aux Etats-Unis (12) ou en Angleterre (13), la GDS a été traduite et validée en Suède (14), en France (15), au Brésil (16), en Espagne (17), en Chine (18), en Hollande (19), en Corée (20) et en Iran (21). Une recherche bibliographique sur les bases de données « PsycInfo », « ScienceDirect » et « PubMed » associant les termes ‘Geriatric Depression Scale’ et (‘Arab’ ou ‘Arabic’) a permis de localiser six références (21, 22, 23, 24, 25, 802 26) dont une portant sur la validation iranienne de la GDS (21). Parmi les cinq références restantes, c’est la version abrégée de 15 items de la GDS qui a été traduite et validée par trois différentes équipes (22, 23, 24). La version Arabe de la GDS, proposée par une équipe Saoudienne n’a pas été validée (25). Enfin, en 2006, Wrobel et Farrag ont traduit, adapté et validé une version arabe de la GDS à 30 items, mais auprès d’une population Arabe vivant aux Etats-Unis, donc dans un contexte culturel assez éloigné de celui de leurs pays d’origine (26). Nous proposons une version arabe de la GDS à 30 items, expérimentée en Tunisie auprès de sujets âgés vivant en communauté. Nous nous proposons de vérifier les effets de l’âge, du niveau d’étude, du sexe et du statut cognitif sur son score global. Nous examinerons, ensuite, les qualités psychométriques et préciserons les données normatives de notre version de la GDS que nous désignons A-GDS. M AT É R I E L E T M É T H O D E S Présentation et adaptation de l’A-GDS La GDS est une échelle d’auto-évaluation de la symptomatologie dépressive chez la personne âgée. Le sujet peut lire lui-même les questions et y répondre. S’il n’est pas scolarisé, elles peuvent lui être lues (27). La durée de passation varie entre 5 et 15 minutes. Les questions sont relatives à ce qu’éprouve ou ce qu’a ressenti le sujet «au cours de la semaine écoulée». Chaque question appelle une réponse oui ou non. Pour 20 questions, la réponse ‘oui’ indique une possible dépression, alors que dans les 10 autres (questions numéros l, 5, 7, 9, 15, 19, 21, 27, 29, 30), c’est la réponse ‘non’ qui l’indique. Lorsque la réponse est en faveur de l’existence d’une dépression, l’item est coté 1. Les auteurs suggèrent qu’un score global de 0 à 10 ne traduit pas un état pathologique, alors qu’un score de 11 à 30 est en faveur d’une dépression. L’A-GDS ne s’écarte pas de la version originale de la GDS développée par Yasavage et al en 1983 et ce tant au niveau de la forme, des modes d’administration, de cotation, de notation et de contenu (6). Les items n’ont été que traduits au sens le plus proche du construit. Cette adaptation répond aux objectifs fondamentaux de la version originale. Elle répond également aux contraintes et aux usages de la langue Arabe et du dialecte Tunisien. Les deux premiers auteurs ont traduit de façon indépendante la GDS de l’Anglais à l’Arabe (forward translation). Le produit de cette traduction a été par la suite traduit en sens inverse (backward translation) en aveugle par deux enseignants universitaires de Langue Anglaise de l’Université de Tunis, spécialisés notamment en traduction. Une réunion finale a rassemblé les deux premiers auteurs (forward translation), les enseignants traducteurs (backward translation) ainsi que deux psychologues cliniciens exerçant dans un hôpital psychiatrique. Cette réunion a permis de vérifier et de détecter les déviations LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) de sens entre la version originale et la version traduite et d’aboutir à un consensus général quant à la formulation de chaque item sur les plans syntaxiques, lexicaux et sémantiques. La version finale de l’A-GDS fournit, à côté de la traduction en Arabe moderne et simple, une traduction en Dialectal Tunisien facilitant et standardisant la formulation de chaque item. Population d’étude Deux groupes ont été retenus pour cette étude (‘Témoin’, ‘Dépression’) à partir des résultats de l’anamnèse, de l’examen neurologique, des examens biologiques et neuroradiologiques et de l’exploration psychologique. Cette dernière a notamment permis de détecter une éventuelle symptomatologie psychotique qui fait partie des critères d’exclusion. Le groupe ‘Témoin’ se compose de 116 sujets qui ne présentent aucune plainte cognitive ou conative. Ce groupe comporte 68 hommes et de 48 femmes, âgés de 50 à 94 avec une moyenne d’âge de 64,66 ans (écart type= 9,63) et un niveau d’étude variant de 0 à 21 années, avec une moyenne de 7,55 ans (écart type= 6,48). Le groupe ‘Dépression’ se compose de 41 sujets qui présentent des signes cliniques de dépression appréciés par un Neurologue et confirmés par un psychologue clinicien conformément aux critères diagnostiques du DSM-IV (28). Ce groupe compte 21 hommes et de 20 femmes, âgés de 50 à 94 avec une moyenne d’âge de 65,76 ans (écart type= 8,88) et un niveau d’étude variant de 0 à 21 années avec une moyenne de 6,34 ans (écart type= 6,81). Ainsi notre population d’étude se compose au total de 157 personnes, 69 hommes et de 88 femmes, âgés de 50 à 94 ans avec un niveau d’étude variant de 0 à 21 années (Tableau 1). Aucune différence statistiquement significative n’est observée pour la répartition du sexe (X2(2)=1,19 ; p=0, 360), de l’âge (U de Mann-Whitney=2171 ; Z= -0,83 ; p=0,408) ou du niveau d’étude (U de Mann-Whitney=2143,5 ; Z= -0,95 ; p=0,341). Aucun sujet ne présente de trouble sensoriel, moteur ou de communication. Les sujets présentant une symptomatologie psychotique ont été exclus de même que ceux présentant une pathologie somatique grave ou aigue en mesure d’induire des états dépressifs. Aucun sujet ne présente des troubles thyroïdiens. Aucun sujet n’est dépendant des drogues ou de l’alcool. Les patients sous traitement antidépresseurs ou sous médication ayant comme effet secondaire des symptômes dépressifs ont été exclus. Enfin, les sujets, qui ne vivent plus dans leur cadre familial ou qui vivent dans une institution ‘fermée’, ont aussi été exclus. Procédures et modalités d’exploration Tous les participants ont été consentants et informés de l’objectif du travail. Les patients ont été examinés de manière individuelle au Service de Neurologie de l’EPS Charles Nicolle. L’A-GDS a été administrée par des neuropsychologues ou des psychologues cliniciens. Pour les sujets non scolarisés ou ayant des difficultés de lecture, l’A-GDS a été administrée oralement. Cinquante huit sujets ont été évalués à 2 reprises, dans un intervalle de 6 à 8 semaines. Tous les sujets ont été évalués par la version arabe du Mini Mental State Examination (A-MMSE) de Bellaj et al dans ce même numéro de la Tunisie Médicale . Son score ajusté a été utilisé pour étudier l’effet ‘statut cognitif’ sur le score de l’A-GDS. Analyse statistique Les effets des variables sociodémographiques sont analysés par régressions linéaires multiples (RLM), de type «pas à pas». Un R2 <0,2 est insuffisant pour considérer le Sexe, l’âge, le niveau d’étude (NE) ou le score A-MMSE comme influents. Pour déterminer la fidélité, deux aspects sont examinés : la consistance interne et la stabilité dans le temps (test-retest). Pour la consistance interne, nous avons calculé le coefficient alpha de Cronbach pour l’ensemble de la population d’étude. Il est médiocre si <0,70, acceptable de [0,70 à 0,80[, bon de [0,80 à 0,90[ et enfin excellent quand ≥0,90). L’analyse de la qualité des items, par comparaison des coefficients alpha quand les items sont un à un supprimés, nous a permis de vérifier la consistance interne des items qui composent l’A-GDS. Nous avons évalué la fidélité au test-retest de l’A-GDS à l’aide du coefficient de corrélation intra-classe (considéré bon si la borne inférieure de son intervalle de confiance à 95% est ≥0,75) et du coefficient ‘rho’ de corrélation de Spearman (considéré faible si |rho| ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90, enfin excellent si |rho| >0.90). La différence entre paires de score est évaluée par le test de Wilcoxon pour séries appariées. La validité clinique de l’A-GDS pour le diagnostic de Dépression est établie à partir des résultats de la courbe Receiver Operating Characteristic (ROC). Elle étudie l’évolution de la sensibilité en fonction de 1- Spécificité. Les résultats de l’analyse ROC nous permettent de sélectionner les scores-seuil de l’A-GDS. Le choix se base sur les valeurs de la sensibilité et de la spécificité (médiocres si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%), du χ2 de Pearson (qui compare la sensibilité et la spécificité), du coefficient kappa (faible si ≤ 0.20, léger entre 0.21 et 0.40, Tableau 1 : Caractéristiques démographiques de la population d’étude Variables démographiques Sexe Age (ans) Niveau d’étude (ans) Masculin (%) Féminin (%) Moyenne (ET)c Min - Max Moyenne (ET)c Min - Max Témoin (N=116) 48 (41%) 68 (59%) 64,66 (9,63) 50-94 7,55 (6,48) 0-21 Dépression (N=41) 21 (51%) 20 (49%) 65,76 (8,88) 50-87 6,34 (6,810) 0-21 Signification p= 0,360a p= 0,408b p= 0,341b a Test exact de Fisher; b U de Mann-Whitney; c Ecart-type 803 T. Bellaj - Version arabe de la Geriatric Depression Scale modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80) et du ‘p’ du test de McNemar (qui compare les taux de faux positifs et de faux négatifs). Pour chaque score-seuil, nous avons aussi précisé l’intervalle de confiance à 95% (IC95%) de sa sensibilité et de sa spécificité. Toutes les analyses statistiques sont réalisées avec SPSS (version 13.0) pour Windows. Le seuil de signification, retenu pour tous les tests, est p<0,05. R É S U LTAT S Effets des variables sociodémographiques et du statut cognitif Les effets des variables Sexe, Age, Niveau d’Etude (NE) et score A-MMSE sur les scores A-GDS ont été analysés par RLM. Le tableau 2 montre que le pourcentage de variation expliquée par le modèle (estimé par R2) est égal 4%. Ce résultat est insuffisant pour considérer le sexe, l’âge, le niveau d’étude ou le score A-MMSE comme influents. Aucune correction, selon ces variables, n’est nécessaire pour les scores à l’A-GDS. Fidélité de l’A-GDS La fidélité est appréciée par la consistance interne et la stabilité dans le temps. Le tableau 3 décrit les moyennes et écart types des performances des deux groupes d’étude. Sur ce tableau figurent les coefficients de corrélation entre les performances au niveau de chaque item et du score total, de même que le cœfficient alpha si l’item est supprimé. Le score total des patients dépressifs est significativement supérieur à celui des témoins pour 27 items avec p<0,005. Pour l’item 20, la différence est significative mais à un moindre degré [t(155)= -2,03 ; p=0,044]. Enfin, les différences entre les patients dépressifs et les témoins ne sont pas significatives pour l’item 28 (‘Do you prefer to avoid social gatherings?’) avec t(155)= -1,46 et p= 0,147 et pour l’item 29 (‘Is it easy for you to make decisions?’) avec t(155)= -0,52 et p= 0,605. Ce sont d’ailleurs ces deux items qui sont les moins homogènes avec les autres items de l’A-GDS. La corrélation item-score total est significative pour tous les items. Les corrélations les plus faibles avec le score total sont observées pour les items 12, 20, 28 et 29 (r< 0,25). L’alpha du Cronbach est très élevée (alpha = 0,89). Les variations dans l’alpha de Cronbach, si les items sont supprimés un à un, suggèrent que la majorité des items contribuent à la consistance de l’A-GDS sauf les quatre items (12, 20, 28 et 29) qui sont moins homogènes que les autres. Pour la fidélité au test-retest, la corrélation estimée par le coefficient de Spearman est très élevé (rho=0,96 ; p<0.000). La différence entre paires de scores est significative selon le test de Wilcoxon (Z=-5,06 ; p<0,000). Ce dernier résultat indique que les cotations peuvent différer de quelques points. Le coefficient de corrélation intra-classe (ICC) est de 0,91 avec un intervalle de confiance à 95% de 0,85 à 0,94. Ces corrélations sont hautement significatives indiquant que la performance à l’AGDS est relativement stable dans le temps. L’ensemble des résultats permet de conclure que l’A-GDS présente une excellente consistance interne et une très grande stabilité des scores dans le temps. Validité clinique de l’A-GDS La validité clinique est appréciée à travers l’examen du pouvoir discriminant de l’A-GDS, autrement dit sa capacité à distinguer le groupe ‘Dépression’ du groupe ‘Témoin’. L’aire sous la courbe ROC, estimateur de l’efficacité globale du test, est de 0,98 (p=0,000) avec un intervalle de confiance allant de 0,96 à 0,99. Ce résultat indique que l’A-GDS présente un excellent pouvoir discriminant et est très fiable pour distinguer les sujets déprimés des sujets non déprimés. Données normatives et scores-seuil La figure 2, issue de l’analyse ROC, nous permet de visualiser la progression de la sensibilité du score A-GDS en fonction de la spécificité. Les 2 courbes se croisent au score 12 qui correspond à 95% de sensibilité et 92% de spécificité. Le tableau 4 nous permet de choisir le score-seuil le plus adéquat pour le diagnostic de dépression. Les coefficients kappa des scores-seuil 11, 12 et 13 sont tous excellents (>0,80). Le score 11, de l’A-GDS, constitue le score-seuil qui présente la valeur diagnostique (χ2 =110,4 ; p=0,000) et le degré de concordance avec le gold standard (kappa=0,83) les plus élevés. C’est ce score de l’A-GDS que nous retenons comme scoreseuil pour ‘dépression légère’. La spécificité la plus élevée (100%) est atteinte aux scores ≥20, C’est ce score-seuil que nous retiendrons pour ‘dépression modérée à sévère’ (Figure 3). En conclusion, un score A-GDS inférieur ou égal à 10 exclut la dépression alors qu’un score de 11 à 19 indique un état légèrement dépressif et qu’un score supérieur ou égal à 20 indique un état modérément à gravement dépressif. Tableau 2 : Effet des variables sociodémographiques dans le groupe Témoin Prédicteurs Constante Niveau Etude Age Sexe A-MMSE B** 6,5 -0,11 - Coefficients RLM* β*** -0,21 0,13 0,12 0,01 t 13,83 -2,25 1,36 1,15 0,03 p 0,000 0,027 0,178 0,254 0,975 *RLM : Régressions Linéaires Multiples, **B : coefficient non standardisé, ***β : coefficient standardisé. 804 F 5,05 Modèle RLM* P 0,027 R2 0,04 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 3 : Caractéristiques des items de l’A-GDS Questions 1. Are you basically satisfied with your life? 2. Have you dropped many of your activities and interests? 3. Do you feel that your life is empty? 4. Do you often get bored? 5. Are you hopeful about the future? 6. Are you bothered by thoughts you can t get out of your head? 7. Are you in good spirits most of the time? 8. Are you afraid that something bad is going to happen to you? 9. Do you feel happy most of the time? 10. Do you often feel helpless? 11. Do you often get restless and fidgety? 12. Do you prefer to stay at home, rather than going out and doing new things? 13. Do you frequently worry about the future? 14. Do you feel you have more problems with memory than most? 15 Do you think it is wonderful to be alive now? 16 Do you often feel downhearted and blue? 17 Do you feel pretty worthless the way you are now? 18 Do you worry a lot about the past? 19 Do you find life very exciting? 20 Is it hard for you to get started on new projects? 21 Do you feel full of energy? 22 Do you feel that your situation is hopeless? 23 Do you think that most people are better off than you are? 24 Do you frequently get upset over little things? 25 Do you frequently feel like crying? 26 Do you have trouble concentrating? 27 Do you enjoy getting up in the morning? 28 Do you prefer to avoid social gatherings? 29 Is it easy for you to make decisions? 30 Is your mind as clear as it used to be? Score Total Témoin Moyenne (écart type) 0,04 (0,20) 0,44 (0,50) 0,12 (0,33) 0,20 (0,40) 0,09 (0,28) 0,44 (0,50) 0,12 (0,33) 0,11 (0,32) 0,08 (0,27) 0,02 (0,13) 0,24 (0,43) 0,38 (0,49) Dépression Moyenne (écart type) 0,44 (0,50) 0,80 (0,40) 0,66 (0,48) 0,85 (0,36) 0,51 (0,51) 0,73 (0,45) 0,63 (0,49) 0,68 (0,47) 0,51 (0,51) 0,63 (0,49) 0,78 (0,42) 0,63 (0,49) 0,16 (0,36) 0,07 (0,25) 0,08 (0,27) 0,10 (0,31) 0,07 (0,25) 0,16 (0,36) 0,18 (0,39) 0,53 (0,50) 0,18 (0,39) 0,03 (0,16) 0,07 (0,25) 0,28 (0,45) 0,27 (0,44) 0,27 (0,44) 0,07 (0,25) 0,41 (0,49) 0,34 (0,48) 0,17 (0,38) 5,7 (3,4) 0,56 (0,50) 0,44 (0,50) 0,27 (0,45) 0,78 (0,42) 0,44 (0,50) 0,66 (0,48) 0,46 (0,50) 0,71 (0,46) 0,73 (0,45) 0,39 (0,49) 0,54 (0,50) 0,78 (0,42) 0,66 (0,48) 0,66 (0,48) 0,32 (0,47) 0,54 (0,50) 0,39 (0,49) 0,63 (0,49) 17,8 (4,9) Corrélation Alpha de Item x Cronbach si Score total item supprimé ,485 ,886 ,324 ,889 ,601 ,883 ,617 ,883 ,497 ,886 ,367 ,888 ,544 ,885 ,505 ,885 ,548 ,885 ,667 ,882 ,464 ,886 ,249 ,891 ,492 ,434 ,251 ,643 ,439 ,485 ,293 ,225 ,595 ,585 ,405 ,506 ,483 ,419 ,412 ,124 ,149 ,465 - ,886 ,887 ,890 ,882 ,887 ,886 ,890 ,892 ,883 ,885 ,887 ,885 ,886 ,887 ,887 ,894 ,893 ,886 - Tableau 4 : Scores-seuil potentiels de l’A-GDS30 pour le diagnostic de Dépression Score A-GDS30 Spécificité (IC95%)+ 88% Oui Non Oui 0 40 Non Oui 1 39 106 9 (93 à 100) 95% (86 à 96) 92% Non Oui 2 35 107 5 (89 à 100) 85% (87 à 97) 96% 6 111 (75 à 96) (92 à 99) 14 0 34% 27 116 (20 à 49) ≥10 ≥11 Gold standard Sensibilité Témoin (IC95%)+ 14 100% 102 10 98% Dépression 41 ≥13 100% Non Kappa McNemar (p) 102,9* 0,79 0,000 110,4* 0,83 0,012 108,9* 0,82 0,065 104,8* 0,81 1,000 43,5* 0,43 0,000 (82 à 94) 91% ≥12 Non Dépression modérée à sévère Score≥20 Oui χ2++ + IC95% : Intervalle de confiance à 95 % en pourcent ; ++ χ2 de Pearson ; * p=0,000 805 T. Bellaj - Version arabe de la Geriatric Depression Scale Figure 1 : Evolution de la sensibilité et spécificité de l’A-GDS Figure 2 : Distribution des scores de l’A-GDS dans la population d’étude et scores-seuil DISCUSSION La perception, l’interprétation et la tolérance aux symptômes dépressifs diffèrent d’une culture à une autre. C’est pourquoi, il est nécessaire d’adapter les instruments d’évaluation pour mesurer les mêmes construits à travers les différentes cultures. En Orient, les valeurs, les traditions, les symboles, les croyances, les systèmes de relation au sein de la famille, de la communauté et de la société diffèrent de ceux de l’Occident. Dans certains pays d’Asie, la solitude, la tendance à rester chez soi ou l’inactivité peuvent être appréciées par certains sujets et constituent des comportements qui ne s’apparentent pas forcément à la dépression, comme c’est le cas dans les pays occidentaux (29). Pour des Coréens âgés, il serait inapproprié d’exprimer, par rapport à soi même, satisfaction, estime de soi, excitation ou plaisir (20). Pour Jang et al (30) et Mui et al (31), une pauvre estime de soi peut être une valeur peu discriminative pour une culture où la valeur individuelle personnelle n’est pas centrale. Chez les musulmans, la couleur noire, comme celle des pierres noire ou de l’habit noir de la Mecque, est plus associée au sacré qu’à la tristesse. Au-delà de la vision dichotomique classique entre Orient et Occident, l’évaluation de la dépression chez des personnes âgées, de culture nord africaine et arabo-musulmane, a ses propres caractéristiques et 806 modes d’expression dans un monde dynamique où les cultures n’ont plus de limites et ne sont plus stigmatisées. Nous avons tenu compte de ces facteurs dans notre adaptation de la GDS. Les items 8, 15, 17 et 22 ont été les items les plus difficiles à adapter. Cependant, les résultats ont révélés que la traduction et l’adaptation de ces items n’ont pas altéré leur homogénéité par rapport aux autres items. Le coefficient alpha de Cronbach pour ces items est satisfaisant il ne dépasse pas le coefficient alpha de Cronbach pour l’échelle totale. Dans la version espagnole, Fernandes-San Martin et a (17) ont constaté que les items 28 et 29 ne sont pas significativement corrélés avec le score total de la GDS. Les sujets Espagnols ont éprouvé certaines difficultés pour répondre aux questions 5 : (‘Are you hopeful about the future’), 20 : (‘Is it hard for you to get started on new projects’ et 22 : (‘Do you feel that your situation is hopeless’) (17). En utilisant la version espagnole, Garcia & Marks (1989) ont constaté que le ‘désespoir’ persistant, le manque de la joie de vivre et le sentiment d’autodépréciation sont plus fréquents chez les Américains hispaniques que chez les Américains blancs (32). Dans la version Coréenne, les items 1 : (‘Satisfait par la vie’), 29 : (‘Facilité à prendre des décisions’) et 30 : (‘Cerveau aussi clair que d’habitude’) ont posé des problèmes culturels. Les sujets âgés coréens ne comprenaient pas les représentations associées à ces items. Ces items n’ont pas permis de discriminer les sujets déprimés des sujets témoins (20). Les études interculturelles et cross culturelles révèlent que l’expression de la dépression comporte des dimensions universelles mais aussi culturelles. Les études quantitatives ne doivent inclure que les aspects universels pour parvenir à faire des études comparatives sensées (33). Les études quantitatives doivent être enrichies par les études qualitatives qui mettent l’accent sur les aspects culturels voir idiosyncratiques. Il est important de noter que, pour l’administration de l’A-GDS, nous suggérons une administration orale plutôt qu’écrite (autoadministrée) aux sujets qui ont peu ou pas d’expérience scolaire et ce conformément aux recommandations des auteurs des versions espagnole, chinoise ou Coréenne. Ceci s’applique également aux personnes ayant des difficultés visuelles ou motrices. Cannon et al, en 2002, n’ont noté aucune différence significative entre la version orale et écrite de la GDS (27). En manipulant les modes d’administration de la GDS, Dunn & Sacco (1988) ont constaté que cette échelle est robuste et n’est pas sensible à la variation des modes d’administration (34). Les échelles d’évaluation de la dépression, auto-administrées, sont plus rapides, plus faciles à passer et plus pratiques dans un contexte de consultation médicale ou pour réaliser des études de dépistage de large spectre. Cependant, les échelles administrées par un clinicien sont plus sensibles et spécifiques. Recourir à l’entretien, à l’observation et à plus d’un seul instrument d’évaluation, rend le diagnostic de dépression chez la personne âgée plus précis. Le mode de réponse dichotomique de la GDS la rend plus facile que l’échelle de dépression de Beck, par exemple, qui contient 4 énoncés pour chaque question (9). La GDS comporte des items couvrant de multiples signes dépressifs. Bien que cette échelle doive être utilisée et interprétée en termes unidimensionnelles, la plupart des LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) résultats d’analyses factorielles montre l’existence de facteurs multiples. Parmelee et al (35) trouvent six facteurs relatifs à la dysphorie, la crainte, le retrait/apathie, la vigueur, la baisse de concentration et l’anxiété. Notre adaptation de la GDS (30 items) à l’Arabe montre que l’A-GDS est un instrument aussi fidèle et valide que la version originale. Les indices de fidélité et de validité sont très proches et il en est de même pour les scores-seuil. Nos analyses de régression multiples révèlent que les scores de l’A-GDS n’exigent pas de correction par rapport à l’âge, au sexe ou au niveau d’étude. Un effet genre (sexe) a été noté par Zunzunegui et al (36). Ils l’ont attribué à une différence dans l’attribution socioculturelle des rôles dans la société. La consistance interne de l’A-GDS, évaluée par la valeur alpha de Cronbach, est de 0,89. Bien que dans une marge très satisfaisante, ce coefficient est relativement inférieur à celui rapporté dans la version originale, par Yasavage et al (1983), alpha = 0.95 (6). Il est, en revanche, supérieur au coefficient alpha=0,82, observé dans la version espagnole de FernandesSan Martin et al (17). L’A-GDS a une très bonne consistance test-retest (coefficient de corrélation intra-class=0,91 et rho de Spearman=0,96). Elle fournit ainsi des niveaux de fidélité équivalents à ceux notés dans la version originale (6). L’A-GDS a un très bon potentiel pour discriminer les sujets déprimés des sujets non déprimés. L’analyse ROC révèle que l’aire sous la courbe est de 0,98. Le score-seuil 11 que nous avons retenu pour l’A-GDS est similaire à celui retrouvé par les constructeurs de la GDS (5) pour lesquels un score inférieur à 11 indique l’absence de dépression (sensibilité=84% et spécificité=95%). Pour l’A-GDS, le score-seuil 11 s’est avéré le plus discriminatif en fournissant une sensibilité à 98%, une spécificité à 91% et l’indice kappa=0,83 le plus élevé. Ce score seuil est légèrement inférieur à celui de la version espagnole où le score-seuil est de 9/10 (sensibilité=87% et spécificité=63%) avec une aire sous la courbe de 0,85 (17). En revanche, notre score seuil est inférieur à celui trouvé par la version Coréenne (20). Pour cette dernière, il correspondant à 18 (sensibilité=84%, spécificité= 82% et valeur kappa=0,642). Ont-ils été plus sévères dans leurs critères de diagnostic de la dépression ? Les scores-seuil élevés trouvés par les études d’extrême orient (Corée, Chine) pourraient être associés à leur conception confucéenne de la vie qui encourage la modestie et enseigne aux personnes de s’auto-blâmer au lieu de blâmer les autres ou les circonstances (20). Notre version (A-GDS) fournit, à côté de l’arabe moderne et simple, une version dialectale facilitant et standardisant la formulation de chaque item. Cette option permet d’étendre l’application de l’A-GDS à d’autres pays arabes étant donné que l’Arabe Standard unit les pays Arabes et que ces derniers ne disposent pas d’une version Arabe de la GDS à 30 items, validée dans un pays Arabe. Il sera utile d’adapter et de valider une version tunisienne abrégée (15 items) à l’image des versions adaptées par d’autres équipes Arabes (22, 23, 24). La version abrégée permet aux médecins généralistes d’évaluer plus rapidement la dépression chez le sujet âgé. Il existe aussi des versions à 10 items, à 4 items et même à 2 items (37, 38) mais plus le nombre d’items diminue et plus la sensibilité de l’outil baisse (39). REMERCIEMENTS Nous remercions vivement Madame Samia Ben Fadhl et Monsieur Abdennebi Ben Baya, enseignants au département d’Anglais à la Faculté des Sciences Humaines et Sociales de Tunis, pour leur précieux apport à la traduction de l’échelle et aux séances de vérification et d’ajustement. Nous remercions aussi les psychologues qui ont contribué à la passation du protocole et à la collecte des données : - Les psychologues praticiens ou stagiaires au service de Neurologie de l’EPS Charles Nicolle : Lamia Ftouhi, Fathia Horchani, Nouria Oudiaa Zakraoui, Aoua Cherif, Nadia Ben Ali et Mehyar Dhiffallah ; - Les étudiants en 4ème année neuropsychologie (2005/2006) qui ont réalisé l’enquête de validation : Emna Makni, Nidhaleddine El Maazi, Faten Channoufi, Asma Chaïrat, Sonia Akkari, Nesrine Ben Khalifa et Yosra Beji. RÉFÉRENCES 1) Koenig HG, Kuchibhatla M. Use of health services by hospitalized ill depressed elderly patients. American Journal of Psychiatry 1998;155:871877. 2) Ilife S, Haines A, Gallivan S, Boorof A, Goldenberg E, Morgan P. Assessment of elderly people in general practice. 1. Social circumstances and mental state. British Journal of General Practice 1991;41:9-12. 3) Gallo JJ, Rabins PV, Lyketsos CG, Tien AY, Anthony JC. Depression without sadness: Functional outcomes of nondysphoric depression in later life. Journal of the American Geriatric Society 1997;45:570-578. 4) Berger AK, Small BJ, Forsell Y, Winblad B, Backman L. Preclinical symptoms of major depression in very old age: A prospective longitudinal study. American Journal of Psychiatry 1998;155:1039-1043. 5) Brink TL, Yesavage JA, Lum O et al. Screening tests for geriatric depression. Clin Gerontol 1982;1:37-43. 6) Yesavage JA, Brink TL, Rose TL, Lum O, Huang V, Adey M, Leirer VO. Development and validation of a geriatric depression screening scale: a preliminary report. J Psychiatr Res 1982-1983;17:37-49. 7) Hamilton M. A rating scale for depression. Journal of Neurology, Neurosurgery and Psychiatry 1960;23:56-62. 8) Zung WWK. A self rating depression scale. Archives of General Psychiatry 1965;12:63-70. 9) Beck AT, Ward C, Mendelson M. Beck Depression Inventory (BDI). Archives of General Psychiatry 1961;4:561-571. 10) Müller-Thomsen T, Arlt S, Mann U, Mass R, Ganzer S. Detecting depression in Alzheimer's disease: evaluation of four different scales. Arch Clin Neuropsychol 2005;20:271-6. 11) Sheikh JI and Yesavage JA. Geriatric Depression Scale: recent evidence and development of a shorter version. Clinical Gerontologist 1986;5:165–172. 12) Baker FM, Espino DV. A Spanish version of the geriatric Depression Scale in Mexican-American elders. International Journal of Geriatric Psychiatry 1997;12: 21-25. 13) Arthur A, Jagger C, Lindesay J, Graham C, Clarke M. Using an annual over75 health check to screen for depression : validation of the short geriatric depression scale (GDS 15) within general practice. International Journal of Geriatric Psychiatry, 1999;14:431-439. 14) Gottfries GG, Noltorp S, Norgaard N. Experience with a Swedish version of the Geriatric Depression Rating Scale in primary case centres. International Journal of Geriatric Psychiatry 1997;12:1029-1034. 15) Clément JP, Nassif RF, Leger JM, Marchan F. Mise au point et contribution à la validation d’une version française abrégée de la Geriatric Depression Scale de Yesavage. Encéphale 1997;23:91-99. 16) Almeida OP, Almeida SA. Short versions of the Geriatric Depression Scale: a 807 T. Bellaj - Version arabe de la Geriatric Depression Scale study of their validity for diagnosis of a major depressive episode according to ICD-10 and DSM-IV. International Journal of Geriatric Psychiatry 1999;14:858–865. 17) Fernandez-San Martin MI, Andrade C, Molina J, Munoz PE, Carretero B, Rodriguez M et al. Validation of the Spanish version of the geriatric depression scale (GDS) in primary care. International Journal of GeriatricPsychiatry 2002;17:279-287. 18) Chiu HFK, Lee HCB, Wing YK, Kwong PK, Leung CM, Chung DWS. Reliability, validity and structure of the Chinese Geriatric Depression Scale in a Hong Kong context: a preliminary report. Singapore Medical Journal 1993;35: 477-480. 19) De Craen AJM, Heeren TJ, Gussekloo J. Accuracy of the 15-item geriatric depression scale(GDS-15) in a community sample of the oldest old. International Journal of Geriatric Psychiatry 2003;18:63–66. 20) Bae JN, Cho MJ. Development of the Korean version of the Geriatric Depression Scale and its short form among elderly psychiatric patients. Journal of Psychosomatic Research 2004;57:297–305. 21) Malakouti SK, Fatollahi P, Mirabzadeh A, Salavati M, Zandi T. Reliability, validity and factor structure of the GDS-15 in Iranian elderly. International Journal of Geriatric Psychiatry 2006;21:588–593. 22) Al Haddad MK. Depression in elderly primary care attendees in Bahrain. Arab Journal of Psychiatry 2000;11:48-55. 23) Chahine LM, Bijlsma A, Hospers APN. Dementia and depression among nursing home residents in Lebanon: A pilot study. International Journal of Geriatric Psychiatry 2007;22:283-285. 24) Chaaya M, Sibai AM, Roueiheb ZE, Chemaitelly H, Chahine LM, Al-Amin H, Mahfoud Z. Validation of the Arabic version of the short Geriatric Depression Scale (GDS-15). Int Psychogeriatr 2008;20:571-81. 25) Abolfotouh MA Daffallah AA, Khan MY, Khattab MS, Abdulmoneim I. Psychosocial assessment of geriatric subjects in Abha City, Saudi Arabia. Eastern Mediterranean Health Journal 2001;7:481–491. 26) Wrobel NH, Farrag MH. A preliminary report on the validation of the Geriatric Depression Scale in Arabic. Clinical Gerontologist 2006;29:33–46. 27) Cannon BJ, Thaler T, Roos S. Oral versus written administration of the Geriatric Depression Scale. Aging and Mental Health 2002;6:418-22. 808 28) American Psychiatric Association. DSM-IV. Critères diagnostiques. Traduction française par J.-D. Guelfi et al. Paris : Masson, 1996. 29) Iwata, N, Buka S. Race/ethnicity and depressive symptoms: a cross-cultural/ ethnic comparison among university students in East Asia, North and South America. Social Science & Medicine 2002;55:2243–2252. 30) Jang Y, Small BJ, Haley WE. Cross-cultural comparability of the Geriatric Depression Scale: comparison between older Koreans and older Americans, Aging and Mental Health 2001;5:31-37. 31) Mui A, Shibusawa T. Japanese American Elders and the Geriatric Depression Scale. Clinical Gerontologist 2003;26:91-104. 32) Garcia M, Marks G. Depressive symptomatology among Mexican-American adults: an examination with the CES-D Scale. Psychiatry Research 1989;27:137-48. 33) Redmond M, Rooney R, Bishop B. Unipolar depression across cultures: A Delphi analysis of the methodological and conceptual issues confronting the cross-cultural study of depression. Australian e-Journal for the Advancement of Mental Health 2006;5:1446-7984. 34) Dunn VK, Sacco WP Effect of instructional set on responses to the Geriatric Depression Scale. Psychology and Aging 1988;3:315-316. 35) Parmelee PA, Lawton MP, Katz IR. Psychometric properties of the geriatric depression scale among the institutionalized aged. Journal of consulting and clinical psychology 1989;1:331-338. 36) Zunzunegui MV, Béland F, Llácer A, León V. Gender differences in depressive symptoms among Spanish elderly. Social Psychiatry and Psychiatric Epidemiology 1998;33:195-205. 37) Van Marwijk H, Wallace P, De Bock GH, Hermans J, Kaptein AA, Mulder JD. Evaluation of the feasibility, reliability and diagnostic value of shortened version of the geriatric depression scale. British Journal of General Practice 1995;45:195-199. 38) Cully JA, Graham DP, Kramer JR. A 2-item screen for depression in rehabilitation inpatients. Archives of Physical Medicine and Rehabilitation:Geriatric 2005;86:469–472. 39) Dickés P. La psychométrie: théories et méthodes de la mesure en psychologie. Paris : Presses Universitaires de France, 1994. ARTICLE ORIGINAL FIDÉLITÉ ET VALIDITÉ DE L’ÉCHELLE INSTRUMENTAL ACTIVITIES OF DAILY LIVING EN TUNISIE Neila Attia Romdhane*, Ibtissem Ben Hamouda*, Karim Ben Youssef**, Chiraz Mhenni***, Saida Ouenniche**, Amel Mrabet* * Service de Neurologie, EPS Charles Nicolle, Tunis ** Hôpital Régional de Zaghouan *** Institut National de Protection de l’Enfance, La Manouba N. Attia Romdhane, I. Ben Hamouda, K. Ben Youssef, C. Mhenni, S. Ouenniche, A. Mrabet. N. Attia Romdhane, I. Ben Hamouda, K. Ben Youssef, C. Mhenni, S. Ouenniche, A. Mrabet. FIDÉLITÉ ET VALIDITÉ DE L’ÉCHELLE INSTRUMENTAL ACTIVITIES OF DAILY LIVING EN TUNISIE RELIABILITY AND VALIDITY OF INSTRUMENTAL ACTIVITIES OF DAILY LIVING SCALE IN TUNISIA LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 809 - 817 LA TUNISIE MEDICALE - 2008 ; Vol 86 (n°07) : 809 - 817 RÉSUMÉ Pré-requis: L’échelle Instrumental Activities of Daily Living (IADL) est une échelle fonctionnelle qui estime le déclin cognitif par son impact sur la vie quotidienne à l'aide de 2 scores : IADL(0-8) et IADL(8-31) Buts: Examiner la validité et la fidélité de l’IADL auprès d’une population tunisienne âgée et préciser ses scores-seuils. Méthodes: L’étude a porté sur 108 sujets répartis en 3 groupes (‘Normal’=43, ‘MCI’= 25 et ‘Démence’=40) constituant le gold standard. Résultats: La consistance interne de l’échelle est bonne (alpha de Cronbach=0,88) pour l’IADL(0-8) et excellente (alpha=0,95) pour l’IADL(8-31). Elle est excellente (alpha=0,94) pour la démence et médiocre (alpha=0,69) pour les MCI. La fidélité ‘inter-juges’, établie pour 60 patients, est excellente (rho=0,91). Les RLM montrent que seul l’âge a un effet sur les scores IADL. Une table de correction est établie pour les ajuster. L’analyse ROC montre que l’IADL(0-8) détecte mieux la démence que l’IADL(8-31) avec des aires respectives égales à 0,93 et à 0,90. Le score-seuil 6 de l’IADL(0-8) présente une sensibilité=85% et une spécificité=79%. Le score-seuil 12 de l’IADL(8-31) a une sensibilité=80% et une spécificité=78%. La validité concourante des échelles IADL et CDR est établie avec des coefficients rho de Spearman qui varient entre 0,78 et 0,87. Elle ne l’est pas avec l'A-MMSE pour lequel les coefficients rho varient de 0,62 à 0,67 (donc <0,7). Conclusion: L’échelle IADL est globalement fidèle et valide. Le score IADL(0-8) assure une meilleure validité clinique et concourante que le score IADL(8-31). SUMMARY Background: The Instrumental Activities of Daily Living scale (IADL) is a functional scale which estimates cognitive decline by its impact on Daily Living through 2 scores: IADL(0-8) and IADL(8-31). Aims: To examine the validity and reliability of the IADL on Tunisian elderly and to identify its cut-off scores. Methods: The gold standard is made of 108 subjects dispatched in 3 groups (‘Normal’=43, ‘MCI’=25 and ‘Dementia’=40). Results: The scale internal consistency is good (Cronbach’ alpha=0.88) for IADL(0-8) and excellent (alpha=0.95) for IADL(8-31). It is excellent (alpha=0.94) for Dementia and mediocre (alpha=0.69) for MCI. Interrater reliability, established for 60 patients, is excellent (rho=0.91). RLM show that only age acts on IADL scores. A correction table is established in order to adjust them. ROC analysis shows that IADL(0-8) screens better dementia than IADL(8-31) with respective area equal to 0.93 and 0.90. IADL(0-8) cut-off 6 offers a sensitivity=85% and a specificity=79%. IADL(831) cut-off 12 has a sensitivity=80% and a specificity=78%. Concurrent validity of IADL and CDR scales is established with Spearman rho coefficients between 0.78 and 0.87. It is not established with A-MMSE for which rho coefficients stand between 0.62 à 0.67 (so <0.7). Conclusion: The IADL scale is globally reliable and valid. IADL(08) score gives a better clinical and concurrent validity than IADL(831) score. M K O T S - C L É S Démence – Mild Cognitive Impairment (MCI) – Echelle Instrumental Activities of Daily Living (IADL) – Fidélité – Validité – Données normatives – Echelle Clinical Dementia Rating (CDR) – Arabic-Mini Mental State Examination (A–MMSE) E Y - W O R D S Dementia – Mild Cognitive Impairment (MCI) – Instrumental Activities of Daily Living scale (IADL) – Reliability – Validity – Normative data – Clinical Dementia Rating scale (CDR) – Arabic version of Mini Mental State Examination (A–MMSE). f≤u¢ w≠ (IADL) WO±uO∞« …UO∫∞« vK´ ‹«dO£Q∑∞« ”UOI± ‹U∂£ Ë ‚bÅ .j°«d± ‰U±√ ,gO≤Ë …bOFß ,wMN± “«d® ,nßu¥ s° r¥dØ ,…œuL• s° ÂUº∑°« ,ÊUC±¸ WOD´ WKzU≤ : Êu∏•U∂∞« I A D L ( 0 - 8 ) sOKÅU• ‰ULF∑ßU° p∞–Ë ,WO±uO∞« …UO∫∞« vK´ ÁdO£Q¢ Vº• wM≥c∞« ‰ö∑´ô« rOI¥ UOHO™Ë UßUOI± ( I A D L ) WO±uO∞« …UO∫∞« vK´ ‹«dO£Q∑∞« ”UOI± d∂∑F¥ .IADL(8-31) Ë .W¥¸UOFL∞« ‹U§¸b∞« j∂{Ë f≤u¢ w≠ sOMºL∞« bM´ WO±uO∞« …UO∫∞« vK´ ‹«dO£Q∑∞« ”UOI± ‹U∂£Ë ‚bÅ rOOI¢: ·«b≥_« .)UBª® 40( ò·dîòË) UBª® 25( ònOH© wM≥– ‰ö∑´«å ,)UBª® 43( òÍœU´å : ‹U´uLπ± 3 vK´ «u´“Ë ’Uª®√ 108 s± WMOF∞« ÊuJ∑¢ : WOπNML∞« 809 N. Attia Romdhan - Fidélité et validité de l’IADL en Tunisie UH∞√( ·dªK∞ «“U∑L± pßUL∑∞« «c≥ ÊUØË .)0.95 = UH∞√( IADL (8-31(‰ W∂ºM∞U° «“U∑L± Ë )0.88 = UH∞√( IADL (0-8) ‰ W∂ºM∞U° «bO§ ”UOILK∞ wKî«b∞« pßUL∑∞« ÊUØ : ZzU∑M∞« «dO£Q¢ ’Uª®_« dLF∞ ÊUØ .)0.91 = ˸( U∑°U£ ÊUØ Ë UBª® 60 s± W≤uJ∑± W´uLπ± w≠ sOLJ• sO° ”UOIL∞« «c≥ ‹U∂£ rOOI¢ r¢ .nOHD∞« wM≥c∞« ‰ö∑´ö∞ )0.69 = UH∞√( UHOF{Ë )0.94= qÅU∫∞« sO´ .)0.90 = ¡UC≠( IADL )8-31( qÅU∫∞« s± ·dªK∞ qC≠√ hOªA¢ s± sJL¥ )0.93 = ¡UC≠( IADL )0-8( qÅU∫∞« Ê√ ROC qO∞U∫¢ X∑∂£√ .IADL wKÅU• vK´ U∫{«Ë wKÅU∫∞ w±“ö∑∞« ‚bB∞« …uÆ ZzU∑M∞« sO∂¢ .)78% WOÅuBî Ë 80% WOßUº•( .IADL )8-31( Èb∞ 12 Íb∫∞« qÅU∫∞«Ë )79% WOÅuBî Ë 85% WOßUº•( )0-8( IADL Èb∞ 6 Íb∫∞« )0.7 > «–≈ ,0.67Ë 0.62 sO° U± ◊U∂¢¸« q±UF±( WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« l± Áœu§Ë Âb´ Ë )0.87 Ë 0.78 sO° U± ◊U∂¢¸« q±UF±( ·dªK∞ Íd¥dº∞« ”UOIL∞« l± IADL vK´ ÁdO£Q¢ Vº• wM≥c∞« ‰ö∑´ô« hOªA∑∞ IADL(8-31) qÅU∫∞« s± UÆbÅ d∏Ø_« IADL(0-8) qÅU∫∞« vK´ œUL∑´ô« sJL¥ .U±uL´ ‚œUÅ Ë X°U£ IADL ”UOI± Ê√ sO∂¢ : WL¢Uª∞« .WO±uO∞« …UO∫∞« - (CDR) ·dª∞« sOOF∑∞ Íd¥dº∞« ”UOIL∞« - W¥¸UOF± ‹UODF± -‚bB∞« -‹U∂∏∞« -WO±uO∞« …UO∫∞« vK´ ‹«dO£Q∑∞« ”UOI± - nOH© wM≥– ‰ö∑´« - ·dª∞«: WOßUß_« ‹ULKJ∞« .(A-MMSE) WOM≥c∞« W∞U∫K∞ e§uL∞« h∫HK∞ WO°dF∞« WªºM∞« Les cliniciens évaluent de plus en plus souvent l’impact d’une pathologie chronique (cancer, d’un accident vasculaire cérébral, d’une démence….) sur la vie quotidienne des patients. Cet impact est en général estimé par comparaison aux capacités requises pour le fonctionnement autonome du patient, compte tenu de ses caractéristiques sociodémographiques (1). Différentes échelles fonctionnelles ont été développées pour classer les sujets selon un degré de sévérité allant de l’autonomie à la dépendance totale d’un tiers. Nous citerons, à titre d’exemple, les échelles les plus couramment utilisées : l’ADL (Activities of Daily Living) proposée par Katz et al en 1963, l’IADL(Instrumental Activities of Daily Living) développée par Lawton et Brody en 1969 et la B-ADL (Bayer Activities of Daily Living) mise au point par Hindmarch et al en 1998 (1, 2, 3). En 1987, Spector et al ont montré, qu'au cours de la démence, les activités instrumentales sont touchées plus précocement que les activités de base de la vie quotidienne (4). L’échelle IADL évalue l’aptitude d’un sujet à vivre indépendant dans 8 domaines fonctionnels. Dans la version initiale, le sujet devait s’auto-évaluer (2). Les hommes n’étaient évalués que dans 5 domaines, les activités considérées comme ‘féminines’ (ménage, lessive et préparation des repas) ayant été écartées. Les femmes étaient donc cotées sur 8 et les hommes sur 5. Depuis la publication de l’IADL en 1969, les modalités d’évaluation et les règles de cotation ont évolué (5). C’est un examinateur qui évalue le sujet. Les hommes et les femmes sont cotés pour les 8 domaines fonctionnels. Selon le mode de cotation, l’évaluation permet d’aboutir à 7 différents scores (5). Les plus fréquemment utilisés sont l’IADL(0-8) qui varie de 0 (dépendance totale) à 8 (autonomie totale) et l’IADL(8-31) qui varie de 8 (autonomie totale) à 31 (dépendance totale). En 2007, Castilla-Rilo et al, après une large revue de la littérature (2303 références), concluent que l’échelle IADL présente une efficacité acceptable pour détecter la démence bien que peu d’études aient vérifié sa sensibilité et sa spécificité pour cette pathologie (6). L’échelle IADL n’ayant pas encore été validée en Tunisie, nous avons émis l’hypothèse qu’elle permet de détecter la démence par la mesure de son impact sur la vie quotidienne du Tunisien âgé. Pour vérifier notre hypothèse, nous nous proposons d’étudier la fidélité de l’échelle IADL et d’établir la validité de ses scores IADL(0-8) et IADL(8-31) pour détecter la démence au sein de la population tunisienne âgée. M AT É R I E L E T M É T H O D E S Nous ne présenterons dans cette partie que l’essentiel et la 810 spécificité du matériel et des méthodes utilisés pour cette étude. Pour les détails méthodologiques, le lecteur pourra se référer à l’article de Romdhane et al publié dans ce même numéro de la Tunisie Médicale . Population d’étude La consultation de Mémoire, du Service de Neurologie de l’EPS Charles Nicolle, a permis l’inclusion de 74 sujets parmi les patients âgés de 50 ans et plus. N’ont été inclus que les patients ayant bénéficié d’un examen somatique, neurologique, biologique, radiologique (TDM, IRM et/ou SPECT) et neuropsychologique approfondi des fonctions cognitives et conatives. Une enquête sur le Grand Tunis, organisée de janvier à mai 2006 par le Service de Neurologie de l’EPS Charles Nicolle en collaboration avec le Département de Psychologie de la Faculté des Sciences Humaines et Sociales de Tunis, a permis l’inclusion de 34 personnes issues de la population ‘Normale’ âgée de 50 ans et plus. Ces personnes ont bénéficié d’une exploration neuropsychologique approfondie et d’un contrôle médical. Les critères d’exclusion ont été les mêmes pour les deux sources de recrutement. Ont été exclus, les sujets présentant des troubles visuels, auditifs ou de la motricité des mains pouvant empêcher une passation correcte des tests neuropsychologiques. Les patients présentant une autre pathologie neurologique ou psychiatrique chronique pouvant engendrer des troubles cognitifs, les sujets aux antécédents d’abus de consommation de médicaments, de drogue ou d’alcool ainsi que les personnes qui vivent ‘isolées’ ont aussi été exclus. Les patients présentant une pathologie chronique courante en Gériatrie (hypertension, diabète ou autre) n’ont été exclus que lorsque leur pathologie n’était pas contrôlée par les médicaments. Les 108 sujets inclus ont été répartis en 3 groupes constituant le gold standard. Le groupe ‘Normal’ compte 43 volontaires, issus de la consultation de Mémoire ou de l’enquête sur le Grand Tunis, qui ne présentent aucune plainte cognitive ou conative. Le groupe ‘MCI’ se compose de 25 sujets de la consultation de Mémoire répondant aux critères de Petersen (7). Enfin, le groupe ‘Démence’ réunit 40 patients, issus de la consultation de Mémoire, qui répondent aux critères des classifications et des derniers consensus établis pour les différents types de démence (8-13). Ainsi, notre population d’étude se compose de 54 hommes et 54 femmes. Ils sont âgés de 50 à 95 ans et leur niveau d’étude varie 0 à 21 années. Les trois groupes ne diffèrent pas statistiquement pour leurs caractéristiques démographiques (Tableau 1). LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) Tableau 1 : Caractéristiques sociodémographiques de la population d’étude Variables démographiques Sexe (%) Age (ans) Niveau d’étude (ans) Masculin Féminin Moyenne (ET*) Médiane Min-Max Moyenne (ET*) Médiane Min-Max Normal (N=43) 20 (47 %) 23 (53 %) 65,4 (9,8) 64,0 50-95 8,5 (6,0) 10 0-20 Groupe MCI (N=25) 14 (56%) 11 (44 %) 66,6 (9,3) 67,0 50-87 8,3 (6,6) 6 0-21 Démence (N=40) 20 (50 %) 20 (50 %) 68,8 (8,5) 70,5 51-89 6,1 (7,8) 1,5 0-21 Signification** p = 0,752 p = 0,113 p = 0,076 * Ecart-Type ; ** ‘p’ du χ2 (Sexe) ou du Kruskal-Wallis (Age et Niveau d’étude). Présentation de l'échelle IADL Une copie de la version originale de l’échelle IADL, de Lawton et Brody (2), est téléchargeable à l’adresse : http://www.hartfordign.org/publications/trythis/issue23.pdf. Nous présentons en annexe notre traduction française de l’échelle IADL. L’échelle IADL est cotée après interrogatoire du patient et de l’aidant principal (conjoint, proche parent ou auxiliaire de vie). Les 8 domaines fonctionnels sont explorés pour les 2 sexes : utiliser le téléphone, faire les courses, préparer les repas, faire le ménage, faire la lessive, utiliser les moyens de transport, prendre ses médicaments et gérer ses finances. Pour les activités ‘féminines’, les hommes sont cotés selon qu’on les juge capables ou non d’assurer ces activités. Pour l’IADL(0-8), chaque domaine est coté 0 (dépendance) ou 1 (autonomie) comme précisé dans l’annexe. Pour l’IADL(831), l’autonomie totale est cotée 1 et la dépendance totale d’un tiers est coté 3, 4 ou 5 selon le domaine exploré (voir annexe). Les scores IADL(0-8) et IADL(8-31) sont égaux à la somme des scores obtenus pour chaque domaine selon la méthode de cotation. Que ce soit pour l’IADL(0-8) ou l’IADL(8-31), un score égal à 8 traduit toujours l’autonomie totale du sujet. En revanche, la dépendance totale d’un tiers se traduit par un score=0 à l’IADL(0-8) et un score=31 à l’IADL(8-31). Procédures et modalités d’exploration Tous les examens et explorations utilisés pour constituer le gold standard ont été administrés après consentement du sujet ou de son aidant principal. Les conditions de passation et modalités de cotation des différents tests neuropsychologiques ont été respectées. Hormis quelques cas de patients qui se sont toujours présentés seuls (certains volontaires du groupe ‘Normal’ ou du groupe ‘MCI’), toutes les cotations de l’IADL ont tenu compte des réponses du patient et de l’aidant principal. Le score IADL a été établi deux fois pour 60 sujets sans distinction diagnostique, la première par un médecin généraliste et la seconde par un neurologue et ce à deux consultations successives. Pour la validation concourante, 106 sujets ont aussi été évalués par l’échelle Clinical Dementia Rating (CDR). Le score Sum of boxes (CDR-SB) et le score CDR-Global ont été établis pour chaque cas (cf. Attia Romdhane et al dans ce même numéro de la Tunisie Médicale ). De même, 108 sujets ont été testés par la version arabe du Mini Mental State Examination (A-MMSE) et le score ajusté a été établi pour chacun (cf. Bellaj et al dans ce même numéro de la Tunisie Médicale ). Analyse statistique La fidélité de l’échelle IADL est appréciée par le coefficient alpha de Cronbach qui permet de juger de la cohérence des items (médiocre < 0,70 ; acceptable [0,70 à 0,80[ ; bonne [0,80 à 0,90[ ; excellente ≥ 0,90). Par la comparaison des coefficients alpha quand les items sont un à un supprimés, l’analyse permet de vérifier la consistance interne des items qui composent l’échelle IADL. La concordance des juges est examinée pour la cotation de l’IADL(8-31). Elle est évaluée à l’aide du coefficient ‘rho’ de Spearman, considéré faible si |rho| ≤0.30, léger si compris entre 0.31 et 0.50, modéré si compris entre 0.51 et 0.70, bon si compris entre 0.71 et 0.90, enfin excellent si |rho| >0.90. La différence entre paires de cotation est évaluée par le test de Wilcoxon pour séries appariées. Les cotations sont jugées concordantes si ‘p’ est non significatif. L’effet simultané des variables Sexe, Age et Niveau d’étude (NE), sur les scores IADL(0-8) et IADL(8-31), est analysé par une série de Régressions Linéaires Multiples (RLM), de type pas à pas. Un R2 < 0,2 est insuffisant pour proposer une correction selon ces variables sociodémographiques. Si R2 est ≥0,2, la ‘Correction’, selon les coefficients non standardisés ‘B’ établis par RLM, se calcule comme suit : {[B1*(Sexe – Sexe moy) + B2*(Age – Age moy) + B3*(NE – NE moy)]} Le sexe (0 ou 1), l’âge et NE moyens sont ceux de la population soumise aux RLM. La validité clinique de l’échelle IADL pour détecter la démence (ou dépendance d’un tiers) est établie à partir des résultats de la courbe Receiver Operating Characteristic (ROC). Plus l’aire sous la courbe ROC est proche de 1 et plus l’échelle est considérée discriminante. Les résultats sont considérés fiables quand le degré de signification est inférieur à 0,05. Les scores-seuil sont établis à partir des résultats de l’analyse ROC pour l'IADL(0-8) et l'IADL(8-31). Le choix d’un scoreseuil se base sur la sensibilité et la spécificité (faibles si <80%, bonnes si comprises entre 80 et 90% et excellentes si >90%), le χ2 de Pearson (qui compare la sensibilité et la spécificité), le coefficient kappa (faible si ≤ 0.20, léger entre 0.21 et 0.40, modéré entre 0.41 et 0.60, bon entre 0.61 et 0.80 et excellent si >0.80) et la valeur de ‘p’ du test de McNemar (qui compare les 811 N. Attia Romdhan - Fidélité et validité de l’IADL en Tunisie taux de faux positifs et de faux négatifs). Nous avons calculé l’intervalle de confiance à 95% (IC95%) de la sensibilité et de la spécificité pour chaque score-seuil. La validité concourante est examinée à l’aide des corrélations de Spearman entre les scores IADL(0-8) et IADL(8-31) ajustés et les scores CDR-SB, CDR-Global et A-MMSE ajusté. La validité concourante n’est établie que si le coefficient de corrélation rho est > 0,7. Toutes les analyses statistiques uni et multivariées sont réalisées avec SPSS pour Windows (version 13.0). Le seuil de signification, retenu pour tous les tests, est p < 0,05. Effet des variables sociodémographiques Les RLM, réalisées pour le groupe ‘Normal’, montrent que les variables ‘Sexe’ et ‘Niveau d’étude’ n'ont aucun effet significatif sur les scores IADL(0-8) ou IADL(8-31). Le tableau 3 nous permet de constater que l’effet ‘Age’, sur le score IADL(8-31), est plus important que sur le score IADL(0-8). Une table de correction (Tableau 4) a été établie pour corriger (ou ajuster) selon l’âge les scores initiaux obtenus pour l’IADL(0-8) et l’IADL(8-31). Un point doit être ajouté au score IADL(0-8) pour les sujets de plus de 80 ans. Deux points doivent être retranchés du score IADL(8-31) pour les sujets de plus de 80 ans. Enfin, 2 points doivent être ajoutés au score IADL(8-31) pour les sujets de 50 ans et moins. L’efficacité de l’ajustement selon l'âge, des scores IADL(0-8) et IADL(8-31), a été contrôlée par RLM sur l’ensemble de la population d’étude. Les 2 scores, une fois ajustés, ne sont plus influencés par les variables sociodémographiques (pour l’IADL(0-8) : R2=0,08 et pour l’IADL(8-31) : R2=0,06). R É S U LTAT S Fidélité de l’échelle IADL Pour l’ensemble de la population d’étude, le coefficient de Cronbach de l’IADL(0-8) est bon (alpha=0,88) et celui de l’IADL(8-31) est excellent ( alpha=0,95). Le tableau 2 montre que, pour la population d’étude (tous groupes confondus), l’ensemble des items contribuent à la consistance de l’échelle et ce quelque soit la méthode de cotation utilisée. A l’IADL(0-8), les coefficients alpha de Cronbach au sein des groupes (‘Normal’ : alpha =0,19 ; ‘MCI’ : alpha =0,67 ; ‘Démence : alpha =0,82) sont plus faibles que ceux obtenus à l’IADL(8-31) par ces mêmes groupes (‘Normal’ : alpha =0,51 ; ‘MCI’ : alpha =0,69 ; ‘Démence’ : alpha =0,94). Les différences observées ne peuvent être inhérentes qu’aux méthodes de cotation des scores IADL. La cotation binaire, utilisée pour le score IADL(0-8), affaiblit légèrement la cohérence des items de l’échelle IADL, notamment au niveau des groupes. Au niveau des groupes, les 8 items de l’IADL ne sont cohérents que pour le groupe ‘Démence’ (Tableau 2). Ils ne le sont pas pour les groupes ‘MCI’ et 'Normal' où les alpha sont <0,7, donc médiocres, tant pour l’IADL(0-8) que pour l’IADL(8-31). Ces résultats nous amènent à conclure que l’échelle IADL n’est fiable que pour détecter la démence (ou dépendance d’un tiers). La concordance inter-juges pour la cotation de l’IADL(8-31) est excellente (rho=0,91 ; p=0,000). Les écarts entre paires de cotation ne sont pas significatifs (Z=-1,550 ; p=0,121). Nous pouvons en conclure que la cotation de l’échelle IADL est stable et ne dépend pas de l’examinateur. Validité clinique et scores-seuil de l’échelle IADL L’échelle IADL présente un excellent pouvoir discriminant pour détecter la démence (ou dépendance d’un tiers) et ce quelque soit la méthode utilisée pour sa cotation. En effet, l’aire sous la courbe ROC pour le score IADL(0-8) ajusté est de 0,93. Elle est supérieure à l’aire (=0,90) du score IADL(8-31) ajusté. Les résultats sont très fiables (p<0,000). La progression de la sensibilité en fonction de la spécificité des scores ajustés IADL(0-8) et IADL(8-31) est présentée à la figure 1. Pour l’IADL(0-8), nous avons retenu 2 scores-seuil. Le scoreseuil 7 présente une excellente sensibilité (=100%), une spécificité médiocre (=69%), un bon kappa (=0,62) et un test de McNemar très significatif (p<0,000). Ce score-seuil peut être utile dans une optique de dépistage. Le score-seuil 6 a une bonne sensibilité (=85%), une assez bonne spécificité (=79%), un bon kappa (=0,62) et un test de McNemar non significatif (p=0,115). Pour l’IADL(8-31), les 3 scores-seuil possibles offrent des valeurs diagnostiques plus faibles que ceux de l’IADL(0-8). Nous n’avons retenu que le score-seuil 12 qui présente une bonne sensibilité (=80%), une assez bonne spécificité (=78%), Tableau 2 : Consistance interne et cohérence des items de l’échelle IADL Alpha de Cronbach si item supprimé Items IADL Téléphone Courses Repas Ménage Lessive Transport Médicaments Finances alpha de Cronbach 812 IADL(0-8) Population d’étude 0,87 0,86 0,86 0,88 0,86 0,87 0,87 0,85 0,88 Population d’étude 0,94 0,94 0,94 0,95 0,95 0,94 0,95 0,95 0,95 IADL(8-31) Groupes ‘Normal’ ‘MCI’ 0,38 0,73 0,38 0,60 0,51 0,59 0,56 0,71 0,44 0,65 0,45 0,71 0,50 0,63 0,52 0,69 0,51 0,69 ‘Démence’ 0,92 0,92 0,93 0,92 0,94 0,92 0,94 0,94 0,94 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) un kappa modéré (=0,56) avec un test de McNemar non significatif (p=0,210). Figure 1 : Evolution de la sensibilité et de la spécificité des scores IADL(0-8) et IADL(8-31) pour détecter la démence La distribution par groupe diagnostique des scores IADL(0-8) et IADL(8-31) est décrite par la figure 2. Les scores-seuil IADL(0-8)=6 et IADL(8-31)=12 y sont symbolisés par des droites. Ces seuils permettent de distinguer, des patients présentant une démence, tous les sujets normaux et au moins 50% des sujets MCI. Figure 2 : Distribution des scores IADL selon le gold standard et scores-seuil. Les scores IADL(0-8) et IADL(8-31) sont concordants pour 93% des cas avec un excellent kappa (=0,87). Le coefficient de corrélation de Spearman rho est égal à 0,92 avec p<0,000. La figure 3 permet de rendre compte de leur excellente concordance. Figure 3 : Concordance diagnostique des scores IADL(0-8) et IADL(8-31) Validité concourante de l’échelle IADL L’étude des corrélations de Spearman, entre les scores de l’échelle IADL, ceux de l’échelle CDR et celui du A-MMSE, montre que le score IADL(0-8) est inversement fortement corrélé avec le CDR-SB (rho=-0,87 ; p=0,000) et le CDRGlobal (rho=-0,83 ; p=0,000) et plus faiblement corrélé avec le score du A-MMSE (rho=0,67 ; p=0,000). Le score IADL(8-31) est positivement corrélé avec le CDR-SB (rho=0,80 ; p=0,000) et le CDR-Global (rho=0,78 ; p=0,000) et négativement plus faiblement corrélé avec le score du A-MMSE (rho=-0,62 ; p=0,000). La validité concourante de l’échelle IADL (pour ses deux scores) n’est pas établie avec le test A-MMSE (rho<0,7). Elle est en revanche bien établie avec les deux scores de l’échelle CDR. La figure 4 présente la progression du score IADL(0-8) selon le score CDR-Global. Le score-seuil 6 permet de bien différencier les sujets normaux (CDR-Global =0) des sujets déments (CDRGlobal ≥1). Le test de Kruskal-Wallis (X2(3)=59,01 ; p<0,000) montre que le score IADL(0-8) médian est différent d’une classe CDR-Global à l’autre. Le score IADL(0-8) respecte donc les stades évolutifs définis par le score CDR-Global Figure 4 : Distribution des scores IADL(0-8) selon les stades évolutifs du CDR-Global La figure 5 décrit la concordance entre les scores IADL(0-8) et CDR-SB dans notre population d’étude. Les deux scores sont concordants pour 84% des cas avec un bon kappa (=0,65). 813 N. Attia Romdhan - Fidélité et validité de l’IADL en Tunisie Figure 5 : Concordance diagnostique des scores IADL(0-8) et CDR-SB Tableau 3 : Effet des variables sociodémographiques dans le groupe ‘Normal’ Scores Prédicteurs IADL (0-8) IADL (8-31) B** 9,54 -0,03 2,12 0,10 - Constante Age Niveau Etude Sexe Constante Age Niveau Etude Sexe Coefficients RLM* β*** -0,50 -0,18 0,18 0,70 0,12 -0,15 T 19,50 -3,72 -1,33 1,17 1,94 6,31 1,09 -1,21 P 0,000 0,001 0,190 0,247 0,060 0,000 0,280 0,233 F 13,83 Modèle RLM* p 0,001 R2 0,25 39,78 0,000 0,49 *RLM : Régressions Linéaires Multiples ; **B : coefficient non standardisé, ***β : coefficient standardisé. Tableau 4 : Table de correction des scores IADL(0-8) et IADL(8-31) Scores/Age IADL(0-8) IADL(8-31) ≤50 0 2 51-60 0 1 61-70 0 0 71-80 0 -1 ≥81 1 -2 Tableau 5 : Critères de choix des scores-seuil pour l’échelle IADL Scores IADL Oui Démence Oui Non 40 21 Sensibilité (IC %)+ 100% Spécificité (IC %)+ 69% IADL(8-31) ≤7 Non Oui 0 34 47 14 85% (58 à 80) 79% Non Oui 6 27 54 6 (74 à 96) 68% (70 à 89) 91% Non Oui 13 34 62 18 (53 à 82) 85% (84 à 98) 74% Non Oui 6 32 50 15 (74 à 96) 80% (63 à 84) 78% Non Oui 8 29 53 8 (68 à 92) 73% (68 à 88) 88% Non 11 60 (59 à 86) (81 à 96) ≤6 ≤5 IADL(0-8) ≥11 ≥12 ≥13 + IC % : Intervalle de confiance à 95 % en pourcent ; ++ χ2 de Pearson ; * p=0,000 814 χ2++ Kappa ‘p’ Mc Nemar 48,95* 0,62 0,000 42,32* 0,62 0,115 40,86* 0,61 0,167 34,56* 0,55 0,023 34,40* 0,56 0,210 41,25* 0,62 0,648 LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) DISCUSSION Nos résultats nous permettent de considérer que l’échelle IADL est fidèle et valide pour détecter la démence par la mesure de son impact sur la vie quotidienne du Tunisien âgé. Nos résultats sontils concordants avec ceux obtenus par d’autres équipes ? Vittengl et al, en 2006, comparent 7 méthodes de cotation de l’échelle IADL (5). Dans cette étude, l’analyse en composantes principales montre l’unidimensionnalité de l’échelle et les coefficients alpha de Cronbach sont tous excellents. Les auteurs rapportent un alpha égal à 0,90 pour l’IADL(0-8) et à 0,94 pour l’IADL(8-31). Ces résultats concordent avec ceux de notre étude où l’ alpha est égal à 0,88 pour l’IADL(0-8) et à 0,95 pour l’IADL(8-31). Dans une étude portant sur 42 patients atteints de démence type Alzheimer, Farias et al trouvent, pour l’IADL(831), un excellent coefficient alpha de Cronbach égal à 0,93 (14). Dans notre étude et pour le même IADL, l’ alpha du groupe ‘Démence’ est égal à 0,94. Tous ces résultats permettent de conclure que l’échelle IADL est fiable pour détecter la démence. Les deux coefficients alpha de Cronbach du groupe ‘MCI’, établis pour l’IADL(0-8) et l’IADL(8-31), sont <0,7 donc médiocres. L’échelle IADL s'est donc avérée non fiable pour distinguer l’état MCI des autres états (normal ou démentiel). C'est la conclusion à laquelle aboutit Nygard qui trouve que l’échelle IADL ne permet pas de différencier franchement les états MCI des états démentiels (15). Purser et al considèrent qu’il y a deux types de MCI : ceux qui présentent des anomalies IADL et ceux qui n’en présentent pas (16). Pour Farias et al, la concordance inter-juges est égale à 0,85 (14). Dans une étude comparant différentes catégories de professionnels de la Santé (psychiatres, neurologues, psychologues, infirmières et ergothérapeutes), Hokoishi et al trouvent une excellente concordance inter-juges comprise entre 0,90 et 0,95 (17). Dans notre étude, la concordance inter-juges est aussi excellente (rho=0,91). Plusieurs auteurs ont proposé et parfois validé différentes variantes de l’échelle IADL. Fillenbaum, en 1985, constate que la dépendance des sujets débute après l’âge de 80 ans et concerne respectivement les activités ‘Faire le ménage’, ‘Utiliser les moyens de transport’, ‘Faire les courses’, ‘Préparer les repas’ et ‘Gérer ses finances’(18). C’est pourquoi il a proposé que l’échelle IADL soit réduite à ces 5 items. Barberger-Gateau et al rapportent que, selon l’étude PAQUID, il existe une altération de certains items de l’IADL à la phase préclinique, perceptible trois à cinq ans avant le diagnostic de la démence (19, 20, 21). Les activités atteintes très précocement sont ‘Utiliser le téléphone’, ‘Utiliser les moyens de transport’, ‘Prendre ses médicaments’ et ‘Gérer ses finances’ (19, 20). L’évaluation par ces 4 items, dénommée IADL-4, est suffisante pour dépister la Démence en France, même à un stade débutant (21). Dans une autre publication, cette même équipe française explique la valeur prédictive de l’IADL-4 par sa composante cognitive et ce à l’aide d’une analyse factorielle en composantes principales (22). Cromwell et al, en 2003, ont évalué 1095 personnes âgées par l’IADL et le Short Orientation-MemoryConcentration tests (23). Seuls 3 items de l’IADL se sont avérés liés aux performances cognitives : ‘Utiliser le téléphone’, ‘Prendre ses médicaments’ et ‘Gérer ses finances’. La valeur diagnostique, de cette forme d’IADL à 3 items, s’est avérée médiocre (sensibilité et spécificité <0,80). Roehrig et al ont évalué, par une forme composite d’IADL et d’ADL, 327 patients âgés de 60 ans et plus dont 198 sont atteints de cancer et 129 d’une autre pathologie (24). Ils ont combiné 4 des 10 items de l’ADL à 2 des 8 items de l’IADL pour obtenir une échelle de 6 items qui permet de détecter 98,5% des patients positifs à l’échelle ADL ou IADL. Enfin, Mathuranath et al ont développé, pour la population âgée et socio-culturellement hétérogène de l’Inde, une échelle à 11 items IADL, dénommée IADL–E et validée sur un échantillon de 240 sujets (25). Nous avons constaté que les scores IADL(0-8) et IADL(8-31) sont indépendants du sexe et du niveau d’étude mais très liés à l’âge. Nous avons établi une table de correction pour contrôler l’effet âge. Une étude finlandaise constate aussi que l’IADL(08) est liée à l’âge et indépendante du sexe et du niveau d’étude (26). Spector et al, en étudiant une forme composite d’ADL et d’IADL, constatent que l’âge a un effet négatif sur l’autonomie des patients (4). Une étude italienne ne rapporte que l’effet négatif de l’âge pour les femmes (27). Une étude finlandaise, réalisée en 1997, portant sur 795 sujets âgés de plus de 75 ans, a permis, par analyse ROC, de valider l’IADL(0-8) pour la détection de démence avec une aire sous la courbe égale à 0,95 (26). Ce résultat est très proche du notre (aire=0,93). En revanche, Hancock et Larner ont réfuté la validité clinique de l’échelle IADL pour détecter la démence (28). Leurs sensibilités et spécificités ne sont pas satisfaisantes (<0,8) avec une aire sous la courbe ROC égale à 0,75. Pour détecter la démence dans nos consultations, nous avons retenu le score-seuil 6 pour l’IADL(0-8), le score-seuil 12 pour l’IADL(8-31) et le score-seuil 7 pour l’IADL(0-8) dans une optique de dépistage. Pour ce dernier, son excellente sensibilité (100%) peut compenser sa spécificité médiocre (69%) à l’origine de nombreux faux positifs. Un score-seuil 7 pour l’IADL(0-8), avec une sensibilité égale à 94% et une spécificité égale à 84%, a été retenu par l’étude finlandaise (26). Si les valeurs trouvées pour la sensibilité sont comparables par leur excellence, celles de la spécificité ne le sont pas. Notre spécificité, pour le score-seuil 7, est médiocre alors que celle de l’étude finlandaise est bonne. Ousset et al (29) ont montré que la perte d'autonomie est associée au stade CDR avec une diminution significative du score de l'échelle IADL-4 entre chaque classe définie par le score CDR-Global (p<0,0001). Ils n’ont malheureusement pas vérifié la validité concourante des scores par le calcul du coefficient de corrélation de Spearman. Une étude, réalisée à Hong Kong sur une population de 86 patients, trouve aussi une diminution significative (p<0,005) de l'IADL(0-8) entre les classes définies par le score CDR-Global (30). Cependant, un coefficient de corrélation rho, égal à 0,35, est insuffisant pour établir la validité concourante entre les échelles IADL et CDR. Nos résultats confirment que l’IADL(0-8) diminue significativement selon les stades évolutifs définis par le score CDR-Global et établissent la validité concourante des échelles IADL et CDR et ce pour les 2 scores de chaque échelle. La validité concourante du MMSE avec l’IADL(0-8) n’a pu 815 J. Chemli - Maladie coeliaque de l’enfant être établie par l’étude italienne (échantillon de 300 personnes) et pour laquelle le coefficient rho est égal à 0,398 (28). Il en est de même pour Vittengl et al qui, en étudiant une population de 231 sujets, trouvent un coefficient rho égal à 0,64 pour l’IADL(0-8) et un coefficient rho égal à 0,64 pour l’IADL(8-31), tous deux <0,7 (5). Nous n’avons pas établi la validité concourante de l’échelle IADL avec l’A-MMSE car le coefficient rho est égal à 0,67 pour l’IADL(0-8) et à 0,62 pour l’IADL(8-31), tous deux <0,7. Juva et al considèrent que la dispersion des scores ADL et IADL est trop importante et qu'il faut suspecter des facteurs, autres que le déclin cognitif, influencent les capacités fonctionnelles d’un individu (27). La réponse est, quelques années plus tard, apportée par Wilms et al qui montrent que plus de la moitié de la variance observée dans les échelles ADL et RÉFÉRENCES 1) Katz S, Ford Ab, Moskowitz Rw, Jackson Ba, Jaffe Mw. Studies of illness in the Aged. The index of ADL: A standardized measure of biological and psychosocial function. JAMA 1963;185:914-9. 2) Lawton MP, Brody EM. Assessment of older people: Self-maintaining and Instrumental Activities of Daily Living. Gerontologist 1969;9:179-86 3) Hindmarch I, Lehfeld H, de Jongh P, Erzigkeit H. The Bayer Activities of Daily Living Scale (B-ADL). Dement Geriatr Cogn Disord 1998;9Sl-2:20-6. 4) Spector WD, Katz S, Murphy JB, et al: The hierarchical relationship between activities of daily living and instrumental activities of daily living. J Chronic Dis 1987; 40:481–489. 5) Vittengl JR, White CN, McGovern RJ, Morton BJ. Comparative validity of seven scoring systems for the instrumental activities of daily living scale in rural elders. Aging Ment Health 2006;10:40-7. 6) Castilla-Rilo J, López-Arrieta J, Bermejo-Pareja F, Ruiz M, Sánchez-Sánchez F, Trincado R. Instrumental activities of daily living in the screening of dementia in population studies: a systematic review and meta-analysis. Int J Geriatr Psychiatry 2007;22:829-36. 7) Gauthier S, Reisberg B, Zaudig M, Petersen RC, Ritchie K, Broich K, Belleville S et al. Mild cognitive impairment. Lancet 2006;367:1262-70. 8) American Psychiatric Association. Diagnostic and Statistical Manual of mental disorders. 4th ed. Washington DC: American Psychiatric Association, 1994. 9) Mc Khann G, Drachman D, Folstein M, Katzman R, Price D, Stadlan EM. Clinical diagnosis of Alzheimer’s disease: report of the NINCDS-ADRDA work group. Neurology 1984;34:939-944. 10) Dubois B, Feldman HH, Jacova C, Dekosky ST, Barberger-Gateau P, Cummings J et al. Research criteria for the diagnosis of Alzheimer’s disease: revising the NINCDS-ADRDA criteria. Lancet Neurol 2007;6:734-46. 11) Neary D, Snowden JS, Gustafson L. Frontotemporal lobar degeneration: a consensus on clinical diagnostic criteria. Neurology 1998;51:1546-1554. 12) McKeith IG, Dickson DW, Lowe J, Emre M, O’Brien JT, Feldman H, Cummings J et al. Diagnosis and management of dementia with Lewy bodies: third report of the DLB Consortium. Neurology 2005;65:1863-72. 13) Hugonot-Diener LA. Critères diagnostiques de la démence vasculaire (NINCDS-AIREN). In; Collection: consulter/prescrire : La consultation en Gériatrie. Paris : Masson, 2001. 14) Farias ST, Harrell E, Neumann C, Houtz A. The relationship between neuropsychological performance and daily functioning in individuals with Alzheimer's disease: ecological validity of neuropsychological tests. Arch Clin Neuropsychol 2003;18:655-72. 15) Nygård L. Instrumental activities of daily living: a stepping-stone towards Alzheimer's disease diagnosis in subjects with mild cognitive impairment? Acta Neurol Scand 2003;179:42-6. 16) Purser JL, Fillenbaum GG, Pieper CF, Wallace RB. Mild cognitive impairment and 10-year trajectories of disability in the Iowa Established Populations for Epidemiologic Studies of the Elderly cohort. J Am Geriatr Soc 2005;53:1966-72. 17) Hokoishi K, Ikeda M, Maki N, Nomura M, Torikawa S, Fujimoto N, Fukuhara R, Komori K, Tanabe H. Interrater reliability of the Physical Self-Maintenance Scale and the Instrumental Activities of Daily Living Scale in a variety of health professional representatives. Aging Ment Health 2001;5:38-40. 816 IADL est expliquée par des troubles cognitifs et des troubles de mobilité (31). Ainsi, les anomalies relevées par une échelle fonctionnelle ne traduisent pas seulement un déclin cognitif mais aussi une altération de la mobilité qui est fréquemment observée chez les personnes âgées. Ces constations peuvent expliquer pourquoi la validation concourante du MMSE avec une échelle fonctionnelle telle que l’IADL n’a pu être établie. Pour conclure, l’échelle IADL, cotée (0-8) ou (8-31), présente globalement une excellente fidélité, notamment pour détecter la démence (ou dépendance d’un tiers). Elle n’est cependant pas fiable pour détecter les états MCI. Les scores IADL(0-8) et IADL(8-31), bien que très concordants, n'ont pas la même valeur diagnostique. Le score IADL(0-8) présente une meilleure validité clinique et concourante que le score IADL(8-31). 18) Fillenbaum GG: Screening the elderly: a brief instrumental activities of daily living measure. J Am Geriatr Soc 1985; 33:698-706. 19) Barberger-Gateau P, Commenges D, Gagnon M, Letenneur L, Sauvel C, Dartigues JF. Instrumental activities of daily living as a screening tool for cognitive impairment and dementia in elderly community dwellers. J Am Geriatr Soc 1992;40:1129-34. 20) Barberger-Gateau P, Dartigues JF, Letenneur L. Four Instrumental Activities of Daily Living Score as a predictor of one-year incident dementia. Age Ageing 1993;22:457-63. 21) Barberger-Gateau P, Fabrigoule C, Helmer C, Rouch I, Dartigues JF. Functional impairment in instrumental activities of daily living: an early clinical sign of dementia? J Am Geriatr Soc 1999;47:456-62. 22) Barberger-Gateau P, Fabrigoule C, Rouch I, Letenneur L, Dartigues JF. Neuropsychological correlates of self-reported performance in instrumental activities of daily living and prediction of dementia. J Gerontol B Psychol Sci Soc Sci 1999;54:293-303. 23) Cromwell DA, Eagar K, Poulos RG. The performance of instrumental activities of daily living scale in screening for cognitive impairment in elderly community residents. J Clin Epidemiol 2003;56:131-7. 24) Roehrig B, Hoeffken K, Pientka L, Wedding U. How many and which items of activities of daily living (ADL) and instrumental activities of daily living (IADL) are necessary for screening. Crit Rev Oncol Hematol 2007;62:164-71. 25) Mathuranath PS, George A, Cherian PJ, Mathew R, Sarma PS. Instrumental activities of daily living scale for dementia screening in elderly people. Int Psychogeriatr 2005;17:461-74. 26) Juva K, Mäkelä M, Erkinjuntti T, Sulkava R, Ylikoski R, Valvanne J, Tilvis R. Functional assessment scales in detecting dementia. Age Ageing 1997;26:393-400. 27) Iavarone A, Milan G, Vargas G, Lamenza F, De Falco C, Gallotta G, Postiglione A. Role of functional performance in diagnosis of dementia in elderly people with low educational level living in Southern Italy. Aging Clin Exp Res 2007 Apr;19(2):104-9. 28) Hancock P, Larner AJ. The diagnosis of dementia: diagnostic accuracy of an instrument measuring activities of daily living in a clinic-based population. Dement Geriatr Cogn Disord 2007;23 :133-9. 29) Ousset PJ, Andrieu S, Reynish E, Puel M, Vellas B. Clinical evaluation of dementia in a cohort of 358 patients with the French version of the Clinical Dementia Rating (CDR) scale. Rev Med Int 2003;24:283-287. 30) Liu KP, Chan CC, Chu MM, Ng TY, Chu LW, Hui FS, Yuen HK, Fisher AG. Activities of daily living performance in dementia. Acta Neurol Scand 2007;116:91-5. 31) Wilms HU, Riedel-Heller SG, Angermeyer MC. Limitations in activities of daily living and instrumental activities of daily living capacity in a representative sample: disentangling dementia- and mobility-related effects. Compr Psychiatry 2007;48:95-101. LA TUNISIE MEDICALE - 2008 ; Vol 86 Sup. (n°07) ANNEXE : ECHELLE IADL Items IADL A. Utiliser le Téléphone A1.Se sert du téléphone de sa propre initiative. Recherche des numéros et les compose. Cotation 0-8 8 -31 Items IADL E. Faire la lessive E1. Fait sa propre lessive. 1 1 A2. Compose les numéros de téléphone bien connus. 1 2 A3. Répond au téléphone, mais ne peut appeler. 1 3 A4. N’utilise plus le téléphone B. Faire les courses B1. Peut faire toutes les courses nécessaires de façon autonome. 0 4 1 1 F. Utiliser les moyens de transport F1. Voyage de façon indépendante (transports en commun ou avec sa voiture). B2. N'est indépendant que pour les petites courses. 0 B3. Doit être accompagné pour faire ses courses. Cotation 0- 8 8 -31 1 1 E2. Nettoie et rince le petit linge, chaussettes etc. 1 2 E3.Toute sa lessive doit être faite par un tiers. 0 3 1 1 2 F2. Se déplace seul en Taxi, mais pas en Bus, Métro …1 2 0 3 F3. Utilise les transports publics s’il est accompagné. 1 3 B4. Est totalement incapable de faire des courses. 0 4 F4. Se déplace en taxi ou voiture si accompagné. 0 4 C. Préparer les repas C1. Peut à la fois organiser, préparer et servir des repas de façon autonome. F5. Ne se déplace plus. G. Prendre ses médicaments 0 5 1 1 G1. Aucun traitement 1 1 C2. Peut préparer des repas adéquats si ingrédients fournis. 0 2 C3. Peut chauffer et se servir ou préparer des repas non adaptés à son régime. G1. Prend correctement seul ses médicaments, à la dose et à 1'heure indiquées. 1 1 0 3 G2. Est capable de prendre seul ses médicaments s'ils sont préparés à l'avance. 0 2 0 4 0 3 1 1 G3. Est incapable de prendre seul ses médicaments. H. Gérer ses finances H1. Est indépendant pour gérer ses finances (budget chèques, loyer et factures, domiciliations), percevoir et garder trace des revenus. 1 1 2 H2. Effectue les achats quotidiens mais a besoin d'aide pour gérer son compte en banque, son budget et pour planifier les grosses dépenses. 1 2 H3. Est incapable de gérer l’argent. 0 3 C4. A besoin qu'on lui prépare et serve ses repas. D. Faire le ménage D1. Fait le ménage seul ou avec assistance occasionnelle (gros travaux ménagers). D2. Exécute des tâches quotidiennes légères, comme faire la vaisselle, faire son lit. 1 D3. Exécute des tâches quotidienne légères mais avec un niveau inacceptable de propreté. 1 3 D4. A besoin d'aide pour tous les travaux d’entretien ménagers. 1 4 D5. Ne participe à aucune tâche ménagère 0 5 817