Evaluation Des Enseignements: de La Contrainte
Evaluation Des Enseignements: de La Contrainte
Evaluation Des Enseignements: de La Contrainte
L’évaluation des enseignements est une pratique ancienne puisque, selon Doyle (1983), on en
trouve des traces jusqu’en 350 avant Jésus Christ. Si certaines études, sur ce sujet furent
publiées à la fin du 19ème siècle1 c’est surtout dans le courant du vingtième siècle que ce champ
théorique s’est étoffé.
Dans ce contexte, les pratiques d’Evaluation des Enseignements par les Etudiants (EEE) furent
décrites plus tardivement. Si en 1924, un groupe d'étudiants de l'université de Harvard publie le
Confidential Guide to Course, probablement le premier répertoire de cours évalués (Bernard,
1992), et que le premier formulaire d’évaluation des enseignements a été rempli en 1954
(Guthrie, 1954), il faudra attendre le début des années 60 pour que la pratique d’EEE se
généralise. Cette généralisation se fera d’abord lentement, puis de manière plus spectaculaire à
la fin du 20ème siècle. Ainsi, une étude longitudinale de Seldin (1993) portant sur 600 collèges
américains montre que 29 % de ceux-ci utilisaient l’EEE en 1973, qu’ils étaient 68 % en 1983 et
que ce chiffre atteignait les 86 % en 1993.
En Europe, et plus particulièrement dans les pays francophones, cette méthodologie se diffuse
plus lentement. Par exemple, Dejean (2002) dans son rapport sur l’évaluation de l'enseignement
dans les universités françaises conclut que cette forme d’évaluation est encore peu développée
et a du mal à s’imposer. En Belgique francophone, il faut attendre le milieu des années 80 pour
voir ce type de méthodologie sporadiquement utilisée. Cependant, partout en Europe, le rythme
de diffusion de ces méthodes a été très largement accéléré par le processus de Bologne.
Parallèlement à ces pratiques, un épais corpus théorique s’est dégagé à partir des années 60.
Ainsi, Cashin (1995) a répertorié plus de 1500 références scientifiques portant sur l’évaluation
de l’enseignement par les étudiants (student ratings).
Une très large part de cette littérature a eu trait à la validité et à la fidélité de la mesure
récoltée à l’aide ce cette méthodologie (Thivierge, 1996). Très tôt, des recherches crédibles
démontrent la validité de l’EEE alors que d’autres continuaient à s’interroger. Par exemple, en
1981, Cohen conclut à la validité de l’EEE après une méta-analyse portant sur 41 études
indépendantes. Malgré les travaux tendant à démontrer la validité et la fidélité de la procédure,
le scepticisme reste souvent de mise parmi les enseignants évalués. Ce qui fait dire à Cohen
(1990) que « Negative attitude towards student ratings are especially resistant to change, and it
seems that faculty and administrators support their belief in student-rating myths wit personal
and anecdotical evidence wich [for them] outweighs empirically based research evidence ».
Même si des études francophones approfondies sur les représentations des enseignants par
rapport à l’EEE (Bernard 2000, Younes, 2006) concluent que les représentations sont moins
univoques et souvent plus ambivalentes que ce que souligne Cohen, il n’en reste pas moins que les
chercheurs-praticiens en EEE ont dû et doivent encore constamment faire la preuve de la qualité
des mesures effectuées à l’aide de cette méthode, ce qui explique le très large champ théorique
consacré à cet aspect. Il est d’ailleurs amusant de remarquer que Aleamoni ait publié en 1987 un
article portant le titre « Student rating myths versus research facts » et qu’un peu plus tard
Theall (2002) ait produit une note interne dans son université s’intitulant « Student Ratings:
Myths vs. Research Evidence ».
1
Rice (1898) publie une étude comparative de la performance de 33.000 étudiants en épellation, étude dans
laquelle il fit une critique sévère des procédés d’enseignement jusqu’alors utilisés (cité par Nadeau, 1990).
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Cette omniprésence de la validité et de la fidélité dans le champ scientifique de l’EEE a
longtemps relégué au second plan des éléments de nature extrêmement importante. Si quelques
articles ont traité du développement des activités d’évaluation et leur dissémination dans les
institutions universitaires (Bernard, 1992 ; Centra, 1993), alors que d’autres s’attachaient à
comprendre les enjeux liés à l’EEE (par exemple, Dejean, 2002), très peu d’articles et tous assez
récents (par exemple, Mc Keachie, 1997 ; Knight, 2002 ; Rege Colet, 2005) se sont intéressés à
l’impact de cette méthode sur les pratiques des enseignants. En d’autres termes, l’analyse de la
validité conséquentielle (Messick, 1993) ou de la validité catalytique (Lather, 1986) de l’EEE n’a
été posée que très récemment et les réponses demeurent actuellement largement incomplètes.
Or cette question nous semble être centrale au débat. En effet, l’EEE ne se justifie que si elle
produit un effet positif sur les enseignements. Or la seule qualité édumétrique du feedback issu
de la procédure ne suffit pas à garantir que des effets se manifestent.
Dans le premier chapitre, nous allons rapidement passer en revue quelques travaux sur la validité
et la fidélité de l’EEE et illustrer le type de débat contradictoire qui y prend place. Nous
aborderons alors succinctement la littérature portant sur les conditions de réussite de l’EEE.
Dans le second chapitre, nous tenterons d’apporter notre point de vue sur l’impact de l’EEE en
présentant un modèle qualité de construction d’EEE étayé par la littérature.
1. La littérature en EEE
Cette approche consiste à corréler les résultats obtenus par un enseignement lors de l’EEE à
d’autres mesures critériées de la qualité d’un enseignement. Typiquement, il ‘agit ici de comparer
la performance d’un enseignement à l’EEE avec, par exemple, le score obtenu à l’examen par les
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
étudiants, l’évaluation des anciens étudiants, l’évaluation par les pairs, le portfolio….) – pour
l’aspect multitrait - mais aussi pour ce faire d’utiliser différentes méthodes (item ouverts et
fermés, interviews…) –pour l’aspect multiméthode. Les études sérieuses qui se sont penchées sur
ce sujet concluent en faveur d’une validité convergente et discriminante de l’EEE (Howard,
Conway et Maxwell, 1985 ; Marsh, 1982). La problématique inhérente à ce type de recherche et
la validité des indicateurs comparés, comme par exemple, le score obtenu par les étudiants à
l’examen ou l’évaluation par les pairs, pose également beaucoup de questions. Ce ne sont, en fait,
que des mesures incomplètes et imparfaites du même objet : la qualité de l’enseignement.
Par exemple, le score obtenu par les étudiants à l’examen est une mesure qui ne reflète pas que
la performance de l’enseignement. En Effet :
• Elle ne tient pas compte des compétences des étudiants à l’entrée dans le cursus
d’apprentissage. De manière caricaturale, si un étudiant connaît préalablement la matière,
il peut afficher un excellent score à l’examen sans avoir rien appris au cours. Les
pédagogues peuvent solutionner ce problème en recourant au gain relatif GR=Gain
effectué/Gain possible (Mc Guigan, 1967). Or cette méthode exige un prétest et un
post-test exactement de la même difficulté, ce qui peut se révéler difficile à mettre en
œuvre.
• Le gain relatif peut être influencé par des variables externes à l’enseignement. Celles-ci
comment le climat d’un département ou d’une institution influençait l’apprentissage des
étudiants en favorisant ou en défavorisant leur engagement.
• On sait depuis Piéron (1963), à quel point l’évaluation des étudiants est soumise à un
manque de fidélité inter-juges et intra-juges. Le score obtenu ne reflète donc pas
uniquement la performance de l’étudiant.
• Souvent, l’examen manque de validité de contenu et/ou de validité de construct. En
d’autres mots, les questions de l’examen ne sont souvent qu’un échantillon peu
représentatif de l’ensemble du contenu du cours.
• Les examens ont la plupart du temps lieu juste après les enseignements et ne présagent
en rien de l’apprentissage à long terme, par exemple, du transfert qui pourra être réalisé
dans un contexte professionnel.
Le score obtenu à l’examen est donc une mesure incomplète et imparfaite qui reflète finalement
avec peu de certitude la qualité d’un enseignement. Conclusion qui peut d’ailleurs s’étendre au
portfolio de l’enseignant (Kane, Krooks et Cohen 1999 ; Richlin et Manning, 1996), à l’évaluation
par les anciens étudiants (Kulik, 2001), et à l’observation par des pairs qui n’évaluent qu’un
échantillon du cours.
Les études multisection sont utilisées pour mesurer la relation entre l'évaluation des
enseignements et le score des étudiants dans des chapitres différents du même cours donné par
des enseignants différents. Cette méthodologie présente l’avantage de contrôler les variables
inhérentes au contexte et celles inhérentes à l’étudiant, puisque ce sont les mêmes cours suivis
par les mêmes étudiants. Au total, ces études montrent une corrélation entre résultats et le
jugement EEE qui va dans le sens de la validité de l’EEE puisque les cours où les étudiants ont les
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
meilleurs scores sont ceux qu'ils évaluent le plus favorablement : Abrami, d'Appolonia et Cohen
(1990), d'Appolonia et Abrami (1997).
Cette méthodologie n’échappe toutefois pas complètement à l’analyse que nous avons effectuée
sur l’évaluation des étudiants dans le sous-chapitre précédent.
D’autres, comme l’âge (Ory, 2001), n’ont pas d’effet. D’autres enfin comme la qualité de
chercheur et le sexe montrent des résultats inconstants et plus difficiles à interpréter. Ainsi,
pour le sexe, il semblerait que les auditoires masculins évaluent plus favorablement les hommes
et que les auditoires féminins évaluent plus favorablement les femmes. Cet effet est cependant
marginal (Bennett, 1982; Bernard, Keefauver Elsworth et Maylor, 1981 ; Feldman 1992). Il
semblerait également que les filles évaluent plus positivement certains aspects spécifiques,
comme de l’enseignement que les garçons (Aleamoni et Hexner, 1980). Il semblerait également
que les enseignantes obtiennent un meilleur score que les enseignants sur certaines variables,
comme par exemple « l’attention portée au progrès des étudiants » (Feldman, 1983). Bennet
(1982), cité par Younes (2002) a mis en évidence que les étudiants seraient plus exigeants par
rapport aux comportements féminins (ex. : disponibilités envers les étudiants) chez les femmes
que chez les hommes. En d’autres termes, un même comportement ne sera pas perçu de la même
manière selon le sexe de l’enseignant. Sur certains aspects, le niveau d’exigence ne sera pas
nécessairement le même pour les enseignants que pour les enseignantes3.
Une des variables liées à l’enseignant qui a été la plus débattue dans la littérature est la
popularité et la personnalité de l’enseignant. La plupart des études montrent que ces
caractéristiques de l’enseignant influence, à des degrés divers, le jugement des étudiants par
rapport à l’enseignement prodigué (Aleamoni, 1987 ; Feldman, 1978 et Theall et Franklin, 1990).
Au-delà des corrélations, la plupart du temps très faible, entre certaines de ces variables et
l’EEE, il est nécessaire d’interpréter ces résultats de recherche. Ainsi, un enseignant
expérimenté, nommé et populaire aurait, en tendance, une meilleure évaluation qu’un jeune
assistant impopulaire. Cet effet, ne montre-t-il tout simplement pas qu’un enseignant
expérimenté prodigue un meilleur enseignement, qu’un enseignant nommé est plus efficace et que
la popularité est étroitement liée à la capacité à enseigner aux étudiants ? Certains auteurs vont
dans ce sens. Par exemple, la recherche montre que les étudiants apprécient les enseignants
2
L’analyse des biais en EEE que nous proposons se base en partie sur cet article.
3
Pour plus de détails : Kierstead, d’Agostino et Dill (1988), Sandler (1991), Richardson et Cook (1991).
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
compétents, chaleureux, extravertis et enthousiastes qui sont également des caractéristiques
améliorant l’enseignement (Murray, Rushton, et Paunonen, 1990). Certaines études prêtent plus à
la controverse. Ainsi, par exemple, Emery (1995)4, dans une étude non publiée, semble avoir
démontré que les enseignements qui amenaient de la nourriture en classe recevaient le meilleur
score à l’EEE. Abrami, Leventhal, et Perry (1982) ont montré que certaines caractéristiques de
l’expressivité de l’enseignant avaient un effet sur son score à l’EEE, mais n’avait pas d’influence
sur la qualité des travaux réalisés. Les études en laboratoire se sont également largement
penchées sur l’effet potentiel du style de l’enseignant sur le score à l’EEE. Nous y reviendrons
dans la section suivante.
Enfin, en ce qui concerne la race de l’enseignant, qui a très peu été investigué, des études
récentes (Hamermesh et Parker, 2005 ; Glascock et Ruggerio, 2006) montrent que, toutes
choses égales par ailleurs, les enseignants faisant partie de minorités ethniques ont en tendance
des scores inférieurs à ceux des enseignants de couleur blanche.
Les liens entre le score obtenu ou espéré par les étudiants et leur jugement sur la qualité de
l’enseignement reçu a fait l’objet d’une très large littérature. Contrairement aux autres variables
analysées dans ces recherches de biais, pour lesquelles nous avons choisi de ne fournir au lecteur
que les résultats les plus probants, nous avons choisi de les résumer soigneusement et
historiquement. En effet, cette perspective historique fera comprendre au lecteur la difficulté
méthodologique inhérente à l’étude des biais et la difficulté à interpréter les résultats obtenus.
La première étude sur ce thème qui mérite d’être mentionnée est celle de
Rodin et Rodin (1972). Premièrement parce qu’elle a été publiée dans la
célèbre revue Science mais aussi parce que ses résultats étaient très
interpellants. En effet, les auteurs démontraient une corrélation négative de
-.75 entre le score à l’examen (grading) et le score obtenu à l’EEE (rating). A
ce jour, c'est la seule étude à montrer une corrélation négative de cette
ampleur. Cette étude, si elle a eu le mérite d’ouvrir un nouveau champ de
recherche, a subi depuis un lot important de critiques. Par exemple, Doyle
(1975) écrit à son sujet une réplique cinglante : "L’attention accordée à
l’étude de Rodin et Rodin semble proportionnelle à son manque de rigueur".
Le premier est lié aux items du questionnaire EEE. Il montre par exemple que
les items liés à la capacité de l'enseignant et à l'organisation du cours sont
très corrélés avec le score à l’examen, que ceux liés au rapport élève-
4
Cité par Emery, Kramer and Tian (2003).
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
enseignant sont pauvrement corrélés et que ceux liés à la difficulté du cours
ne sont pas du tout corrélés.
Les études de Greenwal et Gillmore (1997) vont dans le même sens. Ils
concluent que, toutes choses égales par ailleurs, augmenter le score à
l’examen augmente le score à l’EEE. Ils y voient la preuve que l’EEE n’est pas
valide : il suffirait de diminuer les exigences à l’examen pour obtenir une
bonne évaluation. Abrami et Appolinia (1997) et Marsh et Roche (1997) ne
partagent pas cette analyse : ils soulignent que ce n'est pas parce qu'il y a
une corrélation entre score à l’examen et réponse à l’EEE qu’il y a une
causalité.
Enfin, en ce qui concerne la personnalité de l’étudiant, les études d’Abrami, Perry et Leventhal
(1982) concluent qu’il n'y a pas de liens consistants et porteurs de sens entre des traits de
personnalité de l'étudiant et ses évaluations.
Les liens entre EEE et le caractère optionnel ou obligatoire du cours ont été questionnés par de
nombreux auteurs ( Costin, Greenough et Menges, 1971 ; Brandenburg, Slinde et Batista, 1977 ;
Feldman, 1978 ; Mc Keachie, 1979 ; Marsh, 1984 ; Aleamoni, 1989). Tous concluent que les cours
obligatoires obtiennent une évaluation plus négative que les cours optionnels. Même si la part de
la variance expliquée par cette variable est minime, Brandenburg, Slinde et Batista (1977)
recommandent de rédiger des normes différentes pour les cours obligatoires et optionnels.
L’impact du niveau d’enseignement dans lequel est donné le cours sur l’EEE a été exploré par
Costin, Greenough et Menges (1971), Aleamoni et Graham (1974), Bausell et Bausell (1979),
Feldman (1978), Kulik et McKeachie, (1975), Doyle (1983) et par Aleamoni (1989). Même si les
corrélations sont peu élevées, tous signalent qu’en tendance, un enseignant donnant cours dans
les niveaux supérieurs aura une évaluation plus élevée qu’un enseignant dans un niveau inférieur.
La taille de l’auditoire a également été étudiée. Les enseignants pensent souvent qu’enseigner à
un petit groupe leur permet d’être plus performant que quand ils enseignent à de grands groupes.
Les études ne démontrent pourtant pas ce fait. Ainsi, Feldman (1978), dans une revue portant
sur 52 études réalisées dans des auditoires de taille différente trouve une corrélation de -0,9
entre la taille de l’auditoire et le score à l’EEE. La corrélation ne semble cependant pas être
l’indicateur qui convient le mieux pour ce type d’analyse. En effet, certaines études parmi celles
que Feldman a étudiées montrent que les évaluations sont en tendance plus positive pour les très
petits groupes (<15 etudiants) ou pour les très grands groupes (>100 étudiants). Plus tard, Cashin
(1992) conclura qu’isolée, la variable taille de l’auditoire n’est pas une source sérieuse de biais. Un
an plus tard, Centra (1993) ponctue en disant que la taille de l’auditoire « have little practical
signifiance » sur le score à l’EEE.
En ce qui concerne la discipline enseignée au cours, Feldman (1978) avait déjà démontré que les
mathématiques et les sciences étaient, en tendance, un score inférieur aux autres disciplines. Ce
qui l’amenait à dire qu’il fallait tenir compte de cette variable, soit en créant des normes
spécifiques pour les enseignants de ces matières, soit en contrôlant statistiquement cette
différence. Un peu plus tard, Cashin (1990, 1992) et (Centra, 1993) arrivent à des conclusions
Le rapport entre la charge de travail et le score à l’EEE est assez étonnant. La plupart des
auteurs (Marsh, 1980, 1982, 1983, 1984 ; Cashin, 1988) trouvent une relation positive entre ces
deux variables : plus la charge de travail inhérente à un enseignement augmente plus, en
tendance, le score obtenu lors de l’EEE pour cette enseignement augmente.
Enfin, les méthodes de passation de l’EEE peuvent influencer, même si ce n’est que marginal, les
résultats à l’EEE. Ainsi Les EEE recueillies pendant un examen final (Frey, 1976) et celles pour
lesquelles l’étudiant ne doit pas s’identifier (Argulewiz et O'keefe, 1978 ; Feldman, 1979 ;
Hartnett et Seligsohn, 1967 ; Stone, Spool et Rabinowitz, 1977) sont, en tendance, plus sévère.
Alors que les EEE sont plus élevées si les résultats sont utilisés à des fins de promotion (Centra,
1976 ; Feldman, 1979 ; Overall et Marsh, 1979), si l'enseignant reste dans la classe pendant
l'évaluation, et si un administrateur fait un court speech sur l'importance de l'évaluation (Frey,
1976)
La conclusion sur les biais liés au contexte revient à Theall et Franklin (2001). Ils citent l’étude
de Marsh (1987) - dont les conclusions sont que les variables contextuelles n’influencent pas
grandement les EEE – mais précisent qu’il est vrai qu'un jeune enseignant d'un cours de premier
cycle et obligatoire en physique aura un score en tendance plus faible qu'un enseignant confirmé
de second cycle, d'un cours optionnel. Cela n'est peut-être pas un biais, en ce sens que ce sont
les enseignements qui sont évalués et qu'il est sans doute plus difficile de donner un
enseignement de qualité sous certaines conditions.
La plus connue des études de laboratoire est probablement celle dite du « Docteur Fox ». Dans
cette étude, Naftulin, Ware et Donnelly (1973) ont demandé à un acteur (nommé le Doctor Fox)
de donner une leçon de mathématique à des médecins en formation. Cette leçon était truffée
d’erreurs en terme de contenu (néologisme inexistant présenté comme concepts clés, …) mais
avec un maximum d’emphase. A la fin de cette leçon, un questionnaire d’EEE fut rempli.
L’évaluation était très positive, ce qui aux yeux des auteurs signifiait que l’EEE mesurait le style
de l’enseignant plutôt que la qualité de son enseignement. Cette étude a très vite été critiquée
dans la littérature, notamment sur base de l’authenticité d’une telle étude. Ainsi, Abrami,
Leventhal et Perry (1982), Frey (1979), Marsh et Ware (1982) critiquèrent le fait que les
étudiants aient dû porter leur jugement après une seule séance de cours, dans une matière qu'ils
ne connaissaient absolument pas (ils étaient en début de premier cycle) et sans avoir pu fonder
Dans la lignée de l’expérience du Doctor Fox, l’étude de William et Ceci (1997) mérite également
d’être mentionnée. Ces auteurs ont tenté de démontrer que l’EEE était plus influencée par le
style de l’enseignant que par le contenu du cours. D’une une étude multisection, ils ont en effet
comparé les scores EEE lorsqu’un même enseignant variait son style d’enseignement (intonation
de la voix, comportement non verbal, enthousiasme, …) dans deux groupes différents sans
toutefois modifier ni le matériel, ni le contenu du cours. Ils arrivent à la conclusion que les
performances des étudiants en fin de semestre à l’examen ne varient pas entre les deux groupes,
mais que le score EEE, lui, varie de manière significative (il passe de 3.08 à 3.92 sur 5). Ils en
concluent que l’EEE ne dépend pas du contenu, mais bien du style de l’enseignant. d’Apollonia et
Abrami (1997) ont sévèrement critiqué cette recherche d’un point de vue méthodologique, la
qualifiant de recherche préexpérimentale. Ils soulignent qu’eux-mêmes (Abrami, Leventhal et
Perry, 1982) ont publié une revue des études quantitatives sur le sujet. Ils y concluent que
l’expressivité de l’enseignant à un plus grand impact sur son score EEE que sur l’apprentissage
des étudiants. Dans cette même étude, ils concluent également que le contenu du cours a un plus
grand impact sur l’apprentissage des étudiants que sur le score à l’EEE. Toutefois, ils
interprètent ces résultats très différemment des détracteurs de l’EEE. Pour eux, ces résultats
ne sont en rien la preuve de la non-validté de l’EEE. Ils disent que, plutôt que de la remettre en
cause, ces résultats posent la question des raisons de la validité de l’EEE. Ils soutiennent que des
études comme celles du Docteur Fox et de William et Ceci (1997) sont plus utiles pour
comprendre ce qui peut influencer la relation entre score à l’EEE et apprentissage des étudiants
que pour démontrer que cette relation est forte assez que pour assurer la validité.
Une autre étude de laboratoire, est celle menée par Ambady et Rosenthal (1992). Dans cette
recherche, ils ont soumis à des observateurs des séquences vidéos de trente secondes, qu’ils ont
appelées « fines tranches d’expressivité (Thin slices of expressive behavior) ». Ces séquences ne
comprenaient pas de son. Ils ont demandé aux observateurs de prédire quel serait le score de
l’EEE pour ces enseignements. Ils observent une corrélation positive élevée (.76) entre le
jugement des étudiants et le pronostique des observateurs. Ils en concluent que le score
attribué à un enseignement dépend essentiellement de comportements non verbaux
indépendamment de la qualité de l’enseignement. Kulik, 2001 a commenté cette étude. Il signale
que le faible échantillonnage de cours vidéoscopés rend l’erreur de mesure très importante. Il
fait également référence à une étude de la littérature de Feldman (1989), qu’il juge plus sérieuse
sur les liens entre score EEE et score attribué par les observateurs. Les études revues par
Feldman comprenaient l’observation de longues séquences d’enseignement (visuelles et auditives).
La corrélation moyenne relevée par Feldman est de .50.
Comme le spécifie Ory et Ryan (2001), beaucoup d’études (Kulik et McKeachie, 1975 ; Feldman,
1976 ; Marsh, 1987) ont été conduites, revues ou méta-analysées pour tenter de repérer un set
commun de facteurs sous-tendant le construct qui est mesuré par le score à l’EEE. Bien qu’il y ait
quelques éléments communs à toutes ces études, la recherche n’est pas parvenue à isoler un seul
ensemble de dimensions, ce qui plaide pour le fait de voir la qualité de l’enseignement comme
étant multidimensionnelle.
1.1.6. Conclusion
Notre conclusion personnelle portera sur deux principes. Le premier est un principe de
précaution. Le second est un principe d’efficacité.
Dans le cadre d’une évaluation administrative, nous pensons que sous certaines
conditions5, l’EEE pourrait être utilisée avec d’autres méthodes.
Quelques études de ce type ont été effectuées et mettent en avant des résultats
paradoxaux. Ainsi, si de nombreux effets positifs des EEE sur les pratiques
d’enseignement ont été mis en évidence dans les recherches de Marsh et de ses
collaborateurs, des effets négatifs (Mc Keachie, 1979) ou une absence d’effets (Bernard
et al. 2000 ; Johnson, 1999) ont aussi été rapportés. Ces effets contradictoires ont aussi
été retrouvés dans la recherche conduite dans une université française sur les effets de
l’EEE par Younes (2006). Pourquoi de tels effets contradictoires et quelles sont les
5
Contrôle statistique de certaines variables, prise en compte de l’erreur de mesure, …
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
conditions d’une utilisation de l’EEE à des fins de régulation formative de
l’enseignement ? Il est probable que les réponses résident dans les caractéristiques et
les conditions de l’implémentation de l’EEE dans les universités. La littérature propose
quelques guidelines qui vont être abordées au chapitre 2.
1.2. Lignes directrices pour une EEE favorisant la régulation
Desjardins et Bernard, en 2002, listent un certain nombre de modèles favorisant une évaluation
des enseignements de qualité :
Ainsi, Cashin (1999) propose un certain nombre de pistes pour rendre cette
opération valide et efficace : utiliser de nombreuses sources d’information en plus
des étudiants ; faire l’évaluation du matériel d’enseignement ; valoriser la
contribution du professeur à son évaluation ; interpréter les résultats en fonction de
leurs variables contextuelles.
Menges (1990) présente, pour sa part, un modèle qu’il nomme les 4P : Plans,
Procedures, Preconditions, Products, permettant de faciliter l’utilisation des
informations contenues dans les évaluations pour améliorer l’enseignement. Le
modèle de Menges rejoint en tout point le modèle de Bernard (1992) qui propose de
prendre en considération les différentes dimensions de l’enseignement, dont la
planification, la prestation, les résultats et les conditions d’enseignement, afin d’en
tracer un portrait complet.
Pour Brinko (1991), une évaluation doit être suivie d’une rétroaction et d’une action.
Cette chercheuse propose un modèle en quatre phases qui va bien au-delà de
l’évaluation proprement dite : une rencontre initiale avec le professeur et un expert
afin de définir les besoins d’amélioration ; une formation permettant de mieux
cerner la situation de l’enseignement ; une évaluation de l’enseignement ; une analyse
des résultats suivie d’une planification de l’amélioration.
Outre ces modèles cités par Desjardins et Bernard (2002), d’autres auteurs ont proposé une
série de lignes directrices. Ainsi, Ory (2001) préconise de mettre sur pied une commission d’EEE
comprenant des représentants de l’ensemble des porteurs d’enjeux. Cette commission aura pour
mission de
• Fournir une théorie consistante pour choisir les items du questionnaire et créer un
dispositif pour répondre à des critères psychométriques forts.
• Mener des recherches sur les effets voulus et non voulus de l’EEE et sur la manière dont
le dispositif se met en place et est utilisé par les acteurs.
• Vérifier que les administrateurs jouent leur rôle et utilisent les évaluations
conformément à leurs objectifs.
• Vérifier que les enseignants prennent l’EEE au sérieux.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Pour Arreola (1994), les premiers pas et les plus importants à faire pour favoriser une bonne
pratique en EEE sont : arriver à un consensus sur ce qui est important, sur ce qui devra être
évalué, déterminer qui participera à cette évaluation, et définir les critères de qualité qui seront
utilisés.
Theall et Franklin (2001) définissent quant à eux 12 lignes directrices qui sont :
• Etablir les objectifs de l'EEE et l'utilisation qui sera faite des résultats avant
l'opération.
• Impliquer les porteurs d'enjeux dans les décisions prises à propos de l'EEE.
• Présenter clairement et publiquement toute information au sujet des critères,
procédures et processus d'EEE.
• Produire des rapports qui peuvent être compris rapidement et efficacement.
• Former les destinataires de feedbacks pour éviter les erreurs ou les mauvaises
interprétations.
• Garder en tête un équilibre entre les besoins des individus et ceux de l'institution.
• Inclure à la procédure des ressources pour l'amélioration de l'enseignement. Si on ne fait
pas cela, la procédure est stigmatisée comme punitive, puisqu'elle ne peut pas être
formative. Cela mène à de l'anxiété, de la résistance et de l'hostilité.
• Garder les évaluations formatives confidentielles et les distinguer clairement des
évaluations sommatives.
• Adhérer à des pratiques psychométriques et docimologiques rigoureuses.
• Réguler régulièrement le dispositif d'EEE.
• Mettre en place un système légal de recours et un système de recueil des doléances.
Emery et ses collègues, en 2003, propose 9 lignes directrices dont certaines sont communes à
celle de Theall et Franklin (2001) :
• Ne pas utiliser l’EEE de manière isolée, mais utiliser de multiples sources de données.
• Dans le questionnaire, utiliser des items traduisant plus la performance de l’étudiant
plutôt que sa satisfaction. Privilégier, par exemple, des items comme « avez-vous fait
des progrès en connaissance ? ».
• Privilégier une évaluation critériée plutôt que normative. Si on opte pour une évaluation
normative, vérifier que les conditions d’enseignements soient les mêmes.
• S’assurer que les données soient techniquement acceptables, notamment en terme de
taux de réponses.
• Demander aux étudiants de commenter les feedbacks quantitatifs qu’ils ont donnés.
• Former les évaluateurs à l’évaluation et les superviseurs à donner/diffuser des
feedbacks.
• S’assurer que le système est légal.
• S’assurer que le système est flexible et soit adaptable à la situation de chacun.
• S’assurer que le système reconnaisse la pluralité des méthodes éducatives.
Plus récemment, Younes (2006) a mis en évidence sept catégories de conditions favorables pour
que l’EEE ait un effet de régulation formative sur l’enseignement :
Sur base de l’ensemble de ces considérations, et à partir de notre propre expérience, nous avons
tenté de définir un modèle englobant de création d’EEE de qualité. Celui-ci sera présenté dans le
chapitre 2 de ce document.
Notons que la crainte accompagnant parfois l’évaluation des enseignements, la qualité des
procédures utilisées et la communication qui entoure le processus peuvent avoir des effets
cumulatifs, voir même démultiplicatifs entraînant parfois le rejet pur et simple de la procédure.
Il y a donc des enjeux importants à proposer des procédures d’évaluation valide et fidèle, à
communiquer au sujet de celle-ci, à éclaircir la portée des décisions qui pourront être prises et à
expliciter l’ensemble du processus. Pour atteindre l’ensemble de ces objectifs, nous avons créé un
modèle englobant.
Information/formation
Micro - Régulation
Planification
Traitements et jugements
Décisions de régulation
Macrorégulation
Vous trouverez dans le chapitre 2.1 une brève introduction à ce modèle. Les chapitres 2.2 à 2.12
reprendront une à une chacune des étapes qui le constituent.
L’évaluation des enseignements par les étudiants peut poursuivre divers objectifs, comme par
exemple améliorer le processus d’enseignement (évaluation formative) ou promouvoir un
enseignant (évaluation administrative). Des objectifs choisis pour l’évaluation va découler
l’ensemble de la procédure.
Une fois les objectifs précisés, les objets d’évaluation définis et l’outil choisi, il reste à
construire, à peaufiner ou à adapter ce dernier. Cela nous semble devoir être fait par un comité
d’experts, dans un dialogue collaboratif. Ce comité sera composé différemment en fonction des
objectifs, objets et outils d’évaluation, mais il nous semble important qu’il comprenne au moins le
responsable de l’évaluation des enseignements dans l’institution et pour chaque faculté
concernée : - des enseignants, - des représentants des individus participant à la mise en œuvre
de l’outil (des étudiants par exemple) et - un responsable académique des enseignements
(recteur, doyen ou président de conseil des études). Ce comité créera une première version de
l’outil qui devra être testée sur le terrain. Après cette première évaluation une version définitive
de l’outil pourra être créée et utilisée en routine.
Un outil, aussi parfait soit-il, ne sera efficace que s’il est bien utilisé et dans de bonnes
conditions. Souvent sous-estimée, c’est pourtant essentiellement de cette étape de mise en
oeuvre que dépendra la qualité intrinsèque des données récoltées. Par exemple, les données
extraites d’un questionnaire (par ailleurs excellent et valide), soumis à un échantillon peu
représentatif nous donnera des résultats difficilement interprétables.
Quel type de traitement va-t-on effectuer ? Va-t-on, par exemple, se centrer exclusivement sur
les moyennes et les écarts-types, ou va-t-on présenter des histogrammes de fréquence ? Les
données seront-elles présentées de manière brute, ou les comparera-t-on à une norme ? Et si
c’est le cas, comment constituera-t-on cette norme ? Ces questions sont cruciales pour que les
résultats de l’évaluation soient présentés de la manière la plus claire possible et que le jugement
qui en découle soit le moins possible sujet à l’interprétation.
Par ailleurs, l’étape de jugement est l’une des plus délicates. Les deux questions essentielles
sont : « qui va juger » et « selon quels critères ». De la première réponse pourrait dépendre le
degré de confidentialité de la procédure. Imaginons que la procédure d’évaluation ait été mise en
œuvre pour que les étudiants puissent choisir les cours à option sur des bases pédagogiques, les
juges sont les étudiants et la confidentialité des résultats est quasi nulle. La deuxième réponse
est, elle aussi, capitale « quels sont les éléments apportés par l’évaluation à prendre en
compte ? », « comment les pondérer les uns par rapport aux autres ? », autant de questions
auxquelles il faut apporter une réponse claire et limpide.
Les étapes suivantes sont présentées verticalement. Elles sont en fait concomitantes et
continuent aux 9 premières étapes.
2.1.8. Macrorégulation
la fin du cycle constitue un moment idéal pour repérer, à l’aide d’information plurielles, ce qui
peut être améliorer dans le cycle suivant.
La procédure d’évaluation des enseignements ne pourra être efficace que si elle requiert
l’adhésion de la majorité des acteurs. Convaincre est le maître-mot. Débusquer les mythes,
démontrer la pertinence des procédures utilisées, donner de la crédibilité à l’ensemble du
processus est une condition sine qua non à la mise en œuvre d’une évaluation de qualité. Une
analyse institutionnelle de l’établissement, voire même le recours à des moyens psychosociaux,
comme l’analyse des représentations sociales des divers acteurs impliqués, sera parfois
nécessaire pour analyser les adjuvants et les freins à l’évaluation des enseignements.
2.1.10 Information/formation
Nous l’avons déjà signalé à l’étape de contextualisation : convaincre est le maître-mot. Et pour
convaincre, il faut garantir la qualité et communiquer intelligemment. A partir du moment ou le
processus d’évaluation se fait dans les règles de l’art, ou chacune des étapes décrites a été
menée consciencieusement et ou des représentants du corps professoral ont été intégrés à
divers moments du processus, la procédure peut et doit être mise en lumière. Jouer la
transparence et démontrer la limpidité du processus est très important en terme d’évaluation
des enseignements.
2.1.11. Planification
Etablir un calendrier prévisionnel est un élément important pour garder le cap dans des
procédures longues et complexes comme l’évaluation des enseignements. Ainsi déterminer pour
quand l’outil d’évaluation devra être prêt, quel sera le moment de son utilisation, et la date à
laquelle les résultats devront être disponibles est utile. Chaque acteur du processus sait ainsi à
l’avance quand il devra intervenir et quand les éléments nécessaires à son action seront prêts. Le
respect de ce planning donne aussi de la cohérence à l’ensemble de la procédure.
Les huit premières étapes développées semblent être linéaires et s’enchaîner en une suite
logique. Dans la réalité, il n’en va toutefois pas de même. Les mouvements de va et vient entre les
différentes étapes ne sont pas rares et sont même parfois souhaitables.
L’évaluation des enseignements peut poursuivre de nombreux objectifs dans nos établissements
universitaires. Bernard (1992) en définit plusieurs. Pour cet auteur, l’évaluation des
enseignements est un moyen de
o reconnaître que l'enseignement a sa place et donc de le valoriser et l'améliorer ;
o donner aux différents acteurs un feedback sur la qualité de l’enseignement ce qui
permettra d’améliorer ce dernier ;
o promouvoir l'enseignement en tant que critère de promotion et, par le fait même, de voir
à l'élaboration d'instruments et de méthodes d'évaluation valides qui permettront une
prise de décision éclairée (évaluation administrative) ;
o permettre aux étudiants de faire leurs choix de cours en fonction des résultats des
évaluations ;
o se positionner comme une université au management participatif dans lequel les étudiants
peuvent s’exprimer sur les processus qu’ils vivent.
Centra (1993), Murray (1984), Doyle (1983), MCKeachie (1979) se sont eux aussi prononcés sur
les buts de l'évaluation de l'enseignement. Tous s'entendent sur les deux buts les plus
importants à savoir [1] l'évaluation pédagogique, faite à des fins d'amélioration de
l'enseignement, et [2] l'évaluation administrative, faite à des fins de promotion, permanence et
renouvellement de contrats.
Ces deux buts doivent-ils être vécus dans une même évaluation ou doivent-ils être réalisés
séparément et différemment ? Les auteurs divergent sur cette question. Pour certains, il faut
dissocier les deux buts puisque chacun demande une démarche totalement différente. Centra
(1993) et Bernard (1992) proposent que le but formatif précède le but administratif. D'autres
recommandent de concilier les deux buts en faisant en sorte que le but administratif serve aussi
à des fins formatives.
L’enjeu de cette question est important et les arguments nombreux et parfois contradictoires.
En voici quelques-uns :
• La qualité de l’information requise pour une évaluation administrative doit être maximale
en terme de validité et de fidélité. Difficile à mettre en œuvre de par son formalisme,
l’évaluation administrative ne peut être très fréquente pour des raisons de praticabilité.
De plus, elle doit idéalement utiliser plusieurs méthodes ou sources de données. Au
contraire, la qualité de l’information nécessaire à une évaluation formative pourrait être
moindre en terme de validité et de fidélité, l’essentiel étant de proposer un feedback
suffisamment diagnostique et fréquent que pour améliorer l’enseignement. Cet argument
nous semble important lorsque, pour des raisons de praticabilité, il est difficile
d’atteindre à la fois des objectifs de validité, fidélité et de diagnosticité.
• Il n’est pas opportun d’évaluer les enseignements de manière administrative si on ne les a
pas évalués au préalable de manière formative. Dans la plupart des universités
européennes, très peu d’enseignants bénéficient d’une formation pédagogique pointue. De
plus, la plupart du temps, ils ont été engagés sur base de leur carrière de chercheur et
souvent, leur dossier pédagogqiue n’est pas pris en compte (ou très peu) lors de leur
engagement (Dejean, 2002). Evaluer leur enseignement de manière formative leur donne
donc l’opportunité de connaître leurs forces et leurs faiblesses et d’ainsi réguler leurs
pratiques.
Les logiques d’évaluation et les niveaux d’analyse peuvent alors se croiser dans un espace en deux
dimensions, ce qui offre un cadre de réflexion qui permettra de mieux cibler le dispositif
d’évaluation à mettre en place :
Les objets d’évaluation d’un enseignement sont nombreux et il n’est pas toujours facile d’en isoler
certains au détriment d’autres. La notion même d’enseignement est complexe. Certains
enseignants universitaires adoptent des méthodes axées sur l’exposé magistral, parfois
agrémenté de l’une ou l’autre technique plus interactive, comme par exemple, l’utilisation de
boîtiers de vote électronique (Detroz & al., 2002). D’autres, ont recours à l’approche par
problème. Parfois, c’est l’approche par projet qui est adoptée. Certains enseignants demandent
aux étudiants de produire des exposés interactifs (Jans & al., 1998) alors que d’autres
privilégient les études de cas. Notons enfin que certains enseignants ont également recours à la
mise à distance de leurs cours ou exploitent le Blended Learning.
En dehors de ces cours, les étudiants vivent également des séances de travaux pratiques ou, en
fonction des disciplines et des ressources, ils peuvent parfois être observateurs de phénomènes
et parfois acteurs de leur apprentissage.
Pour autant qu’il n’y ait pas d’épreuves externes, l’évaluation fait aussi partie intégrante de
l’enseignement. De l’oral au QCM en passant par l’écrit, la simulation ou l’observation d’actions
spécifiques, de l’exposé à la production de rapports, les méthodes sont multiples et variées.
Notons également que nos enseignants, dans le cadre de leurs enseignements sont souvent
amenés à accompagner les étudiants tout au long de leur travail de fin d’études et de les
superviser dans le cadre de leur stages.
Comme nous le voyons, les options sont nombreuses et les objets d’évaluation multiples. Il faudra
faire des choix. Trois approches permettent de les effectuer.
Cette méthode participative pour déterminer les caractéristiques d’un bon enseignement,
si elle est tentante, présente néanmoins un certain nombre de défauts. Ainsi, Feldman
(1989), un an plus tard écrit que ces 8 facteurs, mis en avant par les enseignants et les
étudiants, n’ont pas tous nécessairement d’effet sur l’apprentissage, alors que d’autres,
qui n’ont pas été cités, comme par exemple « la stimulation de l’intérêt des étudiants »
joue un rôle clé dans celui-ci.
• L’approche transversale :
Elle consiste à déterminer les objets à évaluer sur base de modèles pédagogiques décrits
dans la littérature. Méthode souple et adaptative, elle consiste à entraîner un dialogue
collaboratif entre les différents porteurs d’enjeux pour traduire les concepts-clés des
modèles en objets évaluables. Parmi les modèles présents dans la littérature, celui de
Gilles et al. (2006) retient notre attention.
Ce modèle insiste autant sur les pôles du polygone, les paramètres à prendre en compte
dans toute action didactique, que sur les lignes qui unissent ces différents pôles et qui
mettent en évidence les interactions entre les composantes de l’action didactique.
Ce modèle nous semble intéressant à utiliser pour choisir des objets d’évaluation, surtout
lorsque la logique d’évaluation est pédagogique. En effet, il fournit un cadre général
permettant une démarche d’ouverture puis de focalisation sur les éléments qui semblent
opportuns dans un contexte donné.
L’évaluation critériée externe est extrêmement répandue dans nos universités européennes. C’est
d’ailleurs le mode d’évaluation proposée par l’European University Association. En effet, cette
association recommande d’utiliser les normes publiées en 2005 (ENQA, 2005) concernant des
standards et guidelines pour l’assurance qualité en Enseignement Supérieur. Sur base de ces
standards les départements rédigent un rapport d’autoévaluation qui sera analysé et commenté
par des experts externes à l’université.
Cette méthode consiste à ce que des pairs évaluent l’enseignement. Cela peut se faire soit dans
une logique administrative (c’est le concept de leçon publique). Ce type d’évaluation n’est pas sans
poser un certain nombre de problèmes. Scriven (1993) est acerbe envers cette modalité
d’évaluation. Il précise que la simple présence des observateurs altère la leçon, que les séquences
d’observation sont peu nombreuses et trop courtes que pour porter un jugement fiable, et que les
observations présentent un certain nombre de biais. Il ajoute que la leçon n’est qu’une part de
l’évaluation des enseignements qui en comprend bien d’autres (matériel didactique, examens, …).
Il conclut en disant, au sujet de cette évaluation « it’s not just incorrect, it’s a disgrace ». A
noter qu’une corrélation modérément positive entre l'évaluation par les pairs et l’EEE a été
démontrée dans la recherche (Doyle et Chrichton, 1978, Feldman, 1978). Feldman en 1989 trouve
même une corrélation de .50.
L’évaluation par les pairs peut également servir une fin formative. Dans ce cadre, elle regroupe
une famille de stratégies d’amélioration de l’enseignement qui impliquent que des collègues
travaillent ensemble de manière systématique dans un programme bien structuré (Morrison,
1997). Ce sont en général des pairs travaillant ensemble pendant au moins un semestre dans une
relation d’aide qui inclut des visites de cours mutuelles, des discussions avec les étudiants et des
rencontres régulières pour aborder leurs pratiques d’enseignement et des façons de l’améliorer.
Selon Younes (2001), Shore a le premier exprimé l’idée que c’est aux enseignants universitaires
de construire eux-mêmes la démonstration de leur efficacité en tant qu’enseignants, « a
portfolio of evidence » (Shore, 1975, p. 8). Toujours selon le même auteur, le portfolio est donc
envisagé non comme une nouvelle méthode d’évaluation mais plutôt comme un système de collecte,
combinaison et organisation de l’information à partir d’une large série de sources incluant les
approches traditionnelles de l’évaluation de l’enseignement comme les visites de pairs et les
évaluations des étudiants.
Les portfolios donnent une vision plus large de l’enseignement que celle fournie uniquement par
les évaluations des étudiants. Le fait qu’ils soient rédigés par la personne qui sera évaluée
questionne cependant leur fiabilité et leur objectivité. Une étude publiée par l’American
Association for Higher Education (Anderson, 1993) conclut à leur caractère satisfaisant,
cependant les études formelles des portfolios sont rares. Centra (1993) est un des quelques
chercheurs qui a rassemblé des données sur la fiabilité et la validité des portfolios. Il a comparé
les décisions de titularisation et de promotion basées sur les portfolios à celles qui étaient prises
sans ce support et a trouvé que les jugements étaient raisonnablement fiables (accord inter-
juges) quand les juges travaillaient avec des critères spécifiés. Il a conclu qu’utiliser les
portfolios pour prendre des décisions sommatives quant à l’enseignement pouvait fournir une
image de la performance plus complète et que l’évaluation des portfolios nécessitait de discuter
Toutefois d’autres études sont plus pessimistes quant à l’utilisation du portfolio pour l’évaluation
administrative des enseignements. Selon Kane, Crooks et Cohen (1999), les portfolios fournissent
une information complexe. Or ils soulignent que plus la tâche à évaluer est complexe et ouverte,
plus il est difficile d’établir des critères standardisés robustes qui s’appliquent à toutes les
productions. Cela signifie que l'évaluation porte sur un large corpus d'information qui implique
une nécessaire interprétation de la part de l’évaluateur. Selon Schultz et Moss (2004), une telle
interprétation implique un niveau d’abstraction sélective. Ainsi, certains aspects peuvent être
aléatoirement mis en avant et d’autres jugés comme anecdotiques, entraînant un manque de
Fidélité inter-correcteur. Richlin et Manning (1996) sont encore moins optimistes lorsqu’ils
écrivent « Programs that use Portfolio to make decisions about promotion, tenure, or honors
seldom have guidelines that apply explicit criteria to those portfolios. In most case, it’s not that
there is no evaluation system… but that system is without agreed-upon and explicit criteria for
assessment”.
Cette difficulté à atteindre un niveau de qualité suffisant en termes de fidélité (reliability) pose
la question de la pertinence du portfolio en termes d'outils d'évaluation administrative. Dans le
cadre d’une évaluation formative, cet outil nous semble ouvrir une plateforme vers un dialogue
collaboratif en profondeur.
L’évaluation par des évaluateurs externes poursuit essentiellement les mêmes objectifs, les
mêmes procédures et présente les mêmes défauts que celle des pairs. L’aspect
fondamentalement différent est lié aux caractéristiques de l’observateur qui peut par exemple
être un expert en pédagogie ou un évaluateur externe. En fonction de ce profil, l’évaluateur sera
ressenti comme plus ou moins bienveillant.
2.4.5. L’auto-évaluation
Même si Dejean (2002) spécifie que cette méthode d’évaluation a des difficultés à s’imposer en
France, ce type d’évaluation est la plus pratiquée au sein des universités au niveau mondial. Ainsi
l’enquête de Seldin sur l’évaluation des enseignements (1993) montre qu'on est passé de 29 %
d'utilisation de cette méthode d’évaluation dans les universités américaines en 1973, à 68 % en
1983 et à 86 % en 1993. Aucune autre source d'information n'atteint ce score. Pour Murray
Ces enquêtes sont, en général, focalisées sur la réussite lors des poursuites d’études aussi bien
que sur les évaluations rétrospectives des bénéfices de la formation. La réussite professionnelle
et les revenus peuvent aussi être examinés en tant qu’indicateurs de l’efficacité de la formation
suivie. L’information concernant l’embauche est une autre source de données. Ainsi, en France,
selon Younes (2002), les bases de données de l’assurance chômage sont des sources
d’informations utiles pour suivre l’histoire de l’emploi des diplômés et peuvent être directement
liées aux systèmes d’information de l’institution.
Certaines critiques concernant ce type d’évaluation peuvent être formulées. Par exemple, Scriven
(1983) fustige le faible taux de réponses de ce genre d’étude mais surtout le fait que les
données récoltées portent sur une situation d’enseignement obsolète qui a sans doute évolué.
Afin d’être tout à fait complet, nous citerons également le focus group constitué d’étudiants
(Tiberius, 2001) et la commission qualité des étudiants (Spence et Lenze, 2001).
Pour Fenwick et Parsons (2000), chacune de ces approches fournit différents types
d’informations et chacune a des avantages et des inconvénients. Il s’agit d’apprécier comment les
utiliser pour évaluer l’enseignement de manière productive.
Pour nous l’outil doit être choisi en fonction des logiques, objectifs et objets d’évaluation
privilégiés et des critères qualité que ces éléments favorisent.
Pour analyser la qualité d’un outil, nous faisons référence aux critères de qualité définis par
Gilles en 2002. Cet auteur propose 8 critères dans le cadre de l’évaluation des étudiants et les
adaptons à notre contexte. Ainsi, un outil peut assurer
• La validité : les informations récoltées lors de la phase d’évaluation des enseignements
doivent représenter ce que l’évaluateur veut mesurer, permettre des inférences solides
(validité de construct ou théorique) et couvrir les aspects importants de l’enseignement
(validité de contenu).
• La fidélité : les informations liées à un enseignement donné, permettant un jugement
donné, doit l’être de la même façon si elle est traitée par d’autres (concordance inter-
juge) et/ou à un autre moment (consistance intra-juge).
• La sensibilité : la mesure doit être précise, refléter les phénomènes subtils de
l’enseignement.
Il est difficile de choisir un outil satisfaisant à l’ensemble de ces critères. Le choix d’un outil est
la plupart du temps un choix sous contrainte. Il est, par exemple, difficile d’avoir à la fois un outil
valide, diagnostique et répondant également à des critères de praticabilité.
Pour établir un choix, nous avons classé ces outils par rapport aux critères de qualité
Les critères de qualité à favoriser dépendent des objets de l’évaluation. Le tableau suivant met
en correspondance les compatibilités méthodes d’évaluation/objets évalués, en se basant à titre
indicatif sur les éléments du modèle du polygone des paramètres de l’action didactique présenté
au chapitre 2.3.2.
Toutefois, nous sommes conscients que dans nos institutions universitaires sous-financées, il est
difficile de varier les outils de recueil d’informations. Même si pour des raisons de praticabilité,
on sera tenté de privilégier des méthodes standardisées, peu coûteuses en matériel humain, la
clé principale du choix doit porter sur les objets d’étude que l’on veut privilégier et sur les
critères de qualité que l’on souhaite promouvoir. Notons dans ce cadre que la méthode
d’évaluation des enseignements par les étudiants est celle qui couvre le plus de critères de
qualité et le plus d’objets d’évaluation.
Lorsque, suite à une analyse des logiques, des niveaux et des objets d’évaluation, on a décidé de
mettre en place une procédure d’évaluation des enseignements par les étudiants, la première
question à se poser est de savoir le design que celle-ci va prendre.
Une question essentielle est de savoir si on va opter pour un questionnaire unique ou pour un
questionnaire adapté à chacun des cours. Un certain nombre d’arguments plaident pour l’une ou
l’autre des situations.
• Le questionnaire unique :
o Il permet des comparaisons longitudinales, puisque ce sont exactement les mêmes
questions qui sont posées chaque année.
Une fois choisi le design de l’EEE, il faut se pencher sur la construction des questionnaires.
Bernard (2002) donne quelques lignes directrices pour la constitution de ceux-ci. Au niveau de la
constitution des items, elle préconise de [1] respecter les facteurs d’efficacité de
l’enseignement reconnus par la recherche; [2] être clair et sans équivoque ; [3] être affirmatif;
et [4] être descriptif et impersonnel. En terme d’échelle, elle préconise [1] d’être objective; [2]
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
de ne pas comporter de point neutre; [3] de comprendre le point «sans objet»; [4] d’être
explicite; [5] d’être de longueur raisonnable; [6] d’être appropriée au type d’énoncé; [7] d’être
identique tout au long du questionnaire.
En général, les questionnaires d’EEE contiennent également une partie ouverte. Plutôt que la
laconique case « commentaires », Lewis (2001) propose d’utiliser les questions suivantes :
• Qu’est ce qui vous a aidé dans vos apprentissages lors du cours ?
• Qu’est ce qui vous a perturbé dans vos apprentissages lors du cours ?
• Quelles suggestions de changement pouvez-vous faire qui amélioreraient votre
apprentissage en classe ?
La taille des questionnaires est également un facteur important à prendre en compte. L’enjeu
sera de concevoir un questionnaire suffisamment long pour être valide, sensible et diagnostique.
Mais un questionnaire trop long risque de poser des problèmes en terme de praticabilité, de voir
un taux de réponses insuffisant, ou de voir un manque de concentration des étudiants. Un juste
équilibre, en fonction des objectifs poursuivis et des moyens disponibles devra être trouvé.
Une fois le ou les questionnaires créés, il sera nécessaire de le ou les prétester. Cette phase de
prétest a plusieurs fonctions et vise principalement à augmenter la fidélité, la validité et la
praticabilité du questionnaire (Oppenheim, 1992 ; Morrison, 1993 ; Wilson et MC Lean, 1994). Au
cours de cette phase, chaque questionnaire sera présenté à un échantillon de répondants. Les
objectifs de ce prétest peuvent être les suivants (Cohen, Manion, Morrison, 2007).
• Vérifier que les items du questionnaire, les instructions et le protocole soient clairs.
• Obtenir des feedbacks sur la validité du questionnaire.
• Eliminer les mots ambigus ou complexes.
• Vérifier la lisibilité du questionnaire.
• Vérifier la pertinence du type de questions et de son format (échelles utilisées, …).
• Utiliser les réponses ouvertes pour éventuellement proposer de nouvelles questions
fermées.
• Identifier les omissions, repérer les items redondants.
• Obtenir des informations sur l’intérêt porté au questionnaire par les répondants.
• Vérifier le temps de passation.
• Vérifier les caractéristiques du questionnaire (motivant, intrusif, polémique, …).
• Tester le système de codage ou de classification pour les questions ouvertes.
Le taux de réponses des étudiants est une variable clé du dispositif. Un taux de réponses trop
faible poserait des problèmes évidents en terme de représentativité et de fiabilité des données.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Pour éviter ce biais, certains praticiens rendent l’opération d’évaluation obligatoire. Si cette
méthode permet d’accroître considérablement le taux de réponses (on passe ainsi, selon notre
pratique d’une quarantaine de pour-cent à environ 80 % de taux de réponses), cette méthode
présente une lacune évidente. Elle se base sur le postulat que les étudiants ne répondent pas à
l’EEE par négligence, par manque de temps, ou par oubli et que les contraindre résoudra cette
situation. Or, certains étudiants ne répondent pas car ils doutent de l’intérêt de la procédure,
ont des craintes quant à l’anonymat des données, pensent que les résultats ne seront jamais
traités, ou éprouvent un manque d’intérêt total pour l’EEE. Ainsi, dans une des facultés de notre
université où l’EEE avait été rendue obligatoire, nous avons vu des étudiants répondre en
quelques secondes à des questionnaires, sans même lire les questions, de manière à strictement
se conformer à leurs obligations. Il va sans dire l’impact qu’avait ce comportement sur la qualité
des mesures effectuées. Nous avons résolu partiellement ce problème grâce à la création du
logiciel « electronic Network for Global Evaluation of Learner’s Satisfaction – e-NGELS » qui
permet notamment d’évaluer les enseignements en ligne. En effet, lorsque l’EEE est obligatoire,
les étudiants sont tenus de se connecter sur la page permettant d’évaluer l’un de leur cours, mais
toutes les questions sont par défaut sur l’option « sans avis ». Ceux qui n’ont pas envie de
répondre peuvent alors valider le questionnaire en un simple clic, sans que les données ainsi
récoltées ne soient biaisées.
Cependant, le meilleur moyen d’obtenir un taux de réponses élevé est de donner aux étudiants la
culture de l’évaluation, notamment en les tenant informés de chacune des décisions prises dans le
cadre de la mise en œuvre du cycle de construction et gestion qualité des EEE. Plus
particulièrement, un feedback à l’attention des étudiants, montrant un résumé des données
récoltées et précisant les décisions de régulation prises sur base de celles-ci, est un levier
puissant pour assurer, l’année suivante, un taux de réponses intéressant.
Dans notre université, deux modes de passation ont été testés au fil des années. Il s’agit de la
passation papier/crayon et la passation informatisée. Vous en trouverez la liste des avantages et
des inconvénients dans les lignes qui suivent.
• La qualité du mode de passation papier/crayon dépend très fort du moment de la
passation. Dans notre université, nous avons parfois distribué les questionnaires à la fin
d’un cours, organisé une demi-journée portant sur l’évaluation ou encore, avons envoyé les
questionnaires sous pli postal.
o Le questionnaire rempli à la fin du cours est le moyen qui assure le meilleur taux
de réponses. La plupart des étudiants sont présents et cette activité est, à leurs
yeux, liée aux obligations du cours. Par ailleurs, cela laisse la possibilité aux
autorités de faire une introduction sur l’importance de l’EEE dans l’institution. Il
existe, par contre, plusieurs inconvénients. Le premier est que cette méthode ne
permet pas de recueillir l’information auprès des étudiants absents au cours. Or,
justement, leur absence est parfois liée à la qualité insuffisante (à leurs yeux) du
cours. Deuxièmement, le questionnaire est distribué et parfois repris en présence
du titulaire du cours, ce qui entraîne des biais (voir chapitre 1.1.3.).
Troisièmement, les étudiants en présence de leur pairs, et parfois sur leur regard
scrutateur, et il est possible que l’évaluation ne soit plus strictement individuelle,
mais se conforme à la désirabilité sociale. Enfin, cette solution peut manquer de
praticabilité puisque la collecte d’information se fait à divers moments, parfois
par diverses personnes.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
o Le questionnaire rempli lors d’une demi-journée portant sur l’évaluation à
l‘avantage d’institutionnaliser la procédure d’évaluation puisqu’une demi-journée,
dans le calendrier académique lui est consacrée. Elle est de plus très praticable :
il suffit de bloquer une demi-journée pour cela, sans « rogner » sur les horaires
de cours, ce qui peut chagriner certains enseignants. Le gestionnaire EEE peut
faire un discours global sur l’intérêt de l’EEE. En terme d’inconvénient, il est
parfois difficile d’avoir un taux de participation élevé, puisque la passation doit
idéalement avoir lieu entre le dernier cours et les examens, c'est-à-dire à une
période ou les étudiants sont très concentrés sur leur période de bloque. Pour
pallier à ce lien, cette journée est parfois organisée en octobre de l’année
suivante. Dans ce cas, cependant, on ne recueille que l’information des étudiants
qui ont réussi, ce qui biaise considérablement les résultats. Enfin, les biais liés à
la désirabilité sociale sont présents lors de ce mode de passation.
o La passation par envoi postal. Elle a comme avantage que les étudiants répondent
individuellement au questionnaire au moment où ils le souhaitent. Elle présente
cependant certains désavantages : [1] Il n’est pas sûr que les étudiants reçoivent
l’information. En effet, certains sont domiciliés à un endroit où ils n’habitent pas
de fait [2] Elle est relativement coûteuse, en envoi et en dépouillement [3] Elle ne
permet pas de discours du gestionnaire des EEE [4] Elle nécessite, si l’on veut
atteindre un taux de réponses favorable, une lettre de rappel.
Ceci peut entraîner l’adoption par les enseignants d’une stratégie qui consiste à
diminuer leurs exigences afin de s’assurer une évaluation positive. Pour enrayer
cette stratégie, le logiciel e-NGELS autorise l’utilisation de trois formulaires (à
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
savoir le questionnaire d’évaluation des cours, d’évaluation des examens et
d’évaluation des TP/cliniques/labo) à remplir à des moments différents. Le
questionnaire d’évaluation des cours et celui d’évaluation des TP/cliniques/labo
étant présentés aux étudiants avant l’examen, à un moment où les étudiants ne
risquent pas d’être influencés par leurs performances lors de l’épreuve
certificative.
o D’autres études mettent en évidence que les évaluations signées sont plus
favorables aux enseignants que les évaluations anonymes (ex. : Spool et
Rabinowitz, 1977). Afin de laisser les étudiants s’exprimer en toute liberté, et
ainsi améliorer les aspects de fidélité de l’évaluation, nous avons conçu notre
système de manière à ce que les réponses données par un étudiant soient
intégrées au système de manière anonyme, même si le logiciel peut à tout moment
nous dire qui a déjà évalué un enseignement.
o Notre méthode prend également en compte les travaux de Bernard (1992) qui
propose des règles relatives à la formulation des items et à la constitution
d’échelles de réponses. Le logiciel e-NGELS tient compte de l’ensemble de ces
règles
o Il est fondamental de démontrer aux étudiants que leurs réponses sont prises en
compte et traitées (Thivierge et Bernard, 1996). Le fait de pouvoir traiter des
feedbacks généraux au sein des conseils des études (organe qui comprend des
étudiants élus) sans néanmoins lever l’anonymat des évaluations a été un premier
pas vers la communicabilité en direction des étudiants. Le logiciel e-NGELS
permet à tous les étudiants de recevoir un feedback de ce type.
Les données peuvent être présentées de différentes manières. En général, les rapports
contiennent des données descriptives (distribution de fréquences, moyenne, déviation
standard,…) pour chaque item du questionnaire. Parfois, des données comparatives sont fournies.
Par exemple, certains feedbacks spécifient si le résultat de l’enseignant est significativement
différent de la norme du groupe. A l’université de liège, nous présentons les résultats de manière
très visuelle. L’enseignant voit la moyenne qu’il a obtenue pour chacun des items. Il voit aussi
comment il se situe par rapport à ses pairs :
La plupart des questionnaires d’EEE contiennent au moins une question ouverte ou l’étudiant est
libre de commenter le cours. Bernard et al. (2000) a mis en évidence que plus de la moitié des
enseignants considéraient que ces commentaires sont une source intéressante de suggestion.
Nous verrons, lors du chapitre 2.10 « Information/formation » une méthode pour permettre aux
étudiants de donner un avis utile à l’enseignant. Lewis (2001) écrit toutefois qu’une des choses
les plus difficile lorsqu’un enseignant reçoit son feedback est d’interpréter ce que les étudiants
ont voulu exprimer, tant ceux-ci peuvent être contradictoires. Il pense que cela est dû au fait
qu’il n’y a aucune structure logique dans les commentaires qui sont, la plupart du temps, une suite
d’avis désordonnés. Il préconise qu’au niveau du traitement, les commentaires soient classés
dans une matrice à deux dimensions.
La première dimension est le niveau de satisfaction global de l’étudiant qui a exprimé son avis.
Ainsi, une critique qui peut paraître sévère peut être ressentie différemment si elle est
formulée par un étudiant qui a apprécié le cours ou par un étudiant qui l’a détesté.
La seconde dimension est axée sur l’objet du cours sur lequel portent les remarques. Il
préconise d’utiliser les dimensions suivantes : commentaires portant sur la matière, y compris
son évaluation, commentaires portant sur l’organisation et la clarté du cours, commentaires sur
l’interaction entre l’enseignant et le groupe ou l’étudiant, commentaires sur le dynamisme et
l’enthousiasme de l’enseignant. Il préconise toutefois qu’un enseignant peut créer sa propre
classification en fonction de ses besoins.
Pour lui, les commentaires prendraient donc place dans une matrice à double entrée qui
ressemblerait à celle-ci (Lewis, 2001).
Cette étape est cruciale. L’ensemble de ce cycle et du dispositif mis en place a pour objectif que
cette étape se déroule dans les meilleures conditions possibles. C’est la finalité de l’opération.
Cette étape est dépendante des décisions prises à l’étape 2.3.1. « Les niveaux de l’évaluation ».
Ainsi, en fonction des niveaux, les décisions de régulation sont soit dans les mains de l’enseignant,
ou d’un groupe d’enseignants (par exemple au niveau d’une section, ou d’une commission
d’évaluation). Le dispositif EEE doit prendre en compte et favoriser la régulation. Il serait
illusoire de croire à un effet mécanique dans lequel le recueil d’informations et le jugement
impliqueraient automatiquement la régulation. En effet, comme le souligne Rege Colet (2005), le
simple fait de mettre en place une ou plusieurs procédures d’évaluation ne suffit pas pour que le
changement ait lieu et que l’on observe un développement durable et satisfaisant des prestations.
D’ailleurs, Desjardins et Bernard (2002) sont très défaitistes à ce sujet lorsqu’ils disent que
« diverses études montrent qu’après trois décennies de mise en application, cette pratique n’a
pas porté fruit et ce, malgré les conseils et stratégies proposés par les chercheurs les plus
réputés dans le domaine ». Seldin (1993) n’est guerre plus optimiste lorsqu’il précise que
l’évaluation n’a pas réussi à motiver les professeurs à améliorer leurs enseignements.
Dans la même veine, signalons l’enquête de Wright et O’Neil (1995), auprès des directions des
différentes institutions universitaires canadiennes, américaines, australiennes et européennes
sur les stratégies permettant l’amélioration de l’enseignement. Celles-ci démontrent que parmi 36
stratégies proposées, les deux plus efficaces sont la reconnaissance de l’enseignement dans les
dossiers de promotion et le rôle des directeurs et des doyens face à l’importance de
l’enseignement. Par ailleurs, le programme de monitorat à l’intention des nouveaux professeurs
arrive au 5e rang, l’attribution de subventions aux professeurs désirant améliorer leur
enseignement se positionne au 6e rang, suivi des ateliers de formation sur mesure, des prix
d’excellence et de l’évaluation du matériel d’enseignement à des fins formatives. L’évaluation
faite par les étudiants, à la fin de la session, se situe en 34e position, alors que l’évaluation en
cours de session se classe au 21e rang.
D’autres études démontrent également l’efficacité de l’EEE. La plupart de ces résultats ont été
obtenus à l’aide d’un protocole de recherche suivant : A la moitié du semestre, on rend un
feedback EEE à la moitié des enseignants (groupe 1). Les autres n’en reçoivent pas (groupe
contrôle). On observa alors les résultats à l’examen à la fin du semestre comparés aux résultats à
une interrogation intermédiaire à la moitié du semestre. Marsh, Fleiner et Thomas (1975) ont
mené une étude de ce type. Ils concluent qu’en rendant simplement les FB à mi-parcours, on
influence très peu (mais positivement) les résultats à la fin. Cohen (1980) est en accord avec ces
conclusions et montre dans sa méta-analyse portant sur 22 études que la corrélation est de .1.
Plus tard, Overall et Marsh (1979), toujours sur base du même dispositif, ont montré que si on
donne le FB à mi-cours ET qu'on provoque une discussion sur la manière de s'améliorer, on
améliore le score final des étudiants. Cohen (1980) montre qu’avec cette procédure la corrélation
est de .3.
Les auteurs sont donc contradictoires quant à l’effet de l’EEE. Younes (2002) trouve même une
variabilité des effets de l’EEE au sein même de sa propre institution. Cependant les études de
Marsh sont très intéressantes parce qu’elles montrent qu’à feedback égal, l’impact est plus élevé
lorsqu’il y a une discussion entre enseignants. Il y aurait donc des variables qui amélioreraient
l’impact de l’EEE sur l’enseignement.
Une analyse de la littérature nous porte à considérer des variables sociales, institutionnelles et
individuelles.
Fave-Bonnet (2005) met en relation le faible développement des activités d’évaluation des
formations et des enseignements en France avec l’absence d’une véritable culture de l’évaluation
définie comme « un consensus collectif sur les valeurs, les représentations et les pratiques
d’évaluation ». Cette culture manque aussi bien au niveau national, qu’au niveau de l’établissement
ou des acteurs. Or elle est indispensable pour la diffusion de l’évaluation. Par ailleurs, la
recherche EVALUE (Dubois, 1998) a montré que les établissements d’enseignement supérieur
dans lesquels l’évaluation est généralisée sont situés dans des pays où il existe une culture de
l’évaluation à trois niveaux interdépendants (national, établissement, discipline).
Paulsen et Feldman (1995) mettaient déjà en évidence la nécessité de mettre en place une
culture universitaire qui soutient l’évaluation et les enseignements. Plus tard dans leur étude
européenne, Gueissaz, Häyrinen-Alestalo, Fischer-Bluhm et Snell (1998, p. 173-174) 6, mettent en
évidence l’importance d’instituer des structures d’évaluation permanentes étant donné que
6
Cité par Younes (2002).
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
«L’évaluation est une construction à long terme, qui comporte une dimension stratégique. Elle ne
peut avoir de sens que si elle s’inscrit dans un processus de planification, d’apprentissage et
d’accumulation de l’expérience».Toujours selon les mêmes auteurs, les structures permanentes
internes d’évaluation en relation étroite à la fois avec la présidence et avec les composantes de
l’université semblent être efficaces.
Dans la même perspective que Green, Lucas (1990) insiste sur la valorisation de l’enseignement au
sein des unités administratives, et certaines de ses recommandations sont dirigées vers les
responsables de départements :
- faire de l’enseignement une priorité;
- créer un climat de confiance et de soutien entre les professeurs;
- valoriser l’excellence en enseignement;
- placer l’enseignement à l’ordre du jour dans les réunions départementales;
- échanger les plans de cours;
- créer un comité sur l’enseignement;
- utiliser les résultats des évaluations pour valoriser l’enseignement;
- développer un système de monitorat.
Fave Bonnet (2005) écrit que la culture universitaire dominante considère que l’accent doit
essentiellement être mis, dans l’enseignement supérieur, sur la formation disciplinaire acquise
dans et par la culture scientifique, contrairement à une autre conception dans laquelle il importe
d’y ajouter une dimension pédagogique. Dans le modèle scientifique disciplinaire, il est considéré
que l’enseignant est formé à la pédagogie à partir de la culture scientifique et technique acquise.
Dans le modèle pédagogique, il est considéré que la diversité des méthodes pédagogiques, dont
l’évaluation, et la prise en compte des caractéristiques de l’apprenant aussi bien sur le plan
affectif que cognitif et social, sont à acquérir par des formations spécifiques.
Barbier (1990)7 évoque la résistance aux changements des enseignants du supérieur et invoque
l’idée d’un espace idéologique construit autour de l’idée d’évaluation dont le pôle négatif serait
organisé autour des notions de répression, de sélection, de sanction, de contrôle et dont le pôle
positif serait organisé autour des notions de progrès, de changement, d’adaptation, de
rationalisation. Ainsi, certains enseignants sont favorables à la formalisation de systèmes
d’évaluation de l’enseignement par les étudiants, ils l’appliquent pour leurs cours alors que
d’autres refusent la démarche et la dénigrent.
7
Cité par Younes, 2002.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Une étude sérieuse des représentations sociales des enseignants nous en apprendrait
probablement plus à ce sujet.
•Psycho-affective8
Certains concepts psychologiques comme le sentiment d’auto-efficacité (Bandura, 1977),
l'attribution de l’effort (Weiner, 1986) et les prophéties auto-réalisatrices (Jones 1977) peut
influer sur la manière dont un enseignant perçoit le feedback reçu. Par exemple, la notion de voir
quelqu'un de moins qualifié porter un jugement sur le travail de quelqu'un de plus qualifié peut
entraîner de l'anxiété et de la résistance. Boice (1992) a, par exemple, décrit l'attitude dépitée
de jeunes enseignants qui malgré leurs efforts sont soumis à la critique des étudiants qui peut
aller jusqu'à la mélancolie de l'enseignant (Machell 1989). Dans ce contexte, les jeunes
enseignants peuvent rejeter la procédure.
• La motivation
Si l’on se réfère à la théorie de la motivation de Viau (1997), on sait qu’un enseignant sera motivé
à améliorer son enseignement si celui-ci présente pour lui une valeur, s’il se sent compétent pour
mener à bien cette amélioration et s’il a le sentiment de contrôle sur le processus éducatif.
Sans vouloir être trop caricatural, on peut se poser la question de la valeur de l’enseignement
pour un enseignant universitaire. En effet, celui-ci vit dans un univers professionnel ou il exerce
plusieurs types d'activités en concurrence (recherche, enseignement, administration, ...). Et la
culture dominante donne la primauté à la recherche dans les représentations collectives, que ce
soit dans la vie quotidienne ou dans les recrutements et promotions (Dejean, 2006). Sachant de
plus que la plupart des études démontrent que la qualité de l’enseignement n’est pas corrélée à la
qualité de la recherche (Feldman, 1987), on peut se poser la question de la valeur réelle des
activités d’enseignement pour les enseignants-chercheurs universitaires. Cette question est
d’ailleurs au centre du discours de Dejean (2006) lorsqu’il écrit « un certain nombre
d'enseignants pensent que ceux qui s'intéressent à la pédagogie sont mauvais sur le plan
scientifique (…). S’engager dans l'enseignement, c'est dès lors dévaloriser son statut de
chercheur».
La notion de compétence peut laisser, elle aussi, perplexe sachant que, dans le processus de
sélection des enseignants universitaires en vigueur dans la plupart des pays européens, la
recherche est toujours le critère dominant si pas le critère exclusif. Cet effet à l’engagement
est assez peu contrebalancé par une formation après sélection car dans la plupart des pays
européens, les enseignants universitaires ne sont pas tenus de suivre un cursus pédagogique avant
d’enseigner.
Quant au contrôle exercé par les enseignants-chercheurs sur la qualité de leur enseignement, il
s’inscrit dans un contexte de mutation de l’enseignement universitaire confronté à de nouveaux
défis (Rege Colet et Romainville, 2006), tels la massification des étudiants, la demande sociale
envers des diplômes professionnalisant, le contexte accru de le concurrence au niveau européen.
Autant de défis et d’enjeux qui expliquent un contexte mouvant et émergent probablement peu
propice à un sentiment de contrôle.
8
Cité par Theall et Franklin (2001).
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Ainsi donc, dans le contexte de concurrence entre leurs diverses activités, certains enseignants
universitaires ne seraient peut-être pas motivés à l’idée d’améliorer la qualité de leur
enseignement et leur donner une information pertinente sur la qualité de leur enseignement
serait un acte vide de sens à leurs yeux.
2.9. Macro-Régulation
La procédure d’EEE est cyclique par définition puisqu’elle se reproduit d’un semestre à l’autre,
d’une année à l’autre. Si l’on veut l’améliorer, il faut pouvoir prendre de l’information sur son
efficacité réelle et déterminer quels éléments doivent être modifiés. Or cette prise
d’information ne se fait pas de manière spontanée. Quand la régulation se fait par un ensemble
d’enseignants et qu’elle prend place dans un contexte institutionnel, il peut parfois être possible
de glaner quelques éléments d’informations à travers les P.V. de réunion. Quand la régulation est
réalisée de manière individuelle, en général, aucune information n’est disponible. En effet, la
sphère de l'enseignement est souvent reconnue comme privative par les enseignants (Dejean,
2006) qui nouent avec celui-ci un rapport presque intime. Même si Franklin (2001) conseille aux
enseignants de rédiger un rapport sur les feedbacks EEE qu’ils ont reçus et y expriment les
améliorations qu’ils ont apportées à leur enseignement, cette pratique est peu répandue. Il
faudra donc recueillir cette information, par exemple sous forme de questionnaire. Cependant,
demander aux enseignants s’ils ont régulé leur enseignement suite à l’EEE manque de sensibilité.
C’est pourquoi nous nous proposons d’utiliser l’échelle d’attitude développée par Rege Colet
(2005) sur base notamment des travaux de Towler (1998).
Cette échelle comprend 8 niveaux qui se présentent comme suit :
Tout au long du processus d’EEE, il faut constamment avoir à l’esprit que les résistances peuvent
être nombreuses et empêcher le processus d’atteindre ses objectifs de régulation. La littérature
montre que ces résistances peuvent être levées par une information ad hoc. Ainsi, Franklin et
Theall (1989) ont démontré une corrélation positive entre le manque de connaissance sur le sujet
et une attitude négative. Toutefois, pour bien communiquer, il est important de connaître les
représentations des divers porteurs d’enjeux. Nous relevons 3 types d’acteurs impliqués : les
étudiants, les enseignants et les administrateurs. Grâce notamment aux divers travaux de
Bernard, nous connaissons leurs représentations.
Thivierge et Bernard (1996) ont réalisé une étude auprès de 391 étudiants de l’Université de
Montréal pour explorer leurs perceptions de l’importance et de l’utilité de l’évaluation de
l’enseignement ainsi que de sa valorisation institutionnelle. Younes (2002) résume cette
recherche en disant que la grande majorité des sujets affirment s’acquitter sérieusement de la
tâche d’évaluer l’enseignement, presque tous considèrent que c’est une tâche importante et
apprécient de pouvoir s’exprimer sur la qualité de l’enseignement reçu. De plus, 95% considèrent
que l’évaluation de l’enseignement ne peut se faire sans la contribution des étudiants, 96% jugent
la démarche d’évaluation de l’enseignement comme très importante pour améliorer la qualité de
l’enseignement à l’Université et 84% pensent qu’elle peut aider les professeurs à améliorer la
qualité de leur enseignement.
Si 60% des étudiants interrogés estiment que la qualité de l’enseignement est une préoccupation
importante pour les enseignants, 37% croient que les professeurs se soucient peu de la qualité de
l’enseignement, plus de 40% croient qu’ils ne se donnent même pas la peine de lire les
commentaires qu’ils font sur leurs cours et 58% croient que les évaluations faites par les
étudiants n’influencent pas les pratiques d’enseignement des professeurs.
Enfin, 70% des sujets ne croient pas que les évaluations des professeurs faites par les étudiants
sont prises en considération pour porter un jugement sur la qualité de l’enseignement et près de
80% ne croient pas que la direction de l’Université les prenne en considération pour la
titularisation des enseignants.
L’analyse des commentaires exprimés à la fin du questionnaire montre que 45% de ces
commentaires portent sur le manque de valorisation institutionnelle de l’évaluation de
l’enseignement et de sa qualité. Près de 20% des commentaires se rapportent au contenu du
questionnaire d’évaluation, en demandant des questions plus spécifiquement liées à la qualité et
au type de l’enseignement. 17% des étudiants émettent le souhait d’être informés des résultats
de l’évaluation et 10% proposent des évaluations à mi-session.
Bernard, Postiaux et Salcin (2000) ont creusé cette question. Pour cette étude, portant sur 393
sujets (217 professeurs et 176 chargés de cours), Une liste de 75 énoncés issus de la recension
des écrits et de l’expérience des auteurs en ce domaine a été élaborée et présentée aux
enseignants. Les auteurs classent ces affirmations en trois catégories. Les consensus, partagés
par la majorité des enseignants, les sujets, les tendances, partagées par environ une moitié des
étudiants et les sujets polémiques.
Outre l’étude déjà mentionnée que Wright et O’Neil (1995) ont menée et qui, après une enquête
réalisée auprès des autorités universitaires, les a menés à la conclusion que les EEE étaient
classées en trente-sixième position sur les trente-six mesures d’amélioration de l’enseignement
proposées, Desjardins et Bernard (2002) ont approfondi les représentations qu’ont les
administrateurs sur l’EEE. Voici leurs principales conclusions :
Septante pour cent des administrateurs affirment que, suite à leurs résultats, certains de leurs
professeurs consultent des ressources spécialisées mais ils n'en connaissent pas le nombre. Vingt
pour cent admettent que l'évaluation de l'enseignement a surtout pour effet de créer une
pression sur les jeunes professeurs. La plupart reconnaissent cependant que le dossier de
recherche pèse beaucoup plus lourd dans la promotion d'un professeur que celui de
l'enseignement.
La plupart de ces représentations se basent sur des sentiments subjectifs plutôt que sur la
réalité objective. Certaines, sont d’ailleurs contredites dans la recherche. Mettre en place une
politique de communication efficace, basée sur des données fiables, permettra sans doute de
diminuer certaines résistances inhérentes à certains de ces mythes.
2.11. Information/formation
• Frey (1976) a montré que lorsqu’un administrateur fait un discours rappelant l’importance
des EEE, les étudiants sont moins sévères dans leur évaluation. Une des explications à ce
fait vient peut-être des théories de la psychologie cognitive. En effet, comme le
psychologue prix Nobel Daniel Kahneman (2003) l’explique, il y a deux types de processus
de la pensée humaine. Ce qu’il appelle le system 1 et le system 2. Le premier système
implique une pensée rapide, automatique, dénuée d’efforts, associative, implicite et
souvent chargée en émotion. Le deuxième système est plus lent, réflexif, coûteux en
effort, plus conscient et plus sous contrôle. La plupart de nos jugements proviennent du
système 1. Pourtant l’EEE serait plus valide si les jugements correspondaient aux
caractéristiques du système 2. Nous faisons l’hypothèse que le discours conscientisant
d’un administrateur peut faire en sorte que les étudiants passent du système 1 au
système 2.
• Nous avons vu au chapitre 2.7.2. comment traiter les commentaires écrits des étudiants
pour qu’ils prennent tout leur sens pour les enseignants. Svinicki (2001), constatant que
les feedbacks étaient souvent vagues et frustrants pour les enseignants, préconise de
motiver les étudiants à produire des feedbacks plus intéressants. Mais elle spécifie que
ce n’est pas suffisant. Elle soutient qu’il faut les former à la rédaction de commentaires
écrits. Elle trace ainsi les caractéristiques d’un bon feedback. Pour elle :
o Le feedback doit être spécifique et doit utiliser des exemples.
o Le feedback doit porter sur des comportements observables, pas sur des
sentiments ou des impressions.
• Franklin et Theall (1989) ont mis en évidences le fait que la moitié des enseignants
étaient incapables d’interpréter correctement et avec certitude les feedbacks qu’ils
recevaient. Il semble donc important de former les enseignants dans ce domaine.
• Une fois les feedbacks interprétés et les décisions de régulation prises, encore faut-il
passer à l’action et améliorer son enseignement. Parfois, les enseignants sont démunis car
il ne trouvent pas le support dont ils ont besoin dans leur institution. Par exemple,
Bernard et Bourque (1999) ont mis en évidence le peu de lien qui était fait entre politique
EEE et politique de formation continuée au Canada. Il semble opportun de renforcer ce
lien et de communiquer aux enseignants les divers supports dont ils peuvent bénéficier
pour mettre en œuvre les modifications qu’ils souhaitent apporter à leur enseignement.
2.11. Planification
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Etablir un calendrier prévisionnel est un élément important pour garder le cap dans des
procédures longues et complexes comme l’évaluation des enseignements. Comme le souligne
Gueissaz et al. (1998), l’évaluation est une construction à long terme, qui comporte une dimension
stratégique. Elle ne peut avoir de sens que si elle s’inscrit dans un processus de planification,
d’apprentissage et d’accumulation de l’expérience.
Nous pensons que cette planification doit porter sur 2 aspects. Le premier est lié à la
construction et la gestion qualité de l’EEE. Mettre en œuvre l’ensemble des étapes du cycle peut
prendre un certain temps. Les dossiers peuvent avancer lentement à certains moments. Le
dialogue collaboratif entre tous les porteurs d’enjeux est un élément déterminant de la bonne
réussite du dispositif. Selon les cas, un tel dialogue peut être plus ou moins long, surtout sur un
sujet aussi polémique et porteur de sens que l’évaluation. D’autant plus que la culture de la
régulation des enseignements peut paraître anachronique dans nos universités. En effet, comme
le souligne Felouzis (2003), la régulation du travail universitaire est une régulation par la
recherche. Il qualifie l’université d’institution faible incapable d’imposer une action normative du
point de vue des activités pédagogiques. Ainsi, la faible régulation des activités pédagogiques à
l’université se traduirait par une faible mobilisation des universitaires sur les questions
pédagogiques ou, en tout cas, la renvoie à des configurations locales plus ou moins aléatoires…. En
tout cas jusqu'à ce que l’institution impose une évaluation de ces activités pédagogiques.
Ce processus est donc long et semé d’embûches. Il sera nécessaire de le planifier au préalable
dans le temps afin de ne pas perdre le cap.
Le deuxième élément de planification est l’EEE, elle-même. Quand va-t-on évaluer les
enseignements et avec quelle fréquence ? Tous les enseignements vont-il être évalués tous les
ans ? A chacune des leçons, au milieu du semestre ou à la fin de l’année ? Va-t-on imposer une
évaluation à tous ou va-t-on travailler sur base volontaire ? Va-t-on fixer un calendrier de base
pour l’ensemble de l’institution ou va-t-on négocier avec chaque enseignant ou chaque
département, au coup par coup, les dates de l’EEE ? Autant de questions qu’il faudra trancher
car l’évaluation doit instrumenter un processus réflexif continu au sein de l’institution.
Les huit premières étapes développées semblent être linéaires et s’enchaîner en une suite
logique. Dans la réalité, il n’en va toutefois pas de même. Les mouvements de va et vient entre les
différentes étapes ne sont pas rares et sont même parfois souhaitables : il n’est jamais trop
tard pour avoir de bonnes idées. Toutefois, il faudra être attentif à ce que les retours en arrière
ne soient pas trop nombreux, pour ne pas ralentir inutilement le processus. Il faudra aussi être
particulièrement attentif à ce que les propositions soient toujours bienveillantes : Seldin (1993)
affirme que certains groupes de professeurs provoquent volontairement l’échec du système
d’évaluation.
Conclusion
Donner un feedback diagnostique, sensible, fidèle et valide aux enseignants concernant la qualité
de leur enseignement constituerait le premier moment d'une dynamique de régulation ayant pour
fin de procéder à des ajustements (guidance), par utilisation adéquate de l'information en retour
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
(feedback)... pour se rapprocher d’un fonctionnement optimal (Allal, 1988). Ainsi, l’EEE serait la
porte d’entrée vers une pratique réflexive menant à la qualité. Les enjeux sont donc de poids.
Les risques de dérive existent toutefois. Ainsi, Dejean (2006) relève la crainte de certains
enseignants de se voir attribuer individuellement, par l'évaluation des enseignements, la
responsabilité d'insuffisances ou de dysfonctionnements collectifs. Kulik (2001) nous apprend
que les enseignants expriment des craintes sur le fait que les étudiants transforment une
évaluation institutionnelle des enseignements en une critique de la personnalité des enseignants.
Les enseignants sont donc conscients de certaines dérives possibles et expriment une certaine
méfiance vis-à-vis du système. Ainsi, pour Potocki (1998), les réticences à l’évaluation de
l’enseignement restent nombreuses et entraînent un désintérêt à son égard tant de la part des
enseignants que des étudiants.
Par ailleurs, l’évaluation de la qualité du travail d’un enseignant engage tout son être. Certains
enseignants vivent d’ailleurs ce processus d’évaluation avec émotion. Emery (2003) relate
d’ailleurs que l’EEE peut être démoralisante pour les enseignants. En ce qui le concerne, Boice
(1992) décrit l'attitude mélancolique de jeunes enseignants qui, malgré leurs efforts, sont soumis
à la critique des étudiants.
Il serait dommage que par des biais liés à la méthode utilisée des effets pervers se manifeste.
Ory et Ryan (2001) dressent d’ailleurs un inventaire de ces éventuels effets pervers.
• Les instructeurs altèrent leur enseignement pour obtenir de meilleurs scores (diminution
des exigences, …).
• L’université récompense des enseignements faibles.
• Les universités n’utilisent que cette méthode pour évaluer les enseignements d’un point
de vue administratif.
• Le contenu des formulaires d’EEE détermine ce qui DOIT être fait en classe, sans
réflexion de l’enseignement.
• Les étudiants évaluent favorablement les enseignements les plus pauvres en espérant
avoir, en retour, de meilleurs points à l’examen.
• Les données EEE seules servent à discriminer les enseignants alors que leur qualité
métrique ne le permet pas.
• L’EEE devient une procédure administrative sans sens, ni pour les enseignants, ni pour les
étudiants.
Pourtant la fidélité de l’EEE a été prouvée sans ambiguïté par la recherche scientifique (Feldman,
1977 ; Marsh 1987 ; Murray, Rushton et Paunonen, 1990). La validité de la méthode est encore en
question, mais la plupart des études sur le sujet concluent à une validité suffisante, sous
certaines conditions, dans le cadre d’une évaluation visant une régulation pédagogique des
enseignements.
Ces conditions ont été longuement développées dans cet article et une méthode, le cycle de
construction et gestion qualité des EEE, a été proposée. Celle-ci se base sur notre propre
expérience et trouve une certaine validation à travers la littérature. Elle reste toutefois à
valider scientifiquement. Nous sommes toutefois convaincus qu’à travers celle-ci et le dialogue
collaboratif qui la sous-tend, les procédures d’EEE gagneront en qualité.
Abrami, P. C., d'Apollonia, S., & Cohen, P. A. (1990). Validity of student ratings of instruction: What we know and what we
do not. Journal of Educational Psychology, 82, 219-231.
Abrami, P. C., Dickens, W. J., Perry, R. P., & Leventhal, L. (1980). Do teacher standards for assigning grades affect
student evaluations of instruction? Journal of Educational Psychology, 72, 107-118.
Abrami, P. C., Leventhal, L., & Perry, R. P. (1982). Educational seduction. Review of Educational Research, 52, 446-464.
Albanese, M. A., & Mitchell, S. (1993). Problem based learning : A review of littérature on its outcomes and
implementation issues. Academic Medicine, 68(1), 52-81.
Aleamoni, L. M. (1989). Typical faculty concerns about evauation of theaching. In L. M. Aleamoni (Ed.), Techniques for
evaluating and improving instruction (). San Francisco: Jossey Bass.
Aleamoni, L. M. (1987). Student rating myths versus research facts. Journal of Personnel Evaluation in Education, 1(1)
Aleamoni, L. M. (1987). Typical faculty concerns about student evaluation of teaching. In L. M. Aleamoni (Ed.), Techniques
for evaluation and improving instruction (). San Francisco: Jossey-Bass.
Aleamoni, L. M., & Graham, N. H. (1974). The relationship between CEQ rtings and instructor's rank, class size, and
course level. journal of educational measurement, 11, 189-201.
Aleamoni, L. M., & Hexner, P. Z. (1980). A review of the research on student evaluation and a report on the effect of
different sets of instructions on student course and instructor evaluation. Instructional Science, I(9), 67-84.
Allal, L. (1988). Processus de régulation interactive, rétroactive et proactive. In M. Huberman (Ed.), Assurer la réussite
des apprentissages scolaire. les propositions de la pédagogie de maîtrise (pp. 86-126). Paris: Delachaux et Niestlé.
Altet, M. (2004). Enseigner en premier cycle universitaire : Des formes émergentes d'adaptation ou de la "metis"
enseignante. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur :
Enseigner, apprendre, évaluer (pp. 37-52)l'harmattan.
Ambady, N., & Rosenthal, R. (1992). Half a minute: Predicting teacher evaluations from thin slices of nonverbal behavior
and physical attractiveness. journal of Personality and Social Psychology, 64, 431-441.
Anderson, E. Campus use of the teaching portfolio: Twenty-five profiles. Washington, D.C.: American Association for
Higher Education.
Argulewiz, E., & O'Keefe, T. (1978). An investigation of signed versus anonymously completed ratings of high school
student teachers. Educational Research Journal, 3, 39-44.
Arreola, R. A. (1994). Developing a comprehensive faculty evaluation system: A handbook for college faculty and
administrators on designing and operating a comprehensive faculty evaluation system. Boston: Anker Publishing Co.
Bandura, A. Self-efficacity : Towards a unifiying theory of behavioral change. Psychological Review, 84, 191-215.
Barbier, J. M. (1990). L’évaluation en formation (2ème édition ed.). Paris: Presse Universitaire de France.
Basow, S. A. (1998). Student evaluations: The role of gender bias and teaching styles. In L. H. Collins, J. C. Chrisler & K.
Quina (Eds.), Career strategies for women in academia: Arming athena (pp. 135-156)Thousand Oaks, CA: Sage Pub.
Bausell, R. B., & Bausell, C. R. (1979). Student rating and various instructional variables from a within-intructor
perspective. Research in Higher Education, 11, 167-177.
Bennett, S. K. (1982). Student perceptions of and expectations for male and female instructors: Evidence relating to the
question of gender bias in teaching evaluation. Journal of Educational Psychology, 74(2), 170-179.
Bennett, S. K. Student perceptions of and expectations for male and female instructors: Evidence relating to the
question of gender bias in teaching evaluation. Journal of Educational Psychology, 74(2), 170-179.
Berkson, L. (1993). Problem-based learning : Have the expectations been met ? Academic Medicine, 68, 579-588.
Bernard, H. (1992). Processus d’évaluation de l’enseignement supérieur. Théorie et pratique (Éditions Études vivantes
ed.). Laval:
Bernard, H., & Bourque, S. (1999). Portrait des politiques et pratiques d’évaluation, d’amélioration et de valorisation de
l’enseignement des universités québécoises. Res Acamedica, 1(2), 33-60.
Bernard, H., Postiaux, N., & Salcin, A. (2000). Les paradoxes de l'évaluation de l'enseignement universitaire. Revue des
sciences de l'éducation, XXVI(3), 625-650.
Bernard, M. E., Keefauver, L. W., Elsworth, G., & Maylor, F. D. (1981). Sex role behavior and gender in teachers-student
evaluations. Journal of Educational Psychology, 73, 681-696.
Blackburn, R. T., & Clark, M. J. (1975). An assessment of faculty performance: Some correlates between administrators,
colleagues, students and self-ratings. sociology of education, 48, 242-256.
Boice, R. (1992). The new faculty member: Supporting an fostering professionnal development.
Boyer, E. (1990). Scholarship reconsidered: Priorities of the professiorate. Princeton: Carnegie Foundation for the
Advancement of Teaching.
Brandenburg, D. C., Slinde, J. A., & Batista, E. E. (1977). Student ratings of instruction: Validity and normative
interpretations. Journal of Research in Higher Education, 7, 67-98.
Braskamp, L. A., Caulley, D. N., & Costin, F. (1979). Student rating and instructor self-ratings and their relationship to
student achievement. American Educational Research Journal, 16, 295-306.
Brinko, K. T. (1991). The interactions of teaching improvement. effective practices for improving teaching. Directions for
Teaching and Learning, 48, 39-49.
Bru, M. (2004). Pratiques enseignantes à l'université : Opportunités et intérêt des recherches. In E. Annoot, & M. F.
Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur : Enseigner, apprendre, évaluer
(l'Harmattan ed., pp. 17-36)
Carini, R. M., Hayek, J. C., Kuh, G. D., Kennedy, J. M., & Ouimet, J. A. (2003). Student responses to web and paper
surveys: Does mode matter? Research in Higher Education, 44(1), 1-19.
Cashin, W. E. (1999). (Student ratings of teaching : Uses and misuses. In P. Seldin (Ed.), Changing practices in evaluating
teaching. A practical guide to improved faculty performance and Promotion/Tenure decisions (pp. 25-44)Bolton,
MA : Anker Publishing.
Cashin, W. E. (1995). Student ratings of teaching: The research revisited. IDEA Paper, 32
Cashin, W. E. (1990). Students do rate different academic fields differently. In M. Theall, & J. Franklin (Eds.), Stiudent
ratings of instruction: Issues for improving practice (). San Francisco: Jossey Bass.
Cashin, W. E. (1988). Students ratings of teaching : A summery of the research. Kansas State University.: Center for
Faculty Evaluation and Development.
Centra, J. A. (1993). Reflexive faculty evaluation effectiveness. enhancing teaching and determining
faculty effectivenessSan Francisco : Jossey-Bass.
Centra, J. A., & Creech, F. R. (1976). The relationship between students, teachers, and course characteristics and
student ratings of teacher effectiveness (N.J.: Educational Testing Service ed.)Princeton.
Chacko, T. I. (1983). Student ratings of instruction: A function of grading standards. Educational Research Quarterly,
8(2), 19-25.
Chiu, S. (1999). Use of the unbalanced nested ANOVA to exam factors influencing student ratings of instructional
quality. Unpublished manuscript.
Cohen, L., Manion, L., & Morrison, K. R. B. (2007). Research methods in education (Routledge ed.)
Cohen, P. A. (1990). Bring research into practice. In M. Theall, & J. Franklin (Eds.), Student ratings of instruction: Issues
for improving practice: New directions for teaching and learning, (Jossey Bass. ed., pp. 123-132)
Cohen, P. A. (1981). Student ratings of instruction ans student achievement: A meta-analysis of multisection validity
studies. Review of Educational Research Fall, 51(3), 281.
Damron, J. C. (1996). Instructor personality and the politics of the classroom. Unpublished manuscript.
d'Apollonia, S., & Abrami, P. C. (1997). Navigating student ratings of instruction. American Psychologist, 52(1198), 1208.
Dejean, J. (2006). Les réticences à l'évaluation de l'enseignement en france, signe de la culture professionnelle des
enseignants-chercheurs ou trait de la culture française ? In N. Rege Colet, & M. Romainville (Eds.), La pratique
enseignante en mutation à l'université (pp. 61-80). Bruxelles: de boek.
Dejean, J. (2002). L'évaluation de l'enseignement dans les universités française :Rapport suivi de l'avis du haut conseil
de l'évaluation de l'école. France: Haut conseil de l'évaluation de l'école.
Denzin, N., & Lincoln, Y. (2000). Handbook of qualitative research (2nd ed.). London: Thousand Oaks, CA and New Delhi:
Sage.
Desjardins, J., & Bernard, H. (2002). Les administrateurs face à l'évaluation des enseignements. Revue des sciences de
l'éducation, 28(3)
Detroz, P., Noel, F., & Gilles, J. L. (2002). Mesure de l’impact de l’utilisation des boîtiers de vote en amphithéâtre.
Louvain-la-neuve.
Dinauer, L. D., & Fink, E. D. (2005). Interattitude structure ans attitude dynamics : A comparison of the hierarchical and
galileo spatial-linkage models. Human Communication Research, 31 n°1, 1-32.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Donald, J. G. (1991). The commission of inquiry on canadian university education: The quality and evaluation of teaching.
Revista Iglu, 1, 157-173.
Doyle, K. 0. (1975). Student Evaluation of Instruction. Lexington, MA: D.C. Heath and Co. (1975). Student evaluation of
instructionLexington, MA: D.C. Heath and Co.
Doyle, K. O., & Crichton, L. I. Student, peer, and self-evaluation of college instruction. Journal of Educational Psychology,
70, 815-826.
Dubois, P. (1998)., Rapport final. (1998). EVALUE, évaluation et auto-évaluation des universités en europeProjet financé
par la communauté européenne.
Emery, C. R., Kramer, R., & Tian, R. G. (2003). Return to academic standards: A critique of student evaluations of teaching
effectiveness. Quality Assurance in Education, 11(1), 37-46.
European Network for Quality Assurance in Higher Education. (2005). Standards and guidelines for quality assurance in
the european higher education area. Helsinski - Finland:
Fave-Bonnet, M. F. (2005). La difficile mise en oeuvre de l’évaluation des formations dans les universités en france :
Culture française, culture universitaire ou cultures disciplinaires ? In M. Lecointe, & A. Aubert-Lotarski (Eds.),
Evaluations et cultures, les dossiers des sciences de l’éducation (pp. 87-104)
Feldman, K. A. (1997). Identifying exemplary teachers and teaching: Evidence from student ratings. In R. P. Perry, & J. C.
Smart (Eds.), Effective teaching in higher education: Research and practice. (pp. 368-395). New York: Agathon
Press.
Feldman, K. A. (1989). Instructional effectiveness of college teachers as juged by teachers themselves, current and
former students colleagues, administrators and external (neutral) observers. Research in Higher Education, 30,
137-194.
Feldman, K. A. (1988). Effective college teaching from the students’ and faculty’s view: Matched or mismatched
priorities? Research in Higher Education, 28, 291-344.
Feldman, K. A. (1987). Research productivity and scholarly accomplishment of college teachers as related to their
instructional effectiveness: A review and exploration. Research in Higher Education, 26, 227-298.
Feldman, K. A. (1983). Seniority and experience of college teachers as related to evaluations they receive from their
students. Research in Higher Education, 18, 3-124.
Feldman, K. A. (1979). The signifiance of circumstances for college students' ratings of their teachers ans courses : A
review and analysis. Research in Higher Education, 10, 149-172.
Feldman, K. A. (1978). Course characteristics and college students’ ratings of their teachers; what we know and what we
don’t. Research in Higher Education, 9, 199-242.
Feldman, K. A. (1977). Consistency and variability among college students in rating their teachers and courses: A review
and analysis. Research in Higher Education, 6, 223-274.
Fenwick, T., & Parsons, J. (2000). The art of evaluation. A handbook for educators and trainers. Toronto: Thompson
Educational Publishing, Inc.
Flick, U., (1992). (1992). Triangulation revisited - strategy of or alternative to validation of qualitative data. Journal for
the Theory of Social Behavior, 2, 175-197.
Franklin, J. (2001). Intepreting the numbers: Using a narrative to help others read student evaluations of your teachnig
accurately. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 85-100). San
Francisco: Jossey Bass.
Franklin, J., & Theall, M. (1990). Communicating student ratings to decisions makers : Design for good practice. In J.
Franklin, & M. Theall (Eds.), Student ratings of instruction: Issues for improving practice (pp. 75-93). San
Francisco: Jossey Bass.
Frey, P. W. (1976). Validity of student instructionnal rating as a function of their timing. Journal of Higher Education,
47, 327-336.
Gilles, J. L. (2002). Qualité spectrale des tests standardisés universitaires. Unpublished These présentée pour
l'obtention du grade de Docteur en Sciences de l'Education, Université de Liège.
Gilles, J. L., Detroz, P., Crahay, V., & Mainferme, R. (2007). La qualité des évaluations des apprenants : Effets d’une
régulation à l’aide du dispositif d’évaluation des enseignements. Montreal: Association Internationale de Pédagogie
Universitaire.
Glascock, J., & Ruggiero, T. (2006). The relationship of ethnicity and sex to professor credibility at a culturally diverse
university. Communication Education, 55, 197-207.
Green, M. F. (1990). Why good teaching needs active leadership. In P. Seldin (Ed.), How administrators can improve
teaching. moving from talk to action in higher education (pp. 45-62). San Francisco: Jossey Bass.
Greenwald, A. G., & Gillmore, G. M. (1997). No pain, no gain? the importance of measuring course workload in student
ratings of instructions. Journal of Educational Psychology, 89(4), 743-751.
Gueissaz, A., Häyrinen-Alestalo, M., Fischer-Bluhm, K., & Snell, K. (1998). Les acteurs de l'évaluation, la décision
d'évaluer. In P. Dubois (Ed.), EVALUE. rapport final. ()
Guthrie, E. R. (1954). The evaluation of teaching: A progress report. Seattle: University of Washington,:
Hamermesh, D. S., & Parker, A. (2005). Beauty in the classroom: Instructors' pulchritude and putative pedagogical
productivity. Economics of Education Review, 24(4), 369-376.
Hartnett, R. T., & Seligsohn, H. C. (1967). The effects of varying degrees of anonymity on response to different types of
psychological questionnaires. journal of educational measurement, 4, 95-103.
Holmes, D. S. (1972). Effects of grades and disconfirmed grade expenctancies on students' evaluation of their
instructor. Journal of Educational Psychology, 63, 130-133.
Howard, G. S., Conway, C. G., & Maxwell, S. E. (1985). Construct validity of measures of college teaching effectiveness.
Journal of Educational Psychology, 77, 187-196.
Howard, G. S., & Maxwell, S. E. (1982). Do grades contaminate students' evaluation of college teaching: A multi-trait
multimethod analysis. Journal of Educational Psychology, 74, 264-279.
Jans, V., Leclercq, D., Denis, B., & Poumay, M. (1998). Projets d'animation réciproques multimédias (PARM). In D. Leclercq
(Ed.), Pour une pédagogie universitaire de qualité (pp. 207-242). Sprimont: Mardaga.
Jones, R. A. (1977). Self-fulfilling prophecies : Social, psychological and physiological effects of expectancies. New York:
Halsted Press.
Kahneman, D. A perspective on judgement and choice : Mapping bounded rationality. American Psychologist, 58, 697-698.
Kane, M., Crooks, T., & Cohen, A. (1999). Validating measures of performance. Educational Measurement: Issues and
Practice, 18(2), 5-17.
Kierstead, D., D'Agostino, P., & Dill, H. (1988). Sex role stereotyping of college professors: Bias in students' ratings of
instructors. Journal of Educational Psychology, 80(3), 342-344.
Knight, P. (2002). A systematic approach to professional developpement : Learning as practice. Teaching and Teacher
Education, 18(3), 229-241.
Kulik, J. A. (2001). Student rating: Validity, utility, and controversy. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The
student ratings debate: Are they valid? how can we best use them? (New Directions for Institutional Research ed.,
). San Francisco: Jossey Bass.
Kulik, J. A., & McKeachie, W. J. (1975). The evaluation of teachers in higher education. In F. N. Kerlinger (Ed.), Review of
research in education (Itasca, Ill.:Peacock ed., )
Lewis, K. G. (2001). Making sense of student written comments. In K. G. Lewis (Ed.), Techniques and strategies for
interpreting student evaluations (pp. 25-32). San Francisco: Jossey Bass.
Lucas, A. F. (1990). The department chair as change agent. In P. Seldin (Ed.), How administrators can improve teaching.
moving from talk to action in higher education (pp. 63-88). San Francisco: Jossey-Bass.
Marsh, H. W. (1987). Students' evaluations of university teaching : Research findings, methodological issues, and
directions for future research. International Journal of Educational Research, 11(3), 255-388.
Marsh, H. W. (1983). Multidimensional ratings of teaching effectiveness by students from different academic settings
and their relation to student/ Course/Instructor characteristics. Journal of Educational Psychology, 75(1), 150-
166.
Marsh, H. W. (1982). Validity of students' evaluations of college teaching: A multitrait-multimethod analysis. Journal of
Educational Psychology, 74(2), 264-279.
Marsh, H. W. (1980). The influence of student, course, and instructor characteristics in evaluations of
university teaching. American Educational Research Journal, 17(2), 219-237.
Marsh, H. W., & Cooper, T. (1981). Prior subject interest, students' evaluations, and instructional effectiveness.
Multivariate Behavioral Research, 16, 82-104.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Marsh, H. W., & Dunkin, M. (1992). Students' evaluations of university teaching: A multidimensional perspective. In J. C.
Smart (Ed.), Higher education: Handbook on theory and research (pp. 143-234)Agathon Press.
Marsh, H. W., Fleiner, H., & Thomas, C. S. (1975). Validity and usefulness of student evaluations of instructional quality.
Journal of Educational Psychology, 67, 833-839.
Marsh, H. W., Overall, J. U., & Kessler, S. P. (1979). Validity of student evaluations of instructional effectiveness : A
comparison of faculty self-evaluations and evaluations by their students. Journal of Educational Psychology, 71,
149-160.
Marsh, H. W., & Roche, L. A. (1997). Making students' evaluations of teaching effectiveness effective. American
Psychologist, 52, 1187-1197.
Marsh, H. W., & Ware, J. E. (1982). Effects of expressiveness, content coverage, and incentive on multidimensionnal
student rating scale : New interpretations of the dr. fox effect. Journal of Educational Psychology, 74, 126-134.
Mc Guigan, F. J. (1967). The G. statistics, an index of AMount learned. National Society for Programmed Instruction, 6,
14-16.
Mckeachie, W. J. (1997). Student ratings: The validity of use. American Psychologist, 52, 1218-1225.
McKinnon, K. R., Walker, S. H., & Davis, D. (2000). Benchmarking, a manual for australian universities. Unpublished
manuscript.
Menges, R. J. Using evaluative information to improve instruction. In P. Seldin (Ed.), How administrators can improve
teaching. moving from talk to action in higher education (pp. 104-121). San Francisco: Jossey Bass.
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (pp. 13-104). New York: Macmillan.
Morrison, D. E. (1997). Overview of instructional consultation in north america. In K. Brinko, & R. Menges (Eds.),
Practically speaking: A sourcebook for instructional consultants in higher education ()Stillwater, Oklahoma : New
Forums Press.
Morrison, K. R. B. Planning and accomplisging school-centered evaluation. Dereham, UK: Peter Francis.
Murray, H. G. (1984). The impact of formative and summative evaluation of teaching in north american universities.
Assessment and Evaluation in Higher Education, 9(2), 117-132.
Murray, H. G., Rushton, J. P., & Paunomen, S. V. (1990). Teacher personality traits and student instructional ratings in six
types of university courses 82(2):250-61. Journal of Educational Psychology, 82(2), 250-261.
Nadeau, M. A. (1990). L’évaluation de programme : Théorie et pratique. Laval: Presse Universitaire de Laval.
Naftulin, D. h., Ware, J. E., & Donnelly, F. A. (1973). The doctor fox lecture: A paradigm of educational seduction.
Journal Of Medical Education, 48, 630-635.
Newby, P. Culture and quality in higher education. Higher Education Policy, 12, 261-275.
Oppenheim, A. N. (1992). Questionnaire design, interviewing and attitude measurement. London: Pinter.
Ory, J. C. (2001). Faculty thoughts and concerns about student ratings. In K. G. Lewis (Ed.), Techniques and strategies
for interpreting student evaluations (pp. 3-15). San Francisco: Jossey-Bass.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Ory, J. C. (1980). The influence od students' affective entry on instructor and course evaluations. Review of Higher
Education, 4, 13-24.
Ory, J. C., & Ryan, K. (2001). How do student ratings measure up to a new validity framework?'. In M. Theall, P. C. Abrami
& L. A. Mets (Eds.), The student ratings debate: Are they valid? how can we best use them? (pp. 27-44). San
Francisco: Jossey-Bass.
Overall, J. U., & Marsh, H. W. (1979). Midterm feedback from student: Its relationship to instructional improvement ans
students' cognitive and affective outcoms. Journal of Educational Psychology, , 856-865.
Parchemal, Y., & Ycart, B. (2002). Evaluation en ligne des enseignements : Le logiciel QUESTEL. Sciences et techniques
éducatives, 9, 491-500.
Paulsen, M. B., & Feldman, K. A. (1992). Toward a reconceptualization of scholarship. Journal of Higher Education, 66(6),
615-640.
Perry, R. P., Abrami, P. C., Leventhal, L., & Check, J. (1979). Instructor reputation: An expectancy relationship involving
student ratings and achievement. Journal of Educational Psychology, 71, 776-787.
Potocki Malicet, D. (2001). Les défis de l'évaluation des enseignements dans les universités. In L. Demailly (Ed.), Évaluer
les politiques éducatives (). Bruxelles: de boek.
Powell, R. W. Grades, learning, and student evaluation of instruction. Research in Higher Education, 7, 193-205.
Ramsden, P., & Entwistle, N. J. (1981). Effects of academics departments on students’ approaches to studying. British
Journal of Educational Psychology, 51, 368-383.
Rege Colet, N. (2002). L’arroseur arrosé. evaluation d’un service d’appui à l’évaluation de l’enseignement.
Rege Colet, N., & Durand, N. (2005). Evaluation de l'enseignement à l'université de geneve : Mesure d'impact sur les
pratiques enseignantes. Unpublished manuscript.
Rege Colet, N., & Romainville, M. (2006). La pratique enseignante en mutation à l'université. Bruxelles: de boek.
Richlin, L., & Manning, B. (1996). Using portfolios to document teaching excellence. In M. D. Svinicki, & R. J. Menges
(Eds.), Honoring exemplary teaching (pp. 65-70). San Francisco: Jossey-Bass.
Richlin, L., & Manning, B. (1996). Using portfolios to document teaching excellence. New Directions for Teaching and
Learning, 65, 65-70.
Rodin, M., & Rodin, B. (1972). Student evaluations of teachers. Science, 177(4055), 1164-1166.
Sandler, B. R. (1992). Success and survival strategies for women faculty members Washington, DC: Association of
American Colleges.
Sax, L. J., Gilmartinm, S. K., & Bryant, A. N. (2003). Assessing response rates and nonresponse bias in web and paper
surveys. Research in Higher Education, 44(4)
Scriven, M. (1983). Summative teacher evaluation. In J. Milman (Ed.), Handbook of teacher evaluation ()Thousand Oaks,
Calif. : Sage.
Seldin, P. (1993). The use and abuse of student ratings of instruction. The chronicle of Higher Education, , A-40.
Shore, B. M. (1975). Moving beyond the course evaluation questionnaire in evaluating university teaching. CAUT Bulletin,
23(4), 7-10.
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques
Fribourg - Pascal Detroz – 24/09/2007
Snyder, C. R., & Clair, M. (1976). Effects of expected and obtained grades on teacher evaluation and attribution of
performance. Journal of Educational Psychology, 68, 75-82.
Spence, L., & Lenze, L. F. (2001). Taking student criticism seriously: Using student quality teams to guide critical
reflection. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 55-62). San
Francisco: Jossey Bass.
Statham, A., Richardson, L., & Cook, J. A. (1991). Gender and university teaching: A negotiated differenceAlbany: State
University of New York Press.
Stone, E. F., Spool, M. D., & Rabinowitz, S. (1977). Effects of anonymity and retaliatority potential on student evaluations
of faculty performance. Research in Higher Education, 6, 313-325.
Theall, M. (2002). Student rating :Myths vs research evidence. Brigham Young University's FOCUS ON FACULTY
Newsletter, 10(3), 2.
Theall, M. (2001). Can we put precision into practice ? commentary and thought. In M. Theall, P. C. Abrami & L. A. Mets
(Eds.), The student ratings debate: Are they valid? how can we best use them ? (). San Francisco: Jossey Bass.
Theall, M., & Franklin, J. (2001). Looking for bias in all th wrong places: A search for truth or a with hunt in student
ratings of instruction. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate:Are they valid?
how can best use them? (pp. 45-56). San Francisco: Jossey Bass.
Theall, M., & Franklin, J. (1990). Student ratings of instruction: Issues for improving practice. In M. Theall, & J. Franklin
(Eds.), New directions for teaching and learning (). San Francisco: Jossey-Bass.
Thivierge, A., & Bernard, H. (1996). Les croyances des étudiants à l'égard de l'évaluation de l'ensignement. Mesure et
évaluation en éducation, 18(3), 59-84.
Tiberius, R. (2001). Making sense and making use of feedback from focus groups. In K. G. Lewis (Ed.), Techniques and
strategies for interpreting student evaluations (pp. 63-75). San Francisco: Jossey Bass.
Trinquier, M. P., & Terrisse, A. (2004). Entre prévision et réalité du cours : Regards croisés sur les pratiques et les
représentations des enseignants de DEUG. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans
l'enseignement supérieur : Enseigner, apprendre, évaluer (pp. 53-92)L'harmattan.
Trowler, P. (1998). Academics responding to change: New higher education frameworks and academic cultures.
Buckingham: SRHE and Open University Press.
Vasta, R., & Sarmiento, R. F. (1979). (1979). Liberal grading improves evaluations but not performance. Journal of
Educational Psychology, 71, 207-211.
Vernon, D. T. A., & Blake, R. L. (1993). Does problem-based learning work ? a méta-analysis of evaluative research.
Academic Medicine, 68, 550-563.
Wagner, W., Duveen, G., Farr, R., Jovchelovitch, S., Lorenzi-Cioldi, F., Markova, I., et al. (1999). Theory and method of
social representations. Asian journal of Social Psychology, 2, 95-125.
Williams, W. M., & Ceci, S. J. (1997). How'm I doing? problems with student ratings of instructors and courses. Change,
29(5), 13-23.
Wilson, N., & McLean, S. (1994). Questionnaire design : A practical introduction. Newtown Abbay: University of Ulsters
Press.
Wright, W. A., & O’Neil, M. C. (1995). Teaching improvement practices : International perspectives. In W. A. Wright
(Ed.), Teaching improvement practices. successful strategies for higher education (pp. 1-57). Bolton: Anker
Publishing.
Younes, N. (2006). L’effet évaluation de l’enseignement supérieur par les étudiants. Unpublished Thèse présentée pour
l’obtention du grade de docteur de l’Université Discipline : Sciences de l’éducation, Grenoble.
Younes, N. (2005). Démarche d’implantation d’un logiciel d’évaluation de l’enseignement fonctionnant sur
intranet/Internet. les apports du système qualiense. International Journal of Technologies in Higher Education,
2(1), 52-58.