Evaluation Des Enseignements: de La Contrainte

Evaluation des enseignements : de la
contrainte administrative à l'amélioration

des pratiques
Fribourg, 24 septembre 2007
Pascal Detroz (p.detroz@ulg.ac.be)

Système Méthodologique d’Aide à la Réalisation de Test
Université de Liège
Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

Fribourg - Pascal Detroz – 24/09/2007
Introduction : l’Evaluation des enseignements par les étudiants
L’évaluation des enseignements est une pratique ancienne puisque, selon Doyle (1983), on en
trouve des traces jusqu’en 350 avant Jésus Christ. Si certaines études, sur ce sujet furent
publiées à la fin du 19ème siècle1 c’est surtout dans le courant du vingtième siècle que ce champ
théorique s’est étoffé.
Dans ce contexte, les pratiques d’Evaluation des Enseignements par les Etudiants (EEE) furent
décrites plus tardivement. Si en 1924, un groupe d'étudiants de l'université de Harvard publie le
Confidential Guide to Course, probablement le premier répertoire de cours évalués (Bernard,
1992), et que le premier formulaire d’évaluation des enseignements a été rempli en 1954
(Guthrie, 1954), il faudra attendre le début des années 60 pour que la pratique d’EEE se
généralise. Cette généralisation se fera d’abord lentement, puis de manière plus spectaculaire à
la fin du 20ème siècle. Ainsi, une étude longitudinale de Seldin (1993) portant sur 600 collèges
américains montre que 29 % de ceux-ci utilisaient l’EEE en 1973, qu’ils étaient 68 % en 1983 et
que ce chiffre atteignait les 86 % en 1993.
En Europe, et plus particulièrement dans les pays francophones, cette méthodologie se diffuse
plus lentement. Par exemple, Dejean (2002) dans son rapport sur l’évaluation de l'enseignement
dans les universités françaises conclut que cette forme d’évaluation est encore peu développée
et a du mal à s’imposer. En Belgique francophone, il faut attendre le milieu des années 80 pour
voir ce type de méthodologie sporadiquement utilisée. Cependant, partout en Europe, le rythme
de diffusion de ces méthodes a été très largement accéléré par le processus de Bologne.
Parallèlement à ces pratiques, un épais corpus théorique s’est dégagé à partir des années 60.
Ainsi, Cashin (1995) a répertorié plus de 1500 références scientifiques portant sur l’évaluation
de l’enseignement par les étudiants (student ratings).
Une très large part de cette littérature a eu trait à la validité et à la fidélité de la mesure
récoltée à l’aide ce cette méthodologie (Thivierge, 1996). Très tôt, des recherches crédibles
démontrent la validité de l’EEE alors que d’autres continuaient à s’interroger. Par exemple, en
1981, Cohen conclut à la validité de l’EEE après une méta-analyse portant sur 41 études
indépendantes. Malgré les travaux tendant à démontrer la validité et la fidélité de la procédure,
le scepticisme reste souvent de mise parmi les enseignants évalués. Ce qui fait dire à Cohen
(1990) que « Negative attitude towards student ratings are especially resistant to change, and it
seems that faculty and administrators support their belief in student-rating myths wit personal
and anecdotical evidence wich [for them] outweighs empirically based research evidence ».
Même si des études francophones approfondies sur les représentations des enseignants par
rapport à l’EEE (Bernard 2000, Younes, 2006) concluent que les représentations sont moins
univoques et souvent plus ambivalentes que ce que souligne Cohen, il n’en reste pas moins que les
chercheurs-praticiens en EEE ont dû et doivent encore constamment faire la preuve de la qualité
des mesures effectuées à l’aide de cette méthode, ce qui explique le très large champ théorique
consacré à cet aspect. Il est d’ailleurs amusant de remarquer que Aleamoni ait publié en 1987 un
article portant le titre « Student rating myths versus research facts » et qu’un peu plus tard
Theall (2002) ait produit une note interne dans son université s’intitulant « Student Ratings:
Myths vs. Research Evidence ».
1
Rice (1898) publie une étude comparative de la performance de 33.000 étudiants en épellation, étude dans
laquelle il fit une critique sévère des procédés d’enseignement jusqu’alors utilisés (cité par Nadeau, 1990).
Cette omniprésence de la validité et de la fidélité dans le champ scientifique de l’EEE a
longtemps relégué au second plan des éléments de nature extrêmement importante. Si quelques
articles ont traité du développement des activités d’évaluation et leur dissémination dans les
institutions universitaires (Bernard, 1992 ; Centra, 1993), alors que d’autres s’attachaient à
comprendre les enjeux liés à l’EEE (par exemple, Dejean, 2002), très peu d’articles et tous assez
récents (par exemple, Mc Keachie, 1997 ; Knight, 2002 ; Rege Colet, 2005) se sont intéressés à
l’impact de cette méthode sur les pratiques des enseignants. En d’autres termes, l’analyse de la
validité conséquentielle (Messick, 1993) ou de la validité catalytique (Lather, 1986) de l’EEE n’a
été posée que très récemment et les réponses demeurent actuellement largement incomplètes.
Or cette question nous semble être centrale au débat. En effet, l’EEE ne se justifie que si elle
produit un effet positif sur les enseignements. Or la seule qualité édumétrique du feedback issu
de la procédure ne suffit pas à garantir que des effets se manifestent.
Dans le premier chapitre, nous allons rapidement passer en revue quelques travaux sur la validité
et la fidélité de l’EEE et illustrer le type de débat contradictoire qui y prend place. Nous
aborderons alors succinctement la littérature portant sur les conditions de réussite de l’EEE.
Dans le second chapitre, nous tenterons d’apporter notre point de vue sur l’impact de l’EEE en
présentant un modèle qualité de construction d’EEE étayé par la littérature.
1. La littérature en EEE
1.1. La validité de la mesure
L’essentiel de la littérature du vingtième siècle a porté sur la validité et la fidélité de la mesure

récoltée via cette méthode. Ce champ théorique comprend plusieurs centaines d’articles, certains
en totale contradiction les uns avec les autres.
Ainsi Greenwald et Gillmore (1997) ont catégorisé les recherches sur la validité des EEE en tant
que mesures de la qualité de l’instruction. Certaines plaident en faveur de la validité, d’autres en
sa défaveur.
- Revues et recherches empiriques en faveur de la validité des EEE : Cashin (1995), Cohen (1981),
Feldman (1988), Howard, Conway et Maxwell (1985), Howard et Maxwell (1980, 1982), Marsh
(1980, 1982, 1984), Marsh et Dunkin (1992), McKeachie (1979).
- Revues et critiques empiriques mettant en cause la validité des EEE : Dowell et Neal (1982),
Holmes (1972), Powell (1977), Snyder et Clair (1976), Vasta et Sarmiento (1979), Worthington et
Wong (1979).
Ce relatif paradoxe s’explique par la difficulté méthodologique d’évaluer la fidélité de l’EEE.

Abrami, d’Apollonia et Cohen (1990) répertorient 5 types différents de recherche portant sur la
validité de l’EEE qui sont [a] l’approche multitrait, multiméthode, [b] l’approche multisection, [c]
l’analyse des biais, [d] les méthodes de laboratoire et [e] l’approche multidimensionnelle. Passons-
les en revue.
1.1.1 L’approche multitrait-multiméthode
Cette approche consiste à corréler les résultats obtenus par un enseignement lors de l’EEE à
d’autres mesures critériées de la qualité d’un enseignement. Typiquement, il ‘agit ici de comparer
la performance d’un enseignement à l’EEE avec, par exemple, le score obtenu à l’examen par les
étudiants, l’évaluation des anciens étudiants, l’évaluation par les pairs, le portfolio….) – pour
l’aspect multitrait - mais aussi pour ce faire d’utiliser différentes méthodes (item ouverts et
fermés, interviews…) –pour l’aspect multiméthode. Les études sérieuses qui se sont penchées sur
ce sujet concluent en faveur d’une validité convergente et discriminante de l’EEE (Howard,
Conway et Maxwell, 1985 ; Marsh, 1982). La problématique inhérente à ce type de recherche et
la validité des indicateurs comparés, comme par exemple, le score obtenu par les étudiants à
l’examen ou l’évaluation par les pairs, pose également beaucoup de questions. Ce ne sont, en fait,
que des mesures incomplètes et imparfaites du même objet : la qualité de l’enseignement.
Par exemple, le score obtenu par les étudiants à l’examen est une mesure qui ne reflète pas que
la performance de l’enseignement. En Effet :
• Elle ne tient pas compte des compétences des étudiants à l’entrée dans le cursus
d’apprentissage. De manière caricaturale, si un étudiant connaît préalablement la matière,
il peut afficher un excellent score à l’examen sans avoir rien appris au cours. Les
pédagogues peuvent solutionner ce problème en recourant au gain relatif GR=Gain
effectué/Gain possible (Mc Guigan, 1967). Or cette méthode exige un prétest et un
post-test exactement de la même difficulté, ce qui peut se révéler difficile à mettre en
œuvre.
• Le gain relatif peut être influencé par des variables externes à l’enseignement. Celles-ci
comment le climat d’un département ou d’une institution influençait l’apprentissage des
étudiants en favorisant ou en défavorisant leur engagement.
• On sait depuis Piéron (1963), à quel point l’évaluation des étudiants est soumise à un
manque de fidélité inter-juges et intra-juges. Le score obtenu ne reflète donc pas
uniquement la performance de l’étudiant.
• Souvent, l’examen manque de validité de contenu et/ou de validité de construct. En
d’autres mots, les questions de l’examen ne sont souvent qu’un échantillon peu
représentatif de l’ensemble du contenu du cours.
• Les examens ont la plupart du temps lieu juste après les enseignements et ne présagent
en rien de l’apprentissage à long terme, par exemple, du transfert qui pourra être réalisé
dans un contexte professionnel.
Le score obtenu à l’examen est donc une mesure incomplète et imparfaite qui reflète finalement
avec peu de certitude la qualité d’un enseignement. Conclusion qui peut d’ailleurs s’étendre au
portfolio de l’enseignant (Kane, Krooks et Cohen 1999 ; Richlin et Manning, 1996), à l’évaluation
par les anciens étudiants (Kulik, 2001), et à l’observation par des pairs qui n’évaluent qu’un
échantillon du cours.
En conclusion, si l’approche multitrait-multiméthode révèle une bonne corrélation entre l’EEE et

d’autres mesures critériées de la qualité de l’enseignement, on ne peut toutefois conclure que
l’EEE mesure complètement, parfaitement et exclusivement la qualité de l’enseignement.
1.1.2 L’approche Multisection
Les études multisection sont utilisées pour mesurer la relation entre l'évaluation des
enseignements et le score des étudiants dans des chapitres différents du même cours donné par
des enseignants différents. Cette méthodologie présente l’avantage de contrôler les variables
inhérentes au contexte et celles inhérentes à l’étudiant, puisque ce sont les mêmes cours suivis
par les mêmes étudiants. Au total, ces études montrent une corrélation entre résultats et le
jugement EEE qui va dans le sens de la validité de l’EEE puisque les cours où les étudiants ont les
meilleurs scores sont ceux qu'ils évaluent le plus favorablement : Abrami, d'Appolonia et Cohen
(1990), d'Appolonia et Abrami (1997).
Cette méthodologie n’échappe toutefois pas complètement à l’analyse que nous avons effectuée
sur l’évaluation des étudiants dans le sous-chapitre précédent.
1.1.3 L’analyse des biais

L’évaluation des enseignements par les étudiants doit, pour être valide, évaluer la qualité de
l’enseignement sans être influencée par d’autres variables. Beaucoup de recherches, mettant en
œuvre des méthodes très variées (de la simple corrélation à la méta-analyse), ont tenté de
mettre à jour de telles influences. La recherche porte en fait sur trois grands types de biais
(Ory, 20012).
• Les biais liés à l’enseignant

Parmi les variables étudiées figurent notamment le statut de l’enseignant, son âge, son
expérience, sa popularité, sa qualité de chercheur, son sexe et sa race. Certaines variables sont
légèrement corrélées avec les scores EEE. Ainsi, les enseignants expérimentés semblent obtenir
un meilleur score que les enseignants novices (Feldman, 1983) et les enseignants nommés un
meilleur score que les assistants (Brandenburg, Slinde et Batista, 1977 ; Centra et Creech,
1976).
D’autres, comme l’âge (Ory, 2001), n’ont pas d’effet. D’autres enfin comme la qualité de
chercheur et le sexe montrent des résultats inconstants et plus difficiles à interpréter. Ainsi,
pour le sexe, il semblerait que les auditoires masculins évaluent plus favorablement les hommes
et que les auditoires féminins évaluent plus favorablement les femmes. Cet effet est cependant
marginal (Bennett, 1982; Bernard, Keefauver Elsworth et Maylor, 1981 ; Feldman 1992). Il
semblerait également que les filles évaluent plus positivement certains aspects spécifiques,
comme de l’enseignement que les garçons (Aleamoni et Hexner, 1980). Il semblerait également
que les enseignantes obtiennent un meilleur score que les enseignants sur certaines variables,
comme par exemple « l’attention portée au progrès des étudiants » (Feldman, 1983). Bennet
(1982), cité par Younes (2002) a mis en évidence que les étudiants seraient plus exigeants par
rapport aux comportements féminins (ex. : disponibilités envers les étudiants) chez les femmes
que chez les hommes. En d’autres termes, un même comportement ne sera pas perçu de la même
manière selon le sexe de l’enseignant. Sur certains aspects, le niveau d’exigence ne sera pas
nécessairement le même pour les enseignants que pour les enseignantes3.
Une des variables liées à l’enseignant qui a été la plus débattue dans la littérature est la
popularité et la personnalité de l’enseignant. La plupart des études montrent que ces
caractéristiques de l’enseignant influence, à des degrés divers, le jugement des étudiants par
rapport à l’enseignement prodigué (Aleamoni, 1987 ; Feldman, 1978 et Theall et Franklin, 1990).
Au-delà des corrélations, la plupart du temps très faible, entre certaines de ces variables et
l’EEE, il est nécessaire d’interpréter ces résultats de recherche. Ainsi, un enseignant
expérimenté, nommé et populaire aurait, en tendance, une meilleure évaluation qu’un jeune
assistant impopulaire. Cet effet, ne montre-t-il tout simplement pas qu’un enseignant
expérimenté prodigue un meilleur enseignement, qu’un enseignant nommé est plus efficace et que
la popularité est étroitement liée à la capacité à enseigner aux étudiants ? Certains auteurs vont
dans ce sens. Par exemple, la recherche montre que les étudiants apprécient les enseignants
2
L’analyse des biais en EEE que nous proposons se base en partie sur cet article.
3
Pour plus de détails : Kierstead, d’Agostino et Dill (1988), Sandler (1991), Richardson et Cook (1991).
compétents, chaleureux, extravertis et enthousiastes qui sont également des caractéristiques
améliorant l’enseignement (Murray, Rushton, et Paunonen, 1990). Certaines études prêtent plus à
la controverse. Ainsi, par exemple, Emery (1995)4, dans une étude non publiée, semble avoir
démontré que les enseignements qui amenaient de la nourriture en classe recevaient le meilleur
score à l’EEE. Abrami, Leventhal, et Perry (1982) ont montré que certaines caractéristiques de
l’expressivité de l’enseignant avaient un effet sur son score à l’EEE, mais n’avait pas d’influence
sur la qualité des travaux réalisés. Les études en laboratoire se sont également largement
penchées sur l’effet potentiel du style de l’enseignant sur le score à l’EEE. Nous y reviendrons
dans la section suivante.
Enfin, en ce qui concerne la race de l’enseignant, qui a très peu été investigué, des études
récentes (Hamermesh et Parker, 2005 ; Glascock et Ruggerio, 2006) montrent que, toutes
choses égales par ailleurs, les enseignants faisant partie de minorités ethniques ont en tendance
des scores inférieurs à ceux des enseignants de couleur blanche.
• Les biais liés aux étudiants

Parmi les variables étudiées figurent les scores obtenus ou espérés à l’examen par les étudiants,
leur sexe (déjà discuté lors des biais liés à l’enseignant), leur motivation pour la matière, leur
personnalité.
Les liens entre le score obtenu ou espéré par les étudiants et leur jugement sur la qualité de
l’enseignement reçu a fait l’objet d’une très large littérature. Contrairement aux autres variables
analysées dans ces recherches de biais, pour lesquelles nous avons choisi de ne fournir au lecteur
que les résultats les plus probants, nous avons choisi de les résumer soigneusement et
historiquement. En effet, cette perspective historique fera comprendre au lecteur la difficulté
méthodologique inhérente à l’étude des biais et la difficulté à interpréter les résultats obtenus.
La première étude sur ce thème qui mérite d’être mentionnée est celle de
Rodin et Rodin (1972). Premièrement parce qu’elle a été publiée dans la
célèbre revue Science mais aussi parce que ses résultats étaient très
interpellants. En effet, les auteurs démontraient une corrélation négative de
-.75 entre le score à l’examen (grading) et le score obtenu à l’EEE (rating). A
ce jour, c'est la seule étude à montrer une corrélation négative de cette
ampleur. Cette étude, si elle a eu le mérite d’ouvrir un nouveau champ de
recherche, a subi depuis un lot important de critiques. Par exemple, Doyle
(1975) écrit à son sujet une réplique cinglante : "L’attention accordée à
l’étude de Rodin et Rodin semble proportionnelle à son manque de rigueur".
Plus sérieuse, la méta-analyse de Cohen (1981) sur le sujet conclut à une

corrélation de .43 entre le score à l’examen et les réponses à l’EEE. Ceci dit,
dans sa méta-analyse, tous les articles ne vont pas dans le même sens. Ainsi
certains de ceux-ci démontrent une corrélation légèrement négative. Il
analyse les raisons à ce manque de constance et met en avant deux facteurs
explicatifs.
Le premier est lié aux items du questionnaire EEE. Il montre par exemple que
les items liés à la capacité de l'enseignant et à l'organisation du cours sont
très corrélés avec le score à l’examen, que ceux liés au rapport élève-
4
Cité par Emery, Kramer and Tian (2003).
enseignant sont pauvrement corrélés et que ceux liés à la difficulté du cours
ne sont pas du tout corrélés.
Le second est lié à certaines variables contextuelles. Ainsi les variables

« professeur à temps plein », « résultat à l’examen obtenu ou non lors de
l’EEE » et « évaluation interne ou externe » influence significativement la
corrélation.
Les études de Greenwal et Gillmore (1997) vont dans le même sens. Ils
concluent que, toutes choses égales par ailleurs, augmenter le score à
l’examen augmente le score à l’EEE. Ils y voient la preuve que l’EEE n’est pas
valide : il suffirait de diminuer les exigences à l’examen pour obtenir une
bonne évaluation. Abrami et Appolinia (1997) et Marsh et Roche (1997) ne
partagent pas cette analyse : ils soulignent que ce n'est pas parce qu'il y a
une corrélation entre score à l’examen et réponse à l’EEE qu’il y a une
causalité.
Ils disent qu’il est probable qu’une variable causale, la qualité de

l’enseignement, influence simultanément le score à l’examen et les réponses à
l’EEE. L’étude de Franklin et Theall (1991) constitue également un argument
majeur contre l’hypothèse énoncée par Greenwald et Gillmore (1997). En
effet, ils analysent des milliers de cours pendant les cinq premières années
de l’introduction de l’EEE. Ils mettent en évidence une augmentation faible,
mais significative des notes et, dans un même temps, une diminution des
évaluations. Augmenter le score à l’examen ne garantit donc pas une
évaluation EEE plus positive.
A noter que l’analyse des corrélations entre score à l’examen et résultats

obtenus lors d’une EEE a été discutée dans le cadre des études multitrait-
multiméthode mais aussi dans le cadre de l’analyse des biais liés à l’EEE. Si un
lien est avéré, cela renforce la validité de l’EEE selon le paradigme de
l’approche multitrait-multiméthode, mais cela la déforce selon celui de
l’analyse des biais car cela pourrait être interprété comme le fait que les
enseignants cotant largement les examens seraient aussi ceux obtenant le
meilleur score à l’EEE.
Ce phénomène paradoxal a été discuté par Abrami (2001). Il explique que ce

paradoxe est inhérent au score à l’examen qui est le reflet de deux facteurs
combinés. Le premier est l’apprentissage à l'intérieur du cours. Le second est
la sévérité de l'enseignant. Il note aussi que le score à l’examen reflète
également les compétences transversales des étudiants. Kulik (2001) pour sa
part met en avant les problèmes de validité inhérents aux examens. Comme
on ne peut maîtriser ces différentes sources, Abrami (2001) préconise
d’avoir recours à l'expérimentation en laboratoire ou aux études de terrain.
Abrami, Dickens Perry Leventhal (1980) ont mené une expérience de ce type.
Ils n’ont trouvé que des effets faibles et inconsistants du score à l’examen
sur le score à l’EEE.

Comme cette perspective le souligne, les difficultés méthodologiques et interprétatives rendent
ce champ d’étude apparemment paradoxal.
En ce qui concerne la motivation, les études montrent que les étudiants ayant un intérêt prononcé
pour une matière enseignée évaluent légèrement plus favorablement les cours s’y rapportant
(Marsh et Cooper, 1981 ; Ory, 1980 ; Perry, Abrami, Leventhal et Check, 1979). Marsh (1983)
signale toutefois que la variable « intérêt pour la matière » influence à la fois les apprentissages
et le score à l’EEE. Il serait intéressant de considérer la variable de la motivation à la lumière
d’une étude longitudinale. Comment la motivation de l’étudiant pour la matière a-t-elle varié tout
au long du cours et quel est, au final, l’impact de cette variation sur l’EEE.
Enfin, en ce qui concerne la personnalité de l’étudiant, les études d’Abrami, Perry et Leventhal
(1982) concluent qu’il n'y a pas de liens consistants et porteurs de sens entre des traits de
personnalité de l'étudiant et ses évaluations.
• Les biais liés au contexte

Les variables qui ont été étudiées dans ce contexte sont relatives au caractère obligatoire du
cours, au niveau d’enseignement auquel il s’adresse, à la taille de la classe, à la discipline
enseignée, à la charge de travail donnée aux étudiants et aux méthodes de passation de l’EEE.
Les liens entre EEE et le caractère optionnel ou obligatoire du cours ont été questionnés par de
nombreux auteurs ( Costin, Greenough et Menges, 1971 ; Brandenburg, Slinde et Batista, 1977 ;
Feldman, 1978 ; Mc Keachie, 1979 ; Marsh, 1984 ; Aleamoni, 1989). Tous concluent que les cours
obligatoires obtiennent une évaluation plus négative que les cours optionnels. Même si la part de
la variance expliquée par cette variable est minime, Brandenburg, Slinde et Batista (1977)
recommandent de rédiger des normes différentes pour les cours obligatoires et optionnels.
L’impact du niveau d’enseignement dans lequel est donné le cours sur l’EEE a été exploré par
Costin, Greenough et Menges (1971), Aleamoni et Graham (1974), Bausell et Bausell (1979),
Feldman (1978), Kulik et McKeachie, (1975), Doyle (1983) et par Aleamoni (1989). Même si les
corrélations sont peu élevées, tous signalent qu’en tendance, un enseignant donnant cours dans
les niveaux supérieurs aura une évaluation plus élevée qu’un enseignant dans un niveau inférieur.
La taille de l’auditoire a également été étudiée. Les enseignants pensent souvent qu’enseigner à
un petit groupe leur permet d’être plus performant que quand ils enseignent à de grands groupes.
Les études ne démontrent pourtant pas ce fait. Ainsi, Feldman (1978), dans une revue portant
sur 52 études réalisées dans des auditoires de taille différente trouve une corrélation de -0,9
entre la taille de l’auditoire et le score à l’EEE. La corrélation ne semble cependant pas être
l’indicateur qui convient le mieux pour ce type d’analyse. En effet, certaines études parmi celles
que Feldman a étudiées montrent que les évaluations sont en tendance plus positive pour les très
petits groupes (<15 etudiants) ou pour les très grands groupes (>100 étudiants). Plus tard, Cashin
(1992) conclura qu’isolée, la variable taille de l’auditoire n’est pas une source sérieuse de biais. Un
an plus tard, Centra (1993) ponctue en disant que la taille de l’auditoire « have little practical
signifiance » sur le score à l’EEE.
En ce qui concerne la discipline enseignée au cours, Feldman (1978) avait déjà démontré que les
mathématiques et les sciences étaient, en tendance, un score inférieur aux autres disciplines. Ce
qui l’amenait à dire qu’il fallait tenir compte de cette variable, soit en créant des normes
spécifiques pour les enseignants de ces matières, soit en contrôlant statistiquement cette
différence. Un peu plus tard, Cashin (1990, 1992) et (Centra, 1993) arrivent à des conclusions

proches en établissant une classification. En ordre décroissant, les arts et sciences humaines, les
langues, la biologie et sciences sociales, administration des affaires, informatique,
mathématique, sciences appliquées et physique obtiennent en tendance des évaluations
différentes, les premières étant les plus largement rétribuées que les dernières.
Toutefois, Chiu (1999), cité par Ory (2001) en appliquant une ANOVA sur des groupes de tailles
différentes (Unbalanced Nested Anova) trouve que cette variable n’explique que 1,19 % de la
variance totale.
Le rapport entre la charge de travail et le score à l’EEE est assez étonnant. La plupart des
auteurs (Marsh, 1980, 1982, 1983, 1984 ; Cashin, 1988) trouvent une relation positive entre ces
deux variables : plus la charge de travail inhérente à un enseignement augmente plus, en
tendance, le score obtenu lors de l’EEE pour cette enseignement augmente.
Enfin, les méthodes de passation de l’EEE peuvent influencer, même si ce n’est que marginal, les
résultats à l’EEE. Ainsi Les EEE recueillies pendant un examen final (Frey, 1976) et celles pour
lesquelles l’étudiant ne doit pas s’identifier (Argulewiz et O'keefe, 1978 ; Feldman, 1979 ;
Hartnett et Seligsohn, 1967 ; Stone, Spool et Rabinowitz, 1977) sont, en tendance, plus sévère.
Alors que les EEE sont plus élevées si les résultats sont utilisés à des fins de promotion (Centra,
1976 ; Feldman, 1979 ; Overall et Marsh, 1979), si l'enseignant reste dans la classe pendant
l'évaluation, et si un administrateur fait un court speech sur l'importance de l'évaluation (Frey,
1976)
La conclusion sur les biais liés au contexte revient à Theall et Franklin (2001). Ils citent l’étude
de Marsh (1987) - dont les conclusions sont que les variables contextuelles n’influencent pas
grandement les EEE – mais précisent qu’il est vrai qu'un jeune enseignant d'un cours de premier
cycle et obligatoire en physique aura un score en tendance plus faible qu'un enseignant confirmé
de second cycle, d'un cours optionnel. Cela n'est peut-être pas un biais, en ce sens que ce sont
les enseignements qui sont évalués et qu'il est sans doute plus difficile de donner un
enseignement de qualité sous certaines conditions.
1.1.4 Les méthodes de Laboratoire

Cette méthode, très peu authentique, consiste à recréer une situation d’enseignement en
laboratoire. L’idée sous-jacente est de garder la variable « qualité de l’enseignement » sous
contrôle et de faire varier expérimentalement un certain nombre d’autres variables pour voir si
le score à l’EEE se modifie. Si c’est le cas, cela signifierait que la variable enseignement n’est pas
la seule qui influence le score à l’EEE, ce qui dès lors, pourrait l’invalider en tant que mesure de
l’efficacité de l’enseignement.
La plus connue des études de laboratoire est probablement celle dite du « Docteur Fox ». Dans
cette étude, Naftulin, Ware et Donnelly (1973) ont demandé à un acteur (nommé le Doctor Fox)
de donner une leçon de mathématique à des médecins en formation. Cette leçon était truffée
d’erreurs en terme de contenu (néologisme inexistant présenté comme concepts clés, …) mais
avec un maximum d’emphase. A la fin de cette leçon, un questionnaire d’EEE fut rempli.
L’évaluation était très positive, ce qui aux yeux des auteurs signifiait que l’EEE mesurait le style
de l’enseignant plutôt que la qualité de son enseignement. Cette étude a très vite été critiquée
dans la littérature, notamment sur base de l’authenticité d’une telle étude. Ainsi, Abrami,
Leventhal et Perry (1982), Frey (1979), Marsh et Ware (1982) critiquèrent le fait que les
étudiants aient dû porter leur jugement après une seule séance de cours, dans une matière qu'ils
ne connaissaient absolument pas (ils étaient en début de premier cycle) et sans avoir pu fonder

leur jugement sur d'autres aspects de l'enseignement (par exemple les notes de cours, les
supports d’apprentissage, les examens) ce qui est très loin des conditions réelles d'EEE.
Dans la lignée de l’expérience du Doctor Fox, l’étude de William et Ceci (1997) mérite également
d’être mentionnée. Ces auteurs ont tenté de démontrer que l’EEE était plus influencée par le
style de l’enseignant que par le contenu du cours. D’une une étude multisection, ils ont en effet
comparé les scores EEE lorsqu’un même enseignant variait son style d’enseignement (intonation
de la voix, comportement non verbal, enthousiasme, …) dans deux groupes différents sans
toutefois modifier ni le matériel, ni le contenu du cours. Ils arrivent à la conclusion que les
performances des étudiants en fin de semestre à l’examen ne varient pas entre les deux groupes,
mais que le score EEE, lui, varie de manière significative (il passe de 3.08 à 3.92 sur 5). Ils en
concluent que l’EEE ne dépend pas du contenu, mais bien du style de l’enseignant. d’Apollonia et
Abrami (1997) ont sévèrement critiqué cette recherche d’un point de vue méthodologique, la
qualifiant de recherche préexpérimentale. Ils soulignent qu’eux-mêmes (Abrami, Leventhal et
Perry, 1982) ont publié une revue des études quantitatives sur le sujet. Ils y concluent que
l’expressivité de l’enseignant à un plus grand impact sur son score EEE que sur l’apprentissage
des étudiants. Dans cette même étude, ils concluent également que le contenu du cours a un plus
grand impact sur l’apprentissage des étudiants que sur le score à l’EEE. Toutefois, ils
interprètent ces résultats très différemment des détracteurs de l’EEE. Pour eux, ces résultats
ne sont en rien la preuve de la non-validté de l’EEE. Ils disent que, plutôt que de la remettre en
cause, ces résultats posent la question des raisons de la validité de l’EEE. Ils soutiennent que des
études comme celles du Docteur Fox et de William et Ceci (1997) sont plus utiles pour
comprendre ce qui peut influencer la relation entre score à l’EEE et apprentissage des étudiants
que pour démontrer que cette relation est forte assez que pour assurer la validité.
Une autre étude de laboratoire, est celle menée par Ambady et Rosenthal (1992). Dans cette
recherche, ils ont soumis à des observateurs des séquences vidéos de trente secondes, qu’ils ont
appelées « fines tranches d’expressivité (Thin slices of expressive behavior) ». Ces séquences ne
comprenaient pas de son. Ils ont demandé aux observateurs de prédire quel serait le score de
l’EEE pour ces enseignements. Ils observent une corrélation positive élevée (.76) entre le
jugement des étudiants et le pronostique des observateurs. Ils en concluent que le score
attribué à un enseignement dépend essentiellement de comportements non verbaux
indépendamment de la qualité de l’enseignement. Kulik, 2001 a commenté cette étude. Il signale
que le faible échantillonnage de cours vidéoscopés rend l’erreur de mesure très importante. Il
fait également référence à une étude de la littérature de Feldman (1989), qu’il juge plus sérieuse
sur les liens entre score EEE et score attribué par les observateurs. Les études revues par
Feldman comprenaient l’observation de longues séquences d’enseignement (visuelles et auditives).
La corrélation moyenne relevée par Feldman est de .50.
1.1.5. Le structure conceptuelle de l’EEE.
Comme le spécifie Ory et Ryan (2001), beaucoup d’études (Kulik et McKeachie, 1975 ; Feldman,
1976 ; Marsh, 1987) ont été conduites, revues ou méta-analysées pour tenter de repérer un set
commun de facteurs sous-tendant le construct qui est mesuré par le score à l’EEE. Bien qu’il y ait
quelques éléments communs à toutes ces études, la recherche n’est pas parvenue à isoler un seul
ensemble de dimensions, ce qui plaide pour le fait de voir la qualité de l’enseignement comme
étant multidimensionnelle.
1.1.6. Conclusion

La littérature scientifique a échoué dans sa tentative de faire la preuve formelle de la validité de
l’EEE. Si une masse imposante d’arguments en faveur de l’EEE ont été mis à jour par la recherche,
certains arguments en sa défaveur restent encore avec des réponses insatisfaisantes. Que faut-
il en conclure ? Nous sommes assez en phase avec les conclusions de Kulik (2001) qui signale que
les résultats de cette méthode ont généralement montré des preuves partielles de validité
convergente et discriminante mais pas de manière parfaite. En toute objectivité, on peut, tout au
plus, parler d’un faisceau d’arguments qui plaident pour la validité de l’EEE et ce même si les
travaux de Cohen (1981) et les méta-analyses d’Appolonia et Abrami (1997) soutiennent l'idée
qu’il y a une liaison établie, signifiante et porteuse de sens entre l’EEE et l’apprentissage.
Notre conclusion personnelle portera sur deux principes. Le premier est un principe de
précaution. Le second est un principe d’efficacité.
• Principe de précaution : même si certains auteurs, comme Abrami (2001) continuent à

plaider pour l’utilisation prioritaire de l'EEE à des fins administratives, qui influencent la
carrière des enseignants, nous sommes de ceux qui pensent que l’EEE ne peut être
utilisée seule qu’à des fins formatives. En effet, au vu de la littérature, il est probable
que les scores à l’EEE soient influencés, même faiblement, par d’autres caractéristiques
que la qualité de l’enseignement stricto senso. Au vu de l‘intérêt de l’information fournie
par l’EEE et sachant qu’il n’existe pas de recueils d’informations qui présentent des
caractéristiques plus robustes, nous pensons que ces légers biais sont acceptables dans le
cadre d’une évaluation formative. Dans le cadre d’une évaluation formative, toutefois,
ceux-ci pourraient mener à des problèmes d’équité, surtout dans le cadre d’une évaluation
normative, ce qui semble inacceptable.
Dans le cadre d’une évaluation administrative, nous pensons que sous certaines
conditions5, l’EEE pourrait être utilisée avec d’autres méthodes.
• Principe d’analyse systématique de l’efficacité : comme le relevé de la littérature que

nous venons de présenter le laisse apparaître, beaucoup d’études portent sur la validité
de l’EEE. Paradoxalement, assez peu d’études portent sur l’effet qu’a eu l’EEE sur la
régulation des enseignements, sur ce que Lather (1986) a appelé la validité catalytique.
Or, l’EEE n’est qu’un outil. On peut bien sûr évidemment passer beaucoup de temps à
observer un outil, mais il est peut-être utile de s’interroger sur les conditions de passage
d’un outil décontextualisé à un instrument de régulation. Nous sommes ainsi en phase avec
McKeachie (1997) qui plaide pour que les recherches s’axent sur la validité
conséquentielle (Miller et Linn, 2000) de l’EEE, Il spécifie que les recherches doivent
porter, d’une part, sur les représentations véhiculées par le dispositif mais aussi, d’autre
part, sur son effet sur les divers porteurs d’enjeux.
Quelques études de ce type ont été effectuées et mettent en avant des résultats
paradoxaux. Ainsi, si de nombreux effets positifs des EEE sur les pratiques
d’enseignement ont été mis en évidence dans les recherches de Marsh et de ses
collaborateurs, des effets négatifs (Mc Keachie, 1979) ou une absence d’effets (Bernard
et al. 2000 ; Johnson, 1999) ont aussi été rapportés. Ces effets contradictoires ont aussi
été retrouvés dans la recherche conduite dans une université française sur les effets de
l’EEE par Younes (2006). Pourquoi de tels effets contradictoires et quelles sont les
5
Contrôle statistique de certaines variables, prise en compte de l’erreur de mesure, …
conditions d’une utilisation de l’EEE à des fins de régulation formative de
l’enseignement ? Il est probable que les réponses résident dans les caractéristiques et
les conditions de l’implémentation de l’EEE dans les universités. La littérature propose
quelques guidelines qui vont être abordées au chapitre 2.
1.2. Lignes directrices pour une EEE favorisant la régulation
Desjardins et Bernard, en 2002, listent un certain nombre de modèles favorisant une évaluation
des enseignements de qualité :
Ainsi, Cashin (1999) propose un certain nombre de pistes pour rendre cette
opération valide et efficace : utiliser de nombreuses sources d’information en plus
des étudiants ; faire l’évaluation du matériel d’enseignement ; valoriser la
contribution du professeur à son évaluation ; interpréter les résultats en fonction de
leurs variables contextuelles.
Menges (1990) présente, pour sa part, un modèle qu’il nomme les 4P : Plans,
Procedures, Preconditions, Products, permettant de faciliter l’utilisation des
informations contenues dans les évaluations pour améliorer l’enseignement. Le
modèle de Menges rejoint en tout point le modèle de Bernard (1992) qui propose de
prendre en considération les différentes dimensions de l’enseignement, dont la
planification, la prestation, les résultats et les conditions d’enseignement, afin d’en
tracer un portrait complet.
Pour Brinko (1991), une évaluation doit être suivie d’une rétroaction et d’une action.
Cette chercheuse propose un modèle en quatre phases qui va bien au-delà de
l’évaluation proprement dite : une rencontre initiale avec le professeur et un expert
afin de définir les besoins d’amélioration ; une formation permettant de mieux
cerner la situation de l’enseignement ; une évaluation de l’enseignement ; une analyse
des résultats suivie d’une planification de l’amélioration.
Quant au modèle de Centra (1993), le NVHM, il constitue un modèle intéressant pour

favoriser le changement à la suite des évaluations : faire en sorte que l’évaluation
apporte des informations nouvelles (New Knowledge) ; que cette information soit
valorisée (Value) ; qu’elle conduise au changement (How to Change) et que la
motivation soit au centre du processus (Motivation). Ainsi, une évaluation informative
qui conduit au changement et une évaluation valorisée qui motive le changement
seraient des conditions de succès dans l’utilisation des résultats de l’évaluation.
Outre ces modèles cités par Desjardins et Bernard (2002), d’autres auteurs ont proposé une
série de lignes directrices. Ainsi, Ory (2001) préconise de mettre sur pied une commission d’EEE
comprenant des représentants de l’ensemble des porteurs d’enjeux. Cette commission aura pour
mission de
• Fournir une théorie consistante pour choisir les items du questionnaire et créer un
dispositif pour répondre à des critères psychométriques forts.
• Mener des recherches sur les effets voulus et non voulus de l’EEE et sur la manière dont
le dispositif se met en place et est utilisé par les acteurs.
• Vérifier que les administrateurs jouent leur rôle et utilisent les évaluations
conformément à leurs objectifs.
• Vérifier que les enseignants prennent l’EEE au sérieux.
Pour Arreola (1994), les premiers pas et les plus importants à faire pour favoriser une bonne
pratique en EEE sont : arriver à un consensus sur ce qui est important, sur ce qui devra être
évalué, déterminer qui participera à cette évaluation, et définir les critères de qualité qui seront
utilisés.
Theall et Franklin (2001) définissent quant à eux 12 lignes directrices qui sont :
• Etablir les objectifs de l'EEE et l'utilisation qui sera faite des résultats avant
l'opération.
• Impliquer les porteurs d'enjeux dans les décisions prises à propos de l'EEE.
• Présenter clairement et publiquement toute information au sujet des critères,
procédures et processus d'EEE.
• Produire des rapports qui peuvent être compris rapidement et efficacement.
• Former les destinataires de feedbacks pour éviter les erreurs ou les mauvaises
interprétations.
• Garder en tête un équilibre entre les besoins des individus et ceux de l'institution.
• Inclure à la procédure des ressources pour l'amélioration de l'enseignement. Si on ne fait
pas cela, la procédure est stigmatisée comme punitive, puisqu'elle ne peut pas être
formative. Cela mène à de l'anxiété, de la résistance et de l'hostilité.
• Garder les évaluations formatives confidentielles et les distinguer clairement des
évaluations sommatives.
• Adhérer à des pratiques psychométriques et docimologiques rigoureuses.
• Réguler régulièrement le dispositif d'EEE.
• Mettre en place un système légal de recours et un système de recueil des doléances.
Emery et ses collègues, en 2003, propose 9 lignes directrices dont certaines sont communes à
celle de Theall et Franklin (2001) :
• Ne pas utiliser l’EEE de manière isolée, mais utiliser de multiples sources de données.
• Dans le questionnaire, utiliser des items traduisant plus la performance de l’étudiant
plutôt que sa satisfaction. Privilégier, par exemple, des items comme « avez-vous fait
des progrès en connaissance ? ».
• Privilégier une évaluation critériée plutôt que normative. Si on opte pour une évaluation
normative, vérifier que les conditions d’enseignements soient les mêmes.
• S’assurer que les données soient techniquement acceptables, notamment en terme de
taux de réponses.
• Demander aux étudiants de commenter les feedbacks quantitatifs qu’ils ont donnés.
• Former les évaluateurs à l’évaluation et les superviseurs à donner/diffuser des
feedbacks.
• S’assurer que le système est légal.
• S’assurer que le système est flexible et soit adaptable à la situation de chacun.
• S’assurer que le système reconnaisse la pluralité des méthodes éducatives.
Plus récemment, Younes (2006) a mis en évidence sept catégories de conditions favorables pour
que l’EEE ait un effet de régulation formative sur l’enseignement :
• Un objectif formatif clairement distingué d’un objectif administratif (contrôle).

• Une meilleure connaissance de l’EEE, les enseignants comme les administrateurs ayant en
général peu de connaissance sur l’EEE.
• Acceptation négociée d’un dispositif informatif.
• Un engagement des acteurs dans un processus de réflexivité collective.
• La prise au sérieux des points de vue des étudiants dans une perspective d’amélioration
de l’enseignement.
• Acceptation négociée de la diffusion des résultats.
• Des ressources pédagogiques pour accompagner les enseignants dans l’évolution de leur
enseignement.
Sur base de l’ensemble de ces considérations, et à partir de notre propre expérience, nous avons
tenté de définir un modèle englobant de création d’EEE de qualité. Celui-ci sera présenté dans le
chapitre 2 de ce document.
2. Modèle de création et de gestion qualité des évaluations des

enseignements (CGQEE)
Evaluer c’est récolter de l’information afin de porter un jugement permettant une prise de
décision (ex. : Stufflebeam, 1980). Or le jugement fait peur et très rapidement des fantasmes
peuvent exister sur la portée de la décision. Et c’est d’autant plus le cas dans des institutions
pour lesquelles la liberté académique a longtemps fait partie de la structure identitaire des
professeurs. Ceci dit, la relative résistance aux procédures d’évaluation des enseignements, ne
s’explique pas que par des caractéristiques liées aux concepts de résistance aux changements. En
effet, les procédures utilisées ne répondent parfois pas à d’élémentaires critères de qualité
comme la validité ou la fidélité. De plus, la communication autour du processus d’évaluation (qui
peut parfois avoir un impact sur la carrière des professeurs) est souvent laconique et déficiente.
Notons que la crainte accompagnant parfois l’évaluation des enseignements, la qualité des
procédures utilisées et la communication qui entoure le processus peuvent avoir des effets
cumulatifs, voir même démultiplicatifs entraînant parfois le rejet pur et simple de la procédure.
Il y a donc des enjeux importants à proposer des procédures d’évaluation valide et fidèle, à
communiquer au sujet de celle-ci, à éclaircir la portée des décisions qui pourront être prises et à
expliciter l’ensemble du processus. Pour atteindre l’ensemble de ces objectifs, nous avons créé un
modèle englobant.

Logiques et Objectifs de l'évaluation des
enseignements
Niveaux et Objets d'évaluation

Contextualisation - acceptation
Définitions des outils d'évaluation
Information/formation
Micro - Régulation
Planification
Construction des outils d'évaluation
Mise en œuvre de l'outil
Traitements et jugements
Décisions de régulation
Macrorégulation
Vous trouverez dans le chapitre 2.1 une brève introduction à ce modèle. Les chapitres 2.2 à 2.12
reprendront une à une chacune des étapes qui le constituent.
2.1. Introduction au modèle CGQEEE
2.1.1. Logiques et Objectifs de l’évaluation des enseignements
L’évaluation des enseignements par les étudiants peut poursuivre divers objectifs, comme par
exemple améliorer le processus d’enseignement (évaluation formative) ou promouvoir un
enseignant (évaluation administrative). Des objectifs choisis pour l’évaluation va découler
l’ensemble de la procédure.
2.1.2. Niveaux et Objets d’évaluation
Que cherche-t-on à évaluer ? Le contenu de l’enseignement, les capacités du professeur à

transmettre un message, l’augmentation des compétences chez les étudiants, la qualité des
évaluations faites par l’enseignant, la qualité de la manipulation de l’enseignant dans les travaux
pratiques ? Les facettes d’un enseignement sont nombreuses et il s’agit ici de déterminer celles
dont l’évaluation apportera une information permettant de remplir le ou les objectifs définis à
l’étape 1.
2.1.3. Définitions des outils d’évaluation

Pour définir l’outil, il est important de se poser trois questions qui sont « qui possède
l’information permettant d’évaluer les objets d’évaluation définis à l’étape 2 », «quels moyens
humains et logistiques possède-t-on pour mener à bien l’évaluation » et « quelle(s) méthode(s)
semble(nt) la(les) meilleure(s) pour obtenir l’information désirée ». En fonction des réponses
fournies et de leur arbitrage, il sera possible de définir au mieux l’outil ou les outils à utiliser.
2.1.4. Construction des outils d’évaluation
Une fois les objectifs précisés, les objets d’évaluation définis et l’outil choisi, il reste à
construire, à peaufiner ou à adapter ce dernier. Cela nous semble devoir être fait par un comité
d’experts, dans un dialogue collaboratif. Ce comité sera composé différemment en fonction des
objectifs, objets et outils d’évaluation, mais il nous semble important qu’il comprenne au moins le
responsable de l’évaluation des enseignements dans l’institution et pour chaque faculté
concernée : - des enseignants, - des représentants des individus participant à la mise en œuvre
de l’outil (des étudiants par exemple) et - un responsable académique des enseignements
(recteur, doyen ou président de conseil des études). Ce comité créera une première version de
l’outil qui devra être testée sur le terrain. Après cette première évaluation une version définitive
de l’outil pourra être créée et utilisée en routine.
2.1.5. Mise en œuvre de l’outil
Un outil, aussi parfait soit-il, ne sera efficace que s’il est bien utilisé et dans de bonnes
conditions. Souvent sous-estimée, c’est pourtant essentiellement de cette étape de mise en
oeuvre que dépendra la qualité intrinsèque des données récoltées. Par exemple, les données
extraites d’un questionnaire (par ailleurs excellent et valide), soumis à un échantillon peu
représentatif nous donnera des résultats difficilement interprétables.
2.1.6. Traitements et jugements
Quel type de traitement va-t-on effectuer ? Va-t-on, par exemple, se centrer exclusivement sur
les moyennes et les écarts-types, ou va-t-on présenter des histogrammes de fréquence ? Les
données seront-elles présentées de manière brute, ou les comparera-t-on à une norme ? Et si
c’est le cas, comment constituera-t-on cette norme ? Ces questions sont cruciales pour que les
résultats de l’évaluation soient présentés de la manière la plus claire possible et que le jugement
qui en découle soit le moins possible sujet à l’interprétation.
Par ailleurs, l’étape de jugement est l’une des plus délicates. Les deux questions essentielles
sont : « qui va juger » et « selon quels critères ». De la première réponse pourrait dépendre le
degré de confidentialité de la procédure. Imaginons que la procédure d’évaluation ait été mise en
œuvre pour que les étudiants puissent choisir les cours à option sur des bases pédagogiques, les
juges sont les étudiants et la confidentialité des résultats est quasi nulle. La deuxième réponse
est, elle aussi, capitale « quels sont les éléments apportés par l’évaluation à prendre en
compte ? », « comment les pondérer les uns par rapport aux autres ? », autant de questions
auxquelles il faut apporter une réponse claire et limpide.
2.1.7. Décisions de régulation

La procédure d’évaluation des enseignements demande la plupart du temps des moyens logistiques
et humains importants. Et souvent, les décisions découlant du jugement ne sont pas prises dans
des temps raisonnables. Si, par exemple, le processus avait comme objectif d’améliorer

l’enseignement évalué, il est nécessaire que des décisions allant dans ce sens (et nourries par les
résultats) soient prises. C’est la crédibilité même de la procédure d’évaluation des enseignements
qui en dépend.
Les étapes suivantes sont présentées verticalement. Elles sont en fait concomitantes et
continuent aux 9 premières étapes.
2.1.8. Macrorégulation
la fin du cycle constitue un moment idéal pour repérer, à l’aide d’information plurielles, ce qui
peut être améliorer dans le cycle suivant.
2.1.9. Contextualisation – acceptation
La procédure d’évaluation des enseignements ne pourra être efficace que si elle requiert
l’adhésion de la majorité des acteurs. Convaincre est le maître-mot. Débusquer les mythes,
démontrer la pertinence des procédures utilisées, donner de la crédibilité à l’ensemble du
processus est une condition sine qua non à la mise en œuvre d’une évaluation de qualité. Une
analyse institutionnelle de l’établissement, voire même le recours à des moyens psychosociaux,
comme l’analyse des représentations sociales des divers acteurs impliqués, sera parfois
nécessaire pour analyser les adjuvants et les freins à l’évaluation des enseignements.
2.1.10 Information/formation
Nous l’avons déjà signalé à l’étape de contextualisation : convaincre est le maître-mot. Et pour
convaincre, il faut garantir la qualité et communiquer intelligemment. A partir du moment ou le
processus d’évaluation se fait dans les règles de l’art, ou chacune des étapes décrites a été
menée consciencieusement et ou des représentants du corps professoral ont été intégrés à
divers moments du processus, la procédure peut et doit être mise en lumière. Jouer la
transparence et démontrer la limpidité du processus est très important en terme d’évaluation
des enseignements.
2.1.11. Planification
Etablir un calendrier prévisionnel est un élément important pour garder le cap dans des
procédures longues et complexes comme l’évaluation des enseignements. Ainsi déterminer pour
quand l’outil d’évaluation devra être prêt, quel sera le moment de son utilisation, et la date à
laquelle les résultats devront être disponibles est utile. Chaque acteur du processus sait ainsi à
l’avance quand il devra intervenir et quand les éléments nécessaires à son action seront prêts. Le
respect de ce planning donne aussi de la cohérence à l’ensemble de la procédure.
2.1.12. Micro - Régulation
Les huit premières étapes développées semblent être linéaires et s’enchaîner en une suite
logique. Dans la réalité, il n’en va toutefois pas de même. Les mouvements de va et vient entre les
différentes étapes ne sont pas rares et sont même parfois souhaitables.

2.2. Logiques et Objectifs de l’évaluation des enseignements
L’évaluation des enseignements peut poursuivre de nombreux objectifs dans nos établissements
universitaires. Bernard (1992) en définit plusieurs. Pour cet auteur, l’évaluation des
enseignements est un moyen de
o reconnaître que l'enseignement a sa place et donc de le valoriser et l'améliorer ;
o donner aux différents acteurs un feedback sur la qualité de l’enseignement ce qui
permettra d’améliorer ce dernier ;
o promouvoir l'enseignement en tant que critère de promotion et, par le fait même, de voir
à l'élaboration d'instruments et de méthodes d'évaluation valides qui permettront une
prise de décision éclairée (évaluation administrative) ;
o permettre aux étudiants de faire leurs choix de cours en fonction des résultats des
évaluations ;
o se positionner comme une université au management participatif dans lequel les étudiants
peuvent s’exprimer sur les processus qu’ils vivent.
Centra (1993), Murray (1984), Doyle (1983), MCKeachie (1979) se sont eux aussi prononcés sur
les buts de l'évaluation de l'enseignement. Tous s'entendent sur les deux buts les plus
importants à savoir [1] l'évaluation pédagogique, faite à des fins d'amélioration de
l'enseignement, et [2] l'évaluation administrative, faite à des fins de promotion, permanence et
renouvellement de contrats.
Ces deux buts doivent-ils être vécus dans une même évaluation ou doivent-ils être réalisés
séparément et différemment ? Les auteurs divergent sur cette question. Pour certains, il faut
dissocier les deux buts puisque chacun demande une démarche totalement différente. Centra
(1993) et Bernard (1992) proposent que le but formatif précède le but administratif. D'autres
recommandent de concilier les deux buts en faisant en sorte que le but administratif serve aussi
à des fins formatives.
L’enjeu de cette question est important et les arguments nombreux et parfois contradictoires.
En voici quelques-uns :
• La qualité de l’information requise pour une évaluation administrative doit être maximale
en terme de validité et de fidélité. Difficile à mettre en œuvre de par son formalisme,
l’évaluation administrative ne peut être très fréquente pour des raisons de praticabilité.
De plus, elle doit idéalement utiliser plusieurs méthodes ou sources de données. Au
contraire, la qualité de l’information nécessaire à une évaluation formative pourrait être
moindre en terme de validité et de fidélité, l’essentiel étant de proposer un feedback
suffisamment diagnostique et fréquent que pour améliorer l’enseignement. Cet argument
nous semble important lorsque, pour des raisons de praticabilité, il est difficile
d’atteindre à la fois des objectifs de validité, fidélité et de diagnosticité.
• Il n’est pas opportun d’évaluer les enseignements de manière administrative si on ne les a
pas évalués au préalable de manière formative. Dans la plupart des universités
européennes, très peu d’enseignants bénéficient d’une formation pédagogique pointue. De
plus, la plupart du temps, ils ont été engagés sur base de leur carrière de chercheur et
souvent, leur dossier pédagogqiue n’est pas pris en compte (ou très peu) lors de leur
engagement (Dejean, 2002). Evaluer leur enseignement de manière formative leur donne
donc l’opportunité de connaître leurs forces et leurs faiblesses et d’ainsi réguler leurs
pratiques.

• L’évaluation formative peut se centrer sur l’un ou l’autre aspect de l’enseignement et se
contenter d’une seule source d’information (les étudiants, par exemple). L’évaluation
administrative se doit d’être holistique et de varier les sources d’information.
L’évaluation administrative d’un enseignement ne devrait, par exemple jamais, ce centrer
sur une seule facette d’un enseignement. De même, faire porter le poids du jugement
administratif d’un cours uniquement sur les étudiants ne nous semble pas opportun.
• Idéalement, l’évaluation fomative devrait pouvoir être mise en œuvre sur le simple
souhait de l’enseignant. En effet, le fait qu’un enseignant veuille améliorer ses pratiques
sur base des résultats d’une évaluation formative, nous semble être une attitude à
favoriser. Pour ne pas briser un tel élan, il est important que les résultats d’une telle
évaluation, s’ils mettent en lumière des pratiques à améliorer, ne puissent desservir
l’enseignant dans le cadre d’une évaluation administrative.
• Lorsqu’un nouvel outil d’évaluation des enseignements est mis en œuvre, il doit encore
être validé et ne peut servir à des évaluations administratives. Pour certains auteurs
(Bernard, 2002), rien ne s’oppose à ce qu’il soit uilisé de manière formative.
2.3. Niveaux et Objets d’évaluation
2.3.1. Les niveaux de l’évaluation

Chacune des logiques d’évaluation définies au chapitre 2.2. peut être croisée avec un ou plusieurs
niveaux d’évaluation. De fait, l’évaluation des enseignements peut être qualifiée de multi-niveaux.
• A un niveau micro, le niveau d’évaluation est l’enseignement et le feedback est adressé à
l’enseignant, de manière individuelle. La régulation de l’enseignement est, elle aussi
individuelle
• A un niveau méso, le niveau d’évaluation est l’enseignement, mais pas de manière isolée. Il
est évalué en même temps que ses pairs d’une même section ou d’une même filière
d’étude. Les résultats sont agrégés et c’est sur cette agrégation (par exemple la moyenne
générale obtenue à un item dans une section) que collectivement, les décisions de
remédiations seront prises. La régulation est donc collégiale.
• A un niveau macro, c’est la faculté qui est évaluée. Le recueil d’informations et le
feedback se fait au niveau de la filière d’étude, de la section, du département. Ce niveau
met en place les outils et instruments liés à l’évaluation de programme (Voir Nadeau,
1990, pour un recueil de ces techniques) ou à l’évaluation des cursus en interrogeant les
étudiants diplômés sur leur insertion socio-professionnelle et sur la manière dont leur
formation a facilité celle-ci.
Les logiques d’évaluation et les niveaux d’analyse peuvent alors se croiser dans un espace en deux
dimensions, ce qui offre un cadre de réflexion qui permettra de mieux cibler le dispositif
d’évaluation à mettre en place :
Objectifs Micro Meso Macro

Reconnaître que l'enseignement a sa place et donc de le valoriser et l'améliorer.
Donner aux différents acteurs un feedback sur la qualité de l’enseignement ce qui
permettra d’améliorer ce dernier.
Utiliser l'enseignement en tant que critère de promotion et, par le fait même, de voir à
l'élaboration d'instruments et de méthodes d'évaluation valides qui permettront une prise
de décision éclairée (évaluation administrative).
Permettre aux étudiants de faire leurs choix de cours en fonction des résultats des
évaluations.
Se positionner comme une université au management participatif dans lequel les étudiants

peuvent s’exprimer sur les processus qu’ils vivent.
Legende : en grisé figure les croisements possibes.

2.3.2. Les objets d’évaluation
Les objets d’évaluation d’un enseignement sont nombreux et il n’est pas toujours facile d’en isoler
certains au détriment d’autres. La notion même d’enseignement est complexe. Certains
enseignants universitaires adoptent des méthodes axées sur l’exposé magistral, parfois
agrémenté de l’une ou l’autre technique plus interactive, comme par exemple, l’utilisation de
boîtiers de vote électronique (Detroz & al., 2002). D’autres, ont recours à l’approche par
problème. Parfois, c’est l’approche par projet qui est adoptée. Certains enseignants demandent
aux étudiants de produire des exposés interactifs (Jans & al., 1998) alors que d’autres
privilégient les études de cas. Notons enfin que certains enseignants ont également recours à la
mise à distance de leurs cours ou exploitent le Blended Learning.
En dehors de ces cours, les étudiants vivent également des séances de travaux pratiques ou, en
fonction des disciplines et des ressources, ils peuvent parfois être observateurs de phénomènes
et parfois acteurs de leur apprentissage.
Pour autant qu’il n’y ait pas d’épreuves externes, l’évaluation fait aussi partie intégrante de
l’enseignement. De l’oral au QCM en passant par l’écrit, la simulation ou l’observation d’actions
spécifiques, de l’exposé à la production de rapports, les méthodes sont multiples et variées.
Notons également que nos enseignants, dans le cadre de leurs enseignements sont souvent
amenés à accompagner les étudiants tout au long de leur travail de fin d’études et de les
superviser dans le cadre de leur stages.
Comme nous le voyons, les options sont nombreuses et les objets d’évaluation multiples. Il faudra
faire des choix. Trois approches permettent de les effectuer.
• La conformité à la norme ou l’approche dogmatique

Une approche dogmatique consisterait à mesurer la conformance d’un enseignement par
rapport à un modèle pédagogique dominant dans une institution en se référant à la
littérature spécifique portant sur ce courant pédagogique. Les effets pervers de cette
méthode doivent être analysés soigneusement. En effet, en l’état de nos connaissances, il
n’y a pas globalement et dans l’absolu une méthode d’enseignement/apprentissage
meilleure que d’autres. Par exemple, les travaux de Vernon et Blake (1993), d’Albanese et
Mitchell (1993) et de Berkson (1993), au sujet de la pédagogie par problème mettent en
avant, d’une part, que la qualité de l’approche par problème n’est pas constante d’une
institution à l’autre et que, d’autre part, elle n’est pas globalement meilleure qu’une
approche traditionelle. De manière plus précise, elle obtient de moins bons résultats sur
un ensemble de critères (e.g. connaissance) et de meilleurs résultats sur dautres
(performances cliniques) par rapport aux approches traditionelles (cité dans Leclercq, D.
1998). Dans la plupart des institutions, le choix d’une approche pédagogique est laissé à
l’enseignant ou à un groupe d’enseignants en fonction de critères qui leur appartiennent et
qui sont non standardisés. Le plus souvent, le panel de méthodes pédagogiques utilisé dans
une institution donnée est extrêmement large et invalide l’approche dogmatique pour
établir les objets à évaluer.

• L’approche participative
Cette approche consiste à interviewer divers porteurs d’enjeux comme les enseignants,
les étudiants, les alumni, … pour leur demander ce qu’ils estiment être caractéristiques
d’un bon enseignement. C’est ce qu’a notamment fait Feldman (1988). Même si les
enseignants et les étudiants ne sont pas toujours d’accord sur ces caréctéristiques, cet
auteur parvient à identifier huit facteurs d‘efficacité qui semblent faire l’unanimité, à
savoir :
1. la préoccupation du professeur envers les progrès de l’étudiant

2. la préparation et l’organistaion du cours
3. la maîtrise de la matière
4. le dynamisme du professeur
5. la clarté et la facilité à rendre la matière compréhensible
6. la disponibilité
7. le respect de l’étudiant
8. l’impartialité et la justice dans l’évaluation des étudiants, ainsi que la qualité des
examens.
Cette méthode participative pour déterminer les caractéristiques d’un bon enseignement,
si elle est tentante, présente néanmoins un certain nombre de défauts. Ainsi, Feldman
(1989), un an plus tard écrit que ces 8 facteurs, mis en avant par les enseignants et les
étudiants, n’ont pas tous nécessairement d’effet sur l’apprentissage, alors que d’autres,
qui n’ont pas été cités, comme par exemple « la stimulation de l’intérêt des étudiants »
joue un rôle clé dans celui-ci.
• L’approche Evidence Based

Une autre méthode consiste à exploiter la littérature portant sur le sujet et de se
concentrer sur les éléments dont on a la preuve qu’ils favorisent les apprentissages des
étudiants. Après exploration, nous avons choisi d’établir une matrice à deux dimensions
pouvant caractériser les objets d’évaluation. Sur la première, on trouve le moment sur
lequel porte l’évaluation. Nous distinguerons sur celle-ci la préparation du cours et la
prestation du cours. La deuxième porte sur les dimensions de l’enseignement. Bernard
(1992) synthétise le tout dans le tableau suivant :
Dimension de Composantes Critères d’évaluation

l’enseignement
Prestation du cours Organisation Clarté
Intérêt pour l’enseignement Structure
Interaction professeur/étudiant Pertinence
Evaluation et rétroaction Stimulation
Habilités d’enseignement
Planification du cours Objectifs Clarté

Contenu Précision
Bibliographie Exhaustivité
Matériel d’enseignement et Structure
d’apprentissage Pertinence
Méthode d’enseignement et Cohérence
d’apprentissage Stimulation
Moyens d’évaluation intellectuelle
Cette approche est intéressante. Cependant, la variable indépendante de ce type d’étude

est la plupart du temps le score à l’examen de fin d’année. Hors, une littérature
nombreuse met en garde contre l’utilisation de ces résultats. Nous avons illustré ce fait
au chapitre 1.1.1. L’approche multitrait-multiméthode
• L’approche transversale :
Elle consiste à déterminer les objets à évaluer sur base de modèles pédagogiques décrits
dans la littérature. Méthode souple et adaptative, elle consiste à entraîner un dialogue
collaboratif entre les différents porteurs d’enjeux pour traduire les concepts-clés des
modèles en objets évaluables. Parmi les modèles présents dans la littérature, celui de
Gilles et al. (2006) retient notre attention.
L’idée générale est que la cohérence entre ces activités d’enseignement-apprentissage

peut être soutenue par un modèle en vue d’aider les enseignants à créer et analyser leurs
actions didactiques. Ce modèle dit du Polygone des paramètres des actions didactiques
permet de prendre en compte dix composantes classiquement décrites dans la littérature
présente dans toutes les séquences d’enseignement-apprentissage, quelle que soit leur
spécificité didactique.
Ce modèle insiste autant sur les pôles du polygone, les paramètres à prendre en compte
dans toute action didactique, que sur les lignes qui unissent ces différents pôles et qui
mettent en évidence les interactions entre les composantes de l’action didactique.
Ce modèle nous semble intéressant à utiliser pour choisir des objets d’évaluation, surtout
lorsque la logique d’évaluation est pédagogique. En effet, il fournit un cadre général
permettant une démarche d’ouverture puis de focalisation sur les éléments qui semblent
opportuns dans un contexte donné.
Ainsi, l’aproche transversale permet à la fois d’utiliser un référentiel éprouvé

scientifiquement et de le confronter aux choix d’un groupe de porteurs d’enjeux.
2.4. Définitions des outils d’évaluation

De nombreux outils sont utilisés pour évaluer la qualité des enseignements. Ce qui fait dire à
Newby (1999) que la majorité des options disponibles pour évaluer la qualité ont déjà été
développées et, la plupart du temps, appliquées dans les universités. Une analyse approfondie de
ces méthodes d’évaluation nous amène à la conclusion qu’aucune n’est parfaite. L’enseignement est
une activité complexe, poursuivant des buts multiples et impliquant de nombreux acteurs. C’est la
multiplicité des outils d’évaluation qui permettra d’obtenir des mesures suffisamment valides,
fidèles et diagnostiques que pour autoriser le jugement et la prise de décision.
Le choix d’un ou de plusieurs outils d’évaluation ne peut être fait à la légère. Ce choix s’intègre
dans un processus plus large au cours duquel il a fallu, au préalable, déterminer les buts de
l’évaluation, les objets de l’évaluation, les sources d ‘informations disponibles par rapport à ces
buts et objets et enfin les moyens disponibles.
Parmi les outils classiquement définis dans la littérature, outre l’évaluation des performances des
étudiants que nous avons déjà commentée, nous pouvons relever :
2.4.1. L’évaluation critériée externe
L’évaluation critériée externe est extrêmement répandue dans nos universités européennes. C’est
d’ailleurs le mode d’évaluation proposée par l’European University Association. En effet, cette
association recommande d’utiliser les normes publiées en 2005 (ENQA, 2005) concernant des
standards et guidelines pour l’assurance qualité en Enseignement Supérieur. Sur base de ces
standards les départements rédigent un rapport d’autoévaluation qui sera analysé et commenté
par des experts externes à l’université.
La plupart du temps, ce type d’évaluation est issu de l’approche qualité en entreprise et

notamment des normes EFQM (European Foundation for Quality Management). Développé en
1992 et révisé en 1999, le modèle EFQM envisage la qualité dans sa globalité et non en tant que
simple résultante d’actions individuelles. L’EFQM envisage 9 domaines à évaluer qui sont le
leadership, la gestion du personnel, l’axe politique et stratégie, les ressources, le processus, la
satisfaction de la clientèle, la satisfaction du personnel, l’intégration à la vie de la collectivité et
les résultats opérationnels.
En Belgique, ces normes ont été traduites dans le monde de l’éducation via une association de
Hautes Ecoles flamandes sous l’appellation « PROSE ».
En suisse, l’OAQ (Organe d’Accréditation et d’Assurance Qualité des Hautes Ecoles Suisses)
élabore des directives et des standards de qualité destinés à l'accréditation dans le domaine des
hautes écoles universitaires suisses et effectue des procédures d'accréditation en suivant les
directives approuvées par la Conférence universitaire suisse.
Plus loin, en Australie, Younes (2002) nous apprend que McKinnon, Walker et Davis (2000) ont
élaboré un manuel à destination des institutions d’enseignement supérieur australiennes. Leur
manuel contient 67 références regroupées en catégories comme le gouvernement, l’impact, la
finance, l’enseignement et l’apprentissage, le soutien des étudiants, la recherche et
l’internationalisation. Dix indicateurs de référence concernent l’enseignement : plans
d’enseignement et d’apprentissage, processus d’établissement de cours, expertise
d’enseignement, environnement d’enseignement, processus de comptes-rendus universitaires,
utilité des cours, rétention, équité, satisfaction des étudiants, employabilité. Chaque référence
contient de l’information sur ses raisons, des sources de données, des exemples de bonne
pratique et des profils descriptifs de niveaux de performance.

Dans un souci de complétude, citons également, les normes ISO et plus précisément la norme
SO/IEC 17024:2003 Évaluation de la conformité -- Exigences générales pour les organismes de
certification procédant à la certification de personnes, la norme EQUIS décernée par l'European
Foundation for Management Development (EFMD) dont le public cible est constitué des écoles de
Management et la norme Q*For qui, essentiellement sur base de la satisfaction du client,
labellise les centres de formation.
2.4.2. L’évaluation par les pairs
Cette méthode consiste à ce que des pairs évaluent l’enseignement. Cela peut se faire soit dans
une logique administrative (c’est le concept de leçon publique). Ce type d’évaluation n’est pas sans
poser un certain nombre de problèmes. Scriven (1993) est acerbe envers cette modalité
d’évaluation. Il précise que la simple présence des observateurs altère la leçon, que les séquences
d’observation sont peu nombreuses et trop courtes que pour porter un jugement fiable, et que les
observations présentent un certain nombre de biais. Il ajoute que la leçon n’est qu’une part de
l’évaluation des enseignements qui en comprend bien d’autres (matériel didactique, examens, …).
Il conclut en disant, au sujet de cette évaluation « it’s not just incorrect, it’s a disgrace ». A
noter qu’une corrélation modérément positive entre l'évaluation par les pairs et l’EEE a été
démontrée dans la recherche (Doyle et Chrichton, 1978, Feldman, 1978). Feldman en 1989 trouve
même une corrélation de .50.
L’évaluation par les pairs peut également servir une fin formative. Dans ce cadre, elle regroupe
une famille de stratégies d’amélioration de l’enseignement qui impliquent que des collègues
travaillent ensemble de manière systématique dans un programme bien structuré (Morrison,
1997). Ce sont en général des pairs travaillant ensemble pendant au moins un semestre dans une
relation d’aide qui inclut des visites de cours mutuelles, des discussions avec les étudiants et des
rencontres régulières pour aborder leurs pratiques d’enseignement et des façons de l’améliorer.
2.4.3. L’évaluation par le portfolio
Selon Younes (2001), Shore a le premier exprimé l’idée que c’est aux enseignants universitaires
de construire eux-mêmes la démonstration de leur efficacité en tant qu’enseignants, « a
portfolio of evidence » (Shore, 1975, p. 8). Toujours selon le même auteur, le portfolio est donc
envisagé non comme une nouvelle méthode d’évaluation mais plutôt comme un système de collecte,
combinaison et organisation de l’information à partir d’une large série de sources incluant les
approches traditionnelles de l’évaluation de l’enseignement comme les visites de pairs et les
évaluations des étudiants.
Les portfolios donnent une vision plus large de l’enseignement que celle fournie uniquement par
les évaluations des étudiants. Le fait qu’ils soient rédigés par la personne qui sera évaluée
questionne cependant leur fiabilité et leur objectivité. Une étude publiée par l’American
Association for Higher Education (Anderson, 1993) conclut à leur caractère satisfaisant,
cependant les études formelles des portfolios sont rares. Centra (1993) est un des quelques
chercheurs qui a rassemblé des données sur la fiabilité et la validité des portfolios. Il a comparé
les décisions de titularisation et de promotion basées sur les portfolios à celles qui étaient prises
sans ce support et a trouvé que les jugements étaient raisonnablement fiables (accord inter-
juges) quand les juges travaillaient avec des critères spécifiés. Il a conclu qu’utiliser les
portfolios pour prendre des décisions sommatives quant à l’enseignement pouvait fournir une
image de la performance plus complète et que l’évaluation des portfolios nécessitait de discuter

des standards et des critères d’évaluation. Il recommande que les portfolios n’incluent pas
seulement ce que les personnes disent mais aussi ce qu’elles font. Il trouve une corrélation
positive, mais faible entre le score à l’EEE et l’évaluation du portfolio par les pairs.
Toutefois d’autres études sont plus pessimistes quant à l’utilisation du portfolio pour l’évaluation
administrative des enseignements. Selon Kane, Crooks et Cohen (1999), les portfolios fournissent
une information complexe. Or ils soulignent que plus la tâche à évaluer est complexe et ouverte,
plus il est difficile d’établir des critères standardisés robustes qui s’appliquent à toutes les
productions. Cela signifie que l'évaluation porte sur un large corpus d'information qui implique
une nécessaire interprétation de la part de l’évaluateur. Selon Schultz et Moss (2004), une telle
interprétation implique un niveau d’abstraction sélective. Ainsi, certains aspects peuvent être
aléatoirement mis en avant et d’autres jugés comme anecdotiques, entraînant un manque de
Fidélité inter-correcteur. Richlin et Manning (1996) sont encore moins optimistes lorsqu’ils
écrivent « Programs that use Portfolio to make decisions about promotion, tenure, or honors
seldom have guidelines that apply explicit criteria to those portfolios. In most case, it’s not that
there is no evaluation system… but that system is without agreed-upon and explicit criteria for
assessment”.
Cette difficulté à atteindre un niveau de qualité suffisant en termes de fidélité (reliability) pose
la question de la pertinence du portfolio en termes d'outils d'évaluation administrative. Dans le
cadre d’une évaluation formative, cet outil nous semble ouvrir une plateforme vers un dialogue
collaboratif en profondeur.
2.4.4. L’évaluation par des observateurs externes
L’évaluation par des évaluateurs externes poursuit essentiellement les mêmes objectifs, les
mêmes procédures et présente les mêmes défauts que celle des pairs. L’aspect
fondamentalement différent est lié aux caractéristiques de l’observateur qui peut par exemple
être un expert en pédagogie ou un évaluateur externe. En fonction de ce profil, l’évaluateur sera
ressenti comme plus ou moins bienveillant.
2.4.5. L’auto-évaluation
Le processus d’auto-évaluation à des fins pédagogiques nous semble extrêmement important et

utile puisqu’il ouvre à une analyse réflexive de la qualité de son propre enseignement, première
étape d’un processus de régulation. Toutefois, il nous semble devoir être nourri et complété par
des informations provenant d’autres sources. Seul, il nous semble être sujet à trop de
subjectivité. A noter que les recherches montrent une corrélation légèrement positive entre
l’auto-évaluation et l’EEE (Blackburn et Clarck, 1975, Marsh, Overall et Kessler, 1979, Braskamp,
Caulley et Costin, 1979 )
2.4.6. L’enquête auprès des étudiants
Même si Dejean (2002) spécifie que cette méthode d’évaluation a des difficultés à s’imposer en
France, ce type d’évaluation est la plus pratiquée au sein des universités au niveau mondial. Ainsi
l’enquête de Seldin sur l’évaluation des enseignements (1993) montre qu'on est passé de 29 %
d'utilisation de cette méthode d’évaluation dans les universités américaines en 1973, à 68 % en
1983 et à 86 % en 1993. Aucune autre source d'information n'atteint ce score. Pour Murray

cette large utilisation est une bonne chose. Il précise Les étudiants sont les seuls témoins
constants de la prestation de l'enseignement, ils sont les seuls à pouvoir indiquer si les exposés
du professeur sont clairs, si les commentaires sur les travaux les aident à progresser, si les
documents utilisés favorisent la compréhension de la matière (Murray, 1984).
L’introduction de ce papier a traité en long et en large de la validité et de la fidélité de l’EEE.
2.4.7. L’enquête auprès des anciens étudiants
Ces enquêtes sont, en général, focalisées sur la réussite lors des poursuites d’études aussi bien
que sur les évaluations rétrospectives des bénéfices de la formation. La réussite professionnelle
et les revenus peuvent aussi être examinés en tant qu’indicateurs de l’efficacité de la formation
suivie. L’information concernant l’embauche est une autre source de données. Ainsi, en France,
selon Younes (2002), les bases de données de l’assurance chômage sont des sources
d’informations utiles pour suivre l’histoire de l’emploi des diplômés et peuvent être directement
liées aux systèmes d’information de l’institution.
Certaines critiques concernant ce type d’évaluation peuvent être formulées. Par exemple, Scriven
(1983) fustige le faible taux de réponses de ce genre d’étude mais surtout le fait que les
données récoltées portent sur une situation d’enseignement obsolète qui a sans doute évolué.
2.4.8. Autres techniques
Afin d’être tout à fait complet, nous citerons également le focus group constitué d’étudiants
(Tiberius, 2001) et la commission qualité des étudiants (Spence et Lenze, 2001).
2.4.9. Comment effectuer un choix parmi tous ces outils ?
Pour Fenwick et Parsons (2000), chacune de ces approches fournit différents types
d’informations et chacune a des avantages et des inconvénients. Il s’agit d’apprécier comment les
utiliser pour évaluer l’enseignement de manière productive.
Pour nous l’outil doit être choisi en fonction des logiques, objectifs et objets d’évaluation
privilégiés et des critères qualité que ces éléments favorisent.
Pour analyser la qualité d’un outil, nous faisons référence aux critères de qualité définis par
Gilles en 2002. Cet auteur propose 8 critères dans le cadre de l’évaluation des étudiants et les
adaptons à notre contexte. Ainsi, un outil peut assurer
• La validité : les informations récoltées lors de la phase d’évaluation des enseignements
doivent représenter ce que l’évaluateur veut mesurer, permettre des inférences solides
(validité de construct ou théorique) et couvrir les aspects importants de l’enseignement
(validité de contenu).
• La fidélité : les informations liées à un enseignement donné, permettant un jugement
donné, doit l’être de la même façon si elle est traitée par d’autres (concordance inter-
juge) et/ou à un autre moment (consistance intra-juge).
• La sensibilité : la mesure doit être précise, refléter les phénomènes subtils de
l’enseignement.

• La « diagnosticité » : les résultats doivent permettre le diagnostic précis des difficultés
d’enseignement/apprentissage (et idéalement de leurs causes), des processus maîtrisés
par l’enseignant et de ceux qui ne le sont pas.
• L’équité : tous les enseignements doivent être traités de façon juste et en principe de la
même façon (standardisation).
• La « praticabilité » : La procédure d’évaluation doit être faisable endéans des délais
raisonnables et à l’aide des ressources en personnel et en matériel disponibles et
proportionnées à l’importance relative des enjeux.
• La « communicabilité » : les informations non confidentielles relatives au déroulement du
processus doivent être communiquées et comprises par les partenaires (enseignants,
étudiants, équipe SMART, responsables facultaires, ….) engagés dans la réalisation des
évaluations.
• L’ « authenticité » qui consiste à offrir une évaluation porteuse de sens pour les parties
prenantes de l’évaluation.
Il est difficile de choisir un outil satisfaisant à l’ensemble de ces critères. Le choix d’un outil est
la plupart du temps un choix sous contrainte. Il est, par exemple, difficile d’avoir à la fois un outil
valide, diagnostique et répondant également à des critères de praticabilité.
Pour établir un choix, nous avons classé ces outils par rapport aux critères de qualité
En vert : point fort de la méthode

En rouge : point faible de la méthode
En blanc : élément satisfaisant de la méthode
Les critères de qualité à favoriser dépendent des objets de l’évaluation. Le tableau suivant met
en correspondance les compatibilités méthodes d’évaluation/objets évalués, en se basant à titre
indicatif sur les éléments du modèle du polygone des paramètres de l’action didactique présenté
au chapitre 2.3.2.

Comme les éléments précédents le suggèrent, aucun outil d’évaluation ne couvre avec efficacité
l’ensemble des critères de qualité. Dans le même ordre d’idée, aucun outil ne permet d’évaluer
l’ensemble des paramètres de l’action didactique. C’est la raison pour laquelle nous préconisons la
triangulation des outils proposés.
Initialement, le concept de triangulation à d’abord été défini comme un ensemble d’opérations

méthodologiques qui avaient pour objectifs de voir si les résultats corroborent ou non entre eux
(Flick, 1992). Les résultats d’études plus récentes montrent toutefois que la stratégie de
triangulation vise à conférer aux démarches qualitatives non seulement de la validité, mais aussi
et surtout de la rigueur et de la profondeur d’analyse (Denzin et Lincoln, 1998). Denzin (1989)
propose 4 types de triangulation.
o La triangulation des données (utiliser différentes sources de données dans une
étude).
o La triangulation du chercheur (engager plusieurs chercheurs pour la collecte et
l’interprétation des données).
o La triangulation théorique (utiliser différentes théories pour interpréter les
données recueillies).
o La triangulation méthodologique (utiliser différentes méthodes et techniques
pour étudier le même phénomène particulier.
Appliquer la triangulation de données et la triangulation méthodologique nous semble être une
voie assurant la qualité du processus en termes de validité, fidélité, sensibilité et diagnosticité.
Toutefois, nous sommes conscients que dans nos institutions universitaires sous-financées, il est
difficile de varier les outils de recueil d’informations. Même si pour des raisons de praticabilité,
on sera tenté de privilégier des méthodes standardisées, peu coûteuses en matériel humain, la
clé principale du choix doit porter sur les objets d’étude que l’on veut privilégier et sur les
critères de qualité que l’on souhaite promouvoir. Notons dans ce cadre que la méthode
d’évaluation des enseignements par les étudiants est celle qui couvre le plus de critères de
qualité et le plus d’objets d’évaluation.

2.5. Construction des outils d’évaluation
Lorsque, suite à une analyse des logiques, des niveaux et des objets d’évaluation, on a décidé de
mettre en place une procédure d’évaluation des enseignements par les étudiants, la première
question à se poser est de savoir le design que celle-ci va prendre.
Une question essentielle est de savoir si on va opter pour un questionnaire unique ou pour un
questionnaire adapté à chacun des cours. Un certain nombre d’arguments plaident pour l’une ou
l’autre des situations.
• Le questionnaire unique :
o Il permet des comparaisons longitudinales, puisque ce sont exactement les mêmes
questions qui sont posées chaque année.
o Il permet des comparaisons entre enseignements et/ou la constitution d’une

norme. Il faut toutefois être très prudent : il n’est pas raisonnable de comparer
des cours prenant place dans des contextes différents.
o Il permet une régulation collective, par exemple au niveau d’un département. En
effet, chacun ayant eu les mêmes questions, les points forts et faibles du
département peuvent être mis en lumière et des régulations collectives
s’effectuer.
o On peut utiliser des questionnaires standardisés et validés par la littérature. Par
exemple, le Student Evaluation of Educational Quality (SEEQ), créé et révisé par
Marsh (1982a, 1984, 1987) pour évaluer 9 facteurs ou dimensions de
l’enseignement en 35 items semble intéressant. A noter la méthode utilisée pour
créer ce questionnaire : [1] Créer une banque d’items à partir de l’ensemble des
questionnaires EEE existants [2] Faire évaluer leur importance par les
enseignants et les étudiants [3] Demander aux enseignants s’il pourraient utiliser
l’information provenant des feedbacks de ces items [4] Analyser les
commentaires ouverts des étudiants pour voir si aucun critère ne manquait. Plus
tard, Marsh et Dunkin (1992) ont mis en évidence la qualité psychométrique du
SEEQ.
o Il est sans doute plus praticable, puisqu’il permet plus facilement l’utilisation de
matériel de passation de questionnaire et de traitement standardisé (Lecture
optique de marques, automatisation des rapports,….
o Il permet de valider a priori la fidélité du questionnaire à l’aide de traitements
statistiques comme l’alpha de Cronbach.
• Le questionnaire adapté à chacun des cours

o Il permet de cibler le questionnaire sur les aspects que l’enseignant juge
important. Grâce à cela, il peut être très sensible et très diagnostique.
o Il peut s’adapter aux méthodes pédagogiques utilisées dans l’enseignement.
o Il permet aux enseignants d’être partie prenante très tôt, dès la constitution du
questionnaire dans le dispositif EEE et donc, d’une certaine manière, de pouvoir
mieux se l’approprier.
Une fois choisi le design de l’EEE, il faut se pencher sur la construction des questionnaires.
Bernard (2002) donne quelques lignes directrices pour la constitution de ceux-ci. Au niveau de la
constitution des items, elle préconise de [1] respecter les facteurs d’efficacité de
l’enseignement reconnus par la recherche; [2] être clair et sans équivoque ; [3] être affirmatif;
et [4] être descriptif et impersonnel. En terme d’échelle, elle préconise [1] d’être objective; [2]
de ne pas comporter de point neutre; [3] de comprendre le point «sans objet»; [4] d’être
explicite; [5] d’être de longueur raisonnable; [6] d’être appropriée au type d’énoncé; [7] d’être
identique tout au long du questionnaire.
En général, les questionnaires d’EEE contiennent également une partie ouverte. Plutôt que la
laconique case « commentaires », Lewis (2001) propose d’utiliser les questions suivantes :
• Qu’est ce qui vous a aidé dans vos apprentissages lors du cours ?
• Qu’est ce qui vous a perturbé dans vos apprentissages lors du cours ?
• Quelles suggestions de changement pouvez-vous faire qui amélioreraient votre
apprentissage en classe ?
La taille des questionnaires est également un facteur important à prendre en compte. L’enjeu
sera de concevoir un questionnaire suffisamment long pour être valide, sensible et diagnostique.
Mais un questionnaire trop long risque de poser des problèmes en terme de praticabilité, de voir
un taux de réponses insuffisant, ou de voir un manque de concentration des étudiants. Un juste
équilibre, en fonction des objectifs poursuivis et des moyens disponibles devra être trouvé.
En marge de la construction du questionnaire, il est utile de prévoir un protocole de passation du

test. Nous y reviendrons dans le chapitre portant sur la communication.
Une fois le ou les questionnaires créés, il sera nécessaire de le ou les prétester. Cette phase de
prétest a plusieurs fonctions et vise principalement à augmenter la fidélité, la validité et la
praticabilité du questionnaire (Oppenheim, 1992 ; Morrison, 1993 ; Wilson et MC Lean, 1994). Au
cours de cette phase, chaque questionnaire sera présenté à un échantillon de répondants. Les
objectifs de ce prétest peuvent être les suivants (Cohen, Manion, Morrison, 2007).
• Vérifier que les items du questionnaire, les instructions et le protocole soient clairs.
• Obtenir des feedbacks sur la validité du questionnaire.
• Eliminer les mots ambigus ou complexes.
• Vérifier la lisibilité du questionnaire.
• Vérifier la pertinence du type de questions et de son format (échelles utilisées, …).
• Utiliser les réponses ouvertes pour éventuellement proposer de nouvelles questions
fermées.
• Identifier les omissions, repérer les items redondants.
• Obtenir des informations sur l’intérêt porté au questionnaire par les répondants.
• Vérifier le temps de passation.
• Vérifier les caractéristiques du questionnaire (motivant, intrusif, polémique, …).
• Tester le système de codage ou de classification pour les questions ouvertes.
2.6. Mise en œuvre du/des questionnaires
L’administration du questionnaire pose plusieurs questions. Si à ce stade du développement, les

répondants cibles ont déjà été identifiés, il faudra déterminer notamment le niveau de
contraintes imposé aux répondants ainsi que le mode de passation des questionnaires.
2.6.1. Le niveau de contraintes imposé aux étudiants
Le taux de réponses des étudiants est une variable clé du dispositif. Un taux de réponses trop
faible poserait des problèmes évidents en terme de représentativité et de fiabilité des données.
Pour éviter ce biais, certains praticiens rendent l’opération d’évaluation obligatoire. Si cette
méthode permet d’accroître considérablement le taux de réponses (on passe ainsi, selon notre
pratique d’une quarantaine de pour-cent à environ 80 % de taux de réponses), cette méthode
présente une lacune évidente. Elle se base sur le postulat que les étudiants ne répondent pas à
l’EEE par négligence, par manque de temps, ou par oubli et que les contraindre résoudra cette
situation. Or, certains étudiants ne répondent pas car ils doutent de l’intérêt de la procédure,
ont des craintes quant à l’anonymat des données, pensent que les résultats ne seront jamais
traités, ou éprouvent un manque d’intérêt total pour l’EEE. Ainsi, dans une des facultés de notre
université où l’EEE avait été rendue obligatoire, nous avons vu des étudiants répondre en
quelques secondes à des questionnaires, sans même lire les questions, de manière à strictement
se conformer à leurs obligations. Il va sans dire l’impact qu’avait ce comportement sur la qualité
des mesures effectuées. Nous avons résolu partiellement ce problème grâce à la création du
logiciel « electronic Network for Global Evaluation of Learner’s Satisfaction – e-NGELS » qui
permet notamment d’évaluer les enseignements en ligne. En effet, lorsque l’EEE est obligatoire,
les étudiants sont tenus de se connecter sur la page permettant d’évaluer l’un de leur cours, mais
toutes les questions sont par défaut sur l’option « sans avis ». Ceux qui n’ont pas envie de
répondre peuvent alors valider le questionnaire en un simple clic, sans que les données ainsi
récoltées ne soient biaisées.
Cependant, le meilleur moyen d’obtenir un taux de réponses élevé est de donner aux étudiants la
culture de l’évaluation, notamment en les tenant informés de chacune des décisions prises dans le
cadre de la mise en œuvre du cycle de construction et gestion qualité des EEE. Plus
particulièrement, un feedback à l’attention des étudiants, montrant un résumé des données
récoltées et précisant les décisions de régulation prises sur base de celles-ci, est un levier
puissant pour assurer, l’année suivante, un taux de réponses intéressant.
2.6.2. Le mode de passation des questionnaires
Dans notre université, deux modes de passation ont été testés au fil des années. Il s’agit de la
passation papier/crayon et la passation informatisée. Vous en trouverez la liste des avantages et
des inconvénients dans les lignes qui suivent.
• La qualité du mode de passation papier/crayon dépend très fort du moment de la
passation. Dans notre université, nous avons parfois distribué les questionnaires à la fin
d’un cours, organisé une demi-journée portant sur l’évaluation ou encore, avons envoyé les
questionnaires sous pli postal.
o Le questionnaire rempli à la fin du cours est le moyen qui assure le meilleur taux
de réponses. La plupart des étudiants sont présents et cette activité est, à leurs
yeux, liée aux obligations du cours. Par ailleurs, cela laisse la possibilité aux
autorités de faire une introduction sur l’importance de l’EEE dans l’institution. Il
existe, par contre, plusieurs inconvénients. Le premier est que cette méthode ne
permet pas de recueillir l’information auprès des étudiants absents au cours. Or,
justement, leur absence est parfois liée à la qualité insuffisante (à leurs yeux) du
cours. Deuxièmement, le questionnaire est distribué et parfois repris en présence
du titulaire du cours, ce qui entraîne des biais (voir chapitre 1.1.3.).
Troisièmement, les étudiants en présence de leur pairs, et parfois sur leur regard
scrutateur, et il est possible que l’évaluation ne soit plus strictement individuelle,
mais se conforme à la désirabilité sociale. Enfin, cette solution peut manquer de
praticabilité puisque la collecte d’information se fait à divers moments, parfois
par diverses personnes.
o Le questionnaire rempli lors d’une demi-journée portant sur l’évaluation à
l‘avantage d’institutionnaliser la procédure d’évaluation puisqu’une demi-journée,
dans le calendrier académique lui est consacrée. Elle est de plus très praticable :
il suffit de bloquer une demi-journée pour cela, sans « rogner » sur les horaires
de cours, ce qui peut chagriner certains enseignants. Le gestionnaire EEE peut
faire un discours global sur l’intérêt de l’EEE. En terme d’inconvénient, il est
parfois difficile d’avoir un taux de participation élevé, puisque la passation doit
idéalement avoir lieu entre le dernier cours et les examens, c'est-à-dire à une
période ou les étudiants sont très concentrés sur leur période de bloque. Pour
pallier à ce lien, cette journée est parfois organisée en octobre de l’année
suivante. Dans ce cas, cependant, on ne recueille que l’information des étudiants
qui ont réussi, ce qui biaise considérablement les résultats. Enfin, les biais liés à
la désirabilité sociale sont présents lors de ce mode de passation.
o La passation par envoi postal. Elle a comme avantage que les étudiants répondent
individuellement au questionnaire au moment où ils le souhaitent. Elle présente
cependant certains désavantages : [1] Il n’est pas sûr que les étudiants reçoivent
l’information. En effet, certains sont domiciliés à un endroit où ils n’habitent pas
de fait [2] Elle est relativement coûteuse, en envoi et en dépouillement [3] Elle ne
permet pas de discours du gestionnaire des EEE [4] Elle nécessite, si l’on veut
atteindre un taux de réponses favorable, une lettre de rappel.
• La qualité de la passation électronique dépend du logiciel utilisé.

Outre le taux de réponses inférieur à un tel questionnaire par rapport à son homologue
papier-crayon (Rege Colet, 2002), Carini (2003) souligne que les réponses mènent à une
évaluation légèrement plus favorable dans le cas de l’enquête électronique. Pour sa part,
Sax (2003) a prouvé que les réponses à un questionnaire en ligne pouvaient s’avérer très
différentes de celles données à un formulaire similaire papier-crayon en fonction de
l’ethnie d’origine du répondant. Dans ses travaux, si la modalité de questionnement avait
peu d’impact sur les individus de races blanche, noire ou latino-américaine, elle en avait un
non-négligeable sur les individus asiatiques et indiens, selon lui moins habitués
culturellement à l’utilisation de nouvelles technologies. Ces critiques sont fondées.
Toutefois si l’on en tient compte et que l’on met en place des techniques pour les
surpasser, l’EEE via formulaire électronique présente de nombreux avantages. Le plus
important est probablement la praticabilité qu’offre ce type de passation (Parchemal et
Ycart, 2002 ; Younes 2005). Outre cet aspect, certains logiciels permettent d’augmenter
la qualité de la méthode EEE. Ainsi, voici certaines caractéristiques du logiciel e-NGELS
qui est en phase avec certains conseils prodigués dans la littérature.
o Une représentation fréquente (Ory, 2001) des enseignements est que les
étudiants évaluent moins durement les cours qu’ils ont réussis. La littérature nous
enseigne que cette représentation est nuancée et que ce n’est pas le score obtenu
qui influence les résultats, mais bien l’anticipation de celui-ci par les étudiants. En
effet, les étudiants qui s’attendent à recevoir ou reçoivent une note élevée à
l’examen évaluent l’enseignement de manière plus favorable que ceux qui
s’attendent à recevoir ou reçoivent une note peu élevée (Abrami et al, 1980;
Feldman, 1976; Marsh, 1987).
Ceci peut entraîner l’adoption par les enseignants d’une stratégie qui consiste à
diminuer leurs exigences afin de s’assurer une évaluation positive. Pour enrayer
cette stratégie, le logiciel e-NGELS autorise l’utilisation de trois formulaires (à
savoir le questionnaire d’évaluation des cours, d’évaluation des examens et
d’évaluation des TP/cliniques/labo) à remplir à des moments différents. Le
questionnaire d’évaluation des cours et celui d’évaluation des TP/cliniques/labo
étant présentés aux étudiants avant l’examen, à un moment où les étudiants ne
risquent pas d’être influencés par leurs performances lors de l’épreuve
certificative.
o D’autres études mettent en évidence que les évaluations signées sont plus
favorables aux enseignants que les évaluations anonymes (ex. : Spool et
Rabinowitz, 1977). Afin de laisser les étudiants s’exprimer en toute liberté, et
ainsi améliorer les aspects de fidélité de l’évaluation, nous avons conçu notre
système de manière à ce que les réponses données par un étudiant soient
intégrées au système de manière anonyme, même si le logiciel peut à tout moment
nous dire qui a déjà évalué un enseignement.
o Notre méthode prend également en compte les travaux de Bernard (1992) qui
propose des règles relatives à la formulation des items et à la constitution
d’échelles de réponses. Le logiciel e-NGELS tient compte de l’ensemble de ces
règles
o Un certain nombre de variables influencent également les résultats obtenus par

les enseignants. Ainsi, certaines caractéristiques de l’auditoire, comme le
pourcentage de chacun des genres (ex. : Basow, 1995 et 1998) ou encore le cycle
d’études dans lequel prend place l’enseignement (Bausell et Bausell, 1979; Feldman
1978), peuvent influencer les résultats. Il nous semble dès lors pertinent
d’effectuer une évaluation comparative où le score de l’enseignement d’un
professeur est présenté en parallèle des résultats de ses pairs partageant le
même auditoire, à savoir la même année d’études et la même section. Ce type de
feedback est géré par e-NGELS.
o Il est fondamental de démontrer aux étudiants que leurs réponses sont prises en
compte et traitées (Thivierge et Bernard, 1996). Le fait de pouvoir traiter des
feedbacks généraux au sein des conseils des études (organe qui comprend des
étudiants élus) sans néanmoins lever l’anonymat des évaluations a été un premier
pas vers la communicabilité en direction des étudiants. Le logiciel e-NGELS
permet à tous les étudiants de recevoir un feedback de ce type.
2.7. Traitements et jugements
2 .7.1. Les données quantitatives
Les données peuvent être présentées de différentes manières. En général, les rapports
contiennent des données descriptives (distribution de fréquences, moyenne, déviation
standard,…) pour chaque item du questionnaire. Parfois, des données comparatives sont fournies.
Par exemple, certains feedbacks spécifient si le résultat de l’enseignant est significativement
différent de la norme du groupe. A l’université de liège, nous présentons les résultats de manière
très visuelle. L’enseignant voit la moyenne qu’il a obtenue pour chacun des items. Il voit aussi
comment il se situe par rapport à ses pairs :

La simplicité d’analyse des résultats est une variable importante pour assurer une bonne
utilisation de ceux-ci. En effet, Abrami ( 2001) nous dit qu’il y a une large variabilité dans la
manière dont les résultats de l’EEE sont interprétés par les commissions de promotion. Il signale
que parfois, les résultats sont utilisés de façon abusive, par exemple en classant les enseignants
au dixième de point. Dans d’autres cas, ces commissions n’examinent même pas les résultats.
Theall et Franklin (2001) partagent cette analyse, à tel point qu’ils se demandent si le débat sur
la validité de l’EEE n’occulte pas un débat plus déterminant sur l’utilisation des résultats. Damron,
1996 (cité par Emery et al. (2003) disait à ce propos que même si les procédures EEE avaient un
taux de validité suffisant, il n’y a aucune garantie que l’interprétation des données soit valide,
consistante, raisonnable et cohérente. Déjà en 1990, Franklin et Theall écrivaient que le
problème d’utilisateurs incompétents, prenant des décisions sur des interprétations invalides ou
ambiguës, devait être analysé. En 1989, ces mêmes auteurs (Franklin et Theall, 1989), suite à une
recherche portant sur plusieurs institutions, avaient noté que plus de la moitié de leurs collègues
ne savaient pas répondre à des questions de base sur les indicateurs qui leur étaient fournis. Ils
précisent, en 1990, que trois types d’erreurs sont fréquentes. La première est l’interprétation de
données imparfaites, présentant des biais, par exemple suite à un trop faible taux de réponses.
La deuxième est le jugement portant sur des données fiables, mais sans la prise en compte des
théories statistiques. Par exemple, on peut privilégier un enseignant vis-à-vis d’un autre alors que
la différence entre leur score n’est pas statistiquement significative. Dans la troisième, les
données sont fiables, le jugement tient compte des théories statistiques, mais il y a des erreurs
dans l’interprétation d’éventuelles différences significatives. Par exemple, ils n’en tiennent pas
compte car d’après leur propre jugement, un item donné n’est finalement pas si intéressant…).
Abrami, 2001, propose une procédure statistique complexe pour faciliter la prise de décisions
des commissions de nominations ou de promotions. Celle-ci se base sur un seul score pour
l’ensemble des cours donnés par l’enseignant (soit la moyenne pondérée des scores à chacun des
items, pour chacun des cours, soit une moyenne d’un item global de satisfaction) qui est la
meilleure méthode à utiliser (Abrami, d’Appolonia et Rosenfield (1996). Ils précisent que dans le
cadre d’une évaluation normative, cela n’a pas de sens. Cette procédure a été sévèrement
questionnée (Theall, 2001). L’argument principal est que l’EEE est une mesure imparfaite d’un
domaine encore mal défini (qualité de l’enseignement) et que lui donner une mesure trop précise
risque de générer une représentation de fausse certitude.

We must be careful to keep in mind that teaching is not purely a science. It’s a
complex, multidimensional, dynamic process that defies perfect description. When
we attempt to measure the quality of teaching, we must use all the available tools
and we must know what we are looking for and what we value. We, in the field of
faculty evaluation must continue to stress and argue for improvement of overall
practice. This means better theory, better research, and better measurement as we
strive for the most accurate an most interpretable data that we gather and present
to decision makers (Theall, 2001).
2.7.2. Les données qualitatives
La plupart des questionnaires d’EEE contiennent au moins une question ouverte ou l’étudiant est
libre de commenter le cours. Bernard et al. (2000) a mis en évidence que plus de la moitié des
enseignants considéraient que ces commentaires sont une source intéressante de suggestion.
Nous verrons, lors du chapitre 2.10 « Information/formation » une méthode pour permettre aux
étudiants de donner un avis utile à l’enseignant. Lewis (2001) écrit toutefois qu’une des choses
les plus difficile lorsqu’un enseignant reçoit son feedback est d’interpréter ce que les étudiants
ont voulu exprimer, tant ceux-ci peuvent être contradictoires. Il pense que cela est dû au fait
qu’il n’y a aucune structure logique dans les commentaires qui sont, la plupart du temps, une suite
d’avis désordonnés. Il préconise qu’au niveau du traitement, les commentaires soient classés
dans une matrice à deux dimensions.
La première dimension est le niveau de satisfaction global de l’étudiant qui a exprimé son avis.
Ainsi, une critique qui peut paraître sévère peut être ressentie différemment si elle est
formulée par un étudiant qui a apprécié le cours ou par un étudiant qui l’a détesté.
La seconde dimension est axée sur l’objet du cours sur lequel portent les remarques. Il
préconise d’utiliser les dimensions suivantes : commentaires portant sur la matière, y compris
son évaluation, commentaires portant sur l’organisation et la clarté du cours, commentaires sur
l’interaction entre l’enseignant et le groupe ou l’étudiant, commentaires sur le dynamisme et
l’enthousiasme de l’enseignant. Il préconise toutefois qu’un enseignant peut créer sa propre
classification en fonction de ses besoins.
Pour lui, les commentaires prendraient donc place dans une matrice à double entrée qui
ressemblerait à celle-ci (Lewis, 2001).

2.8. Décisions de régulation
Cette étape est cruciale. L’ensemble de ce cycle et du dispositif mis en place a pour objectif que
cette étape se déroule dans les meilleures conditions possibles. C’est la finalité de l’opération.
Cette étape est dépendante des décisions prises à l’étape 2.3.1. « Les niveaux de l’évaluation ».
Ainsi, en fonction des niveaux, les décisions de régulation sont soit dans les mains de l’enseignant,
ou d’un groupe d’enseignants (par exemple au niveau d’une section, ou d’une commission
d’évaluation). Le dispositif EEE doit prendre en compte et favoriser la régulation. Il serait
illusoire de croire à un effet mécanique dans lequel le recueil d’informations et le jugement
impliqueraient automatiquement la régulation. En effet, comme le souligne Rege Colet (2005), le
simple fait de mettre en place une ou plusieurs procédures d’évaluation ne suffit pas pour que le
changement ait lieu et que l’on observe un développement durable et satisfaisant des prestations.
D’ailleurs, Desjardins et Bernard (2002) sont très défaitistes à ce sujet lorsqu’ils disent que
« diverses études montrent qu’après trois décennies de mise en application, cette pratique n’a
pas porté fruit et ce, malgré les conseils et stratégies proposés par les chercheurs les plus
réputés dans le domaine ». Seldin (1993) n’est guerre plus optimiste lorsqu’il précise que
l’évaluation n’a pas réussi à motiver les professeurs à améliorer leurs enseignements.
Dans la même veine, signalons l’enquête de Wright et O’Neil (1995), auprès des directions des
différentes institutions universitaires canadiennes, américaines, australiennes et européennes
sur les stratégies permettant l’amélioration de l’enseignement. Celles-ci démontrent que parmi 36
stratégies proposées, les deux plus efficaces sont la reconnaissance de l’enseignement dans les
dossiers de promotion et le rôle des directeurs et des doyens face à l’importance de
l’enseignement. Par ailleurs, le programme de monitorat à l’intention des nouveaux professeurs
arrive au 5e rang, l’attribution de subventions aux professeurs désirant améliorer leur
enseignement se positionne au 6e rang, suivi des ateliers de formation sur mesure, des prix
d’excellence et de l’évaluation du matériel d’enseignement à des fins formatives. L’évaluation
faite par les étudiants, à la fin de la session, se situe en 34e position, alors que l’évaluation en
cours de session se classe au 21e rang.

McKeachie, en 1979, trouve même un effet négatif de l’EEE sur l’enseignement dû à une mauvaise
utilisation des résultats.
Pourtant, certains effets positifs ont été rapportés. Notre équipe a ainsi mis en évidence (Gilles,
2002 ; Gilles et al. 2007) comment la Faculté de Psychologie des Sciences de l’Education avait,
sur base de l’EEE, régulé ces pratiques en terme de feedbacks après les examens.
D’autres études démontrent également l’efficacité de l’EEE. La plupart de ces résultats ont été
obtenus à l’aide d’un protocole de recherche suivant : A la moitié du semestre, on rend un
feedback EEE à la moitié des enseignants (groupe 1). Les autres n’en reçoivent pas (groupe
contrôle). On observa alors les résultats à l’examen à la fin du semestre comparés aux résultats à
une interrogation intermédiaire à la moitié du semestre. Marsh, Fleiner et Thomas (1975) ont
mené une étude de ce type. Ils concluent qu’en rendant simplement les FB à mi-parcours, on
influence très peu (mais positivement) les résultats à la fin. Cohen (1980) est en accord avec ces
conclusions et montre dans sa méta-analyse portant sur 22 études que la corrélation est de .1.
Plus tard, Overall et Marsh (1979), toujours sur base du même dispositif, ont montré que si on
donne le FB à mi-cours ET qu'on provoque une discussion sur la manière de s'améliorer, on
améliore le score final des étudiants. Cohen (1980) montre qu’avec cette procédure la corrélation
est de .3.
Les auteurs sont donc contradictoires quant à l’effet de l’EEE. Younes (2002) trouve même une
variabilité des effets de l’EEE au sein même de sa propre institution. Cependant les études de
Marsh sont très intéressantes parce qu’elles montrent qu’à feedback égal, l’impact est plus élevé
lorsqu’il y a une discussion entre enseignants. Il y aurait donc des variables qui amélioreraient
l’impact de l’EEE sur l’enseignement.
Quelles sont ces conditions ?
Une analyse de la littérature nous porte à considérer des variables sociales, institutionnelles et
individuelles.
2.8.1. Les variables sociales
Fave-Bonnet (2005) met en relation le faible développement des activités d’évaluation des
formations et des enseignements en France avec l’absence d’une véritable culture de l’évaluation
définie comme « un consensus collectif sur les valeurs, les représentations et les pratiques
d’évaluation ». Cette culture manque aussi bien au niveau national, qu’au niveau de l’établissement
ou des acteurs. Or elle est indispensable pour la diffusion de l’évaluation. Par ailleurs, la
recherche EVALUE (Dubois, 1998) a montré que les établissements d’enseignement supérieur
dans lesquels l’évaluation est généralisée sont situés dans des pays où il existe une culture de
l’évaluation à trois niveaux interdépendants (national, établissement, discipline).
2.8.2. Les variables institutionnelles
Paulsen et Feldman (1995) mettaient déjà en évidence la nécessité de mettre en place une
culture universitaire qui soutient l’évaluation et les enseignements. Plus tard dans leur étude
européenne, Gueissaz, Häyrinen-Alestalo, Fischer-Bluhm et Snell (1998, p. 173-174) 6, mettent en
évidence l’importance d’instituer des structures d’évaluation permanentes étant donné que
6
Cité par Younes (2002).
«L’évaluation est une construction à long terme, qui comporte une dimension stratégique. Elle ne
peut avoir de sens que si elle s’inscrit dans un processus de planification, d’apprentissage et
d’accumulation de l’expérience».Toujours selon les mêmes auteurs, les structures permanentes
internes d’évaluation en relation étroite à la fois avec la présidence et avec les composantes de
l’université semblent être efficaces.
À cet effet, le chapitre de Green (1990) propose des recommandations intéressantes à

l’intention des administrateurs des institutions universitaires :
- faire de l’enseignement une priorité;
- encourager et soutenir les professeurs;
- superviser le changement;
- injecter des sommes d’argent dans l’enseignement;
- valoriser de façon significative l’excellence;
- faire en sorte que l’enseignement devienne une responsabilité institutionnelle;
- veiller à ce que l’enseignement fasse partie des critères d’engagement et de promotion.
Dans la même perspective que Green, Lucas (1990) insiste sur la valorisation de l’enseignement au
sein des unités administratives, et certaines de ses recommandations sont dirigées vers les
responsables de départements :
- faire de l’enseignement une priorité;
- créer un climat de confiance et de soutien entre les professeurs;
- valoriser l’excellence en enseignement;
- placer l’enseignement à l’ordre du jour dans les réunions départementales;
- échanger les plans de cours;
- créer un comité sur l’enseignement;
- utiliser les résultats des évaluations pour valoriser l’enseignement;
- développer un système de monitorat.
2.8.2. Les variables Psychosociales
Fave Bonnet (2005) écrit que la culture universitaire dominante considère que l’accent doit
essentiellement être mis, dans l’enseignement supérieur, sur la formation disciplinaire acquise
dans et par la culture scientifique, contrairement à une autre conception dans laquelle il importe
d’y ajouter une dimension pédagogique. Dans le modèle scientifique disciplinaire, il est considéré
que l’enseignant est formé à la pédagogie à partir de la culture scientifique et technique acquise.
Dans le modèle pédagogique, il est considéré que la diversité des méthodes pédagogiques, dont
l’évaluation, et la prise en compte des caractéristiques de l’apprenant aussi bien sur le plan
affectif que cognitif et social, sont à acquérir par des formations spécifiques.
Barbier (1990)7 évoque la résistance aux changements des enseignants du supérieur et invoque
l’idée d’un espace idéologique construit autour de l’idée d’évaluation dont le pôle négatif serait
organisé autour des notions de répression, de sélection, de sanction, de contrôle et dont le pôle
positif serait organisé autour des notions de progrès, de changement, d’adaptation, de
rationalisation. Ainsi, certains enseignants sont favorables à la formalisation de systèmes
d’évaluation de l’enseignement par les étudiants, ils l’appliquent pour leurs cours alors que
d’autres refusent la démarche et la dénigrent.
7
Cité par Younes, 2002.
Une étude sérieuse des représentations sociales des enseignants nous en apprendrait
probablement plus à ce sujet.
2.8.3. Les variables individuelles
•Psycho-affective8
Certains concepts psychologiques comme le sentiment d’auto-efficacité (Bandura, 1977),
l'attribution de l’effort (Weiner, 1986) et les prophéties auto-réalisatrices (Jones 1977) peut
influer sur la manière dont un enseignant perçoit le feedback reçu. Par exemple, la notion de voir
quelqu'un de moins qualifié porter un jugement sur le travail de quelqu'un de plus qualifié peut
entraîner de l'anxiété et de la résistance. Boice (1992) a, par exemple, décrit l'attitude dépitée
de jeunes enseignants qui malgré leurs efforts sont soumis à la critique des étudiants qui peut
aller jusqu'à la mélancolie de l'enseignant (Machell 1989). Dans ce contexte, les jeunes
enseignants peuvent rejeter la procédure.
• La motivation
Si l’on se réfère à la théorie de la motivation de Viau (1997), on sait qu’un enseignant sera motivé
à améliorer son enseignement si celui-ci présente pour lui une valeur, s’il se sent compétent pour
mener à bien cette amélioration et s’il a le sentiment de contrôle sur le processus éducatif.
Sans vouloir être trop caricatural, on peut se poser la question de la valeur de l’enseignement
pour un enseignant universitaire. En effet, celui-ci vit dans un univers professionnel ou il exerce
plusieurs types d'activités en concurrence (recherche, enseignement, administration, ...). Et la
culture dominante donne la primauté à la recherche dans les représentations collectives, que ce
soit dans la vie quotidienne ou dans les recrutements et promotions (Dejean, 2006). Sachant de
plus que la plupart des études démontrent que la qualité de l’enseignement n’est pas corrélée à la
qualité de la recherche (Feldman, 1987), on peut se poser la question de la valeur réelle des
activités d’enseignement pour les enseignants-chercheurs universitaires. Cette question est
d’ailleurs au centre du discours de Dejean (2006) lorsqu’il écrit « un certain nombre
d'enseignants pensent que ceux qui s'intéressent à la pédagogie sont mauvais sur le plan
scientifique (…). S’engager dans l'enseignement, c'est dès lors dévaloriser son statut de
chercheur».
La notion de compétence peut laisser, elle aussi, perplexe sachant que, dans le processus de
sélection des enseignants universitaires en vigueur dans la plupart des pays européens, la
recherche est toujours le critère dominant si pas le critère exclusif. Cet effet à l’engagement
est assez peu contrebalancé par une formation après sélection car dans la plupart des pays
européens, les enseignants universitaires ne sont pas tenus de suivre un cursus pédagogique avant
d’enseigner.
Quant au contrôle exercé par les enseignants-chercheurs sur la qualité de leur enseignement, il
s’inscrit dans un contexte de mutation de l’enseignement universitaire confronté à de nouveaux
défis (Rege Colet et Romainville, 2006), tels la massification des étudiants, la demande sociale
envers des diplômes professionnalisant, le contexte accru de le concurrence au niveau européen.
Autant de défis et d’enjeux qui expliquent un contexte mouvant et émergent probablement peu
propice à un sentiment de contrôle.
8
Cité par Theall et Franklin (2001).
Ainsi donc, dans le contexte de concurrence entre leurs diverses activités, certains enseignants
universitaires ne seraient peut-être pas motivés à l’idée d’améliorer la qualité de leur
enseignement et leur donner une information pertinente sur la qualité de leur enseignement
serait un acte vide de sens à leurs yeux.
2.9. Macro-Régulation
La procédure d’EEE est cyclique par définition puisqu’elle se reproduit d’un semestre à l’autre,
d’une année à l’autre. Si l’on veut l’améliorer, il faut pouvoir prendre de l’information sur son
efficacité réelle et déterminer quels éléments doivent être modifiés. Or cette prise
d’information ne se fait pas de manière spontanée. Quand la régulation se fait par un ensemble
d’enseignants et qu’elle prend place dans un contexte institutionnel, il peut parfois être possible
de glaner quelques éléments d’informations à travers les P.V. de réunion. Quand la régulation est
réalisée de manière individuelle, en général, aucune information n’est disponible. En effet, la
sphère de l'enseignement est souvent reconnue comme privative par les enseignants (Dejean,
2006) qui nouent avec celui-ci un rapport presque intime. Même si Franklin (2001) conseille aux
enseignants de rédiger un rapport sur les feedbacks EEE qu’ils ont reçus et y expriment les
améliorations qu’ils ont apportées à leur enseignement, cette pratique est peu répandue. Il
faudra donc recueillir cette information, par exemple sous forme de questionnaire. Cependant,
demander aux enseignants s’ils ont régulé leur enseignement suite à l’EEE manque de sensibilité.
C’est pourquoi nous nous proposons d’utiliser l’échelle d’attitude développée par Rege Colet
(2005) sur base notamment des travaux de Towler (1998).
Cette échelle comprend 8 niveaux qui se présentent comme suit :
Niveau Description Indicateurs

0 Rien Aucune action
1 Information Prend connaissance Lit simplement le rapport
des
résultats
2 Analyse Examine les * Fait des liens entre les différents types et catégories de réponses
résultats * Etablit des liens entre les résultats et le contexte dans lequel s’est déroulé
l’enseignement
*Effectue des comparaisons avec les résultats des années passées
3 Partage Echange et discute * Fait un retour aux étudiants
des * Discute les résultats à l’intérieur de son équipe pédagogique
résultats * Discute les résultats avec un responsable de formation
* Analyse les résultats avec un conseiller pédagogique
4 Régulation Modifie son * Adapte le contenu de l’enseignement
pédagogique enseignement * Clarifie et explicite les objectifs
* Change de méthode de travail, fait des innovations
* Ajuste l’évaluation des apprentissages
* Propose de nouveaux supports ou matériels didactiques
* Sollicite davantage la participation des étudiants
5 Développement Se forme dans le * Fait des lectures et des recherches
professionnel domaine * Demande une observation de son enseignement
de l’enseignement * Prend contact avec un conseiller pédagogique
universitaire * Participe à des activités de formation
* Demande un accompagnement pédagogique du cours
6 Valorisation Rend compte et * Tient un dossier sur l’évaluation des cours
promeut ses * Prépare un rapport d’activités d’enseignement
activités * Valorise par des présentations ou des publications ses activités d’enseignement
d’enseignement
7 Formation Soutient l’autre et * Aide ses collègues dans l’analyse et l’interprétation des résultats
développe * Elabore des outils pour l’évaluation de l’enseignement
l’évaluation * Conseille sur le développement pédagogique
* Encourage la formation pédagogique de ses collaborateurs

8 Engagement S’investit sur le plan * Participe à la définition de la politique pour sa structure
Militant institutionnel
Posée comme variable dépendante et récoltée systématiquement lors de chaque distribution de

feedbacks, cette échelle d’attitude nous permettra d’analyser les variations dues à des
modifications dans les modalités liées à l’EEE.
2. 10. Contextualisation - Acceptation
Tout au long du processus d’EEE, il faut constamment avoir à l’esprit que les résistances peuvent
être nombreuses et empêcher le processus d’atteindre ses objectifs de régulation. La littérature
montre que ces résistances peuvent être levées par une information ad hoc. Ainsi, Franklin et
Theall (1989) ont démontré une corrélation positive entre le manque de connaissance sur le sujet
et une attitude négative. Toutefois, pour bien communiquer, il est important de connaître les
représentations des divers porteurs d’enjeux. Nous relevons 3 types d’acteurs impliqués : les
étudiants, les enseignants et les administrateurs. Grâce notamment aux divers travaux de
Bernard, nous connaissons leurs représentations.
2.10.1. Représentation des étudiants
Thivierge et Bernard (1996) ont réalisé une étude auprès de 391 étudiants de l’Université de
Montréal pour explorer leurs perceptions de l’importance et de l’utilité de l’évaluation de
l’enseignement ainsi que de sa valorisation institutionnelle. Younes (2002) résume cette
recherche en disant que la grande majorité des sujets affirment s’acquitter sérieusement de la
tâche d’évaluer l’enseignement, presque tous considèrent que c’est une tâche importante et
apprécient de pouvoir s’exprimer sur la qualité de l’enseignement reçu. De plus, 95% considèrent
que l’évaluation de l’enseignement ne peut se faire sans la contribution des étudiants, 96% jugent
la démarche d’évaluation de l’enseignement comme très importante pour améliorer la qualité de
l’enseignement à l’Université et 84% pensent qu’elle peut aider les professeurs à améliorer la
qualité de leur enseignement.
Si 60% des étudiants interrogés estiment que la qualité de l’enseignement est une préoccupation
importante pour les enseignants, 37% croient que les professeurs se soucient peu de la qualité de
l’enseignement, plus de 40% croient qu’ils ne se donnent même pas la peine de lire les
commentaires qu’ils font sur leurs cours et 58% croient que les évaluations faites par les
étudiants n’influencent pas les pratiques d’enseignement des professeurs.
Enfin, 70% des sujets ne croient pas que les évaluations des professeurs faites par les étudiants
sont prises en considération pour porter un jugement sur la qualité de l’enseignement et près de
80% ne croient pas que la direction de l’Université les prenne en considération pour la
titularisation des enseignants.
L’analyse des commentaires exprimés à la fin du questionnaire montre que 45% de ces
commentaires portent sur le manque de valorisation institutionnelle de l’évaluation de
l’enseignement et de sa qualité. Près de 20% des commentaires se rapportent au contenu du
questionnaire d’évaluation, en demandant des questions plus spécifiquement liées à la qualité et
au type de l’enseignement. 17% des étudiants émettent le souhait d’être informés des résultats
de l’évaluation et 10% proposent des évaluations à mi-session.

2.10.2. Représentation des enseignants
Bernard, Postiaux et Salcin (2000) ont creusé cette question. Pour cette étude, portant sur 393
sujets (217 professeurs et 176 chargés de cours), Une liste de 75 énoncés issus de la recension
des écrits et de l’expérience des auteurs en ce domaine a été élaborée et présentée aux
enseignants. Les auteurs classent ces affirmations en trois catégories. Les consensus, partagés
par la majorité des enseignants, les sujets, les tendances, partagées par environ une moitié des
étudiants et les sujets polémiques.
Après analyse, il se dégage les consensus suivants :

• l’enseignement n’est pas une fonction trop complexe pour être évaluée;
• toutes les catégories du personnel enseignant devraient être évaluées sans égard à leur
rang et à leur statut ;
• les étudiants ne peuvent être l’unique source d’information consultée,
• le professeur évalué doit pouvoir s’exprimer sur son enseignement ;
• les excellents communicateurs reçoivent de meilleures évaluations;
• l’institution devrait entreprendre des actions concrètes afin d’améliorer l’enseignement.
Les tendances sont les suivantes :

• l’évaluation faite par les étudiants constitue une opération utile qui aide à identifier les
points forts et les aspects à améliorer de son enseignement ;
• les commentaires des étudiants sont une source intéressante de suggestions même s’ils
peuvent constituer, dans certains cas, une occasion de défoulement ;
• les résultats ne peuvent être accessibles uniquement au professeur, le directeur pourrait
les consulter en tout temps et un comité pourrait y avoir accès;
• les collègues ne sont pas plus compétents que les étudiants pour juger de la qualité de
l’enseignement;
• les professeurs qui sympathisent avec leurs étudiants et ceux qui leur donnent des notes
élevées obtiennent de meilleures résultats que les autres;
• on juge que les directeurs n’ont pas la compétence nécessaire pour aider les professeurs
qui éprouvent des difficultés en enseignement et que les collègues ne sont pas davantage
accessibles.
Enfin, concluons avec les sujets polémiques

• les questionnaires sont-ils de bons moyens d’évaluation ?
• les étudiants sont-ils compétents ?
• les étudiants devraient-ils s’identifier ?
• les diplômés sont-ils de meilleurs juges ?
• les résultats devraient-ils être utilisés à des fins de promotion ?
2.10.3 Représentations des administrateurs
Outre l’étude déjà mentionnée que Wright et O’Neil (1995) ont menée et qui, après une enquête
réalisée auprès des autorités universitaires, les a menés à la conclusion que les EEE étaient
classées en trente-sixième position sur les trente-six mesures d’amélioration de l’enseignement
proposées, Desjardins et Bernard (2002) ont approfondi les représentations qu’ont les
administrateurs sur l’EEE. Voici leurs principales conclusions :

Les administrateurs pensent globalement que les enseignants ne sont pas insensibles à leurs
feedbacks EEE. Environ la moitié d’entre eux croient que les enseignants les utilisent pour faire
des ajustements relativement mineurs.
Septante pour cent des administrateurs affirment que, suite à leurs résultats, certains de leurs
professeurs consultent des ressources spécialisées mais ils n'en connaissent pas le nombre. Vingt
pour cent admettent que l'évaluation de l'enseignement a surtout pour effet de créer une
pression sur les jeunes professeurs. La plupart reconnaissent cependant que le dossier de
recherche pèse beaucoup plus lourd dans la promotion d'un professeur que celui de
l'enseignement.
La plupart de ces représentations se basent sur des sentiments subjectifs plutôt que sur la
réalité objective. Certaines, sont d’ailleurs contredites dans la recherche. Mettre en place une
politique de communication efficace, basée sur des données fiables, permettra sans doute de
diminuer certaines résistances inhérentes à certains de ces mythes.
2.11. Information/formation
L’EEE est un processus complexe, véhiculant de nombreuses représentations erronées, et

demandant des aptitudes qui nécessitent une formation ou, à tout le moins, une information. Elle
devra être complète et porter sur l’ensemble des étapes de la méthodologie utilisée. Il faudra
être convaincant pour fédérer l’ensemble de l’institution dans une approche de type réflexif.
Cette formation/information devrait être adressée aux étudiants d’une part, aux enseignants et
administrateurs d’autre part.
2.11.1. Information/formation envers les étudiants
• Frey (1976) a montré que lorsqu’un administrateur fait un discours rappelant l’importance
des EEE, les étudiants sont moins sévères dans leur évaluation. Une des explications à ce
fait vient peut-être des théories de la psychologie cognitive. En effet, comme le
psychologue prix Nobel Daniel Kahneman (2003) l’explique, il y a deux types de processus
de la pensée humaine. Ce qu’il appelle le system 1 et le system 2. Le premier système
implique une pensée rapide, automatique, dénuée d’efforts, associative, implicite et
souvent chargée en émotion. Le deuxième système est plus lent, réflexif, coûteux en
effort, plus conscient et plus sous contrôle. La plupart de nos jugements proviennent du
système 1. Pourtant l’EEE serait plus valide si les jugements correspondaient aux
caractéristiques du système 2. Nous faisons l’hypothèse que le discours conscientisant
d’un administrateur peut faire en sorte que les étudiants passent du système 1 au
système 2.
• Nous avons vu au chapitre 2.7.2. comment traiter les commentaires écrits des étudiants
pour qu’ils prennent tout leur sens pour les enseignants. Svinicki (2001), constatant que
les feedbacks étaient souvent vagues et frustrants pour les enseignants, préconise de
motiver les étudiants à produire des feedbacks plus intéressants. Mais elle spécifie que
ce n’est pas suffisant. Elle soutient qu’il faut les former à la rédaction de commentaires
écrits. Elle trace ainsi les caractéristiques d’un bon feedback. Pour elle :
o Le feedback doit être spécifique et doit utiliser des exemples.
o Le feedback doit porter sur des comportements observables, pas sur des
sentiments ou des impressions.

o Le feedback doit éviter des personnalisations ou des mots chargés
émotionnellement.
o Le feedback doit exprimer l’effet que le comportement notifié a eu sur la
personne qui a donné le feedback.
o Le feedback doit offrir des pistes de remédiation.
o Le feedback doit porter sur les bonnes pratiques et sur les mauvaises pratiques.
Svinicki (2001) précise que donner un feedback de ce type est une performance complexe
qui doit pouvoir être entraînée souvent. Elle préconise de demander aux étudiants
d’écrire un feedback sur papier libre à la fin de chaque séance de cours. Elle précise
toutefois qu’il faut que ce feedback soit traité rapidement et qu’une information soit
faite en retour aux étudiants.
• Les étudiants ont souvent le sentiment que les résultats de l’EEE ne sont pas pris en
compte par les enseignants. Quarante pour cent d’entre-eux pensent même que ces
derniers ne se donnent pas la peine de lire leurs commentaires. Dans ces conditions, ils
ont souvent du mal à se motiver pour passer du temps à remplir les formulaires, et
lorsqu’ils le font, il considèrent cela comme étant plutôt une obligation à caractère
administratif. Or, il y a des enjeux importants à ce qu’ils se considèrent comme des
vecteurs de changement et d’amélioration, en tout cas si l’on souhaite récolter des
feedbacks sensibles et diagnostiques, notamment dans les questions ouvertes.
Les feedbacks aux étudiants peuvent être donnés à plusieurs niveaux. Notre institution
prévoit l’organisation d’un événement collectif au cours duquel un retour est effectué
auprès des étudiants. Afin de ne pas lever l’anonymat des résultats, auquel tiennent
énormément certains enseignants, le retour se fait sur la moyenne obtenue par la section
ou le département sur chacun des items. Des décisions de régulation sont, à cette
occasion, communiquées aux étudiants. Lewis (2001) préconise que chaque enseignant
organise un retour auprès de ses propres étudiants, en tout cas dans l’hypothèse ou
l’évaluation a lieu à la moitié du semestre. Pour lui, il faut signifier aux étudiants ce qu’il a
appris à partir des informations communiquées à travers l’EEE et ce qu’il a amélioré sur
cette base en terme d’enseignement. On peut également imaginer qu’un dossier soit
complété par l’enseignant (Franklin, 2001) comprenant les éléments de l’EEE qui ont du
sens pour lui et exprimant la manière dont il les prendra en compte dans sa pratique
professionnelle. Une diffusion de ce dossier pourrait s’apparenter à un premier pas vers
le scholarship of teaching (Boyer, 1990).
2.11.1. Information/formation envers les enseignants
• Franklin et Theall (1989) ont mis en évidences le fait que la moitié des enseignants
étaient incapables d’interpréter correctement et avec certitude les feedbacks qu’ils
recevaient. Il semble donc important de former les enseignants dans ce domaine.
• Une fois les feedbacks interprétés et les décisions de régulation prises, encore faut-il
passer à l’action et améliorer son enseignement. Parfois, les enseignants sont démunis car
il ne trouvent pas le support dont ils ont besoin dans leur institution. Par exemple,
Bernard et Bourque (1999) ont mis en évidence le peu de lien qui était fait entre politique
EEE et politique de formation continuée au Canada. Il semble opportun de renforcer ce
lien et de communiquer aux enseignants les divers supports dont ils peuvent bénéficier
pour mettre en œuvre les modifications qu’ils souhaitent apporter à leur enseignement.
2.11. Planification
Etablir un calendrier prévisionnel est un élément important pour garder le cap dans des
procédures longues et complexes comme l’évaluation des enseignements. Comme le souligne
Gueissaz et al. (1998), l’évaluation est une construction à long terme, qui comporte une dimension
stratégique. Elle ne peut avoir de sens que si elle s’inscrit dans un processus de planification,
d’apprentissage et d’accumulation de l’expérience.
Nous pensons que cette planification doit porter sur 2 aspects. Le premier est lié à la
construction et la gestion qualité de l’EEE. Mettre en œuvre l’ensemble des étapes du cycle peut
prendre un certain temps. Les dossiers peuvent avancer lentement à certains moments. Le
dialogue collaboratif entre tous les porteurs d’enjeux est un élément déterminant de la bonne
réussite du dispositif. Selon les cas, un tel dialogue peut être plus ou moins long, surtout sur un
sujet aussi polémique et porteur de sens que l’évaluation. D’autant plus que la culture de la
régulation des enseignements peut paraître anachronique dans nos universités. En effet, comme
le souligne Felouzis (2003), la régulation du travail universitaire est une régulation par la
recherche. Il qualifie l’université d’institution faible incapable d’imposer une action normative du
point de vue des activités pédagogiques. Ainsi, la faible régulation des activités pédagogiques à
l’université se traduirait par une faible mobilisation des universitaires sur les questions
pédagogiques ou, en tout cas, la renvoie à des configurations locales plus ou moins aléatoires…. En
tout cas jusqu'à ce que l’institution impose une évaluation de ces activités pédagogiques.
Ce processus est donc long et semé d’embûches. Il sera nécessaire de le planifier au préalable
dans le temps afin de ne pas perdre le cap.
Le deuxième élément de planification est l’EEE, elle-même. Quand va-t-on évaluer les
enseignements et avec quelle fréquence ? Tous les enseignements vont-il être évalués tous les
ans ? A chacune des leçons, au milieu du semestre ou à la fin de l’année ? Va-t-on imposer une
évaluation à tous ou va-t-on travailler sur base volontaire ? Va-t-on fixer un calendrier de base
pour l’ensemble de l’institution ou va-t-on négocier avec chaque enseignant ou chaque
département, au coup par coup, les dates de l’EEE ? Autant de questions qu’il faudra trancher
car l’évaluation doit instrumenter un processus réflexif continu au sein de l’institution.
2.12. Micro régulation
Les huit premières étapes développées semblent être linéaires et s’enchaîner en une suite
logique. Dans la réalité, il n’en va toutefois pas de même. Les mouvements de va et vient entre les
différentes étapes ne sont pas rares et sont même parfois souhaitables : il n’est jamais trop
tard pour avoir de bonnes idées. Toutefois, il faudra être attentif à ce que les retours en arrière
ne soient pas trop nombreux, pour ne pas ralentir inutilement le processus. Il faudra aussi être
particulièrement attentif à ce que les propositions soient toujours bienveillantes : Seldin (1993)
affirme que certains groupes de professeurs provoquent volontairement l’échec du système
d’évaluation.
Conclusion
Donner un feedback diagnostique, sensible, fidèle et valide aux enseignants concernant la qualité
de leur enseignement constituerait le premier moment d'une dynamique de régulation ayant pour
fin de procéder à des ajustements (guidance), par utilisation adéquate de l'information en retour
(feedback)... pour se rapprocher d’un fonctionnement optimal (Allal, 1988). Ainsi, l’EEE serait la
porte d’entrée vers une pratique réflexive menant à la qualité. Les enjeux sont donc de poids.
Les risques de dérive existent toutefois. Ainsi, Dejean (2006) relève la crainte de certains
enseignants de se voir attribuer individuellement, par l'évaluation des enseignements, la
responsabilité d'insuffisances ou de dysfonctionnements collectifs. Kulik (2001) nous apprend
que les enseignants expriment des craintes sur le fait que les étudiants transforment une
évaluation institutionnelle des enseignements en une critique de la personnalité des enseignants.
Les enseignants sont donc conscients de certaines dérives possibles et expriment une certaine
méfiance vis-à-vis du système. Ainsi, pour Potocki (1998), les réticences à l’évaluation de
l’enseignement restent nombreuses et entraînent un désintérêt à son égard tant de la part des
enseignants que des étudiants.
Par ailleurs, l’évaluation de la qualité du travail d’un enseignant engage tout son être. Certains
enseignants vivent d’ailleurs ce processus d’évaluation avec émotion. Emery (2003) relate
d’ailleurs que l’EEE peut être démoralisante pour les enseignants. En ce qui le concerne, Boice
(1992) décrit l'attitude mélancolique de jeunes enseignants qui, malgré leurs efforts, sont soumis
à la critique des étudiants.
Il serait dommage que par des biais liés à la méthode utilisée des effets pervers se manifeste.
Ory et Ryan (2001) dressent d’ailleurs un inventaire de ces éventuels effets pervers.
• Les instructeurs altèrent leur enseignement pour obtenir de meilleurs scores (diminution
des exigences, …).
• L’université récompense des enseignements faibles.
• Les universités n’utilisent que cette méthode pour évaluer les enseignements d’un point
de vue administratif.
• Le contenu des formulaires d’EEE détermine ce qui DOIT être fait en classe, sans
réflexion de l’enseignement.
• Les étudiants évaluent favorablement les enseignements les plus pauvres en espérant
avoir, en retour, de meilleurs points à l’examen.
• Les données EEE seules servent à discriminer les enseignants alors que leur qualité
métrique ne le permet pas.
• L’EEE devient une procédure administrative sans sens, ni pour les enseignants, ni pour les
étudiants.
Pourtant la fidélité de l’EEE a été prouvée sans ambiguïté par la recherche scientifique (Feldman,
1977 ; Marsh 1987 ; Murray, Rushton et Paunonen, 1990). La validité de la méthode est encore en
question, mais la plupart des études sur le sujet concluent à une validité suffisante, sous
certaines conditions, dans le cadre d’une évaluation visant une régulation pédagogique des
enseignements.
Ces conditions ont été longuement développées dans cet article et une méthode, le cycle de
construction et gestion qualité des EEE, a été proposée. Celle-ci se base sur notre propre
expérience et trouve une certaine validation à travers la littérature. Elle reste toutefois à
valider scientifiquement. Nous sommes toutefois convaincus qu’à travers celle-ci et le dialogue
collaboratif qui la sous-tend, les procédures d’EEE gagneront en qualité.

Bibliographie
Abrami, P. C. (2001). Improving judgements about teaching effectiveness using teacher ratings forms. In M. Theall, P. C.
Abrami & L. A. Mets (Eds.), The student ratings debate : Are they valid ? how can we best use them (pp. 59-87).
San Francisco: Jossey Bass.
Abrami, P. C., d'Apollonia, S., & Cohen, P. A. (1990). Validity of student ratings of instruction: What we know and what we
do not. Journal of Educational Psychology, 82, 219-231.
Abrami, P. C., Dickens, W. J., Perry, R. P., & Leventhal, L. (1980). Do teacher standards for assigning grades affect
student evaluations of instruction? Journal of Educational Psychology, 72, 107-118.
Abrami, P. C., Leventhal, L., & Perry, R. P. (1982). Educational seduction. Review of Educational Research, 52, 446-464.
Albanese, M. A., & Mitchell, S. (1993). Problem based learning : A review of littérature on its outcomes and
implementation issues. Academic Medicine, 68(1), 52-81.
Aleamoni, L. M. (1989). Typical faculty concerns about evauation of theaching. In L. M. Aleamoni (Ed.), Techniques for
evaluating and improving instruction (). San Francisco: Jossey Bass.
Aleamoni, L. M. (1987). Student rating myths versus research facts. Journal of Personnel Evaluation in Education, 1(1)
Aleamoni, L. M. (1987). Typical faculty concerns about student evaluation of teaching. In L. M. Aleamoni (Ed.), Techniques
for evaluation and improving instruction (). San Francisco: Jossey-Bass.
Aleamoni, L. M., & Graham, N. H. (1974). The relationship between CEQ rtings and instructor's rank, class size, and
course level. journal of educational measurement, 11, 189-201.
Aleamoni, L. M., & Hexner, P. Z. (1980). A review of the research on student evaluation and a report on the effect of
different sets of instructions on student course and instructor evaluation. Instructional Science, I(9), 67-84.
Allal, L. (1988). Processus de régulation interactive, rétroactive et proactive. In M. Huberman (Ed.), Assurer la réussite
des apprentissages scolaire. les propositions de la pédagogie de maîtrise (pp. 86-126). Paris: Delachaux et Niestlé.
Altet, M. (2004). Enseigner en premier cycle universitaire : Des formes émergentes d'adaptation ou de la "metis"
enseignante. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur :
Enseigner, apprendre, évaluer (pp. 37-52)l'harmattan.
Ambady, N., & Rosenthal, R. (1992). Half a minute: Predicting teacher evaluations from thin slices of nonverbal behavior
and physical attractiveness. journal of Personality and Social Psychology, 64, 431-441.
Anderson, E. Campus use of the teaching portfolio: Twenty-five profiles. Washington, D.C.: American Association for
Higher Education.
Argulewiz, E., & O'Keefe, T. (1978). An investigation of signed versus anonymously completed ratings of high school
student teachers. Educational Research Journal, 3, 39-44.
Arreola, R. A. (1994). Developing a comprehensive faculty evaluation system: A handbook for college faculty and
administrators on designing and operating a comprehensive faculty evaluation system. Boston: Anker Publishing Co.
Bandura, A. Self-efficacity : Towards a unifiying theory of behavioral change. Psychological Review, 84, 191-215.
Barbier, J. M. (1990). L’évaluation en formation (2ème édition ed.). Paris: Presse Universitaire de France.
Basow, S. A. (1998). Student evaluations: The role of gender bias and teaching styles. In L. H. Collins, J. C. Chrisler & K.
Quina (Eds.), Career strategies for women in academia: Arming athena (pp. 135-156)Thousand Oaks, CA: Sage Pub.

Basow, S. A. (1995). Student evaluations of college professors: When gender matters. Journal of Educational Psychology,
87(4), 656-665.
Bausell, R. B., & Bausell, C. R. (1979). Student rating and various instructional variables from a within-intructor
perspective. Research in Higher Education, 11, 167-177.
Bennett, S. K. (1982). Student perceptions of and expectations for male and female instructors: Evidence relating to the
question of gender bias in teaching evaluation. Journal of Educational Psychology, 74(2), 170-179.
Bennett, S. K. Student perceptions of and expectations for male and female instructors: Evidence relating to the
question of gender bias in teaching evaluation. Journal of Educational Psychology, 74(2), 170-179.
Berkson, L. (1993). Problem-based learning : Have the expectations been met ? Academic Medicine, 68, 579-588.
Bernard, H. (1992). Processus d’évaluation de l’enseignement supérieur. Théorie et pratique (Éditions Études vivantes
ed.). Laval:
Bernard, H., & Bourque, S. (1999). Portrait des politiques et pratiques d’évaluation, d’amélioration et de valorisation de
l’enseignement des universités québécoises. Res Acamedica, 1(2), 33-60.
Bernard, H., Postiaux, N., & Salcin, A. (2000). Les paradoxes de l'évaluation de l'enseignement universitaire. Revue des
sciences de l'éducation, XXVI(3), 625-650.
Bernard, M. E., Keefauver, L. W., Elsworth, G., & Maylor, F. D. (1981). Sex role behavior and gender in teachers-student
evaluations. Journal of Educational Psychology, 73, 681-696.
Blackburn, R. T., & Clark, M. J. (1975). An assessment of faculty performance: Some correlates between administrators,
colleagues, students and self-ratings. sociology of education, 48, 242-256.
Boice, R. (1992). The new faculty member: Supporting an fostering professionnal development.
Boyer, E. (1990). Scholarship reconsidered: Priorities of the professiorate. Princeton: Carnegie Foundation for the
Advancement of Teaching.
Brandenburg, D. C., Slinde, J. A., & Batista, E. E. (1977). Student ratings of instruction: Validity and normative
interpretations. Journal of Research in Higher Education, 7, 67-98.
Braskamp, L. A., Caulley, D. N., & Costin, F. (1979). Student rating and instructor self-ratings and their relationship to
student achievement. American Educational Research Journal, 16, 295-306.
Brinko, K. T. (1991). The interactions of teaching improvement. effective practices for improving teaching. Directions for
Teaching and Learning, 48, 39-49.
Bru, M. (2004). Pratiques enseignantes à l'université : Opportunités et intérêt des recherches. In E. Annoot, & M. F.
Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur : Enseigner, apprendre, évaluer
(l'Harmattan ed., pp. 17-36)
Carini, R. M., Hayek, J. C., Kuh, G. D., Kennedy, J. M., & Ouimet, J. A. (2003). Student responses to web and paper
surveys: Does mode matter? Research in Higher Education, 44(1), 1-19.
Cashin, W. E. (1999). (Student ratings of teaching : Uses and misuses. In P. Seldin (Ed.), Changing practices in evaluating
teaching. A practical guide to improved faculty performance and Promotion/Tenure decisions (pp. 25-44)Bolton,
MA : Anker Publishing.
Cashin, W. E. (1995). Student ratings of teaching: The research revisited. IDEA Paper, 32

Cashin, W. E. (1992). Student ratings: The need for comparative data. Instructionnal Evaluation and Faculty
Developpement, 12, 1-6.
Cashin, W. E. (1990). Students do rate different academic fields differently. In M. Theall, & J. Franklin (Eds.), Stiudent
ratings of instruction: Issues for improving practice (). San Francisco: Jossey Bass.
Cashin, W. E. (1988). Students ratings of teaching : A summery of the research. Kansas State University.: Center for
Faculty Evaluation and Development.
Centra, J. A. (1993). Reflexive faculty evaluation effectiveness. enhancing teaching and determining
faculty effectivenessSan Francisco : Jossey-Bass.
Centra, J. A., & Creech, F. R. (1976). The relationship between students, teachers, and course characteristics and
student ratings of teacher effectiveness (N.J.: Educational Testing Service ed.)Princeton.
Chacko, T. I. (1983). Student ratings of instruction: A function of grading standards. Educational Research Quarterly,
8(2), 19-25.
Chiu, S. (1999). Use of the unbalanced nested ANOVA to exam factors influencing student ratings of instructional
quality. Unpublished manuscript.
Cohen, L., Manion, L., & Morrison, K. R. B. (2007). Research methods in education (Routledge ed.)
Cohen, P. A. (1990). Bring research into practice. In M. Theall, & J. Franklin (Eds.), Student ratings of instruction: Issues
for improving practice: New directions for teaching and learning, (Jossey Bass. ed., pp. 123-132)
Cohen, P. A. (1981). Student ratings of instruction ans student achievement: A meta-analysis of multisection validity
studies. Review of Educational Research Fall, 51(3), 281.
Costin, F., Greenough, W. T., & Menges, R. J. (1971).

Student ratings of college teaching: Reliability, validity, and usefulness. Review of Educational Research. 41, 511-
535., 41, 511-535.
Damron, J. C. (1996). Instructor personality and the politics of the classroom. Unpublished manuscript.
d'Apollonia, S., & Abrami, P. C. (1997). Navigating student ratings of instruction. American Psychologist, 52(1198), 1208.
Dejean, J. (2006). Les réticences à l'évaluation de l'enseignement en france, signe de la culture professionnelle des
enseignants-chercheurs ou trait de la culture française ? In N. Rege Colet, & M. Romainville (Eds.), La pratique
enseignante en mutation à l'université (pp. 61-80). Bruxelles: de boek.
Dejean, J. (2002). L'évaluation de l'enseignement dans les universités française :Rapport suivi de l'avis du haut conseil
de l'évaluation de l'école. France: Haut conseil de l'évaluation de l'école.
Denzin, N. (1989). The research actEnglewood Cliffs, Prentice Hall.
Denzin, N., & Lincoln, Y. (2000). Handbook of qualitative research (2nd ed.). London: Thousand Oaks, CA and New Delhi:
Sage.
Desjardins, J., & Bernard, H. (2002). Les administrateurs face à l'évaluation des enseignements. Revue des sciences de
l'éducation, 28(3)
Detroz, P., Noel, F., & Gilles, J. L. (2002). Mesure de l’impact de l’utilisation des boîtiers de vote en amphithéâtre.
Louvain-la-neuve.
Dinauer, L. D., & Fink, E. D. (2005). Interattitude structure ans attitude dynamics : A comparison of the hierarchical and
galileo spatial-linkage models. Human Communication Research, 31 n°1, 1-32.
Donald, J. G. (1991). The commission of inquiry on canadian university education: The quality and evaluation of teaching.
Revista Iglu, 1, 157-173.
Dowell, D. A., & Neal J.A.
Dowell, D. A., & Neal, J. A. (1982).

A selective review of the validity of student ratings of teachings. The Journal of Higher Education, 53(1), 51-62.
Doyle, J. J. O. (1983). Evaluating teaching (Lexington, Mass.: Lexington Books. ed.)
Doyle, K. 0. (1975). Student Evaluation of Instruction. Lexington, MA: D.C. Heath and Co. (1975). Student evaluation of
instructionLexington, MA: D.C. Heath and Co.
Doyle, K. O., & Crichton, L. I. Student, peer, and self-evaluation of college instruction. Journal of Educational Psychology,
70, 815-826.
Dubois, P. (1998)., Rapport final. (1998). EVALUE, évaluation et auto-évaluation des universités en europeProjet financé
par la communauté européenne.
Emery, C. R. (1995). Student evaluations of faculty performance. Unpublished manuscript.
Emery, C. R., Kramer, R., & Tian, R. G. (2003). Return to academic standards: A critique of student evaluations of teaching
effectiveness. Quality Assurance in Education, 11(1), 37-46.
European Network for Quality Assurance in Higher Education. (2005). Standards and guidelines for quality assurance in
the european higher education area. Helsinski - Finland:
Fave-Bonnet, M. F. (2005). La difficile mise en oeuvre de l’évaluation des formations dans les universités en france :
Culture française, culture universitaire ou cultures disciplinaires ? In M. Lecointe, & A. Aubert-Lotarski (Eds.),
Evaluations et cultures, les dossiers des sciences de l’éducation (pp. 87-104)
Feldman, K. A. (1997). Identifying exemplary teachers and teaching: Evidence from student ratings. In R. P. Perry, & J. C.
Smart (Eds.), Effective teaching in higher education: Research and practice. (pp. 368-395). New York: Agathon
Press.
Feldman, K. A. (1989). Instructional effectiveness of college teachers as juged by teachers themselves, current and
former students colleagues, administrators and external (neutral) observers. Research in Higher Education, 30,
137-194.
Feldman, K. A. (1988). Effective college teaching from the students’ and faculty’s view: Matched or mismatched
priorities? Research in Higher Education, 28, 291-344.
Feldman, K. A. (1987). Research productivity and scholarly accomplishment of college teachers as related to their
instructional effectiveness: A review and exploration. Research in Higher Education, 26, 227-298.
Feldman, K. A. (1983). Seniority and experience of college teachers as related to evaluations they receive from their
students. Research in Higher Education, 18, 3-124.
Feldman, K. A. (1979). The signifiance of circumstances for college students' ratings of their teachers ans courses : A
review and analysis. Research in Higher Education, 10, 149-172.
Feldman, K. A. (1978). Course characteristics and college students’ ratings of their teachers; what we know and what we
don’t. Research in Higher Education, 9, 199-242.
Feldman, K. A. (1977). Consistency and variability among college students in rating their teachers and courses: A review
and analysis. Research in Higher Education, 6, 223-274.

Feldman, K. A. (1976). The superior college teacher from the student's view. Research in Higher Education, 5, 223-274.
Felouzis, G. Les mutations actuelles de l’université. Paris: Presse Universitaire de France.
Fenwick, T., & Parsons, J. (2000). The art of evaluation. A handbook for educators and trainers. Toronto: Thompson
Educational Publishing, Inc.
Flick, U., (1992). (1992). Triangulation revisited - strategy of or alternative to validation of qualitative data. Journal for
the Theory of Social Behavior, 2, 175-197.
Franklin, J. (2001). Intepreting the numbers: Using a narrative to help others read student evaluations of your teachnig
accurately. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 85-100). San
Francisco: Jossey Bass.
Franklin, J., & Theall, M. (1990). Communicating student ratings to decisions makers : Design for good practice. In J.
Franklin, & M. Theall (Eds.), Student ratings of instruction: Issues for improving practice (pp. 75-93). San
Frey, P. W. (1976). Validity of student instructionnal rating as a function of their timing. Journal of Higher Education,
47, 327-336.
Gilles, J. L. (2002). Qualité spectrale des tests standardisés universitaires. Unpublished These présentée pour
l'obtention du grade de Docteur en Sciences de l'Education, Université de Liège.
Gilles, J. L., Detroz, P., Crahay, V., & Mainferme, R. (2007). La qualité des évaluations des apprenants : Effets d’une
régulation à l’aide du dispositif d’évaluation des enseignements. Montreal: Association Internationale de Pédagogie
Universitaire.
Glascock, J., & Ruggiero, T. (2006). The relationship of ethnicity and sex to professor credibility at a culturally diverse
university. Communication Education, 55, 197-207.
Green, M. F. (1990). Why good teaching needs active leadership. In P. Seldin (Ed.), How administrators can improve
teaching. moving from talk to action in higher education (pp. 45-62). San Francisco: Jossey Bass.
Greenwald, A. G., & Gillmore, G. M. (1997). No pain, no gain? the importance of measuring course workload in student
ratings of instructions. Journal of Educational Psychology, 89(4), 743-751.
Gueissaz, A., Häyrinen-Alestalo, M., Fischer-Bluhm, K., & Snell, K. (1998). Les acteurs de l'évaluation, la décision
d'évaluer. In P. Dubois (Ed.), EVALUE. rapport final. ()
Guthrie, E. R. (1954). The evaluation of teaching: A progress report. Seattle: University of Washington,:
Hamermesh, D. S., & Parker, A. (2005). Beauty in the classroom: Instructors' pulchritude and putative pedagogical
productivity. Economics of Education Review, 24(4), 369-376.
Hartnett, R. T., & Seligsohn, H. C. (1967). The effects of varying degrees of anonymity on response to different types of
psychological questionnaires. journal of educational measurement, 4, 95-103.
Holmes, D. S. (1972). Effects of grades and disconfirmed grade expenctancies on students' evaluation of their
instructor. Journal of Educational Psychology, 63, 130-133.
Howard, G. S., Conway, C. G., & Maxwell, S. E. (1985). Construct validity of measures of college teaching effectiveness.
Journal of Educational Psychology, 77, 187-196.
Howard, G. S., & Maxwell, S. E. (1982). Do grades contaminate students' evaluation of college teaching: A multi-trait
multimethod analysis. Journal of Educational Psychology, 74, 264-279.

Howard, G. S., & Maxwell, S. E. (1980). Correlation between student satisfaction and grades: A case of mistaken
causation ? Journal of Educational Psychology, 72, 810-820.
Jans, V., Leclercq, D., Denis, B., & Poumay, M. (1998). Projets d'animation réciproques multimédias (PARM). In D. Leclercq
(Ed.), Pour une pédagogie universitaire de qualité (pp. 207-242). Sprimont: Mardaga.
Johnson, T. (1999). Course experience questionnaire. Unpublished manuscript.
Jones, R. A. (1977). Self-fulfilling prophecies : Social, psychological and physiological effects of expectancies. New York:
Halsted Press.
Kahneman, D. A perspective on judgement and choice : Mapping bounded rationality. American Psychologist, 58, 697-698.
Kane, M., Crooks, T., & Cohen, A. (1999). Validating measures of performance. Educational Measurement: Issues and
Practice, 18(2), 5-17.
Kierstead, D., D'Agostino, P., & Dill, H. (1988). Sex role stereotyping of college professors: Bias in students' ratings of
instructors. Journal of Educational Psychology, 80(3), 342-344.
Knight, P. (2002). A systematic approach to professional developpement : Learning as practice. Teaching and Teacher
Education, 18(3), 229-241.
Kulik, J. A. (2001). Student rating: Validity, utility, and controversy. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The
student ratings debate: Are they valid? how can we best use them? (New Directions for Institutional Research ed.,
). San Francisco: Jossey Bass.
Kulik, J. A., & McKeachie, W. J. (1975). The evaluation of teachers in higher education. In F. N. Kerlinger (Ed.), Review of
research in education (Itasca, Ill.:Peacock ed., )
Lather, P. (1986). Research as praxis. Harvard Educational Review, 56, 257-277.
Lewis, K. G. (2001). Making sense of student written comments. In K. G. Lewis (Ed.), Techniques and strategies for
interpreting student evaluations (pp. 25-32). San Francisco: Jossey Bass.
Lucas, A. F. (1990). The department chair as change agent. In P. Seldin (Ed.), How administrators can improve teaching.
moving from talk to action in higher education (pp. 63-88). San Francisco: Jossey-Bass.
Machel, D. F. (1989). A discourse on professional melancholia. Community Review, 9(1-2), 41-50.
Marsh, H. W. (1987). Students' evaluations of university teaching : Research findings, methodological issues, and
directions for future research. International Journal of Educational Research, 11(3), 255-388.
Marsh, H. W. (1984). Students evaluations of university teaching: Dimensionality, reliability,

validity, potential biases, and utility. Journal of Educational Psychology, 76(5), 707-754.
Marsh, H. W. (1983). Multidimensional ratings of teaching effectiveness by students from different academic settings
and their relation to student/ Course/Instructor characteristics. Journal of Educational Psychology, 75(1), 150-
166.
Marsh, H. W. (1982). Validity of students' evaluations of college teaching: A multitrait-multimethod analysis. Journal of
Educational Psychology, 74(2), 264-279.
Marsh, H. W. (1980). The influence of student, course, and instructor characteristics in evaluations of
university teaching. American Educational Research Journal, 17(2), 219-237.
Marsh, H. W., & Cooper, T. (1981). Prior subject interest, students' evaluations, and instructional effectiveness.
Multivariate Behavioral Research, 16, 82-104.
Marsh, H. W., & Dunkin, M. (1992). Students' evaluations of university teaching: A multidimensional perspective. In J. C.
Smart (Ed.), Higher education: Handbook on theory and research (pp. 143-234)Agathon Press.
Marsh, H. W., Fleiner, H., & Thomas, C. S. (1975). Validity and usefulness of student evaluations of instructional quality.
Marsh, H. W., Overall, J. U., & Kessler, S. P. (1979). Validity of student evaluations of instructional effectiveness : A
comparison of faculty self-evaluations and evaluations by their students. Journal of Educational Psychology, 71,
149-160.
Marsh, H. W., & Roche, L. A. (1997). Making students' evaluations of teaching effectiveness effective. American
Psychologist, 52, 1187-1197.
Marsh, H. W., & Ware, J. E. (1982). Effects of expressiveness, content coverage, and incentive on multidimensionnal
student rating scale : New interpretations of the dr. fox effect. Journal of Educational Psychology, 74, 126-134.
Mc Guigan, F. J. (1967). The G. statistics, an index of AMount learned. National Society for Programmed Instruction, 6,
14-16.
Mckeachie, W. J. (1997). Student ratings: The validity of use. American Psychologist, 52, 1218-1225.
McKeachie, W. J. (1979). Student rating of faculty : A reprise. Academe, 65, 384-397.
McKinnon, K. R., Walker, S. H., & Davis, D. (2000). Benchmarking, a manual for australian universities. Unpublished
manuscript.
Menges, R. J. Using evaluative information to improve instruction. In P. Seldin (Ed.), How administrators can improve
teaching. moving from talk to action in higher education (pp. 104-121). San Francisco: Jossey Bass.
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (pp. 13-104). New York: Macmillan.
Miller, D. M., & Linn, R. L. (2000). Validation of performance-based Assessments

. Applied Psychological Measurement, 24(4), 367-378.
Morrison, D. E. (1997). Overview of instructional consultation in north america. In K. Brinko, & R. Menges (Eds.),
Practically speaking: A sourcebook for instructional consultants in higher education ()Stillwater, Oklahoma : New
Forums Press.
Morrison, K. R. B. Planning and accomplisging school-centered evaluation. Dereham, UK: Peter Francis.
Murray, H. G. (1984). The impact of formative and summative evaluation of teaching in north american universities.
Assessment and Evaluation in Higher Education, 9(2), 117-132.
Murray, H. G., Rushton, J. P., & Paunomen, S. V. (1990). Teacher personality traits and student instructional ratings in six
types of university courses 82(2):250-61. Journal of Educational Psychology, 82(2), 250-261.
Nadeau, M. A. (1990). L’évaluation de programme : Théorie et pratique. Laval: Presse Universitaire de Laval.
Naftulin, D. h., Ware, J. E., & Donnelly, F. A. (1973). The doctor fox lecture: A paradigm of educational seduction.
Journal Of Medical Education, 48, 630-635.
Newby, P. Culture and quality in higher education. Higher Education Policy, 12, 261-275.
Oppenheim, A. N. (1992). Questionnaire design, interviewing and attitude measurement. London: Pinter.
Ory, J. C. (2001). Faculty thoughts and concerns about student ratings. In K. G. Lewis (Ed.), Techniques and strategies
for interpreting student evaluations (pp. 3-15). San Francisco: Jossey-Bass.
Ory, J. C. (1980). The influence od students' affective entry on instructor and course evaluations. Review of Higher
Education, 4, 13-24.
Ory, J. C., & Ryan, K. (2001). How do student ratings measure up to a new validity framework?'. In M. Theall, P. C. Abrami
& L. A. Mets (Eds.), The student ratings debate: Are they valid? how can we best use them? (pp. 27-44). San
Francisco: Jossey-Bass.
Overall, J. U., & Marsh, H. W. (1979). Midterm feedback from student: Its relationship to instructional improvement ans
students' cognitive and affective outcoms. Journal of Educational Psychology, , 856-865.
Parchemal, Y., & Ycart, B. (2002). Evaluation en ligne des enseignements : Le logiciel QUESTEL. Sciences et techniques
éducatives, 9, 491-500.
Paulsen, M. B., & Feldman, K. A. (1992). Toward a reconceptualization of scholarship. Journal of Higher Education, 66(6),
615-640.
Perry, R. P., Abrami, P. C., Leventhal, L., & Check, J. (1979). Instructor reputation: An expectancy relationship involving
student ratings and achievement. Journal of Educational Psychology, 71, 776-787.
Piéron, H. (1963). Examens et docimologie. Paris: Presse Universitire de France.
Potocki Malicet, D. (2001). Les défis de l'évaluation des enseignements dans les universités. In L. Demailly (Ed.), Évaluer
les politiques éducatives (). Bruxelles: de boek.
Powell, R. W. Grades, learning, and student evaluation of instruction. Research in Higher Education, 7, 193-205.
Ramsden, P., & Entwistle, N. J. (1981). Effects of academics departments on students’ approaches to studying. British
Rege Colet, N. (2002). L’arroseur arrosé. evaluation d’un service d’appui à l’évaluation de l’enseignement.
Rege Colet, N., & Durand, N. (2005). Evaluation de l'enseignement à l'université de geneve : Mesure d'impact sur les
pratiques enseignantes. Unpublished manuscript.
Rege Colet, N., & Romainville, M. (2006). La pratique enseignante en mutation à l'université. Bruxelles: de boek.
Richlin, L., & Manning, B. (1996). Using portfolios to document teaching excellence. In M. D. Svinicki, & R. J. Menges
(Eds.), Honoring exemplary teaching (pp. 65-70). San Francisco: Jossey-Bass.
Richlin, L., & Manning, B. (1996). Using portfolios to document teaching excellence. New Directions for Teaching and
Learning, 65, 65-70.
Rodin, M., & Rodin, B. (1972). Student evaluations of teachers. Science, 177(4055), 1164-1166.
Sandler, B. R. (1992). Success and survival strategies for women faculty members Washington, DC: Association of
American Colleges.
Sax, L. J., Gilmartinm, S. K., & Bryant, A. N. (2003). Assessing response rates and nonresponse bias in web and paper
surveys. Research in Higher Education, 44(4)
Scriven, M. (1983). Summative teacher evaluation. In J. Milman (Ed.), Handbook of teacher evaluation ()Thousand Oaks,
Calif. : Sage.
Seldin, P. (1993). The use and abuse of student ratings of instruction. The chronicle of Higher Education, , A-40.
Shore, B. M. (1975). Moving beyond the course evaluation questionnaire in evaluating university teaching. CAUT Bulletin,
23(4), 7-10.
Snyder, C. R., & Clair, M. (1976). Effects of expected and obtained grades on teacher evaluation and attribution of
performance. Journal of Educational Psychology, 68, 75-82.
Spence, L., & Lenze, L. F. (2001). Taking student criticism seriously: Using student quality teams to guide critical
reflection. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 55-62). San
Statham, A., Richardson, L., & Cook, J. A. (1991). Gender and university teaching: A negotiated differenceAlbany: State
University of New York Press.
Stone, E. F., Spool, M. D., & Rabinowitz, S. (1977). Effects of anonymity and retaliatority potential on student evaluations
of faculty performance. Research in Higher Education, 6, 313-325.
Theall, M. (2002). Student rating :Myths vs research evidence. Brigham Young University's FOCUS ON FACULTY
Newsletter, 10(3), 2.
Theall, M. (2001). Can we put precision into practice ? commentary and thought. In M. Theall, P. C. Abrami & L. A. Mets
(Eds.), The student ratings debate: Are they valid? how can we best use them ? (). San Francisco: Jossey Bass.
Theall, M., & Franklin, J. (2001). Looking for bias in all th wrong places: A search for truth or a with hunt in student
ratings of instruction. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate:Are they valid?
how can best use them? (pp. 45-56). San Francisco: Jossey Bass.
Theall, M., & Franklin, J. (1990). Student ratings of instruction: Issues for improving practice. In M. Theall, & J. Franklin
(Eds.), New directions for teaching and learning (). San Francisco: Jossey-Bass.
Thivierge, A., & Bernard, H. (1996). Les croyances des étudiants à l'égard de l'évaluation de l'ensignement. Mesure et
évaluation en éducation, 18(3), 59-84.
Tiberius, R. (2001). Making sense and making use of feedback from focus groups. In K. G. Lewis (Ed.), Techniques and
strategies for interpreting student evaluations (pp. 63-75). San Francisco: Jossey Bass.
Trinquier, M. P., & Terrisse, A. (2004). Entre prévision et réalité du cours : Regards croisés sur les pratiques et les
représentations des enseignants de DEUG. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans
l'enseignement supérieur : Enseigner, apprendre, évaluer (pp. 53-92)L'harmattan.
Trowler, P. (1998). Academics responding to change: New higher education frameworks and academic cultures.
Buckingham: SRHE and Open University Press.
Vasta, R., & Sarmiento, R. F. (1979). (1979). Liberal grading improves evaluations but not performance. Journal of
Educational Psychology, 71, 207-211.
Vernon, D. T. A., & Blake, R. L. (1993). Does problem-based learning work ? a méta-analysis of evaluative research.
Academic Medicine, 68, 550-563.
Viau, R. (1997). La motivation en contexte scolaire. Bruxelles: de boek.
Wagner, W., Duveen, G., Farr, R., Jovchelovitch, S., Lorenzi-Cioldi, F., Markova, I., et al. (1999). Theory and method of
social representations. Asian journal of Social Psychology, 2, 95-125.
Weiner, B. (1986). An attributional theory of motivation. New York: Springer-Verlag.
Williams, W. M., & Ceci, S. J. (1997). How'm I doing? problems with student ratings of instructors and courses. Change,
29(5), 13-23.
Wilson, N., & McLean, S. (1994). Questionnaire design : A practical introduction. Newtown Abbay: University of Ulsters
Press.

Worthington, A. G., & Wong, P. T. P. (1979). Effects of learned and assigned grades on student evaluation of an
instructor. Journal of Educational Psychology, 71, 764-775.
Wright, W. A., & O’Neil, M. C. (1995). Teaching improvement practices : International perspectives. In W. A. Wright
(Ed.), Teaching improvement practices. successful strategies for higher education (pp. 1-57). Bolton: Anker
Publishing.
Younes, N. (2006). L’effet évaluation de l’enseignement supérieur par les étudiants. Unpublished Thèse présentée pour
l’obtention du grade de docteur de l’Université Discipline : Sciences de l’éducation, Grenoble.
Younes, N. (2005). Démarche d’implantation d’un logiciel d’évaluation de l’enseignement fonctionnant sur
intranet/Internet. les apports du système qualiense. International Journal of Technologies in Higher Education,
2(1), 52-58.


Evaluation Des Enseignements: de La Contrainte

Transféré par

Droits d'auteur :

Formats disponibles

Evaluation Des Enseignements: de La Contrainte

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Evaluation Des Enseignements: de La Contrainte

Transféré par

Droits d'auteur :

Formats disponibles

Evaluation des enseignements : de la

contrainte administrative à l'amélioration

Fribourg, 24 septembre 2007

Pascal Detroz (p.detroz@ulg.ac.be)

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

1.1. La validité de la mesure

L’essentiel de la littérature du vingtième siècle a porté sur la validité et la fidélité de la mesure

Ce relatif paradoxe s’explique par la difficulté méthodologique d’évaluer la fidélité de l’EEE.

1.1.1 L’approche multitrait-multiméthode

En conclusion, si l’approche multitrait-multiméthode révèle une bonne corrélation entre l’EEE et

1.1.2 L’approche Multisection

1.1.3 L’analyse des biais

• Les biais liés à l’enseignant

• Les biais liés aux étudiants

Plus sérieuse, la méta-analyse de Cohen (1981) sur le sujet conclut à une

Le second est lié à certaines variables contextuelles. Ainsi les variables

Ils disent qu’il est probable qu’une variable causale, la qualité de

A noter que l’analyse des corrélations entre score à l’examen et résultats

Ce phénomène paradoxal a été discuté par Abrami (2001). Il explique que ce

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

• Les biais liés au contexte

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

1.1.4 Les méthodes de Laboratoire

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

1.1.5. Le structure conceptuelle de l’EEE.

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

• Principe de précaution : même si certains auteurs, comme Abrami (2001) continuent à

• Principe d’analyse systématique de l’efficacité : comme le relevé de la littérature que

Quant au modèle de Centra (1993), le NVHM, il constitue un modèle intéressant pour

• Un objectif formatif clairement distingué d’un objectif administratif (contrôle).

2. Modèle de création et de gestion qualité des évaluations des

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

Niveaux et Objets d'évaluation

Construction des outils d'évaluation

Mise en œuvre de l'outil

2.1. Introduction au modèle CGQEEE

2.1.1. Logiques et Objectifs de l’évaluation des enseignements

2.1.2. Niveaux et Objets d’évaluation

Que cherche-t-on à évaluer ? Le contenu de l’enseignement, les capacités du professeur à

2.1.3. Définitions des outils d’évaluation

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

2.1.4. Construction des outils d’évaluation

2.1.5. Mise en œuvre de l’outil

2.1.6. Traitements et jugements

2.1.7. Décisions de régulation

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

2.1.9. Contextualisation – acceptation

2.1.12. Micro - Régulation

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

2.3. Niveaux et Objets d’évaluation

2.3.1. Les niveaux de l’évaluation

Objectifs Micro Meso Macro

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

Legende : en grisé figure les croisements possibes.

• La conformité à la norme ou l’approche dogmatique

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

1. la préoccupation du professeur envers les progrès de l’étudiant

• L’approche Evidence Based