Évaluation des acquis : principes, méthodologie, résultats

Au-delà des résultats individuels, les « évaluations standardisées » des acquis des élèves cherchent à rendre compte de la performance du système éducatif dans sa globalité. Ce numéro de la revue Éducation & formations s’intéresse aux fondements conceptuels de ces évaluations, à leurs caractéristiques méthodologiques et à leur fonction dans le champ de l’éducation.

Coordination éditoriale : Thierry Rocher et Caroline Simonis-Sueur

Avant-propos

Parmi les multiples formes d’évaluation (formative, certificative, diagnostique, auto-évaluation), les « évaluations standardisées » ont pour ambition de fournir une mesure objective des acquis des élèves, fondée sur des méthodes scientifiques et indépendante des conditions d’observation et de correction. Thierry Rocher présente les différentes facettes de ces dispositifs et les met en perspective. Dans ce numéro, une première partie développe ainsi les problématiques, les usages et les concepts spécifiques aux évaluations standardisées, une deuxième détaille certains aspects de méthodologie, tandis que la troisième s’attache à l’analyse des résultats.

 

1. Objectifs, construction et usages des évaluations

Les évaluations standardisées des élèves. Perspective historique, par Bruno Trosseille et Thierry Rocher
Depuis une quarantaine d’années, le ministère a mis en œuvre des évaluations tantôt « de masse », tantôt sur échantillons. Ces évaluations peuvent avoir deux fonctions principales : de diagnostic lorsqu’elles sont élaborées pour fournir aux enseignants des outils professionnels qui leur sont nécessaires pour adapter leur enseignement en fonction des acquis de leurs élèves ; de bilan lorsque l’objectif est d’observer les acquis des élèves et leur évolution pour le pilotage d’ensemble du système éducatif. La confusion, dans une même évaluation, de ces deux fonctions est potentiellement source d’erreurs et de troubles, tant sur le plan scientifique que sociétal. Après avoir décrit l’histoire entrelacée de ces deux types d’évaluations, nous envisageons l’avenir du paysage évaluatif et la façon dont il peut se réorganiser en fonction des différentes finalités qui lui sont aujourd’hui assignées et des défis qu’il devra affronter à l'avenir.

Mesure des compétences. Méthodes psychométriques utilisées dans le cadre des évaluations des élèves, par Thierry Rocher
Cet article présente les méthodes psychométriques qui sont généralement employées dans les programmes d’évaluations standardisées des compétences des élèves, au niveau national et au niveau international. Nous proposons un panorama de ces méthodes, de façon pédagogique, mais également technique. Leurs fondements théoriques ainsi que leurs hypothèses sous-jacentes sont présentés. Nous montrons leur intérêt d’un point de vue pratique, mais également leurs limites. Enfin, une description des analyses psychométriques réalisées dans le cadre d’une évaluation du cycle Cedre est proposée.

Les épreuves standardisées. Élément-clé du pilotage du système éducatif luxembourgeois, par Christophe Dierendonck, Amina Kafaï, Antoine Fischbach, Romain Martin et Sonja Ugen
Jusqu’au début des années 2000, le pilotage de l’école luxembourgeoise s’opérait uniquement en référence aux inputs investis dans le système. Depuis lors, on assiste à une transformation progressive vers un pilotage par les outputs atteints par le système, basé sur la conduite d’évaluations externes des acquis des élèves et sur la mise en projet de développement de la qualité scolaire de tous les établissements scolaires. Dans ce contexte, depuis l’année scolaire 2008-2009, des évaluations externes des acquis des élèves, appelées « Épreuves Standardisées » (ÉpStan), sont conduites dans toutes les classes de grade 3 (CE2 en France) et de grade 9 (troisième en France), et le dispositif tend à s'élargir.
Ces épreuves sont commanditées par le ministère de l'Éducation nationale, de l'Enfance et de la Jeunesse (MENJE) et élaborées par le Luxembourg Centre for Educational Testing (LUCET) de l’université du Luxembourg. Par ailleurs, l’Agence pour le Développement de la Qualité Scolaire (ADQS) a été créée en 2009 au sein du MENJE pour accompagner les établissements scolaires dans la définition et la mise en œuvre de leur projet de développement scolaire. Dans cet article, l’accent est mis sur la présentation des objectifs et de la méthodologie des ÉpStan ainsi que sur l’utilisation, par le LUCET et par l’ADQS, des résultats de ces épreuves à des fins de pilotage du système éducatif et de développement de la qualité scolaire. L’article se termine sur une présentation des défis futurs du LUCET et de l’ADQS.

L’évaluation des compétences des adultes. Quelles contraintes ? Quelles spécificités ? par Fabrice Murat et Thierry Rocher
Évaluer les compétences des adultes est une opération bien plus complexe qu’évaluer les élèves. Les adultes sont sortis souvent depuis fort longtemps de l’école, ne sont plus habitués à la situation d’évaluation et en gardent parfois un mauvais souvenir. De plus, les conditions de passation, au domicile des personnes interrogées, sont aussi plus difficiles que les évaluations dans les salles de classe. Pour résoudre ces problèmes, des méthodologies spécifiques ont été développées ces dernières années, la demande de statistiques sur ce sujet ayant émergé au début des années 1990.
Deux dispositifs d’enquêtes se dessinent : les enquêtes internationales (IALS, International Adult Literacy Survey ; ALLS, Adult Literacy and Life Skills Survey ; Piaac, Program for the International Assesment of Adult) sous l’égide de l’OCDE et les enquêtes françaises (IVQ, Information et vie quotidienne) pilotées par l’Insee. Cet article fait le point sur la méthodologie, les contraintes communes à ce type d’enquête et les points où les deux dispositifs se distinguent.

2. Méthodologie des évaluations

Méthodes de sondages utilisées dans les programmes d’évaluations des élèves, par Émilie Garcia, Marion Le Cam et Thierry Rocher
Cet article porte sur les méthodes de sondages utilisées à la DEPP dans le cadre des dispositifs d’évaluations standardisées des acquis des élèves. Chaque année, plusieurs échantillons d’élèves sont tirés au sort pour passer ces évaluations. Des problématiques classiques du domaine des sondages se posent, concernant par exemple la définition du champ, les bases de sondage, les modalités de tirage, etc. qui doivent répondre à certaines contraintes pratiques. En outre, dans la mesure où plusieurs échantillons sont tirés à partir des mêmes bases, la question de la coordination de leur tirage doit être traitée. Dans un premier temps, nous présentons les choix faits en matière de méthode de sondage, à toutes les étapes, du tirage des échantillons au redressement de la non-réponse. Dans un second temps, nous conduisons plusieurs simulations qui visent à montrer l’intérêt d’utiliser des informations auxiliaires, c’est-à-dire disponibles pour l’ensemble des élèves. Ces informations peuvent être prises en compte lors du tirage, avec les méthodes d’équilibrage, ou lors du redressement de la non-réponse, avec les méthodes de calage sur marges. Nous montrons que les stratégies prenant en compte l’information auxiliaire, employées dans les évaluations nationales menées par la DEPP, améliorent la qualité des estimateurs, en comparaison d’autres stratégies telles que celles employées dans le cadre des évaluations internationales comme PIRLS ou PISA.

La motivation des élèves français face à des évaluations à faibles enjeux. Comment la mesurer ? Son impact sur les réponses, par Saskia Keskpaik et Thierry Rocher
Les évaluations standardisées des élèves, telles que Cedre ou PISA, renvoient à des enjeux politiques croissants, alors qu’elles restent à faibles enjeux pour les élèves participants. Dans le système éducatif français, où la notation tient une place prépondérante, la question de la motivation des élèves face à ces évaluations mérite d’être posée. En 2011, afin d’explorer cette question, une expérience a été menée en France à partir du test PISA.
Suite à cette expérience, un instrument pour mesurer la motivation a été adapté à partir du « thermomètre d’effort » proposé dans PISA. Cet instrument a été introduit dans plusieurs évaluations conduites au niveau national par la DEPP, sur des échantillons de plusieurs milliers d’élèves, en fin de primaire (CM2) et en fin de collège (troisième).
Ces données permettent de distinguer la motivation de l’élève de la difficulté perçue du test, et ainsi de mieux appréhender le lien entre la motivation des élèves français et leur performance. L’analyse de ces données renseigne en outre sur le rôle de certaines caractéristiques, des élèves ou des évaluations elles-mêmes, dans le degré de motivation à répondre aux questions de l’évaluation.

Détermination de standards minimaux pour évaluer les compétences du socle commun, par Nicolas Miconnet et Ronan Vourc’h
Depuis 2012, la DEPP est en charge de la production d’indicateurs relatifs à la maîtrise des compétences du socle commun. Pour ce faire, elle a progressivement mis en place des évaluations standardisées auprès d’échantillons représentatifs d’élèves en fin de CM2 et en fin de troisième. Celles-ci permettent de recueillir des informations fiables et comparables dans le temps, alors que celles obtenues à partir de l’attribution des compétences du socle commun par les enseignants peuvent varier en fonction des caractéristiques individuelles des élèves, mais aussi de facteurs liés à leur établissement.
La mise au point de tels indicateurs impose d’établir des scores seuils permettant de distinguer ceux qui atteignent la compétence évaluée et ceux qui ne l’atteignent pas. Pour cela, on a recours à des méthodes qui confrontent les résultats issus des évaluations standardisées avec le jugement d’enseignants et d’experts sur le niveau des élèves et le contenu des évaluations.
Parmi les méthodes utilisées, celle dite « des marque-pages » se révèle la mieux adaptée à ce contexte d’évaluation. Elle permet, à l’exception des langues vivantes étrangères au collège, d’aboutir à des pourcentages de validation qui varient d’environ 70 % à 80 % selon les niveaux scolaires et les disciplines. Ces pourcentages ainsi déterminés diffèrent selon
le secteur de scolarisation, le sexe et l’âge. Enfin, l’analyse du devenir d’un échantillon d’élèves de troisième vient conforter la démarche mise en œuvre pour déterminer les seuils de maîtrise.

Une évaluation sous forme numérique est-elle comparable à une évaluation de type « papier-crayon » ? par Pascal Bessonneau, Philippe Arzoumanian et Jean-Marc Pastor
Aujourd’hui, la place prépondérante prise par l’informatique questionne l’école sur la transition d’un environnement dominé par le papier vers un environnement dominé par le support numérique. Cette transition est en marche dans le domaine des évaluations standardisées. Cependant, la question de la comparabilité de la mesure est posée. L’hypothèse sous-jacente d’une transition naturelle et sans contrainte d’un support à l’autre doit en effet être interrogée.
De nombreux articles tirés de la littérature scientifique comparent les performances des élèves à des évaluations proposées sur support papier et sur support électronique. Ces études indiquent des résultats divergents. Les tests sont parfois plus faciles, parfois plus difficiles, ou de même difficulté. Une question se pose : un item peut-il être proposé aux élèves à l’identique dans les deux supports sans influencer sa difficulté et sans provoquer de modification des compétences mises en jeu ?
L’article présente les résultats de deux expériences menées sur ce thème dans le cadre des évaluations standardisées conduites par la DEPP. La première cherche à identifier les différences de difficulté des items entre le support papier et le support numérique, à partir d’une évaluation des compétences de base en français et en mathématiques conduite en fin de primaire. La seconde expérience tente de dégager les variables explicatives de ces différences sur la base d’une étude menée en mathématiques en fin d’école et en fin de collège dans le cadre de Cedre.

3. Analyses et résultats des évaluations

Les compétences des élèves français en anglais en fin d’école et en fin de collège. Quelles évolutions de 2004 à 2010 ? par Sylvie Beuzon, Émilie Garcia et Corinne Marchois
Les évaluations Cedre de 2004 et de 2010 en anglais nous ont permis de mesurer l’évolution des acquis des élèves de fin de CM2 et de fin de troisième à six ans d’intervalle. Ces évaluations, portant sur trois des cinq activités langagières – compréhension de l’oral, compréhension de l’écrit et expression écrite – montrent que les résultats des élèves de fin de CM2 sont en hausse significative, alors que ceux des élèves de fin de troisième affichent une tendance inverse. Après avoir rappelé le contenu de ces évaluations, nous en présenterons les résultats et formulerons des hypothèses pour expliquer l’évolution des performances des élèves entre 2004 et 2010.
À l’école, il semble que trois facteurs aient joué un rôle prépondérant : les efforts de formation continue pour les enseignants d’une part, un contact plus fréquent des élèves avec la langue anglaise en dehors du cadre scolaire d’autre part et enfin la volonté grandissante des parents de voir leur enfant mieux maîtriser l’anglais. Au collège, la baisse des résultats est davantage multifactorielle. À peine deux élèves sur dix ont une perception positive de leurs performances en anglais ; ils ne se sentent pas encouragés par leurs enseignants. Les nouvelles technologies sont encore trop rarement utilisées en classe et contrairement à l’école, l’exposition à la langue en dehors du cadre scolaire reste trop faible.

Évolution des acquis cognitifs au collège au regard de l’environnement de l’élève. Constat et mise en perspective longitudinale, par Linda Ben Ali et Ronan Vourc’h
Cet article s’appuie sur l’exploitation des données du panel d’élèves du second degré initié par la DEPP en 2007. Il s’intéresse aux évolutions des acquis cognitifs entre la sixième et la troisième en lien avec l’environnement socioculturel. Pour cela, sont mobilisés les résultats d’évaluations standardisées mises en œuvre lors de ces deux moments de mesure. L’objectif principal est de vérifier si les écarts sociaux qui peuvent être identifiés à la sortie de l’école primaire se creusent ou, au contraire, se réduisent pendant les années passées au collège.
Lorsque l’on s’intéresse aux résultats des tests effectués en fin de troisième, il apparaît que la réussite dépend avant tout du niveau initial des collégiens – les élèves les plus compétents en sixième tendent à le rester en troisième – mais aussi de leurs caractéristiques sociales. En effet, les enfants de cadres et de diplômés de l’enseignement supérieur réussissent mieux tous les tests de fin de troisième que les enfants d’ouvriers ou ceux dont les parents sont dépourvus de diplôme.
Quant aux analyses portant sur la progression des élèves en tenant compte de leur niveau initial, elles indiquent une stabilité des écarts sociaux, déjà marqués en sixième, pour les épreuves de compréhension et de raisonnement logique. En revanche, pour les compétences en mathématiques et en mémoire encyclopédique, les inégalités sociales se creusent entre la sixième et la troisième.

Nouvelles analyses de l’enquête PISA 2012 en mathématiques, un autre regard sur les résultats, par Éric Roditi et Franck Salles
Les enquêtes PISA visent un suivi des acquis scolaires des élèves de 15 ans. En ce qui concerne ceux de la culture mathématique, le choix de l’OCDE est d’évaluer des compétences, c’est-à-dire des capacités à mobiliser ses connaissances pour résoudre un problème en lien avec une situation de la vie réelle. Un regard didactique porté sur l’évaluation de 2012 montre que les classifications utilisées par l’OCDE ne permettent ni de recenser précisément les connaissances acquises des élèves ni d’estimer le niveau d’acquisition de ces connaissances.
Les auteurs proposent ici une nouvelle classification des items permettant de distinguer différents niveaux d’utilisation des connaissances mathématiques pour résoudre les problèmes proposés. Ils cherchent ainsi à mieux connaître les acquis des élèves. La présentation de cette classification et de son intérêt s’appuie sur l’analyse de quelques exemples extraits de PISA 2012. Une étude complète de l’ensemble des items PISA 2012 à l’aune de cette nouvelle classification est ensuite proposée. Elle confirme la pertinence de la classification, notamment par une mise en lien du niveau d’exigence des items et de la réussite des élèves à ces items.
Puis les auteurs procèdent à un examen particulier du cas de la France. En s’appuyant sur cette même classification, ils enrichissent et nuancent les résultats de l’OCDE concernant les inégalités de performances des élèves selon le sexe, l’origine sociale ou le retard scolaire. Leurs analyses montrent notamment que les filles sont d’autant plus pénalisées que les tâches leur demandent de l’initiative, et que les difficultés des élèves en retard scolaire ou de milieu populaire ne sont pas accrues lorsque les activités attendues d’eux sont plus exigeantes.

Évaluation des compétences des jeunes en numératie lors de la Journée défense et citoyenneté, par Stéphane Herrero, Thomas Huguet et Ronan Vourc’h
Depuis sa création en 1998, la Journée défense et citoyenneté (JDC, ex. Journée d’appel de préparation à la défense – JAPD), permet d’évaluer chaque année les performances en lecture d’environ 700 000 jeunes. En 2013, une évaluation complémentaire s’est tenue auprès d’un échantillon de 56 000 jeunes afin de mesurer la proportion de ceux qui sont en difficulté dans l’utilisation des mathématiques de la vie quotidienne (numératie) et afin d’observer les recoupements et les différences avec les performances en lecture.
Cette étude montre que 9,7 % des jeunes ont des difficultés en numératie. Pour la moitié d’entre eux, ces difficultés sont très importantes. De plus, il apparaît qu’environ 14 % des enquêtés présentent des difficultés dans au moins l’un des deux domaines et que des difficultés en lecture n'en impliquent pas nécessairement en numératie et inversement.
Dépassant la seule quantification des jeunes en difficulté en numératie, cette étude décrit qualitativement, tant sur un plan cognitif que conatif, plusieurs profils concernés. Elle distingue, en particulier, un groupe de jeunes confrontés à l’innumérisme. Elle décrit leurs acquis ainsi que leurs lacunes, sources de profondes difficultés au quotidien. Elle montre aussi une concentration de ces difficultés dans les régions du nord de la France métropolitaine.
En apportant un éclairage inédit sur la non-maîtrise des mathématiques élémentaires à l’entrée de la vie adulte, cet article pose enfin la question d’une meilleure prise en compte de la numératie dans les dispositifs de remédiation à la difficulté, dans un contexte où la priorité est donnée à la maîtrise de la lecture.

Évaluation des effets du dispositif expérimental d’enseignement intégré de science et technologie (EIST), par Marion Le Cam et Olivier Cosnefroy
Cet article présente les résultats de l’évaluation des effets du dispositif expérimental d’enseignement intégré de science et technologie. Ce dispositif a été évalué à partir de la rentrée 2008. Pendant quatre ans, une cohorte composée d’élèves ayant bénéficié de l’EIST en classe de sixième et d’élèves n’en ayant pas bénéficié, a été suivie jusqu’en fin de troisième et évaluée à cinq reprises. Ces évaluations permettent de mesurer l’évolution d’un score cognitif de performance en sciences des élèves, ainsi que de deux scores conatifs mesurant la motivation intrinsèque pour les sciences et l’intérêt pour les sciences en dehors de l’école. Des modélisations ont été engagées pour identifier l’existence d’un effet de l’EIST sur la progression des élèves en sciences, et sur l’évolution de leurs attitudes envers les sciences au cours du temps. Nous n’observons pas d’effet de l’EIST sur la progression des performances en sciences des élèves tout au long de leur scolarité au collège. En moyenne, l’intérêt et la motivation des élèves pour les sciences tendent à décroître au cours des années de collège. Si les élèves ayant bénéficié de l’EIST présentent un niveau de motivation légèrement plus élevé en début de sixième, cet écart moyen reste cependant stable jusqu’en fin de collège.