Cycle des évaluations disciplinaires réalisées sur échantillon (Cedre) en fin d'école et fin de collège : méthodologie et démarche qualité

Le cycle des évaluations disciplinaires réalisées sur échantillons (Cedre), engagé depuis 2003, permet de mesurer les compétences des élèves en fin d’école et en fin de collège.

Le calendrier des évaluations-bilans CEDRE

Le cycle des évaluations disciplinaires réalisées sur échantillon couvre la plupart des domaines disciplinaires en référence aux programmes : maîtrise de la langue (école), compétences générales et langagières (collège), langues vivantes étrangères, histoire-géographie et éducation civique, sciences expérimentales, mathématiques. La présentation des résultats permet de situer les performances des élèves sur des échelles de niveau. Renouvelées à intervalle régulier, ces évaluations permettent de suivre l’évolution du "niveau des élèves" dans le temps. L’analyse fine des compétences dans les différentes disciplines constitue en soi un matériau très riche au service des enseignants.

La mise en œuvre de l’évaluation

La passation des épreuves a lieu en fin d’année scolaire. La méthodologie prévoit un déroulement de l’enquête sur trois années :

Première étape, année n - 1 : expérimentation d’un nombre conséquent d’items auprès d’un échantillon restreint d’élèves la première année ;
Première étape, année n : sélection des items valides à partir des résultats de l’expérimentation, sélection des items repris des évaluations précédentes pour assurer les comparaisons temporelles, passation de l’évaluation ;
Troisième étape, année n + 1 : analyse et publication des résultats.
À l’école, la population visée est celle des élèves de CM2 des écoles publiques et privées sous contrat de France métropolitaine. Une stratification est effectuée sur le secteur de l’établissement (public hors zone d’éducation prioritaire, zone d’éducation prioritaire et privé sous contrat). Dans chaque école sélectionnée, tous les élèves de CM2 sont évalués (par exemple, cela représentait environ 8 600 élèves répartis dans près de 300 écoles pour l’évaluation en mathématiques en 2014). Pour tenir compte de la non-réponse, les échantillons sont redressés afin d’assurer la représentativité selon le secteur.

Au collège, la population visée est celle des élèves de troisième générale des collèges publics et privés sous contrat de France métropolitaine. Une stratification est aussi effectuée sur le secteur de l’établissement. Des classes de troisième sont sélectionnées aléatoirement en vue d’une représentativité nationale (par exemple, cela représentait environ 8 400 élèves répartis dans plus de 300 classes pour l’évaluation en mathématiques en 2014). Pour tenir compte de la non-réponse, les échantillons sont redressés afin d’assurer leur représentativité selon le secteur, le sexe et le retard scolaire.

Si chaque élève devait passer l’ensemble des situations proposées, au moins six heures d’évaluation par élève seraient nécessaires. Pour limiter la passation à deux heures pour chaque élève, les items sont regroupés en « blocs » répartis ensuite dans des cahiers différents selon un plan expérimental, organisant un tuilage des blocs. Ce dispositif, couramment utilisé dans les évaluations Cedre et internationales, permet d’estimer la probabilité de réussite à chaque item sans que chaque élève ne passe l’ensemble des items.

La construction de l’échelle de performance

Une échelle de performances est élaborée en utilisant les modèles de réponse à l’item. Le score moyen, correspondant à la performance moyenne des élèves de l’échantillon de l’évaluation initiale, est fixé par construction à 250 et l’écart-type à 50. Cela implique qu’environ deux tiers des élèves ont un score compris entre 200 et 300. Mais cette échelle, comme celle de l’enquête PISA, n’a aucune valeur normative et, en particulier, la moyenne de 250 ne constitue en rien un seuil qui correspondrait à des compétences minimales à atteindre.
Sur la base de constats fréquemment établis dans les différentes évaluations antérieures de la Depp, la partie la plus basse de l’échelle est constituée des scores obtenus par les 15 % d’élèves ayant les résultats les plus faibles. A l’opposé, la partie supérieure constituée des scores les plus élevés rassemble 10 % des élèves. Entre ces deux niveaux, l’échelle est scindée en trois parties d’amplitudes de scores égales correspondant à trois groupes intermédiaires.
Les modèles de réponse à l’item ont l’avantage de positionner sur la même échelle les scores des élèves et les difficultés des items. Cette correspondance permet de caractériser les compétences maîtrisées par chacun des groupes d’élèves.

Comparabilité entre deux évaluations

Afin de pouvoir comparer les résultats des enquêtes réalisées à plusieurs années d’intervalle, des items de l’évaluation initiale sont repris à l’identique dans la nouvelle évaluation. Par exemple, en 2014, 81 items de 2008 ont été repris à l’identique dans l’évaluation des performances en mathématiques en fin de collège. Lors de l’analyse des résultats, les modèles de réponse à l’item sont réutilisés et appliqués cette fois à l’ensemble des résultats des deux évaluations.
L’estimation conjointe des modèles de réponse à l’item à partir des données de deux évaluations et la présence d’items communs entre les deux évaluations permet la comparaison directe à la fois des scores des individus et des difficultés des items entre les deux passations.
Un soin particulier est apporté à l’analyse de ces items communs entre les deux évaluations. Ainsi les items retenus dans l’analyse finale doivent d’une part ne pas présenter de fonctionnement différentiel (par exemple un écart de taux de réussite entre les deux passations anormalement élevé), et d’autre part devait avoir des propriétés psychométriques satisfaisantes.
Les données de l’évaluation initiale sont donc ré-analysées dans cette perspective de comparaison. C’est pourquoi certaines différences notamment sur la valeur des scores seuils peuvent apparaître par rapport à la publication initiale.

Significativité

Les résultats des évaluations Cedre sont soumis à une variabilité qui dépend des erreurs d’échantillonnage. Il est possible d’estimer statistiquement ces erreurs d’échantillonnage et de produire des intervalles de confiance. Par exemple, le score moyen des élèves sur l’échelle de mathématiques en fin de collège était de 243 en 2014, mais le vrai score, tel qu’il serait calculé pour l’ensemble des élèves de troisième, se situait, avec une probabilité de 95 %, entre 240,4 et 245,6 (c’est-à-dire ± 2,6 points). Par conséquent, le score moyen des élèves de 2014 était significativement différent de celui des élèves de 2008, qui était de 250 (± 3,2 points).

Depuis l’évaluation des sciences expérimentales en 2013, chaque évaluation Cedre donne lieu à la publication d’un rapport technique précisant les méthodes utilisées dans le cadre de l'évaluation.

Rapport technique CEDRE mathématiques en fin d'école, décembre 2015

Rapport technique CEDRE mathématiques en fin de collège, décembre 2015

Rapport technique CEDRE sciences expérimentales en fin d’école, février 2015

Rapport technique CEDRE sciences expérimentales en fin de collège, février 2015

Rapport technique CEDRE maîtrise de la langue en fin d'école, février 2018

Rapport technique CEDRE compétences langagières et littératie en fin de collège, février 2018

Rapport technique CEDRE Anglais en fin d'école, mars 2018

Rapport technique CEDRE Anglais en fin de collège, octobre 2018

Rapport technique CEDRE Espagnol en fin de collège, octobre 2018

Rapport technique CEDRE Histoire Géo en fin d'école juin 2019

Rapport technique CEDRE Histoire Géo en fin de collège juin 2019

Rapport technique CEDRE sciences expérimentales Ecole 2018 - août 2020

Rapport technique CEDRE sciences expérimentales Collège 2018 - août 2020

Rapport technique CEDRE mathématiques Ecole 2019 – décembre 2022

Rapport technique CEDRE mathématiques Collège 2019 – décembre 2022

La certification qualité de l’enquête CEDRE

Elle s’inscrit dans le cadre de la démarche d’amélioration et de valorisation de la qualité de service mise en œuvre par la Depp, avec pour finalités :

d’inscrire les processus d’évaluation dans une dynamique pérenne d’amélioration continue
de renforcer la prise en compte des attentes des usagers dans la formalisation des objectifs des évaluations et la restitution de leurs résultats
de faire reconnaître par une certification de service la qualité du service rendu et la continuité du respect des engagements pris.

La démarche qualité engagée par la DEPP est fondée sur un référentiel élaboré sur mesure, selon une démarche officielle reconnue par les services publics et en lien avec les représentants des utilisateurs du service et les professionnels.

Engagements qualité

des objectifs clairs et partagés
des évaluations fondées sur l'expertise pédagogique
les meilleures pratiques méthodologiques et statistiques au service de l'objectivité
une mesure fiable et des comparaisons temporelles pertinentes
des analyses enrichies par des données de contexte
la transparence des méthodes et le partage des résultats

Certification de l’activité des évaluations CEDRE

Dans le cadre de sa démarche qualité, la direction de l’évaluation, de la prospective et de la performance (DEPP) a obtenu la certification de son activité évaluations des acquis des élèves « cycle des évaluations disciplinaires réalisées sur échantillon ». Cette certification est la reconnaissance de l’implication de tout le personnel et d’un engagement commun pour mener une démarche d'amélioration du service rendu à l'usager.