Annexe B. Notes techniques sur les analyses du présent rapport
Les statistiques exposées dans le présent rapport sont dérivées des données obtenues à partir d’échantillons d’établissements, de chefs d’établissement et d’enseignants. Ces échantillons ont été prélevés selon un plan d’échantillonnage probabiliste à deux degrés. Concrètement, les enseignants (les unités d’échantillonnage secondaires, ou du second degré) ont été sélectionnés de manière aléatoire parmi les enseignants admissibles de tous les établissements (les unités primaires, ou du premier degré) eux aussi sélectionnés de manière aléatoire. Les statistiques doivent être représentatives de l’ensemble de la population cible et non de l’échantillon dans lequel les données ont été recueillies pour qu’elles soient révélatrices. D’où la nécessité d’utiliser des coefficients de pondération pour que les estimations ne soient pas faussées par des paramètres relatifs à la population ou aux modèles.
Les coefficients de pondération permettent de faire des estimations à l’échelle de chaque pays ou économie à partir des données observées dans les échantillons. Les coefficients de pondération indiquent le nombre d’unités de la population à l’étude qu’une unité de l’échantillon représente. Ils sont calculés compte tenu de la combinaison de nombreux facteurs reflétant les probabilités de sélection aux différentes étapes de l’échantillonnage et de la réponse obtenue à chaque étape. D’autres facteurs peuvent également entrer en ligne de compte en fonction des conditions particulières qui permettent de garantir que les estimations ne sont pas faussées (c’est le cas par exemple lorsqu’une correction est apportée lorsque des enseignants travaillent dans plus d’un établissement).
Les statistiques exposées dans le présent rapport qui sont dérivées des réponses des chefs d’établissement et qui contribuent aux estimations relatives aux chefs d’établissement ont été pondérées selon les coefficients des établissements (SCHWGT). Les résultats dérivés soit uniquement des réponses des enseignants, soit de leurs réponses combinées avec celles des chefs d’établissement, ont été pondérés en fonction des coefficients des enseignants (TCHWGT).
Dans le présent rapport, plusieurs échelles sont utilisées dans les analyses de régression. Le processus de conception et de validation de ces échelles est décrit au chapitre 11 du rapport technique sur le cycle TALIS 2018 (OCDE, 2019[1]).
Les moyennes de l’Enquête internationale sur l’enseignement et l’apprentissage (TALIS), qui sont calculées au sujet de la plupart des indicateurs dont le présent rapport rend compte, correspondent à la moyenne arithmétique des estimations de chacun des pays et économie à chaque niveau d’enseignement défini selon la Classification internationale type de l’éducation (CITE). Lorsque les statistiques sont dérivées des réponses des enseignants et des chefs d’établissement en poste dans l’enseignement primaire, les moyennes sont calculées sur la base de 13 des 15 pays et économies qui ont administré le module de l’Enquête TALIS relatif à ce niveau d’enseignement (voir le Tableau A B.1). Les données de 2 de ces 15 pays et économies, l’Australie et les Pays-Bas, n’ont pas été adjugées, de sorte qu’elles n’interviennent pas dans le calcul des moyennes. Lorsque les statistiques sont dérivées des réponses des enseignants et des chefs d’établissement en poste dans le deuxième cycle de l’enseignement secondaire, les moyennes sont calculées sur la base des 11 pays et économies qui ont administré le module de l’Enquête TALIS relatif à ce niveau d’enseignement. Enfin, les moyennes de l’Enquête TALIS au sujet du premier cycle de l’enseignement secondaire sont calculées sur la base des pays et économies qui ont administré le module relatif à l’enseignement primaire ou au deuxième cycle de l’enseignement secondaire.
Les statistiques dont le présent rapport rend compte sont des estimations dérivées des échantillons d’enseignants et de chefs d’établissement, et non les chiffres qui auraient pu être calculés si tous les enseignants et chefs d’établissement avaient répondu à toutes les questions dans chaque pays et économie. D’où l’importance d’évaluer le degré d’incertitude des estimations. Dans l’Enquête TALIS, chaque estimation est associée à un degré d’incertitude exprimé sous la forme d’une erreur-type. L’utilisation d’intervalles de confiance permet de faire des inférences à propos des moyennes et des pourcentages d’une manière qui reflète l’incertitude associée aux estimations de l’échantillon. À partir d’une statistique observée dans l’échantillon et dans l’hypothèse d’une répartition normale, on peut déduire que le résultat obtenu se situe dans l’intervalle de confiance dans 95 échantillons différents prélevés dans la même population sur 100. Les erreurs-types ont été calculées à l’aide d’une méthode de répétition compensée (BRR).
Différences entre sous-groupes
La signification statistique des différences entre sous-groupes d’enseignants par caractéristique d’enseignant (enseignants vs enseignantes, par exemple), par caractéristique d’établissement (établissements à forte vs faible concentration d’élèves issus de milieux socio-économiques défavorisés, par exemple) et par niveau d’enseignement (enseignement primaire vs premier cycle de l’enseignement secondaire, par exemple) a été vérifiée. Toutes les différences indiquées en gras dans les tableaux du présent rapport sont significativement différentes d’un point de vue statistique de zéro à un degré de confiance de 95 %.
Si les différences portent sur des sous-groupes au même niveau d’enseignement, l’erreur type est calculée compte tenu du fait que les deux sous-échantillons ne sont pas indépendants. Il s’ensuit que la covariance estimée peut s’écarter de zéro, auquel cas l’erreur-type est moindre que si elle avait été calculée au sujet de la différence entre deux sous-échantillons indépendants. Si les différences portent sur des sous-groupes de niveaux d’enseignement différents, l’erreur-type est calculée compte tenu du fait que les deux sous-échantillons sont indépendants.
Les relations entre différentes variables ont été analysées par régression. La régression linéaire multiple a été utilisée dans les cas où la variable dépendante (ou de résultat) est continue. La régression logistique binaire a été utilisée lorsque la variable dépendante (ou de résultat) est catégorielle binaire. Ces analyses de régression ont été faites séparément dans chaque pays et économie. Comme dans d’autres statistiques du présent rapport, les moyennes de l’Enquête TALIS correspondent à la moyenne arithmétique des estimations des pays et économies concernés.
Les variables de contrôle retenues dans les modèles de régression sont choisies en fonction d’un raisonnement théorique et, de préférence, limitées aux mesures les plus objectives ou à celles qui n’évoluent pas dans le temps. Les variables de contrôle spécifiques aux enseignants sont notamment le sexe, l’âge, le régime contractuel (travail à temps plein ou partiel, par exemple) et l’ancienneté dans la profession. Les variables de contrôle spécifiques à la classe sont notamment les variables relatives à la taille de la classe et à sa composition (le pourcentage d’élèves dont la langue maternelle n’est pas la langue d’enseignement, d’élèves peu performants, d’élèves ayant des besoins spécifiques, d’élèves ayant des problèmes de comportement, d’élèves issus de milieux socio-économiques défavorisés, d’élèves très doués, d’élèves issus de l’immigration de la première ou deuxième génération, d’élèves réfugiés, etc.).
Dans les modèles de régression linéaire multiple, le pouvoir explicatif du modèle est indiqué par le coefficient « R » au carré (R²), soit le pourcentage de la variation observée de la variable dépendante (ou de résultat) qui peut être expliquée par les variables indépendantes (ou explicatives).
Analyse de régression linéaire multiple
L’analyse de régression linéaire multiple montre dans quelle mesure la valeur de la variable dépendante continue (ou du résultat) change lorsqu’une seule des variables indépendantes (ou explicatives) varie et que toutes les autres restent constantes. Toutes choses étant égales par ailleurs, l’augmentation d’une unité de la variable indépendante () entraîne en moyenne l’augmentation de la variable dépendante () du nombre d’unités indiqué par le coefficient de régression () :
Lors de l’interprétation de ces coefficients de régression multiple, il est important de garder à l’esprit le fait que chaque coefficient est influencé par les autres variables indépendantes retenues dans le modèle de régression. Cette influence dépend du degré de corrélation entre les variables indépendantes. Les coefficients de régression ne rendent donc pas compte de l’impact total des variables indépendantes sur la variable dépendante. Chacun d’entre eux indique plutôt l’impact de l’ajout d’une variable dans le modèle, sachant que l’effet de toutes les autres variables retenues dans le modèle est déjà pris en compte. Il importe aussi de préciser que les données utilisées dans ces analyses ne permettent pas de tirer de conclusions au sujet de la causalité des relations vu leur nature transversale.
Les coefficients de régression indiqués en gras dans les tableaux des analyses de régression s’écartent de zéro dans une mesure statistiquement significative à un degré de confiance de 95 %.
Régression logistique binaire
L’analyse par régression logistique binaire permet d’estimer la relation entre une ou plusieurs variables indépendantes (ou explicatives) et la variable dépendante (ou de résultat) à deux catégories. Le coefficient de régression () d’une régression logistique correspond à l’augmentation estimée de la cote logarithmique qu’entraîne l’augmentation d’une unité de la variable prédictive.
En termes plus mathématiques, soit la variable de résultat dichotomique 1 ou 0 (« Oui » ou « Non ») et la probabilité que soit égale à 1, d’où . Soit l’ensemble de variables explicatives. La régression logistique de en fonction de estime la valeur des paramètres de ,…, par la méthode du maximum de vraisemblance dans l’équation suivante :
De plus, la fonction exponentielle du coefficient de régression () qui en découle correspond au rapport de cotes () associé à une augmentation d’une unité de la valeur de la variable explicative. L’équation ci-dessus se traduit comme suit en probabilités :
La transformation des cotes logarithmiques () en rapport de cotes ( ; ) permet de mieux interpréter les données en termes de probabilité. Le rapport de cotes () mesure la probabilité relative d’un résultat particulier dans deux groupes. Le rapport de cotes relatif à l’observation du résultat en présence d’un antécédent est le suivant :
Où correspond à la « probabilité » d’observer le résultat en présence de l’antécédent et , à la « probabilité » de l’observer en l’absence de l’antécédent. Le rapport de cotes indique donc dans quelle mesure une variable explicative est associée à une variable de résultat à deux catégories au moins (« Oui » ou « Non », par exemple). Le rapport de cotes indique une association négative s'il est inférieur à 1, une association positive s'il est supérieur à 1 et une association nulle s'il est égal à 1. Si l’analyse porte par exemple sur l’association entre les enseignantes et le fait d’avoir l’enseignement pour « premier choix de carrière », les rapports de cotes suivants sont à interpréter comme suit :
0.2: les enseignantes sont cinq fois moins susceptibles que les enseignants d’avoir eu l’enseignement comme « premier choix de carrière ».
0.5 : les enseignantes sont moitié moins susceptibles que les enseignants d’avoir eu l’enseignement comme « premier choix de carrière ».
0.9 : les enseignantes sont 10 % moins susceptibles que les enseignants d’avoir eu l’enseignement comme « premier choix de carrière ».
1 : enseignantes et enseignants sont aussi susceptibles d’avoir eu l’enseignement comme « premier choix de carrière ».
1.1 : les enseignantes sont 10 % plus susceptibles que les enseignants d’avoir eu l’enseignement comme « premier choix de carrière ».
2 : les enseignantes sont deux fois plus susceptibles que les enseignants d’avoir eu l’enseignement comme « premier choix de carrière ».
5: les enseignantes sont cinq fois plus susceptibles que les enseignants d’avoir eu l’enseignement comme « premier choix de carrière ».
Les rapports de cotes sont indiqués en gras si le ratio entre le risque et la cote s’écarte de 1 dans une mesure statistiquement significative à un degré de confiance de 95 %. La signification statistique autour de 1 (hypothèse nulle) est calculée dans le scénario où la statistique du ratio entre le risque et la cote suit une répartition log-normale et non une répartition normale selon l’hypothèse nulle.
Le principal objectif du présent rapport est de mettre en évidence les variables nettement différentes entre les niveaux d’enseignement et de tenter de cerner les facteurs susceptibles d’expliquer ces différences. Les différences qui s’observent entre les niveaux d’enseignement selon les caractéristiques des enseignants et des établissements servent en particulier à comprendre la variation de certains indicateurs, par exemple la perception que les enseignants ont de la valeur de leur profession dans la société, le temps qu’ils consacrent à l’enseignement, la mesure dans laquelle ils sont demandeurs de développement professionnel et leur bien-être en général (voir les encadrés 2.1, 3.2, 4.5 et 6.3)
Ces différences ont été analysées selon la méthode de décomposition décrite par Blinder et Oaxaca. Cette méthode conçue à l’origine pour analyser la variation de la situation des actifs sur le marché du travail en fonction de différentes caractéristiques, par exemple le sexe ou la race, peut être utilisée pour étudier toute différence de résultat entre des groupes. Cette méthode permet à partir d’une série de caractéristiques qui varient entre des groupes à l’étude de décomposer la différence de résultat entre ces groupes en une composante expliquée par la variation de ces caractéristiques et une composante non expliquée (OCDE, 2018, p. 181[2]). En l’espèce, la méthode de décomposition décrite par Binder et Oaxaca donne la possibilité d’analyser la différence de moyenne d’une caractéristique d’enseignant Y entre l’enseignement primaire (P) et le premier cycle de l’enseignement secondaire (LS) en vue de déterminer la part de la variation imputable à des différences dans les variables explicatives retenues (S) et la part non expliquée de cette variation.
La différence de résultat moyenne se calcule comme suit dans les modèles linéaires :
Elle est constituée de deux composantes :
L’équation ci-dessus représente les effets expliqués, soit la mesure dans laquelle la différence de résultat s’explique par la différence moyenne d’une série de caractéristiques propres aux enseignants et aux établissements entre l’enseignement primaire et le premier cycle de l’enseignement secondaire.
L’équation ci-dessus représente les effets non expliqués, soit les effets résiduels des caractéristiques propres aux enseignants et aux établissements retenues dans le modèle et de différences dans les composantes non observables. Les composantes résiduelles sont indiquées par souci de clarté, mais elles ne sont pas commentées, car elles sont difficiles à interpréter.
Ces coefficients de corrélation mesurent l’intensité et la direction de l’association statistique entre deux variables. Ils varient entre -1 et 1 ; plus ils sont proches de 0, plus l’association est de faible intensité, plus ils sont proches de leurs valeurs extrêmes, plus l’association, soit négative, soit positive est de forte intensité. Les coefficients de corrélation de Pearson (r) indiquent l’intensité et la direction de la relation linéaire entre deux variables.
Dans le présent rapport, ils sont utilisés pour quantifier les relations entre les statistiques nationales entre pays et économies.
Les niveaux d’enseignement sont définis en fonction de la Classification internationale type de l’éducation (CITE). La CITE est une nomenclature qui permet de produire des statistiques sur l’éducation qui soient comparables à l’échelle internationale. La Classification internationale type de l’éducation de 1997 a été révisée, et la nouvelle version a été officiellement adoptée en novembre 2011. La CITE 2011 est la nomenclature à la base du présent rapport. Neuf niveaux d’enseignement y sont définis :
La CITE vise à fournir un cadre commun permettant de produire des données comparables à l’échelle internationale, mais les systèmes d’éducation se distinguent par leur complexité et par la multiplicité de leurs niveaux, de sorte que certaines nuances échappent à l’analyse. En d’autres termes, le fait que les programmes de cours varient parfois sensiblement entre les pays et économies même s’ils relèvent du même niveau d’enseignement doit être pris en compte lors de toute analyse. Des données ont été recueillies dans les pays et économies qui ont administré les modules du cycle TALIS 2018 sur l’enseignement primaire et le deuxième cycle de l’enseignement secondaire pour fournir des informations supplémentaires qui aident à replacer les résultats dans leur contexte et à nuancer les comparaisons. Ces données proviennent en grande partie de registres administratifs et ont été publiées dans d’autres ouvrages de l’OCDE, par exemple dans Regards sur l’éducation et des rapports sur le Programme pour le suivi des acquis des élèves (PISA). Ces données sont toutes présentées dans les tableaux A B.3, A B.4 et A B.5.
Références
[4] OCDE (2019), Guide de l’OCDE pour l’établissement de statistiques internationalement comparables dans le domaine de l’éducation 2018 : Concepts, normes, définitions et classifications, Éditions OCDE, Paris, https://dx.doi.org/10.1787/9789264305380-fr.
[1] OCDE (2019), TALIS 2018 Technical Report, OCDE, Paris, http://www.oecd.org/education/talis/TALIS_2018_Technical_Report.pdf.
[2] OCDE (2018), La résilience des élèves issus de l’immigration : Les facteurs qui déterminent le bien-être (Version abrégée), Examens de l’OCDE sur la formation des migrants, Éditions OCDE, Paris, https://dx.doi.org/10.1787/9789264085336-fr.
[3] UNESCO-UIS (2013), Classification Internationale Type de l’Éducation ; CITE 2011, Insitut de statistique de l’UNESCO, Montréal, http://uis.unesco.org/sites/default/files/documents/international-standard-classification-of-education-isced-2011-fr.pdf.