Cours 7 Flashcards

Question

Les types de fidélité

Answer 1

- Fidélité test–retest : stabilité temporelle - Fidélité interjuges : cohérence entre évaluateurs - Fidélité formes parallèles : équivalence entre versions - Fidélité structure interne : cohérence entre les items

Answer 2

La fidélité test–retest **évalue la stabilité des résultats dans le temps.** Elle consiste à administrer le même test à un même groupe de personnes à deux moments distincts, séparés par un intervalle de temps approprié (par exemple, quelques jours ou quelques semaines), puis à corréler les deux séries de scores obtenues.**Le coefficient de corrélation obtenu (r test–retest) indique le degré de constance des résultats au fil du temps**. Si le construit mesuré est **stable** (comme la personnalité ou les aptitudes cognitives), les **scores devraient demeurer similaires d’une passation à l’autre.** Un coefficient **élevé** (p. ex. *r = 0,85*) reflète une **bonne stabilité temporelle**, tandis qu’un coefficient faible (p. ex. r = 0,50) suggère que les résultats varient pour des raisons non liées au trait mesuré

Answer 3

* Une fidélité test–retest **élevée** signifie que les variations de scores entre les deux passations sont minimes : le test mesure un trait stable et les *fluctuations observées sont principalement dues au hasard ou à des facteurs contextuels mineurs*. * Une fidélité test–retest **faible** indique que les *résultats changent sensiblement d’une passation à l’autre* ce qui peut être dû : o à une instabilité réelle du trait (ex. : humeur, anxiété, motivation) ; o à des conditions d’administration différentes ; o ou à des problèmes de formulation des items.

Answer 4

* L’intervalle entre les deux passations doit être suffisamment long pour éviter les effets de mémoire, mais pas trop long pour que le trait évalué n’ait pas eu le temps de changer. * Les conditions d’administration doivent être strictement identiques (même lieu, même durée, mêmes consignes). * Cette méthode convient mieux aux construits relativement stables, comme les traits de personnalité, les aptitudes ou les attitudes générales

Answer 5

La fidélité interjuges (ou fidélité interévaluateurs) **mesure le degré d’accord entre plusieurs personnes qui évaluent le même phénomène**. Elle est essentielle lorsque les scores dépendent de jugements humains, par exemple dans l’observation clinique, la cotation de réponses ouvertes, ou l’évaluation de comportements en situation.

Answer 6

Une fidélité interjuges élevée signifie que les juges appliquent les critères de manière cohérente et uniforme. Une fidélité faible, au contraire, indique que les juges diffèrent dans leur interprétation ou leur rigueur d’évaluation. | voir tableau

Answer 7

* Formation et expérience des évaluateurs : des juges bien formés tendent à produire des notations plus cohérentes. * Clarté des critères : des consignes explicites et des grilles d’évaluation précises réduisent la subjectivité. * Complexité du comportement observé : plus le phénomène est ambigu ou multidimensionnel, plus la fidélité interjuges risque d’être faible. * Conditions d’observation : l’éclairage, la durée de la séance ou la qualité de l’enregistrement peuvent influencer la perception des juges

Answer 8

La fidélité formes parallèles (ou équivalence entre versions) vise à **évaluer la constance des résultats entre deux versions équivalentes d’un même test**. Elle est utilisée lorsqu’il existe **plusieurs formes d’un instrument**, conçues pour mesurer le même construit, mais avec des items différents. L’objectif est de vérifier si ces versions produisent des résultats comparables chez les mêmes individus. Deux versions du test (souvent appelées Forme A et Forme B) sont administrées au même groupe de participants, à un intervalle court pour éviter les changements réels du trait mesuré. Les scores obtenus aux deux versions sont ensuite corrélés pour estimer leur degré d’équivalence

Answer 9

* Évaluations répétées : permet d’éviter l’effet de mémoire lorsque le même test doit être administré à plusieurs reprises (ex. : avant et après une intervention). * Contextes d’examen : utile lorsque plusieurs versions équivalentes d’un même test sont nécessaires pour prévenir la tricherie ou les fuites d’items. * Recherches longitudinales : permet de mesurer l’évolution d’un trait sans réutiliser exactement les mêmes questions.

Answer 10

* Les deux formes doivent être rigoureusement construites selon les mêmes critères : même structure, même nombre d’items, même contenu, même format de réponse. * Les items doivent présenter des difficultés et discriminations comparables. * Le moment d’administration doit être suffisamment proche pour que le trait évalué n’ait pas eu le temps de changer. * Si l’intervalle entre les deux passations est long, la corrélation observée peut refléter à la fois la fidélité temporelle et l’équivalence de contenu, ce qui complique l’interprétation.

Answer 11

La fidélité structure interne (ou cohérence interne) **évalue dans quelle mesure les items d’un même test mesurent le même construit psychologique**. Contrairement aux méthodes test–retest ou formes parallèles, elle repose sur **une seule passation du test**. Elle constitue donc une estimation très utilisée dans la pratique psychométrique, notamment lorsque l’on cherche à vérifier la **homogénéité** d’un instrument. Si un test vise à mesurer un construit unique (par exemple, l’anxiété), les items devraient produire **des réponses corrélées entre elles**. La cohérence interne exprime à quel point ces items “vont dans la même direction”. Une forte corrélation moyenne entre les items traduit une bonne fidélité structurelle. | favoriser ce type de fidélité

Answer 12

* L'**alpha de Cronbach** (α) : Il est basé sur le principe de la tau-équivalence issu de la mathématique (chaque items compte pour 1). Plus les items sont homogènes, plus α est élevé. * Le **coefficient oméga** (ω) : Il est basé sur les charges factorielles issues d’une analyse factorielle confirmatoire. Contrairement à α, il ne suppose pas que tous les items contribuent également au construit. C’est un indice plus robuste lorsque les items présentent des contributions inégales

Answer 13

* Un α très élevé (> 0,95) peut indiquer une redondance excessive entre les items (items trop similaires). * La cohérence interne dépend du nombre d’items : plus le test est long, plus α tend à augmenter mécaniquement. * Une forte cohérence interne ne garantit pas l’unidimensionnalité : plusieurs sous-facteurs peuvent produire une fidélité élevée, sans mesurer un seul construit homogène. * Il est donc recommandé de combiner α ou ω avec une analyse factorielle pour confirmer la structure du test.

Answer 14

Un coefficient de fidélité (α, ω, rₓₓ′, etc.) exprime la **proportion de la variance totale des scores attribuable aux différences réelles entre individus.** Mais cette valeur n’est **jamais absolue** : elle dépend du type de test, de la population et du contexte d’administration. Ainsi, la lecture critique d’un rapport de fidélité consiste à replacer la valeur observée dans son contexte d’utilisation et à la comparer aux standards du domaine d’application.

Answer 15

La longueur d’un test joue un rôle déterminant dans son niveau de fidélité. En règle générale, **plus un test contient d’items mesurant le même construit, plus la fidélité tend à augmenter**, car chaque nouvel item apporte une observation supplémentaire du phénomène évalué, **réduisant ainsi l’effet des erreurs aléatoires**. Cependant, cette relation n’est pas infinie : allonger un test améliore la fidélité jusqu’à un certain point, après quoi les gains deviennent marginaux ou contre-productifs.

Answer 16

Chaque item agit comme une **petite mesure du construit latent**. Plus il y a d’items, plus la moyenne des erreurs aléatoires s’annule, et plus le score total reflète fidèlement le score vrai. Mais si certains items sont mal conçus, ambigus ou redondants, leur ajout peut au contraire **diluer la qualité psychométrique du test**. En d’autres termes, **ajouter des items n’améliore la fidélité que si ces items sont pertinents et bien corrélés aux autres**. Un test plus long mais mal construit ne sera pas plus fidèle.

Answer 17

* **Fatigue et désengagement** : des tests trop longs peuvent provoquer une baisse de concentration, augmentant paradoxalement l’erreur de mesure. * **Redondance** : au-delà d’un certain seuil, les items n’apportent plus d’information nouvelle. * **Équilibre entre rigueur et accessibilité** : un test doit rester psychométriquement solide tout en respectant la disponibilité, la motivation et le bien-être des répondants

Answer 18

Lorsqu’un test présente une fidélité faible (p. ex. r < 0,60), la part d’erreur de mesure est trop importante pour justifier des décisions individuelles importantes. Les différences de scores risquent alors de refléter des fluctuations aléatoires plutôt que des différences réelles entre personnes D’un point de vue éthique, il est donc essentiel de ne pas surinterpréter les résultats d’un test dont la fidélité est jugée insuffisante, et de compléter l’évaluation par d’autres sources d’information (entrevues, observations, données contextuelles, etc.).

Answer 19

Une fidélité extrêmement élevée (p. ex. α > 0,95) peut sembler idéale, mais elle n’est pas toujours souhaitable. Elle peut signaler une redondance excessive des items — autrement dit, que le test mesure la même chose de façon répétitive, sans capturer toute la richesse du construit D’un point de vue psychométrique, une fidélité trop élevée peut donc réduire la validité de contenu et compromettre l’utilité pratique du test

Answer 20

L’éthique en psychométrie consiste à rechercher un équilibre entre précision et diversité des mesures. Un test fiable est avant tout un instrument qui : * fournit des résultats stables, * reflète fidèlement le construit mesuré, * et respecte la dignité et la singularité des personnes évaluées. Les praticiens ont la responsabilité de : * vérifier systématiquement la fidélité rapportée avant d’utiliser un instrument ; * interpréter les résultats à la lumière de leurs limites psychométriques ; * et communiquer ces limites aux clients, étudiants ou institutions concernés. Beaucoup de précision peut signifier qu’on perdre la diversité de la mesure, perdre de la variance Important d’avoir de la diversité

Answer 21

* L’erreur type de mesure, c’est la marge d’erreur d’un test. Elle montre à quel point un score peut s’éloigner du vrai niveau d’une personne, à cause de petites erreurs associées a la mesure. Plus l’erreur est petite, plus le score est précis. * Un score observé est le résultat qu’on obtient à un test : o Il est composé de deux parties : - Le Score vrai : ce que la personne sait ou peut vraiment faire. - L`erreur de mesure : les petites choses qui font varier le score (fatigue, stress, distraction, etc.). -> Donc, le score qu’on voit n’est jamais parfait, il contient toujours un peu d’erreur. -> La moyenne va représenter les scores entier des passations d’un individu avec l’erreur type de mesure on créer un écart type de confiance ## Footnote Utilisé de la même façon que les écart-types (pas uniquement pour test-retest) best to use avec un seul participant je crois

Answer 22

L'erreur type de mesure se calcule grâce à l'écart-type des scores et à la fidélité du test. La formule est : ETM=σ√(1-r) Où : 𝜎 = écart-type des scores observés; r = coefficient de fidélité du test (généralement mesuré par des méthodes comme l’Alpha, Omega ou le méthode test-retest, entre autres)

Answer 23

o L'ETM montre à quel point un score est précis : -> ETM faible (< 5 %) → le score est très précis, proche du vrai résultat.. -> ETM moyenne (5–10 %) → le score est assez précis, mais avec un peu d’incertitude. -> ETM élevée (> 10 %) → le score est peu précis, il peut être assez différent du vrai niveau de la personne.

Answer 24

Supposons qu’un test de QI ait un écart-type de 15 points et une fidélité de 0,90. L’ETM serait calculé comme suit : ETM =σ√(1-r) = 15 x 0,316 = 4.743 (arrondi à 5) Cela signifie que si une personne obtient un score observé de 110, son score vrai se situe probablement entre 105 et 115 (±5 points autour du score observé). En nous basant sur l'interprétation de l’ETM (ETM ÷ Score = 5 ÷ 110 ≈ 4,5%), cet exemple montre qu'une ETM d'environ 4,5 % est considérée comme une faible erreur. Cela signifie que le score observé est assez proche du score vrai, avec une faible marge d'incertitude liée aux erreurs aléatoires (le test est donc considéré précis et fiable).

Answer 25

* En pratique, l’erreur type de mesure n’est pas seulement un concept statistique : elle sert à mieux comprendre la précision d’un score et à guider les décisions dans différents contextes d’évaluation. L’ETM a des applications concrètes : o **Évaluer la précision des scores individuels** : Permet de calculer un intervalle de confiance autour d’un score observé, pour estimer la position probable du score vrai (l'application la plus utilisée). - *Prendre des décisions éclairées* : Dans les contextes cliniques, éducatifs ou professionnels, l’ETM aide à estimer la marge d’erreur d’un score avant d’en tirer des conclusions. o **Comparer la précision des tests** : Un test avec une faible ETM est plus précis et plus fiable qu’un test avec une ETM élevée

Cours 7 Flashcards

(49 cards)