Cours 5 Flashcards

(70 cards)

1
Q

Qu’est-ce que la validité?

A
  • est-ce que ce test est une mesure valide de ce construit, pour cette population particulière et pour cette application particulière(Anastasi et Urbina)
  • on veut savoir si l’échantillon d’items (i.e., les questions)de l’échelle représente bien le construit qu’on veut mesurer
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qu’est-ce que le degré de validité?

A

détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Attention : le nom d’un test ou d’une échelle ne constitue pas toujours un indice adéquat du construit mesuré – Soyez toujours méfiants.es !

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

La validité d’un test ou d’une mesure doit être évaluée relativement à trois aspects. Quels sont ces trois aspects?

A
  1. Est-ce qu’il mesure bien le construit qu’il prétend mesurer ?
  2. Est-ce qu’il mesure bien ce construit pour la population ciblée (e.g., groupe d’âge, niveau académique, groupe clinique particulier, etc.) ?
  3. Est-ce qu’il mesure bien ce construit pour une application particulière (e.g., classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Les organisations professionnelles soulignent trois points clés à propos de la validité des tests (AERA, APA, & NCME, 2014) :

A
  1. La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test
  2. La validité est une question de degré ; ce n’est pas une question absolue, de «tout ou rien»
  3. La validité d’un test repose sur de solides bases théoriques et empiriques
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les différentes sources de validité?

A
  1. contenu
    - nominale
    - consensuelle
  2. construit
    - factorielle
    - convergente
    - discriminante
  3. critère
    - concomitant
    - prédictive
    - incrémentielle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que la vraisemblance (ou validité d’apparence)?

A
  • N’est pas une forme ou une source de validité
  • Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de
    les personnes qui sont évaluées avec le test et/ou les personnes qui utilisent le test
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quand peut-on dire qu’une mesure détient une bonne vraisemblance?

A

lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle «semble pertinente et adéquate» pour mesurer le construit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Avec quelle type de validité la vraisemblance est-elle souvent confondue?

A

validité de contenu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quel est un danger si l’instrument de mesure ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation?

A

Peut devenir une menace à la validité
- e.g., mesurer le niveau d’agressivité d’un enfant en lui faisant faire un dessin de sa famille ?
- e.g., l’item «je sens parfois mon âme sortir de mon corps» serait-il perçu comme valide dans plusieurs contextes (e.g., sélection du personnel)?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quels éléments peuvent venir altérer la vraisemblance d’une mesure?

A
  1. Contexte d’évaluation (e.g., endroit physique de l’administration, les consignes, attitude et apparence physique de l’évaluateur.trice, etc.)
  2. Capacités cognitives des répondants.es
  3. Format de présentation de l’instrument
  4. Motif de l’évaluation (désirabilité sociale [+ ou -])
  5. Personnalité des répondants.es
  6. Santé mentale et état psychologique des répondants.es
    etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce que la validité de contenu?

A
  • degré de représentativité des items (questions) utilisés pour mesurer un construit
  • souvent établie de façon déductive
  • auteurs.trices du test demandent à un groupe d’experts.es indépendants.es de se prononcer sur la pertinence des items
  • questions à se poser:
    a) chaque item individuellement correspond-t-il bien au construit ?
    b) tous les items d’une échelle sont-ils considérés comme un groupe constituent un échantillon représentatif de tous les domaines (et sous-domaines) du construit d’intérêt ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Avec quel type de validité est-il difficile de faire un bon échantillonnage pour des construits psychologiques complexes? Ici, les méthodes statistiques ne sont d’aucune aide… ou presque. Comment peut-on y remédier?

A
  1. validité de contenu
  2. Représentativité:
    - tous les domaines (et sous-domaines) du construit sont-ils représentés ?
    - e.g., Échelle d’impulsivité: impulsivité cognitive, impulsivité émotionnelle, impulsivité comportementale, etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Concernant la validité de contenu, avant de construire une échelle, les auteurs.trices doivent toujours décrire en détails et de façon compréhensive les différents domaines et sous-domaines du construit d’intérêt
- Exemple : Échelle de problèmes extériorisés
a) Quels sont les domaines inclus selon la théorie/recherches?
b) Quelle est l’importance relative de chacun?
c) Y a-t-il des sous-domaines selon la théorie/recherches?
d) Quelle est leur importance relative?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

À partir de quoi les chercheurs.euses définissent un construit (et donc, son contenu) ?

A
  1. Cadre théorique
  2. Recherches empiriques (recension de la littérature)
  3. Connaissances et expériences professionnelles/pratiques
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quels sont les deux types de validité de contenu?

A

Nominale : auteurs.trices du test
Consensuelle : groupe de spécialistes indépendants

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Comment peut-on estimer le degré de validité de contenu empiriquement (Polit & Beck, 2006)?

A

Avec une échelle de mesure quantitative
- on demande à des experts.es indépendants.es d’estimer
A) à quel point (degré) chacun des items d’un test est pertinent et représentatif du construit d’intérêt
B) à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Comment peut-on quantifier le degré de validité de contenu?

A
  1. on donne aux experts.es un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout
  2. Puisque nous avons des données numériques, on peut donc calculer un Indice de validité de contenu (IVC; Polit & Beck, 2006)
    - calculer un indice pour chaque item (IVC-I) et un pour l’échelle totale (IVC-É)
    a) IVC-I = Nombre d’experts.es qui ont jugé l’item représentatif (choix 2 ou 3), divisé par le nombre total d’experts.es
    b) IVC-É = Somme des ICV-I, divisée par le nombre total d’experts.es
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Cet exemple représente quel notion en lien avec la validité de contenu:
- ex., Extraversion : «Dans une situation sociale impliquant plusieurs personnes, j’ai de la difficulté à faire les premiers pas pour aller vers les autres»
a) Pas du tout pertinent / représentatif = 0
b) Un peu pertinent / représentatif = 1
c) Assez pertinent / représentatif = 2
d) Très pertinent / représentatif = 3

A

quantifier le degré de validité de contenu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Quelles sont les deux menaces à la validité de contenu?

A
  1. Inclusion de contenu conceptuellement non pertinent
    - e.g., des items d’hyperactivité sont intégrés dans une échelle d’inattention
  2. Sous-représentation conceptuelle de certains domaines du construit
    - e.g., Théoriquement, le construit Extraversion inclue les domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Qu’est-ce que la validité de construit?

A

Réfère au degré de
(a) reproductibilité de la structure interne théorique sous-jacente à l’instrument
(b) reproductibilité des relations du construit d’intérêt avec d’autres construits externes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Comment peut-on vérifier la validité de construit?

A
  1. Validité factorielle
  2. Validité convergente / discriminante
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Qu’est-ce que le réseau nomologique?

A
  • théorie expliquant le construit par le biais de ses interrelations avec d’autres construits (Cronbach & Meehl, 1955)
  • représente la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants
  • concerne souvent relations concurrentes, mais peut inclure des facteurs étiologiques (i.e., les précurseurs, ou facteurs de risque du construit (si on mesure une psychopathologie)) et des conséquences développementales
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Qu’est-ce que la nomologie?

A

«l’étude des lois»

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Se référer aux slides 22-23 du PPT 5 pour un schéma du réseau nomologique en ce qui concerne les comportements antisociaux
26
Qu'est-ce qu'un facteur?
- une réduction parcimonieuse de plusieurs variables (items ou questions) expliquées par une variable latente - dans les instruments multidimensionnels, les items se regroupent évidemment en plusieurs facteurs - sert à représenter une dimension latente (ou variable latente, trait latent), d’où l’utilisation du terme validité factorielle
27
Qu'est-ce que la structure factorielle théorique?
- la manière dont un test est censé s’organiser en dimensions latentes, selon le modèle psychologique ou conceptuel qui a guidé sa création. - En d’autres termes, c’est le plan conceptuel du test : a) Combien de facteurs (dimensions) le test devrait mesurer b) Quels items devraient charger sur quels facteurs c) Comment ces facteurs devraient être liés entre eux
28
Pourquoi la structure factorielle théorique est-elle importante?
On s'assure que: - le test mesure bien ce qu’il prétend mesurer - les items se regroupent comme prévu - la théorie tient la route empiriquement
29
L’objectif est de vérifier deux aspects inter-reliés de la structure factorielle théorique. Quels genre de questions peut-on se poser pour vérifier ces aspects?
1. Les items sont-ils significativement (statistiquement) associés au facteur (construit) ? 2. Dans le cas d’un instrument multidimensionnel, a) Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ? b) Dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (e.g., traits spécifiques associés à trait général) ?
30
Quel est le but de l'analyse factorielle exploratoire?
- méthode statistique utilisée pour découvrir la structure latente d’un ensemble d’items sans imposer de modèle préalable. - sert à voir comment les items se regroupent naturellement dans les données. - dite exploratoire parce qu’on laisse les données « parler » pour révéler les dimensions sous-jacentes.
31
D'un point de vue statistique, qu'est-ce que l'analyse factorielle exploratoire?
- On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire - Retrouver les tableaux dans les matrices (exemple de la slide 29, PPT 5) - où les gens répondent de manière similaire - e.g., Si les répondants.es ont tendance à répondre oui à la Q#1 ont aussi tendance à répondre oui à Q#5 et à Q#8, ces items seront donc regroupés dans un même facteur - Le chercheur.euse n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items - Critère classique : on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur
32
Qu'est-ce que la saturation factorielle croisée?
Degré de lien entre un item et un facteur: - À quel point un item “appartient” à un facteur - À quel point un item est représentatif de ce facteur - À quel point le facteur explique les réponses à cet item
33
Quel est le but de l'analyse factorielle confirmatoire?
- chercheur impose une structure stricte a priori à la matrice de corrélations (ou de covariance) et teste si elle correspond aux données - méthode statistique utilisée pour tester un modèle factoriel théorique. - répond à des questions comme : a) Les items censés mesurer l’anxiété mesurent-ils vraiment l’anxiété? b) Les facteurs sont-ils indépendants ou corrélés? c) Le modèle théorique s’ajuste-t-il bien aux données?
34
Les saturations sont plus élevées que dans l'analyse factorielle confirmatoire - n'a plus de saturations factorielles croisées (elles sont à 0) - la corrélation entre les deux facteurs est plus élevée (0.46)
oui notre questionnaire a un bon degré de validité a quel point ça devient trop fort? 46%? (modéré) - s'explique théoriquement car concerne comorbidité entre les troubels chex les enfasnts d'age primaire
35
Quelle est la principale différence entre l'analyse factorielle exploratoire et l'analyse factorielle confirmatoire?
AFE: - approche inductive - on découvre la structure - pas de modèle imposé - sert au développement d'un test AFC: - approche déductive - on teste une structure - modèle imposé par la théorie - sert à la validation d'un test
36
Qu'est-ce que la validité de construit convergente?
Degré auquel les scores d’une échelle sont associés à ceux d’une autre échelle existante qui mesure le même construit théorique
37
Qu'est-ce que la validité de construit discriminante?
Degré auquel les scores d’une échelle ne sont pas associés à ceux d’une échelle qui ne mesure pas le même construit
38
Quelles sont les similitudes entre la validité de construit convergente et discriminante?
convergence discriminante parle de fidélité et non de validité? converge au strict minimum on s'attend .5 et plus - stat significatif si en bas, suis je en train de mesurer vraiment le bon construit la validité discriminante est elle bonne - non , mais minimalement on s,attend à non stat significatif et en dessous de 0.4 de correlation - dnas un échantillon énorme, tout est stat significatif (ex 10000). donc pas de regles absolues - dans une matrice multi methode on peut avoir info monométhode et multiméthode: c'est quoi la convergence, c quoi la discriminante
39
Quel est l’idéal pour tester rigoureusement la validité de construit convergente et discriminante?
employer la méthode de la matrice multitraits-multiméthodes (Campbell & Fiske, 1959) - voir slide 34 du PPT 5 pour exemple
40
Qu'est-ce que la validité de critère (ou validité pragmatique/critériée)?
- réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus - capacité d’un test à prédire ou refléter quelque chose d’important dans la réalité (doit être relié à quelque chose de réel et pertinent dans la vie des gens) - On compare le test à une autre mesure indépendante. - Le critère devrait être une mesure objective et indépendante de l’instrument, mais reliée conceptuellement au construit d’intérêt (réseau nomologique) - si c pas externe, c pas un tets de validité de critère, on test autre chose
41
Quels sont les types de validité de critère?
1. concomitante 2. prédictive
42
Comment estimer la validité de critère concomitante?
1. Corrélation avec un critère indépendant a) Test d’intelligence avec réussite académique (notes) b) Test d’empathie avec conduites délinquantes 2. Méthode des groupes contrastés a) On teste les différences de scores moyens entre des groupes - e.g., Pour EDC, on prend un échantillon d’enfants déjà identifiés avec des TC (par psychologues scolaires) et on les compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes
43
Qu'est-ce que la validité de critère prédictive?
- degré auquel les scores d’une mesure sont capables de prédire un critère externe prospectivement (i.e. plus tard dans le temps) - besoin d’une étude longitudinale prospective a) e.g., les scores à une échelle d’impulsivité à la fin du primaire sont-ils associés à l’abus de substances psychoactives lorsque les individus sont au début du secondaire, un an plus tard ? b) e.g., les scores à une échelle de qualité de l’attachement aux parents au préscolaire permettent-ils de prédire un diagnostic d’anxiété de séparation plus tard, à l’entrée à l’école ?
44
Qu'est-ce que la validité incrémentielle?
- ce test apporte-t-il une valeur ajoutée, ou est‑ce qu’il ne sert à rien une fois qu’on connaît déjà d’autres informations importantes? - question d’utilité supplémentaire
45
Quel type de validité est présent ici: Si tu veux prédire un critère comme l’absentéisme scolaire, il se peut que le test de dépression explique déjà presque tout. Est‑ce que le test d’anxiété ajoute quelque chose de plus, ou est‑ce qu’il est redondant?
validité incrémentielle
46
Exemple de la validité incrémentielle: Si la motivation prédit la réussite même après avoir contrôlé le QI et les notes, alors : 👉 Le questionnaire de motivation a une validité incrémentielle. S’il ne prédit rien de plus : 👉 Il n’a pas de valeur ajoutée
47
Les scores de la nouvelle version (a) prédisent-ils mieux que l’ancienne version un critère au-delà de facteurs de contrôle ? ou encore (b) procurent-ils une meilleure sensibilité et spécificité que l’ancienne version ?
48
Qu'est-ce que la théorie de la décision et quel est le lien avec la validité de critère?
- comprend série de concepts visant l’analyse des effets quantitatifs des décisions prises avec des tests - pertinent dans contextes de classification (dépistage, diagnostic, sélection du personnel, certification, dérogation scolaire) - intimement liés à la validité de critère - s’agit de déterminer à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes
49
SE RÉFÉRER À LA SLIDE 44, PTT 5 POUR TABLEAU SUR LA VALIDITÉ ET LA PRÉDICTION
SENSIBILITÉ - Dans le tableau 2 X 2, on voit qu’il s’agit simplement des vrais positifs divisés par tous ceux qui ont vraiment le statut (i.e., trouble) - e.g., Avec l’EDC : proportion d’enfants obtenant un score égal ou supérieur à un score critère donné (e.g., T = 60 et plus) parmi tous les enfants qui présentent réellement un TC SPÉCIFICITÉ - Dans le tableau 2 X 2, on voit qu’il s’agit des vrais négatifs divisés par tous ceux qui n’ont réellement pas le statut (i.e., trouble) e.g., avec l’EDC : proportion d’enfants obtenant un score inférieur à un score critère donné (e.g., T = 59 et moins) parmi tous les enfants qui n’ont pas un TC
50
En matière de validité de critère, qu'est-ce que la sensibilité?
- Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut (e.g., un trouble) qu’elle prétend identifier - Se rapporte à la capacité de détection
51
En matière de validité de critère, qu'est-ce que la spécifité?
- Capacité d’une échelle de procurer un résultat négatif pour les personnes ne présentant pas le statut (e.g., un trouble) qu’elle prétend identifier - Se rapporte à sa capacité de discrimination
52
SE RÉFÉRER À LA SLIDE 41 PPT 5
53
Les indices de sensibilité et de spécificité sont des observations empiriques de la performance rétrospectieve et servent à évaluer la performance d’un test diagnostique - On regarde après coup comment le test s’est comporté, en comparant ses résultats à un critère externe déjà connu.
→ On connaît déjà le statut réel des gens (diagnostic oui/non). → On regarde si le test les classe correctement selon un score seuil (cut‑off) - Un seuil plus bas → plus de gens testent positif → sensibilité ↑ mais spécificité ↓ - Un seuil plus haut → moins de gens testent positif → spécificité ↑ mais sensibilité 1. Sensibilité 👉 Parmi les personnes qui ont réellement le trouble, quelle proportion obtient un score au-dessus du score critère (donc test positif)? C’est la capacité du test à détecter les vrais cas. 2. Spécificité 👉 Parmi les personnes qui n’ont pas le trouble, quelle proportion obtient un score en dessous du score critère (donc test négatif)? C’est la capacité du test à éviter les faux positifs.
54
Explique cette phrase: « Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité vont aussi changer 
- Le score critère (cut‑off) est le seuil choisi pour dire : → au‑dessus = test positif → en dessous = test négatif Si tu modifies ce seuil, tu modifies automatiquement : - combien de gens sont classés positifs - combien sont classés négatifs Donc, les taux de vrais positifs (se
55
Explique cette phrase qui fait référence à la sensibilité et à la spécificité: « Les indices renseignent sur la capacité de classification d’une échelle lorsque ce test est utilisé avec des personnes dont le statut est connu »
- Pour calculer sensibilité et spécificité, on doit déjà savoir si les gens ont le trouble ou non (diagnostic confirmé). - On compare ensuite le résultat du test à ce statut réel. Donc ces indices décrivent comment le test fonctionne dans un contexte idéal, où on connaît la vérité. 👉 Ce sont des mesures de performance rétrospectives, basées sur des groupes déjà classés.
56
Qu'arrive-t-il si on augmente le score critère ? Se référer à la slide 47 du PPT 5
✔️ Si tu augmentes le score critère (ex. passer de 55 à 60) → Le test devient plus strict → Moins d’enfants sont classés « positifs » Conséquences : - Sensibilité ↓ (on manque plus de vrais cas) - Spécificité ↑ (on fait moins de faux positifs
57
En clinique, la tâche de l’évaluateur.trice est plutôt de déterminer le niveau de confiance qui peut être accordé à un résultat obtenu (positif ou négatif) pour un individu classifié. Explique ceci dans d'autres mots
- on veut savoir la probabilité qu’un individu présente réellement le trouble, étant donné un résultat positif à un test - inversement, on veut savoir la probabilité qu’un individu ne présente réellement pas le trouble, étant donné un résultat négatif au test - pour obtenir des indices probabilistes de ce genre, il faut calculer le pouvoir prédictif d’une échelle
58
Qu'est-ce que le pouvoir prédictif positif (PPP)?
- probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit - i.e., proportion d’individus ayant un trouble qui obtiennent un résultat positif, parmi tout ceux qui ont obtenu un résultat supérieur au score critère
59
Qu'est-ce que le pouvoir prédictif négatif?
- probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit - i.e., proportion d’individus n’ayant pas de trouble qui obtiennent un résultat négatif, parmi tout ceux qui ont obtenu un résultat inférieur au score critère
60
Quelles sont les différences entre la sensibilité et spécificité ET les PPP et PPN?
PPP ET PPN: - indices de performance extrinsèques d’un test - dépendent de la prévalence du trouble - pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence - ce sont des paramètres d’un test et de la prévalence du trouble SENSIBILITÉ ET SPÉCIFICITÉ: - paramètres d’un test – seulement influencés par le score critère choisi (la prévalence est fixe, puisqu’elle est connue)
61
Quel principe est représenté par cet énoncé: « Parmi les vrais cas, combien le test détecte‑t‑il? »
sensibilité
62
Quel principe est représenté par cet énoncé: « Parmi les non‑cas, combien le test exclut‑il correctement? »
spécificité
63
Quel principe est représenté par cet énoncé: « Quelle est la prévalence du trouble dans la population? »
taux de base
64
Dans le cas à la slide 53 du PPT 5: Avec une prévalence de 10%, Dépis-Dép classifie correctement 78 personnes, alors que 22 sont mal classifiées 24 personnes sont identifiées avec dépression, mais seulement 6 étaient vraiment dépressives. - Quel est le PPP? - Quel est le PPN? - Que peut-on tirer de ces résultats?
Avec une prévalence de 10%, Dépis-Dép classifie correctement 78 personnes, alors que 22 sont mal classifiées 24 personnes sont identifiées avec dépression, mais seulement 6 étaient vraiment dépressives Le PPP est donc 6 / 24 = 0,25 76 personnes sont identifiées sans dépression, dont 72 étaient vraiment non dépressives Le PPN est donc 72 / 76 = 0,95 Clairement, on peut avoir davantage confiance aux résultats négatifs qu’aux résultats positifs
65
Règle générale pour l’ensemble des tests de dépistage : Lorsque la prévalence est faible, le PPN > PPP. C'est l’inverse lorsque prévalence élevée.
66
Nomme deux problèmes potentiels avec les indices de sensibilité, spécificité et de pouvoir prédictif.
1. L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère de statut utilisé (e.g., est-ce que les diagnostics du DSM sont suffisamment valides et fiables ?) 2. L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile - Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées (e.g., Griner et al., 1981)
67
Se référer à la slide 58 du PPT 5 afin de voir une représentation visuelle de la relation entre le validité et la fiabilité.
68
Comment la validité et la fiabilité sont-elle interreliées?
1.La fidélité est une condition nécessaire à la validité - Est-ce qu’on mesure vraiment ce qu’on prétend mesurer si on fait beaucoup d’erreurs de mesure ? 2. La validité est un préalable à la fidélité - À quoi sert de ne pas faire d’erreur de mesure si on ne sait pas ce qu’on mesure vraiment ? 3. Les deux sont interreliées empiriquement: les indices de validité sont directement influencés par le degré de fidélité - Quantité d’erreur influence la taille des corrélations; le nombre d’items aussi (Prophétie de Spearman)
69
Quelle est l'importance du contexte lorsqu'on évalue la fidélité et la validité ?
On valide un instrument d’évaluation pour une population particulière et/ou une utilisation particulière - les scores d’un instrument peuvent être tout à fait valides et fiables pour une population et une utilisation particulière, mais peu, ou dans certains cas pas du tout, pour une autre population ou une autre utilisation - Ne jamais oublier : autant la fidélité que la validité est une question de degré
70
IMPORTANT: voir à la slide 61 du PPT 5 le classement des sources de validité
Classement classique: 1. validité de contenu 2. validité de construit 3. validité de critère Nouveau classement: 1. Évidence basée sur le contenu 2. Évidence basée sur la structure interne 3. Évidence basée sur les relations avec les autres variables - (Évidence convergente/discriminante) - (Évidence basée sur les test-critères) 4. Évidence basée sur e processus de réponse 5. Évidence basée sur les conséquences du testing