En régression multiple, la corrélation multiple R est équivalente à la
corrélation moyenne de Pearson entre chaque prédicteur X et la variable dépendante Y.
Vrai ou Faux?
Faux.
La corrélation multiple correspond à la corrélation entre la valeur
prédite de la variable dépendante Y par la régression multiple (à l’aide de la
combinaison des prédicteurs) et la valeur observée de Y.
Comme une corrélation de Pearson, une corrélation multiple R varie
de -1 à +1.
Vrai ou Faux?
Faux.
Comme R est une corrélation entre les valeurs prédite et observée
de Y, il ne fait pas de sens qu’une grande valeur prédite de Y soit systématiquement
associée à une petite valeur observée de Y (une association négative). Plus une valeur
observée est grande et plus sa valeur prédite risque d’être grande, ce qui implique que
la corrélation multiple R est toujours de valeur positive (entre 0 et 1).
Tout comme la somme de carrés inter-groupe en ANOVA, la somme
de carrés de régression corresponds à la variance qu’on tente d’expliquer.
Vrai ou Faux?
Vrai.
En ANOVA, la somme de carrés inter-groupe est la variabilité de la
variable dépendante Y expliquée par la condition (la variable indépendante). En
régression, la somme de carrés régression est la variabilité expliquée par la
combinaison des prédicteurs (les variables indépendantes).
Ce sont deux contextes
statistiques distincts, en raison du fait que la variable indépendante est nominale en
ANOVA mais continue en régression.
Toutefois, ces deux SC capturent la même
information (la variabilité de Y expliquée par X).
Quelles sont les hypothèses (nulle et alternative) de l’ANOVA réalisée sur la
régression multiple ?
H0 : R2 = 0
H1 : R2 > 0
Est-ce qu’on a besoin du coefficient de détermination (R2), du test F et la table d’ANOVA en régression simple ?
Non, ces indices ne sont pas nécessaires car :
Comme il y a un seul prédicteur X, la contribution du prédicteur et la contribution de la régression complète à la prédiction de Y sont de taille identique (zone b dans la figure) et donc la p-valeur des deux tests sera également identique.
Le coefficient de détermination aura la même valeur que la corrélation de Pearson au carré, R2 = r2
Le coefficient beta standardisé β aura la même valeur que la corrélation de Pearson r.
L’hypothèse alternative (H1) dans une regression multiple peut être birectionnelle ?
Faux.
L’H1 est toujours directionnelle à droit car les hypothèses sont exprimés selon le coefficient de détermination (R2) - (Une variance ne peut pas être négative)
Si j’affirme qu’il existe une
association “modérée” entre X et Y,
je parle de…
A. La signification
statistique de la
corrélation
B. La valeur
numérique du
coefficient de
corrélation
C. Le coefficient de
régression
D. Le signe de
l’association
(corrélation ou
régression)
B. La valeur
numérique du
coefficient de
corrélation
Quel(s) énoncé(s) est(sont) vrai(s) ?
Une corrélation de r = -0.30 entre X
et Y indique que..
A.Les personnes qui
ont une valeur
supérieure à la
moyenne sur X ont
tendance à avoir
une valeur
supérieure sur Y
B.Les personnes qui
ont une valeur
supérieure à la
moyenne sur X ont
tendance à avoir
une valeur
inférieure sur Y
C.Les personnes qui
ont une valeur
inférieure à la
moyenne sur X ont
tendance à avoir
une valeur
supérieure sur Y
D.Les personnes qui
ont une valeur dans
la moyenne sur X
ont tendance à
avoir une valeur
dans la moyenne
sur Y
B, C et D
Quel(s) énoncé(s) est(sont) faux ?
A.La pente d’une
régression prend
une valeur
uniquement entre
-1 et 1
B.Le résidu d’une
régression est la
valeur du
prédicteur X après
avoir soustrait la
valeur prédite de la
variable
dépendante Y
C.La régression
permet de
confirmer la
direction de la
relation (X -> Y ou
Y -> X)
D.La corrélation
partielle permet
d’estimer la
corrélation entre X
et Y si tous les
répondants avec la
même valeur sur la
variable
confondante
A,B et C
Dans une régression multiple standard, les prédicteurs sont :
A. Entrés selon l’ordre théorique
B. Entrés un par un automatiquement
C. Entrés simultanément
D. Entrés selon leur corrélation
C
La méthode hiérarchique sert principalement à :
A. Maximiser le R² automatiquement
B. Tester la contribution additionnelle de variables
C. Éliminer les variables non significatives
D. Standardiser les coefficients
B
Quelle statistique est la plus importante en régression hiérarchique ?
A. β
B. R
C. ΔR²
D. Moyenne
C
Si la p-valeur du ΔR² = 0,007, on conclut que :
A. Le modèle est invalide
B. La contribution additionnelle est significative
C. Les variables sont colinéaires
D. Le R² diminue
B
La méthode standard permet de tester des hypothèses théoriques sur l’ordre des variables.
Vrai ou Faux ?
?
En régression hiérarchique, le chercheur choisit l’ordre d’entrée des variables.
Vrai ou Faux ?
Vrai
Le ΔR² indique la variance supplémentaire expliquée par un nouveau bloc.
Vrai ou Faux ?
Vrai
Une p-valeur du ΔR² inférieure à 0,05 indique une contribution significative.
Vrai ou Faux ?
Vrai
En entrée hiérarchique, la variabilité commune entre deux prédicteurs est assignée au premier prédicteur entré.
Vrai ou Faux ?
Vrai
Car le second n’étant pas encore dans la régression, il ne peut pas affecter « l’ajustement » du premier
En entrée standard, la variabilité commune entre les prédicteurs est assignée au premier prédicteur.
Vrai ou Faux ?
La variabilité commune entre les prédicteurs n’est assignée à aucun prédicteur.
La contribution de chaque prédicteur étant « ajustée » pour les autres, aucun ne va expliquer la variabilité commune
Quel variable constitue la quantité aléatoire dans une régression ?
Les erreurs de prédiction (e.i. Les résidus)
Pour que les conclusion statsitques sur les coefficients de régression (B) et de détermination (R2) soient valides, les résidus de l’équation de régression doivent rencontrer des hypothèses.
Identifiez celles-ci.
H1 : Ils doivent être indépendants
H2 : Ils doivent être distribués selon une loi normale
H3 : Ils doivent être de moyenne 0 pour toutes les valeurs prédites de Y (postulat de linéarité)
H4 : Ils doivent avoir une variance stable pour toutes les valeurs prédites de Y (postulat d’homoélasticité)
Chaque résidu (et donc chaque observation) doit provenir d’une personne distincte, sans relation avec les autres personnes de l’échantillon (les participants ne doivent pas s’inter-influencé)
Si non-respectée, les observations appariées vont réduire la variabilité de Y
C’est une hypothèse qui ne touche pas les données elles-mêmes mais plutôt comment elles ont été récoltées
À quels hypothèses des résidus renvoient on ?
H1 : Indépendance des résidus
Vérifier la normalité d’une variable (examen graphique de l’histogramme, statistiques d’aplatissement et d’asymétrie, test de Shapiro Wilk)
À quels hypothèses des résidus renvoient on ?
H2 : Normalité des résidus
Ce postulat reflète le fait que la régression (simple ou multiple) est un outil qui capture uniquement la relation linéaire (droite ou plan) entre Y et le(s) prédicteur(s) X
On valide ce postulat à l’aide d’un graphique des résidus selon les valeurs prédites de Y (dans le tableau « ajusté »
Le postulat est respecté si la moyenne des résidus est centrée autour de zéro pour la majorité des points.
À quels hypothèses des résidus renvoient on ?
H3 : Linéarité des résidus