Paradoxe d’amalgamation
Lorsque la taille des groupes est très différente, la variable confondante produit un
déséquilibre dans la distribution des categories par rapport aux autres variables
ex. : grosseur des roches et efficacité du programme
Variabilité
rend plus ou moins “visible” la difference entre des moyennes Valeur minimale = 0 (lorsque la variable est constante) Valeur maximale = théoriquement infinie
Étendue interquartile
Pourquoi n-1 ?
Règle empirique de l’interprétation de l’écart-type
Pour une distribution symmétrique sans valeurs
extremes significatives:
– 68% des observations se retrouvent à l’intérieur de ± 1 ET de 𝑥ҧ
– 95% des observations se retrouvent à l’intérieur de ± 2 ET de 𝑥ҧ
– 99.7% des observations se retrouvent à l’intérieur de ± 2 ET de 𝑥ҧ
Règle de Chebyshev
Pour toutes les distributions :
Au moins 100 ( 1 − 1/𝑘^2) % des observations se retrouvent à l’intérieur de ± k ET de 𝑥(barre), pourvu que k > 1
Score Z
Peut être interprété comme la “quantité” d’écartstypes
qu’une observation se situe de la moyenne;
essentiel pour standardiser des variables différentes pour pouvoir les comparer entre elles
Asymétrie (skewness)
quantifie l’erreur à la moyenne maximale dans une direction ou l’autre; 𝑆𝑘𝑋 = 0: symétrie parfaite; 𝑆𝑘𝑋 > 0: asymétrie positive, la distribution s’étale davantage vers des valeurs plus élevées de la variable, avec des écarts à la moyenne plus grands à droite de celle-ci; 𝑆𝑘𝑋 < 0: asymétrie négative, la distribution s’étale davantage vers des valeurs plus basses de la variable, avec des écarts à la moyenne plus grands à gauche de celle-ci normalité = + ou = 2
Degré d’aplatissement (kurtosis)
définit à quel point les données se rappochent de la moyenne, donc à quel point la moyenne est un bon estimé de chaque valeur;
𝐾𝑢𝑋 = 0: mésocurtique (aplatissement moyen)
𝐾𝑢𝑋 > 0: leptocurtique (distribution pointue)
𝐾𝑢𝑋 < 0: platycurtique (distribution plate)
normalité = + ou - 2 à 7
coefficient de variabilité
Statistique (cv) permettant de comparer le degré de
variabilité de deux variables différentes;
0.05 et plus petit -> bas
0.5 élevé
variabilité des données qualitatives (échelles
nominales)
– Si les effectifs sont également distribuées dans les catégories, la variabilité est
maximale, et il y a hétérogénéité;
– Si les effectifs sont principalement concentrées dans une seule catégorie, avec
un ratio ≥80% environ, variabilité minimale, il y a homogénéité