Pour appliquer un régression linéaire simple, la question statistique implique combien de variables? Dire si elles sont qualitatives ou quantitatives.
- Les 2 variables sont quantitatives
Nommer les suppositions de la régression linéaire.
-Les observations sont échantillonnées au hasard et sont indépendantes
-Les mesures de x sont obtenues sans erreur (ou l’erreur est négligeable
comparée à celle de y)
-Le relation entre X et Y est linéaire
-Homogénéité des variances
-Les résidus sont distribués normalement
Expliquer comment procéder pour examiner les résidus.
Tracer un diagramme des résidus (en ordonnée) par rapport aux valeurs ajustées (y-chapeau) (en abscisse).
Expliquer les ce que l’analyse des résidus détermine.
Nommer ce qui est recherché lors d’une analyse du nuage de points des résidus par rapport aux valeurs ajustées.
Quelles sont les conséquences associées aux valeurs aberrantes (outliers).
Elles peuvent affecter:
Nommer 4 méthodes graphiques qui permettent de détecter la présence d’une valeur aberrante.
Nommer des méthodes quantitatives qui permettent de détecter la présence d’une valeur aberrante.
Vrai ou Faux.
La connaissance de la gamme des valeurs attendues est un moyen valide pour détecter la présence de valeurs aberrantes.
Vrai
Expliquer l’effet d’une divergence sans levier.
La valeur Y est inhabituelle compte tenu de sa valeur X, mais elle a peu d’influence sur la droite de régression parce que la valeur Y est au milieu de la plage de X
Expliquer l’effet d’un levier sans divergence.
Valeur élevée de X. Pourtant valeur d’Y est en ligne avec la
régression de sorte qu’il n’a aucune influence
Expliquer l’effet d’un levier et une divergence simultané.
Que représente la ligne au centre d’une boîte à moustaches?
La médiane.
Définir les erreurs.
Quelles sont les 2 options possibles dans le cas où la distribution des résidus n’est pas conforme à une loi normale?
1) Normaliser les données
(avec transfo)
2) Utiliser une autre méthode:
- méthodes statistiques basées sur les rangs
-modèles linéaires généralisés (e.g., logistique, Poisson, neg. bin)
-modèles non-linéaire
Nommer 4 façons différentes pour tester la normalité des résidus.
• Outils : 1. Histogrammes 2. Les plots QQ • Tests statistiques : 1. Test de Kolmogorov-Smirnov (test KS) 2. Test de Shapiro-Wilk (test SW)
Compléter la phrase.
Dans un histogramme des résidus on cherche une distribution qui est ________ et __________.
unimodale et symétrique.
À noter les histogrammes des résidus sont sensibles à n.
Expliquer qu’est-ce qu’un plot QQ.
• QQ = “quantile - quantile”
• Les quantiles
divisent les données en portions
• Les quantiles indiquent la valeur à laquelle une proportion connue de vos données sont plus petits ou égaux (à leurs valeurs).
• Semblable à la fonction de répartition, mais discrète
• La médiane représente la valeur (observation) à laquelle 50% des observations sont inférieures ou égales.
Qu’est-ce que le test Kolmogorov-Smirnov compare?
On compare la fonction de distribution cumulative (CDF) empirique et la distribution cumulative théorique.
Nommer les suppositions, les limitations et les extensions du test Kolmogorov-Smirnov.
Suppositions
• Les échantillons sont aléatoires
• La distribution théorique (FT(x)) est continue
Limitations
• Pas applicable quand il faut estimer les paramètres de la données; donc, pas toujours
utile…
Extensions
• Extension pour la comparaison de conformité entre deux distributions empiriques
• comportement semblable au test Chi-carré
avec corrections pour les degrés de liberté et les paramètres estimés
• Test Anderson-Darling
Nommer une alternative plus fiable pour tester la normalité.
Le test Shapiro-Wilk
Compléter la phrase.
La statistique W du test peut être perçue comme __ ___ de la droite liant l’abscisse et l’ordonnée de cette représentation.
le R^2
Vrai ou Faux.
Plus W est grand, plus la distribution est proche de la normale et plus la probabilité p du test s’approche de 1.
Vrai
Vrai ou Faux.
La statistique W est définit par l’estimation de l’écart-type des données divisé par l’écart-type de la théorie.
Faux
W= écart-type th / écart-type données