Cours 2 Flashcards by Jessica Dozois

Pour appliquer un régression linéaire simple, la question statistique implique combien de variables? Dire si elles sont qualitatives ou quantitatives.

UNE variable réponse et UNE variable explicative

- Les 2 variables sont quantitatives

How well did you know this?

Not at all

Perfectly

Nommer les suppositions de la régression linéaire.

-Les observations sont échantillonnées au hasard et sont indépendantes
-Les mesures de x sont obtenues sans erreur (ou l’erreur est négligeable
comparée à celle de y)
-Le relation entre X et Y est linéaire
-Homogénéité des variances
-Les résidus sont distribués normalement

How well did you know this?

Not at all

Perfectly

Expliquer comment procéder pour examiner les résidus.

Tracer un diagramme des résidus (en ordonnée) par rapport aux valeurs ajustées (y-chapeau) (en abscisse).

How well did you know this?

Not at all

Perfectly

Expliquer les ce que l’analyse des résidus détermine.

La fonction de régression est linéaire
Les résidus ont une variance constante (homoscédasticité)
Les résidus sont indépendants
Les résidus sont distribués normalement
Il existe des valeurs aberrantes (outliers)

How well did you know this?

Not at all

Perfectly

Nommer ce qui est recherché lors d’une analyse du nuage de points des résidus par rapport aux valeurs ajustées.

Un motif incurvé => pas linéarité.
Augmentation / diminution de la dispersion autour de zéro, en fonction de X (motif de cône)
Les points individuels avec de grands résidus c-à-d un grand Y (Discrepancy/Divergence)
Les points individuels qui sont extrêmes dans la direction x (Leverage/Levier)

How well did you know this?

Not at all

Perfectly

Quelles sont les conséquences associées aux valeurs aberrantes (outliers).

Elles peuvent affecter:

la normalité des données
l’homoscédacticité
la pente
l’ordonnée
la probabilité de commettre un erreur de Type II (faux négatif)

How well did you know this?

Not at all

Perfectly

Nommer 4 méthodes graphiques qui permettent de détecter la présence d’une valeur aberrante.

L’inspection visuelle des données
L’inspection visuelle des résidus
L’inspection visuelle des histogrammes des résidus
L’inspection visuelle de «boxplots» (boîte à moustaches)

How well did you know this?

Not at all

Perfectly

Nommer des méthodes quantitatives qui permettent de détecter la présence d’une valeur aberrante.

+/-3.0écarts-types de la moyenne ;|z-score|>3
Médiane+/-(1.5xIQR)
Au-dessus ou en dessous des déciles supérieur et inférieur

How well did you know this?

Not at all

Perfectly

Vrai ou Faux.

La connaissance de la gamme des valeurs attendues est un moyen valide pour détecter la présence de valeurs aberrantes.

Vrai

How well did you know this?

Not at all

Perfectly

Expliquer l’effet d’une divergence sans levier.

La valeur Y est inhabituelle compte tenu de sa valeur X, mais elle a peu d’influence sur la droite de régression parce que la valeur Y est au milieu de la plage de X

How well did you know this?

Not at all

Perfectly

Expliquer l’effet d’un levier sans divergence.

Valeur élevée de X. Pourtant valeur d’Y est en ligne avec la

régression de sorte qu’il n’a aucune influence

How well did you know this?

Not at all

Perfectly

Expliquer l’effet d’un levier et une divergence simultané.

Les valeurs de X et Y sont toutes deux inhabituelles, ce résidu a une grande influence
Si cette observation est supprimée, à la fois la pente et l’ordonnée changent

How well did you know this?

Not at all

Perfectly

Que représente la ligne au centre d’une boîte à moustaches?

La médiane.

How well did you know this?

Not at all

Perfectly

Définir les erreurs.

Valeurs qui ne représentent pas fidèlement les mesures ou observations originales.
Elles peuvent être créées de nombreuses manières: erreurs de transcription, d’enregistrement, ou de fonctionnement des appareils de mesure.

How well did you know this?

Not at all

Perfectly

Quelles sont les 2 options possibles dans le cas où la distribution des résidus n’est pas conforme à une loi normale?

1) Normaliser les données
(avec transfo)
2) Utiliser une autre méthode:
- méthodes statistiques basées sur les rangs
-modèles linéaires généralisés (e.g., logistique, Poisson, neg. bin)
-modèles non-linéaire

How well did you know this?

Not at all

Perfectly

Nommer 4 façons différentes pour tester la normalité des résidus.

Study These Flashcards

• Outils :
1. Histogrammes
2. Les plots QQ
• Tests statistiques :
1. Test de Kolmogorov-Smirnov (test KS)
2. Test de Shapiro-Wilk (test SW)

Compléter la phrase.

Dans un histogramme des résidus on cherche une distribution qui est ________ et __________.

Study These Flashcards

unimodale et symétrique.

À noter les histogrammes des résidus sont sensibles à n.

Expliquer qu’est-ce qu’un plot QQ.

Study These Flashcards

• QQ = “quantile - quantile”
• Les quantiles
divisent les données en portions
• Les quantiles indiquent la valeur à laquelle une proportion connue de vos données sont plus petits ou égaux (à leurs valeurs).
• Semblable à la fonction de répartition, mais discrète
• La médiane représente la valeur (observation) à laquelle 50% des observations sont inférieures ou égales.

Qu’est-ce que le test Kolmogorov-Smirnov compare?

Study These Flashcards

On compare la fonction de distribution cumulative (CDF) empirique et la distribution cumulative théorique.

Nommer les suppositions, les limitations et les extensions du test Kolmogorov-Smirnov.

Study These Flashcards

Suppositions
• Les échantillons sont aléatoires
• La distribution théorique (FT(x)) est continue

Limitations
• Pas applicable quand il faut estimer les paramètres de la données; donc, pas toujours
utile…

Extensions
• Extension pour la comparaison de conformité entre deux distributions empiriques
• comportement semblable au test Chi-carré
avec corrections pour les degrés de liberté et les paramètres estimés
• Test Anderson-Darling

Nommer une alternative plus fiable pour tester la normalité.

Study These Flashcards

Le test Shapiro-Wilk

Compléter la phrase.
La statistique W du test peut être perçue comme __ ___ de la droite liant l’abscisse et l’ordonnée de cette représentation.

Study These Flashcards

le R^2

Vrai ou Faux.

Plus W est grand, plus la distribution est proche de la normale et plus la probabilité p du test s’approche de 1.

Study These Flashcards

Vrai

Vrai ou Faux.

La statistique W est définit par l’estimation de l’écart-type des données divisé par l’écart-type de la théorie.

Study These Flashcards

Faux

W= écart-type th / écart-type données

Mentionner les mises en garde associées à l'utilisation du test Shapiro-wilk.

* S’il y a plusieurs valeurs égales, cela pose problème • Ne rejette pas H0 assez souvent quand n est petit * Rejette H0 trop souvent quand n est large * N.B. Le test Shapiro-Wilk est trop sensible pour la vérification de la normalité des données pour les tests t ou l’ANOVA.... * Utilisez les histogrammes et les diagrammes QQ

Vrai ou Faux • Les transformations normalisatrices réduisent l'hétéroscédasticité des données en stabilisant leur variance • Ils rendent la variance indépendante de la moyenne et plus constante sur l'ensemble de l'échantillon.

Vrai

Cours 2 Flashcards

(26 cards)