La qualité de l’inférence statistique dépend
directement de la qualité des […]
La qualité de l’inférence statistique dépend
directement de la qualité des données
Quelles sont les 6 étapes de l’inférence statistique?
Quelles sont les différentes étapes de saisie directe des données pour éviter les erreur? (3)
**Les méthodes de saisie informatisée, où l’acquisition de données est réalisée en temps réel et/ou par le participant, sont idéales pour réduire les problèmes de saisie.
Comment fait-on pour vérifier la qualité de l’ensemble de nos variables, en fonction du type de variable (continue, nominale)?
Quels sont les inconvénients qu’entraînent les données manquantes? (3)
** Le patron des données manquantes est plus important que la quantité de données manquantes
Quels sont les trois patrons de données manquantes?
Quelles sont les quatre méthodes de gestion des données manquantes?
Dans la méthode de retrait des observations avec des données manquantes, quels sont les deux types de retrait possibles?
** À utiliser dans un contexte où les données manquantes sont complètement aléatoire (MCAR)
Dans la méthode d’imputation des données manquantes, quels sont les cinq types d’imputation possibles?
Dans la méthode d’imputation des données manquantes, expliquer l’imputation par moyenne de la variable ainsi que son effet sur les résultats.
Il y a deux moyennes (variable choisi de tous les participants; moyenne du participant (en fonction de son pattern de réponse)) que l’on peut mettre à la place de la donnée manquante:
Dans la méthode d’imputation des données manquantes, expliquer l’imputation selon le plus proche voisin ainsi que son effet sur les résultats.
On voit que dans la base de donnée, souvent les participants vont avoir à peu près les mêmes caractéristiques que la personne avec les données manquantes. Donc on peut utiliser ces réponses pour compléter les données manquantes de l’autre.
-> Le problème est que si on veut un profil similaire, en pratique ça demande beaucoup d’analyse pour trouver le profil le plus similaire!
Dans la méthode d’imputation des données manquantes, expliquer les étapes de l’imputation multiple.
** Ici, on s’assure que il n’y a pas trop de différence entre ma matrice de départ et celle corrigée pour les données manquantes. On fait ces calculs à répétition.
*** Cette méthode est rendu un standard dans l’imputation. Par contre, en science sociale il y a encore une résistance face au imputation (on manipule les données puisque ce ne sont pas “des vrais données”).
Dans la méthode de pondération des observations pour la gestion des données manquantes, comment calcule-t-on le poids attribué aux données disponibles
Ex: On a trois groupes. G1 tout le monde répond 1, G2 tout le monde répond 2, G3 tout le monde répond 3. X sont les données manquantes.

Qu’est-ce qu’une donnée extrême?
Une donnée rare selon la distribution statistique, qui est éloignée de la valeur des autres données du même échantillon.
* Une donnée extrême peut être observée sur une variable nominale ou continue
D’où provient les données extrêmes?
* Une donnée extrême continue (multivariée) provenant d’une variable continue provient de la combinaison improbable de plusieurs variables
Comment identifie-t-on les données extrêmes univariée en fonction du type de variable (nominal, continue)?
Quelles sont les deux caractéristiques d’une donnée extrême multivariée?
** L’influence d’une donnée extrême est fonction du levier et de sa déviation
Décrivez la variable extrême de chaque tableau (a,b,c) en fonction du levier, de sa déviation ainsi que de son influence.

A) Le point x est en lien avec la relation, mais il est très loin. Il n’y aura pas trop d’impact sur la droite de régresssion. Donc elle a un fort levier (loin) mais peu déviante (suit la tendance) et donc peu d’influence sur la régression.
B) Le point x est très loin du jeu de donnée et complètement contre la tendance du jeu de donnée. Donc elle a un fort levier, une forte déviance et donc une forte influence sur la régression. La régression ne sera pas intéressante ni pour le jeu de donnée ni pour la variable extrême si elle prend en compte la variable extrême.
C) Le point x est proche du jeu de donnée mais contre sa tendance. Donc elle a un faible levier, une forte déviance et donc une influence modérée.

Pourquoi doit on s’occuper des données extrêmes?
Quelles sont les méthodes de gestion des données extrêmes? (4)
Quels sont les postulats de base de la plupart des méthodes d’analyses multivariées? (5)
Comment vérifie-t-on le postulat de normalité “univariée”?
Indices graphiques et statistiques
Que représente ces graphiques?

A) Asymétrie positive
B) Asymétrie négative
C) Voussure positive
D) Voussure nédative

À quoi faire-t-il faire attention lorsque l’on transforme une distribution problématique pour qu’elle représente davantage les caractéristiques d’une distribution normale?