lors de compilation de données dans un chiffrier (ex: excel), que représentent généralement les lignes vs les colonnes?
Chaque ligne= une observation (e.g. un
individu)
Chaque colonne= une variable (e.g. âge,
malade/sain, date d’échantillonnage…)
quel type de description des données suis-je? je suis la première étape et je suis très important. je décris une variable à la fois.
Description univariée
que permet la description univariée? (4)
dans un contexte de tri des données, déterminer qui est la variable quantitative vs qualitative;
quelle erreur potentielle observe-t-on ici?
120 kg de lait en 120 jours?
Erreur de frappe?
À corriger ou exclure?
quelle erreur potentielle observe-t-on ici?
Lignes 2 à 1926 → 0
Lignes 1927 à 1976 → 1
Ligne 1977 → 2 ??? Erreur?
quelle erreur potentielle observe-t-on ici?
Varie de 1 à 298 jours
Donnée semble manquante pour près de 400 vaches?
Pour explorer, présenter et même parfois pour analyser les données, que peut on faire avec nos variables quantitatives?
comment s’appelle ce processus?
on transformera parfois une
variable quantitative en créant des catégories
-> discrétisation
quel sont les différents types d’échelles qu’on peut choisir lors de la discrétisation?
qui suis-je? je suis une échelle de discrétisation. lorsqu’on m’utilise, On choisit des intervalles égaux puis on compte le nombre de sujet par intervalles.
échelle par amplitude
qui suis-je? je suis une échelle de discrétisation. lorsqu’on m’utilise, mes intervalles sont choisit en fonction de la pertinence des bornes
Échelle de convenance
qui suis-je? je suis une échelle de discrétisation. lorsqu’on m’utilise, On divise les observations en groupes égaux, puis les bornes des intervalles sont ensuite délimitées
Échelle par fréquence
quelle échelle de fréquence observe-t-on?
Échelle de convenance
quelle échelle de fréquence observe-t-on?
Échelle par fréquence
quelle échelle de fréquence observe-t-on?
échelle par amplitude
quelle échelle de fréquence (discrétisation) utilise-t-on afin de présenter les données aux lecteurs?
l’échelle qui ‘communique’ le mieux l’information
quelle échelle de fréquence (discrétisation) utilise-t-on dans les analyses statistiques?
-> Échelle de convenance souvent mieux reliée à la
biologie du phénomène étudié
que peut on faire avec des variables quantitative exprimée par des nombres difficiles à manipuler?
On pourra les transformer pour faciliter interprétation
(ex: transformation logarithmique)
qui suis-je? je suis une transformation de variables quantitatives très utilisé en biologie et sciences santé qui facilite l’interprétation de plusieurs statistiques lorsque la distribution s’étire de façon exponentielle vers une des extrémités
Transformation logarithmique (naturel ou autre) de x
qu’Est ce qu’on utilise pour visualiser et décrire les variables qualitatives? (discrétisation)
Effectifs et fréquences relatives
associez
a. effectifs
b. Fréquences relatives
c. Fréquences cumulées
1.Nb de sujets/catégorie
2. On ajoute les fréquences relatives des catégories inférieures
3.Nb de sujets/catégorie / nb total
associez 1,2,3 à
effectifs, Fréquences relatives, Fréquences cumulées
qui suis-je (tableau, graphique, paramètres)?
Précis mais peuvent contenir beaucoup de nombres:
rend plus difficile la visualisation des données et
prend de la place (e.g. dans un article)
tableau
qui suis-je (tableau, graphique, paramètres)?
Illustre souvent peu l’image globale et perte d’information
(ex; surf island)
paramètre