mean
mean()
standard deviation
sd()
variance
var()
map betekenis
Voer een functie uit op elk element (bijvoorbeeld elke kolom) van een dataset.
Boxplots – to create a boxplot, use this command:
Dataset %>%
Ggplot(aes(y= variable)) +
Geom_boxplot()
Multiple boxplots – meerdere boxplots naast elkaar
Dataset %>%
ggplot() +
labs (x = “…”, y = “…”) +
Geom_boxplot(aes(y= variable 1, x= “variable 1”)) +
Geom_boxplot(aes(y= variable 2, x= “variable 2”)) +
Geom_boxplot(aes(y= variable 3, x= “variable 3”)) +
Geom_boxplot(aes(y= variable 4, x= “variable 4”))
wat is belangrijk bij meerdere boxplots in 1 diagram, om neer te zetten
add ‘labs’! staat voor labels, en zet er neer wat je op de x en Y as wil.
hoe zie je ‘outliers’?
Dit zie je door puntjes
hoe geef je outliers een kleur
Dataset %>%
Ggplot(aes(y = variable)) +
Geom_boxplot(outlier.colour = “red”, outlier.shape = 16)
z-score
Z= (x – mean) : sd
wat bereken je met een z-score
Verteld hoe ver een individuele score afwijkt van het gemiddelde (mean), gemeten in eenheden van de standaarddeviatie (sd)
Wat doet standaardiseren doet:
Met z-scores maak je alle schalen eerlijk. Je verandert de cijfers zodat:
- Het gemiddelde altijd 0 wordt, en
- De spreiding altijd 1 wordt.
Dan kun je alles vergelijken alsof ze uit hetzelfde “meetsysteem” komen.
Dus: alles even hoog/laag maken > spreiding gelijk maken.
“Hoe ver een score van het gemiddelde afligt, uitgedrukt in standaarddeviaties.
meerdere z-scores berekenen
Dataset <- dataset %>%
Mutate(zvariable1 = scale(variable1),
Zvariabel2 = scale(variable 2),
Zvariable3 = scale(variable3),
Zvariable4 = scale(variable4))
waar staat ‘scale’ voor
ingebouwde R-functie die automatisch z-scores berekent
standard deviation formule
s= √∑(x−xˉ)2
————-
n-1
z-score formule
z= x−xˉ
——
s
z-score in R berekenen
dataset <- dataset %>%
mutate(variable2 = scale(variable))
Standaarddeviatie (SD), gaat over
de hele groep
Z-score, gaat over
Eén persoon (of één waarde)
Standaarddeviatie (SD), wat is het
Maatstaf voor spreiding
z-score, wat is het
Afstand van één score t.o.v. het gemiddelde, uitgedrukt in SD’s
Waarde na standaardiseren: mean
0
Waarde na standaardiseren: sd
1
Waarde na standaardiseren: variance
1