unit 11 Flashcards by Femke Pouwel

mean

mean()

How well did you know this?

Not at all

Perfectly

standard deviation

sd()

How well did you know this?

Not at all

Perfectly

variance

var()

How well did you know this?

Not at all

Perfectly

map betekenis

Voer een functie uit op elk element (bijvoorbeeld elke kolom) van een dataset.

How well did you know this?

Not at all

Perfectly

Boxplots – to create a boxplot, use this command:

Dataset %>%
Ggplot(aes(y= variable)) +
Geom_boxplot()

How well did you know this?

Not at all

Perfectly

Multiple boxplots – meerdere boxplots naast elkaar

Dataset %>%
ggplot() +
labs (x = “…”, y = “…”) +
Geom_boxplot(aes(y= variable 1, x= “variable 1”)) +
Geom_boxplot(aes(y= variable 2, x= “variable 2”)) +
Geom_boxplot(aes(y= variable 3, x= “variable 3”)) +
Geom_boxplot(aes(y= variable 4, x= “variable 4”))

How well did you know this?

Not at all

Perfectly

wat is belangrijk bij meerdere boxplots in 1 diagram, om neer te zetten

add ‘labs’! staat voor labels, en zet er neer wat je op de x en Y as wil.

How well did you know this?

Not at all

Perfectly

hoe zie je ‘outliers’?

Dit zie je door puntjes

How well did you know this?

Not at all

Perfectly

hoe geef je outliers een kleur

Dataset %>%
Ggplot(aes(y = variable)) +
Geom_boxplot(outlier.colour = “red”, outlier.shape = 16)

How well did you know this?

Not at all

Perfectly

z-score

Z= (x – mean) : sd

How well did you know this?

Not at all

Perfectly

wat bereken je met een z-score

Verteld hoe ver een individuele score afwijkt van het gemiddelde (mean), gemeten in eenheden van de standaarddeviatie (sd)

How well did you know this?

Not at all

Perfectly

Wat doet standaardiseren doet:

Met z-scores maak je alle schalen eerlijk. Je verandert de cijfers zodat:
- Het gemiddelde altijd 0 wordt, en
- De spreiding altijd 1 wordt.
Dan kun je alles vergelijken alsof ze uit hetzelfde “meetsysteem” komen.
Dus: alles even hoog/laag maken > spreiding gelijk maken.
“Hoe ver een score van het gemiddelde afligt, uitgedrukt in standaarddeviaties.

How well did you know this?

Not at all

Perfectly

meerdere z-scores berekenen

Dataset <- dataset %>%
Mutate(zvariable1 = scale(variable1),
Zvariabel2 = scale(variable 2),
Zvariable3 = scale(variable3),
Zvariable4 = scale(variable4))

How well did you know this?

Not at all

Perfectly

waar staat ‘scale’ voor

ingebouwde R-functie die automatisch z-scores berekent

How well did you know this?

Not at all

Perfectly

standard deviation formule

s= √∑(x−xˉ)2
————-
n-1

How well did you know this?

Not at all

Perfectly

z-score formule

Study These Flashcards

z= x−xˉ
——
s

z-score in R berekenen

Study These Flashcards

dataset <- dataset %>%
mutate(variable2 = scale(variable))

Standaarddeviatie (SD), gaat over

Study These Flashcards

de hele groep

Z-score, gaat over

Study These Flashcards

Eén persoon (of één waarde)

Standaarddeviatie (SD), wat is het

Study These Flashcards

Maatstaf voor spreiding

z-score, wat is het

Study These Flashcards

Afstand van één score t.o.v. het gemiddelde, uitgedrukt in SD’s

Waarde na standaardiseren: mean

Study These Flashcards

Waarde na standaardiseren: sd

Study These Flashcards

Waarde na standaardiseren: variance

Study These Flashcards

Kan je een totale score (overall score) tellen (index) van meerdere z-scores?

Dit kan, omdat het z-sores heet en dus allemaal zijn gestandaardiseerd. Ieder onderdeel telt even zwaar mee (25%). Maar let op > bij running betekend een hoge waarde eigenlijk iets slechts.

Bij het berekenen van een totale score (overall score), kan je niet altijd meteen alles bij elkaar oprekenen. Zoals bij variabele 'tijd', waarbij een langere tijd soms juist negatief is, niet positief. Dit wil je dan omdraaien (reverse), hoe?

military <- military %>% mutate(revzRunning = -zRunning * -1)

mutate()

maak een nieuwe kolom of vervang de bestaande

revzRunning= -zrunning * -1

je maakt nieuwe kolom ‘revzRunning’ waarin de waarden van zRunning worden omgedraaid.

Summarizing numerical variables: mean

Dataset %>% Select(1:10) %>% Map(mean)

Summarizing numerical variables: median

Dataset %>% Select(1:10) %>% Map(median)

Summarizing numerical variables: variation

Dataset %>% Select(1:10) %>% Map(var)

Summarizing numerical variables: standard deviation

Dataset %>% Select(1:10) %>% Map(sd)

Bij summarizing numerical variables, heb je Select(1:10): waar staat dit voor

je kiest dan de eerste 10 kolommen van je dataset

Bij summarizing numerical variables, heb je soms kolommen verspreid, dus niet kolom 1/10, waarbij je select(1:10) krijgt, maar wat doe je bij kolom 2,5,7?

select(c(2, 5, 7)) %>%

wat typ je als je de 'mean' wil berekenen, met als filter 'male', en dan kolom 3:

Dataset %>% Filter(GENDER == “Male”) %>% Select(3) %>% Map(mean)

unit 11 Flashcards

(35 cards)