unit 11 Flashcards

(35 cards)

1
Q

mean

A

mean()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

standard deviation

A

sd()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

variance

A

var()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

map betekenis

A

Voer een functie uit op elk element (bijvoorbeeld elke kolom) van een dataset.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Boxplots – to create a boxplot, use this command:

A

Dataset %>%
Ggplot(aes(y= variable)) +
Geom_boxplot()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Multiple boxplots – meerdere boxplots naast elkaar

A

Dataset %>%
ggplot() +
labs (x = “…”, y = “…”) +
Geom_boxplot(aes(y= variable 1, x= “variable 1”)) +
Geom_boxplot(aes(y= variable 2, x= “variable 2”)) +
Geom_boxplot(aes(y= variable 3, x= “variable 3”)) +
Geom_boxplot(aes(y= variable 4, x= “variable 4”))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

wat is belangrijk bij meerdere boxplots in 1 diagram, om neer te zetten

A

add ‘labs’! staat voor labels, en zet er neer wat je op de x en Y as wil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

hoe zie je ‘outliers’?

A

Dit zie je door puntjes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

hoe geef je outliers een kleur

A

Dataset %>%
Ggplot(aes(y = variable)) +
Geom_boxplot(outlier.colour = “red”, outlier.shape = 16)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

z-score

A

Z= (x – mean) : sd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

wat bereken je met een z-score

A

Verteld hoe ver een individuele score afwijkt van het gemiddelde (mean), gemeten in eenheden van de standaarddeviatie (sd)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat doet standaardiseren doet:

A

Met z-scores maak je alle schalen eerlijk. Je verandert de cijfers zodat:
- Het gemiddelde altijd 0 wordt, en
- De spreiding altijd 1 wordt.
Dan kun je alles vergelijken alsof ze uit hetzelfde “meetsysteem” komen.
Dus: alles even hoog/laag maken > spreiding gelijk maken.
“Hoe ver een score van het gemiddelde afligt, uitgedrukt in standaarddeviaties.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

meerdere z-scores berekenen

A

Dataset <- dataset %>%
Mutate(zvariable1 = scale(variable1),
Zvariabel2 = scale(variable 2),
Zvariable3 = scale(variable3),
Zvariable4 = scale(variable4))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

waar staat ‘scale’ voor

A

ingebouwde R-functie die automatisch z-scores berekent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

standard deviation formule

A

s= √∑(x−xˉ)2
————-
n-1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

z-score formule

A

z= x−xˉ
——
s

17
Q

z-score in R berekenen

A

dataset <- dataset %>%
mutate(variable2 = scale(variable))

18
Q

Standaarddeviatie (SD), gaat over

A

de hele groep

19
Q

Z-score, gaat over

A

Eén persoon (of één waarde)

20
Q

Standaarddeviatie (SD), wat is het

A

Maatstaf voor spreiding

21
Q

z-score, wat is het

A

Afstand van één score t.o.v. het gemiddelde, uitgedrukt in SD’s

22
Q

Waarde na standaardiseren: mean

23
Q

Waarde na standaardiseren: sd

24
Q

Waarde na standaardiseren: variance

25
Kan je een totale score (overall score) tellen (index) van meerdere z-scores?
Dit kan, omdat het z-sores heet en dus allemaal zijn gestandaardiseerd. Ieder onderdeel telt even zwaar mee (25%). Maar let op > bij running betekend een hoge waarde eigenlijk iets slechts.
26
Bij het berekenen van een totale score (overall score), kan je niet altijd meteen alles bij elkaar oprekenen. Zoals bij variabele 'tijd', waarbij een langere tijd soms juist negatief is, niet positief. Dit wil je dan omdraaien (reverse), hoe?
military <- military %>% mutate(revzRunning = -zRunning * -1)
27
mutate()
maak een nieuwe kolom of vervang de bestaande
28
revzRunning= -zrunning * -1
je maakt nieuwe kolom ‘revzRunning’ waarin de waarden van zRunning worden omgedraaid.
29
Summarizing numerical variables: mean
Dataset %>% Select(1:10) %>% Map(mean)
30
Summarizing numerical variables: median
Dataset %>% Select(1:10) %>% Map(median)
31
Summarizing numerical variables: variation
Dataset %>% Select(1:10) %>% Map(var)
32
Summarizing numerical variables: standard deviation
Dataset %>% Select(1:10) %>% Map(sd)
33
Bij summarizing numerical variables, heb je Select(1:10): waar staat dit voor
je kiest dan de eerste 10 kolommen van je dataset
34
Bij summarizing numerical variables, heb je soms kolommen verspreid, dus niet kolom 1/10, waarbij je select(1:10) krijgt, maar wat doe je bij kolom 2,5,7?
select(c(2, 5, 7)) %>%
35
wat typ je als je de 'mean' wil berekenen, met als filter 'male', en dan kolom 3:
Dataset %>% Filter(GENDER == “Male”) %>% Select(3) %>% Map(mean)