oppsumering Flashcards

(73 cards)

1
Q

Hva er data science?

A

Bruk av vitenskapelige metoder, statistikk og algoritmer for å hente innsikt fra data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva kombinerer data science?

A

Datavitenskap, matematikk/statistikk og domenekunnskap.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er strukturerte data?

A

Data i tabellformat med rader og kolonner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er ustrukturerte data?

A

Tekst, bilder, lyd og video.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva er kontinuerlig variabel?

A

Kan ta alle verdier i et intervall.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er diskret variabel?

A

Kan bare ta bestemte verdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva er nominal variabel?

A

Kategorisk uten rekkefølge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er ordinal variabel?

A

Kategorisk med rekkefølge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan oppsummere ordinal data best?

A

Median.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er EDA?

A

Utforske data uten sterke antagelser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvorfor gjøre EDA før modellering?

A

Forstå struktur og oppdage feil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er stokastisk variabel?

A

Variabel med usikkert utfall.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hva er forventningsverdi?

A

Gjennomsnittlig utfall over mange repetisjoner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er varians?

A

Spredning rundt gjennomsnitt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva er normalfordeling viktig for?

A

Modellering og statistisk inferens.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva sier sentralgrenseteoremet?

A

Gjennomsnitt blir normalfordelt ved stort utvalg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hva er korrelasjon?

A

Lineær sammenheng mellom variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hva betyr korrelasjon ≠ kausalitet?

A

Sammenheng betyr ikke årsak.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hva er Simpson’s paradoks?

A

Aggregert trend motsier delgruppetrend.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hva er MCAR?

A

Manglende data helt tilfeldig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hva er MAR?

A

Manglende avhenger av observerte variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hva er MNAR?

A

Manglende avhenger av uobserverte variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hva er imputasjon?

A

Erstatte manglende verdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hva er mean/median imputasjon best for?

A

MCAR.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Hva er missing indicator brukt til?
MNAR.
26
Hva er feature engineering?
Lage nye nyttige variabler.
27
Hva er OneHot encoding?
Gjør kategorier om til binære variabler.
28
Hva er leakage?
Testinfo brukes under trening.
29
Hva er modellens mål?
Generalisere til ny data.
30
Hva er overtilpasning?
Lærer støy i treningsdata.
31
Hva er undertilpasning?
For enkel modell.
32
Hva brukes valideringsdata til?
Velge modell/hyperparametre.
33
Hva brukes testdata til?
Endelig evaluering.
34
Hva er MSE?
Gjennomsnitt kvadrert feil.
35
Hva er RMSE fordel?
Samme enhet som målvariabel.
36
Hva er MAE fordel?
Robust mot uteliggere.
37
Hva er regresjon?
Predikere numerisk verdi.
38
Hva er klassifikasjon?
Predikere kategori.
39
Hva er baseline modell?
Enkel referansemodell.
40
Hva er logistisk regresjon?
Modellerer klassesannsynlighet.
41
Hva er kNN?
Bruker nærmeste naboer.
42
Hva er accuracy problem?
Misvisende ved ubalanserte data.
43
Hva er presisjon?
Andel riktige positive.
44
Hva er recall?
Andel funnet av faktiske positive.
45
Hva er F1-score?
Balanse presisjon og recall.
46
Hva er klyngeanalyse?
Finne grupper uten fasit.
47
Hva er hypotesetest?
Teste påstand statistisk.
48
Hva er p-verdi?
Sannsynlighet for data gitt nullhypotese.
49
Hva er A/B test?
Randomisert eksperiment.
50
Hva viser RCT?
Kausal effekt.
51
Hva kan observasjonsstudier vise?
Sammenheng, ikke årsak.
52
Hva er kohortstudie?
Følge gruppe over tid.
53
Hva er case-control studie?
Start med utfall og se bakover.
54
Hva er bias i data?
Skjev representasjon.
55
Hva er modellbias?
Feil antagelser i modell.
56
Hvordan redusere bias?
Representative data og evaluering per gruppe.
57
Hva er anbefalingssystem?
Foreslår relevante varer.
58
Hva er innholdsbasert filtrering?
Basert på brukerens historikk.
59
Hva er samarbeidsbasert filtrering?
Basert på lignende brukere.
60
Fordel innholdsbasert?
Kan anbefale nye varer.
61
Fordel samarbeidsbasert?
Trenger ikke vareprofiler.
62
Hva er cold start problem?
Ingen historikk.
63
Hva er beste evaluering av anbefaling?
A/B test.
64
Hva er viktigere enn accuracy i anbefaling?
Rangering/diversitet.
65
Hva er god datakommunikasjon?
Tilpasset publikum.
66
Hva må alltid forklares?
Usikkerhet og begrensninger.
67
Hva er målet med presentasjon?
Skape handling.
68
Hva er reproduserbarhet?
Samme resultat ved ny kjøring.
69
Hvordan sikre reproduserbarhet?
Fast seed og versjonskontroll.
70
Hva er implementasjon?
Ta modell i bruk.
71
Hva er minimal ML-pipeline?
Input → preprocessing → modell → output.
72
Hva må overvåkes i drift?
Ytelse over tid.
73
Hva er modell-drift problem?
Data drift og degradering.