Hva er data science?
Bruk av vitenskapelige metoder, statistikk og algoritmer for å hente innsikt fra data.
Hva kombinerer data science?
Datavitenskap, matematikk/statistikk og domenekunnskap.
Hva er strukturerte data?
Data i tabellformat med rader og kolonner.
Hva er ustrukturerte data?
Tekst, bilder, lyd og video.
Hva er kontinuerlig variabel?
Kan ta alle verdier i et intervall.
Hva er diskret variabel?
Kan bare ta bestemte verdier.
Hva er nominal variabel?
Kategorisk uten rekkefølge.
Hva er ordinal variabel?
Kategorisk med rekkefølge.
Hvordan oppsummere ordinal data best?
Median.
Hva er EDA?
Utforske data uten sterke antagelser.
Hvorfor gjøre EDA før modellering?
Forstå struktur og oppdage feil.
Hva er stokastisk variabel?
Variabel med usikkert utfall.
Hva er forventningsverdi?
Gjennomsnittlig utfall over mange repetisjoner.
Hva er varians?
Spredning rundt gjennomsnitt.
Hva er normalfordeling viktig for?
Modellering og statistisk inferens.
Hva sier sentralgrenseteoremet?
Gjennomsnitt blir normalfordelt ved stort utvalg.
Hva er korrelasjon?
Lineær sammenheng mellom variabler.
Hva betyr korrelasjon ≠ kausalitet?
Sammenheng betyr ikke årsak.
Hva er Simpson’s paradoks?
Aggregert trend motsier delgruppetrend.
Hva er MCAR?
Manglende data helt tilfeldig.
Hva er MAR?
Manglende avhenger av observerte variabler.
Hva er MNAR?
Manglende avhenger av uobserverte variabler.
Hva er imputasjon?
Erstatte manglende verdier.
Hva er mean/median imputasjon best for?
MCAR.