oppsumering Flashcards by Sofie Korseberg Hagen

Hva er data science?

Bruk av vitenskapelige metoder, statistikk og algoritmer for å hente innsikt fra data.

How well did you know this?

Not at all

Perfectly

Hva kombinerer data science?

Datavitenskap, matematikk/statistikk og domenekunnskap.

How well did you know this?

Not at all

Perfectly

Hva er strukturerte data?

Data i tabellformat med rader og kolonner.

How well did you know this?

Not at all

Perfectly

Hva er ustrukturerte data?

Tekst, bilder, lyd og video.

How well did you know this?

Not at all

Perfectly

Hva er kontinuerlig variabel?

Kan ta alle verdier i et intervall.

How well did you know this?

Not at all

Perfectly

Hva er diskret variabel?

Kan bare ta bestemte verdier.

How well did you know this?

Not at all

Perfectly

Hva er nominal variabel?

Kategorisk uten rekkefølge.

How well did you know this?

Not at all

Perfectly

Hva er ordinal variabel?

Kategorisk med rekkefølge.

How well did you know this?

Not at all

Perfectly

Hvordan oppsummere ordinal data best?

Median.

How well did you know this?

Not at all

Perfectly

Hva er EDA?

Utforske data uten sterke antagelser.

How well did you know this?

Not at all

Perfectly

Hvorfor gjøre EDA før modellering?

Forstå struktur og oppdage feil.

How well did you know this?

Not at all

Perfectly

Hva er stokastisk variabel?

Variabel med usikkert utfall.

How well did you know this?

Not at all

Perfectly

Hva er forventningsverdi?

Gjennomsnittlig utfall over mange repetisjoner.

How well did you know this?

Not at all

Perfectly

Hva er varians?

Spredning rundt gjennomsnitt.

How well did you know this?

Not at all

Perfectly

Hva er normalfordeling viktig for?

Modellering og statistisk inferens.

How well did you know this?

Not at all

Perfectly

Hva sier sentralgrenseteoremet?

Gjennomsnitt blir normalfordelt ved stort utvalg.

How well did you know this?

Not at all

Perfectly

Hva er korrelasjon?

Lineær sammenheng mellom variabler.

How well did you know this?

Not at all

Perfectly

Hva betyr korrelasjon ≠ kausalitet?

Sammenheng betyr ikke årsak.

How well did you know this?

Not at all

Perfectly

Hva er Simpson’s paradoks?

Aggregert trend motsier delgruppetrend.

How well did you know this?

Not at all

Perfectly

Hva er MCAR?

Manglende data helt tilfeldig.

How well did you know this?

Not at all

Perfectly

Hva er MAR?

Manglende avhenger av observerte variabler.

How well did you know this?

Not at all

Perfectly

Hva er MNAR?

Manglende avhenger av uobserverte variabler.

How well did you know this?

Not at all

Perfectly

Hva er imputasjon?

Erstatte manglende verdier.

How well did you know this?

Not at all

Perfectly

Hva er mean/median imputasjon best for?

MCAR.

How well did you know this?

Not at all

Perfectly

Hva er missing indicator brukt til?

MNAR.

Hva er feature engineering?

Lage nye nyttige variabler.

Hva er OneHot encoding?

Gjør kategorier om til binære variabler.

Hva er leakage?

Testinfo brukes under trening.

Hva er modellens mål?

Generalisere til ny data.

Hva er overtilpasning?

Lærer støy i treningsdata.

Hva er undertilpasning?

For enkel modell.

Hva brukes valideringsdata til?

Velge modell/hyperparametre.

Hva brukes testdata til?

Endelig evaluering.

Hva er MSE?

Gjennomsnitt kvadrert feil.

Hva er RMSE fordel?

Samme enhet som målvariabel.

Hva er MAE fordel?

Robust mot uteliggere.

Hva er regresjon?

Predikere numerisk verdi.

Hva er klassifikasjon?

Predikere kategori.

Hva er baseline modell?

Enkel referansemodell.

Hva er logistisk regresjon?

Modellerer klassesannsynlighet.

Hva er kNN?

Bruker nærmeste naboer.

Hva er accuracy problem?

Misvisende ved ubalanserte data.

Hva er presisjon?

Andel riktige positive.

Hva er recall?

Andel funnet av faktiske positive.

Hva er F1-score?

Balanse presisjon og recall.

Hva er klyngeanalyse?

Finne grupper uten fasit.

Hva er hypotesetest?

Teste påstand statistisk.

Hva er p-verdi?

Sannsynlighet for data gitt nullhypotese.

Hva er A/B test?

Randomisert eksperiment.

Hva viser RCT?

Kausal effekt.

Hva kan observasjonsstudier vise?

Sammenheng, ikke årsak.

Hva er kohortstudie?

Følge gruppe over tid.

Hva er case-control studie?

Start med utfall og se bakover.

Hva er bias i data?

Skjev representasjon.

Hva er modellbias?

Feil antagelser i modell.

Hvordan redusere bias?

Representative data og evaluering per gruppe.

Hva er anbefalingssystem?

Foreslår relevante varer.

Hva er innholdsbasert filtrering?

Basert på brukerens historikk.

Hva er samarbeidsbasert filtrering?

Basert på lignende brukere.

Fordel innholdsbasert?

Kan anbefale nye varer.

Fordel samarbeidsbasert?

Trenger ikke vareprofiler.

Hva er cold start problem?

Ingen historikk.

Hva er beste evaluering av anbefaling?

A/B test.

Hva er viktigere enn accuracy i anbefaling?

Rangering/diversitet.

Hva er god datakommunikasjon?

Tilpasset publikum.

Hva må alltid forklares?

Usikkerhet og begrensninger.

Hva er målet med presentasjon?

Skape handling.

Hva er reproduserbarhet?

Samme resultat ved ny kjøring.

Hvordan sikre reproduserbarhet?

Fast seed og versjonskontroll.

Hva er implementasjon?

Ta modell i bruk.

Hva er minimal ML-pipeline?

Input → preprocessing → modell → output.

Hva må overvåkes i drift?

Ytelse over tid.

Hva er modell-drift problem?

Data drift og degradering.

oppsumering Flashcards

(73 cards)