Hva er en viktig oppgave i data science i følge forelesningsnotatet?
Å forberede og rense data – ofte en stor del av arbeidet i et data science-prosjekt.
Hva er strukturerte data?
Data som kan representeres i tabellform, der rader er datapunkter og kolonner er variabler.
Hva er ustrukturerte data?
Data som tekst, bilder, lyd eller video som ikke enkelt kan representeres som en tabell.
Hva er et vanlig problem når man gjør ustrukturerte data om til strukturerte data?
Man mister informasjon, som rekkefølge i tekst eller romlig struktur i bilder.
Hva er numeriske variabler?
Variabler som representerer tall, enten kontinuerlige eller diskrete.
Hva er kontinuerlige variabler?
Numeriske variabler som kan ta hvilken som helst verdi innenfor et intervall.
Hva er diskrete variabler?
Numeriske variabler som bare kan ha et begrenset antall verdier, som antall barn.
Hva er kategoriske variabler?
Variabler som representerer kategorier i stedet for tall, som kjønn eller utdanning.
Hva er forskjellen på nominale og ordinale variabler?
Nominale har ingen rekkefølge (f.eks. yrke), ordinale har naturlig rekkefølge (f.eks. ‘bra’ -> ‘veldig bra’).
Hvorfor er det viktig å kjenne variabeltypene?
Fordi det påvirker hvordan vi analyserer og oppsummerer dataene.
Hva er dummy-variabler?
Binære variabler som brukes til å representere kategorier i numerisk form.
Hva er prinsippene for ryddige data?
Hver variabel i én kolonne, hver observasjon i én rad.
Hva gjør numpy i Python?
Gir støtte for numeriske beregninger og håndtering av arrays og matriser.
Hva brukes pandas til i Python?
For å håndtere og analysere tabulære data som dataframes.
Hva er melt og pivot i pandas?
Verktøy for å endre dataformat, f.eks. fra bredt til langt format og tilbake.