3.3 - Anomalideteksjon Flashcards

Question 1

Q

Question 2

Q

Hva er formålet med anomalideteksjon?

Answer

A

Å finne datapunkter som ikke ligner majoriteten av dataene, altså punkter som avviker fra det normale mønsteret.

Anomalideteksjon brukes for å identifisere uvanlige datapunkter i datasett.

Question 3

Q

Hvorfor brukes anomalideteksjon ofte som en uveiledet metode?

Answer

A

Fordi vi vanligvis har mange eksempler på normale datapunkter, men få eller ingen merkede anomalier.

Uveiledet læring er nyttig når det er vanskelig å samle inn merket data.

Question 4

Q

I hvilke situasjoner brukes anomalideteksjon?

Answer

A

Antihvitvasking
Kredittovervåkning
Serverangrep
Feil i systemer
Andre tilfeller der avvik kan være kritiske

Anomalideteksjon er viktig i mange bransjer for å oppdage svindel eller feil.

Question 5

Q

Hvordan brukes k-means til anomalideteksjon?

Answer

A

Man trener en k-means-modell og bruker avstanden mellom testpunktene og nærmeste klyngesenter som mål på “unormalitet”.

K-means er en populær metode for å gruppere data.

Question 6

Q

Hvordan identifiserer man anomalier med k-means?

Answer

A

Ved å velge en terskel, ofte basert på percentiler (f.eks. 95. persentil), og markere punkter med avstand over denne terskelen som anomalier.

Terskelverdi er viktig for å skille mellom normale og unormale datapunkter.

Question 7

Q

Fordel med k-means i anomalideteksjon?

Answer

A

Enkel metode som gir et avstandsbasert mål for avvik.

K-means er lett å implementere og forstå.

Question 8

Q

Ulempe med k-means i anomalideteksjon?

Answer

A

Antar kuleformede klynger og blir dårlig når dataene ikke er jevnt fordelt eller har kompleks struktur.

K-means kan gi misvisende resultater i slike tilfeller.

Question 9

Q

Hvordan oppdager DBSCAN anomalier?

Answer

A

Ved å markere punkter som noise (label −1), altså punkter som ikke tilhører noen tetthetsbasert klynge.

DBSCAN er effektiv for å oppdage utliggere i data med varierende tetthet.

Question 10

Q

Hva er fordelen med DBSCAN for utliggere?

Answer

A

Den er laget for å oppdage isolerte punkter og krever ingen manuell terskelsetting.

DBSCAN tilpasser seg automatisk til datadistribusjonen.

Question 11

Q

Hva er en begrensning ved DBSCAN i anomalideteksjon?

Answer

A

Den krever tuning av eps og min_samples og fungerer dårlig i data med varierende tetthet.

Feilinnstilling av disse parameterne kan føre til dårlig ytelse.

Question 12

Q

Hva er grunnidéen bak Isolation Forest?

Answer

A

Anomalier isoleres lettere enn normale punkter i tilfeldige splits, så de havner høyere oppe i treet (kortere vei til rot).

Isolation Forest er en effektiv metode for å oppdage anomalier i store datasett.

Question 13

Q

Hvordan bygges en Isolation Forest?

Answer

A

Mange “isolation trees” bygges ved å splitte på tilfeldige features og verdier til hvert punkt havner alene i en løvnode.

Hver split i treet bidrar til å isolere datapunktene.

Question 14

Q

Hvordan tolkes prediksjonen i Isolation Forest?

Answer

A

Prediksjonsverdien −1 indikerer en anomali.

Positive verdier indikerer normale datapunkter.

Question 15

Q

Hva er parameteren contamination i Isolation Forest?

Answer

A

En anslått andel anomalier i datasettene, som påvirker hvor aggressivt modellen merker punkter som utliggere.

Riktig innstilling av contamination er viktig for nøyaktige resultater.

Question 16

Q

Hva er fordelene med Isolation Forest?

Answer

Study These Flashcards

A

Skalerer godt til store datasett
Håndterer komplekse fordelinger
Robust fordi den bruker mange tilfeldige trær

Isolation Forest er populær i maskinlæring for anomalideteksjon.

Question 17

Q

Hva er en ulempe ved Isolation Forest?

Answer

Study These Flashcards

A

Resultatet påvirkes av hyperparametre som antall trær og contamination-rate; dårlig valg gir svake prediksjoner.

Hyperparametertuning er kritisk for ytelsen.

Question 18

Q

Når passer k-means best for anomalideteksjon?

Answer

Study These Flashcards

A

Når dataene har nokså veldefinerte, omtrent kuleformede klynger og man ønsker en enkel avstandsbasert metode.

K-means er ikke alltid den beste metoden for alle datatyper.

Question 19

Q

Når passer DBSCAN best?

Answer

Study These Flashcards

A

Når anomalier forventes å være punkter i områder med lav tetthet, og når klynger med ulike former skal håndteres.

DBSCAN er spesielt nyttig i komplekse datascenarier.

Question 20

Q

Når passer Isolation Forest best?

Answer

Study These Flashcards

A

For store, høy-dimensjonale datasett der man ønsker en skalerbar, modellbasert metode som ikke krever klusterstruktur.

Isolation Forest er ideell for moderne databehandling.

3.3 - Anomalideteksjon Flashcards

(20 cards)