3.3 - Anomalideteksjon Flashcards

(20 cards)

1
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er formålet med anomalideteksjon?

A

Å finne datapunkter som ikke ligner majoriteten av dataene, altså punkter som avviker fra det normale mønsteret.

Anomalideteksjon brukes for å identifisere uvanlige datapunkter i datasett.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvorfor brukes anomalideteksjon ofte som en uveiledet metode?

A

Fordi vi vanligvis har mange eksempler på normale datapunkter, men få eller ingen merkede anomalier.

Uveiledet læring er nyttig når det er vanskelig å samle inn merket data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

I hvilke situasjoner brukes anomalideteksjon?

A
  • Antihvitvasking
  • Kredittovervåkning
  • Serverangrep
  • Feil i systemer
  • Andre tilfeller der avvik kan være kritiske

Anomalideteksjon er viktig i mange bransjer for å oppdage svindel eller feil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvordan brukes k-means til anomalideteksjon?

A

Man trener en k-means-modell og bruker avstanden mellom testpunktene og nærmeste klyngesenter som mål på “unormalitet”.

K-means er en populær metode for å gruppere data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvordan identifiserer man anomalier med k-means?

A

Ved å velge en terskel, ofte basert på percentiler (f.eks. 95. persentil), og markere punkter med avstand over denne terskelen som anomalier.

Terskelverdi er viktig for å skille mellom normale og unormale datapunkter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Fordel med k-means i anomalideteksjon?

A

Enkel metode som gir et avstandsbasert mål for avvik.

K-means er lett å implementere og forstå.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ulempe med k-means i anomalideteksjon?

A

Antar kuleformede klynger og blir dårlig når dataene ikke er jevnt fordelt eller har kompleks struktur.

K-means kan gi misvisende resultater i slike tilfeller.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan oppdager DBSCAN anomalier?

A

Ved å markere punkter som noise (label −1), altså punkter som ikke tilhører noen tetthetsbasert klynge.

DBSCAN er effektiv for å oppdage utliggere i data med varierende tetthet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er fordelen med DBSCAN for utliggere?

A

Den er laget for å oppdage isolerte punkter og krever ingen manuell terskelsetting.

DBSCAN tilpasser seg automatisk til datadistribusjonen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er en begrensning ved DBSCAN i anomalideteksjon?

A

Den krever tuning av eps og min_samples og fungerer dårlig i data med varierende tetthet.

Feilinnstilling av disse parameterne kan føre til dårlig ytelse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er grunnidéen bak Isolation Forest?

A

Anomalier isoleres lettere enn normale punkter i tilfeldige splits, så de havner høyere oppe i treet (kortere vei til rot).

Isolation Forest er en effektiv metode for å oppdage anomalier i store datasett.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvordan bygges en Isolation Forest?

A

Mange “isolation trees” bygges ved å splitte på tilfeldige features og verdier til hvert punkt havner alene i en løvnode.

Hver split i treet bidrar til å isolere datapunktene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvordan tolkes prediksjonen i Isolation Forest?

A

Prediksjonsverdien −1 indikerer en anomali.

Positive verdier indikerer normale datapunkter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva er parameteren contamination i Isolation Forest?

A

En anslått andel anomalier i datasettene, som påvirker hvor aggressivt modellen merker punkter som utliggere.

Riktig innstilling av contamination er viktig for nøyaktige resultater.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er fordelene med Isolation Forest?

A
  • Skalerer godt til store datasett
  • Håndterer komplekse fordelinger
  • Robust fordi den bruker mange tilfeldige trær

Isolation Forest er populær i maskinlæring for anomalideteksjon.

17
Q

Hva er en ulempe ved Isolation Forest?

A

Resultatet påvirkes av hyperparametre som antall trær og contamination-rate; dårlig valg gir svake prediksjoner.

Hyperparametertuning er kritisk for ytelsen.

18
Q

Når passer k-means best for anomalideteksjon?

A

Når dataene har nokså veldefinerte, omtrent kuleformede klynger og man ønsker en enkel avstandsbasert metode.

K-means er ikke alltid den beste metoden for alle datatyper.

19
Q

Når passer DBSCAN best?

A

Når anomalier forventes å være punkter i områder med lav tetthet, og når klynger med ulike former skal håndteres.

DBSCAN er spesielt nyttig i komplekse datascenarier.

20
Q

Når passer Isolation Forest best?

A

For store, høy-dimensjonale datasett der man ønsker en skalerbar, modellbasert metode som ikke krever klusterstruktur.

Isolation Forest er ideell for moderne databehandling.