Hva er formålet med anomalideteksjon?
Å finne datapunkter som ikke ligner majoriteten av dataene, altså punkter som avviker fra det normale mønsteret.
Anomalideteksjon brukes for å identifisere uvanlige datapunkter i datasett.
Hvorfor brukes anomalideteksjon ofte som en uveiledet metode?
Fordi vi vanligvis har mange eksempler på normale datapunkter, men få eller ingen merkede anomalier.
Uveiledet læring er nyttig når det er vanskelig å samle inn merket data.
I hvilke situasjoner brukes anomalideteksjon?
Anomalideteksjon er viktig i mange bransjer for å oppdage svindel eller feil.
Hvordan brukes k-means til anomalideteksjon?
Man trener en k-means-modell og bruker avstanden mellom testpunktene og nærmeste klyngesenter som mål på “unormalitet”.
K-means er en populær metode for å gruppere data.
Hvordan identifiserer man anomalier med k-means?
Ved å velge en terskel, ofte basert på percentiler (f.eks. 95. persentil), og markere punkter med avstand over denne terskelen som anomalier.
Terskelverdi er viktig for å skille mellom normale og unormale datapunkter.
Fordel med k-means i anomalideteksjon?
Enkel metode som gir et avstandsbasert mål for avvik.
K-means er lett å implementere og forstå.
Ulempe med k-means i anomalideteksjon?
Antar kuleformede klynger og blir dårlig når dataene ikke er jevnt fordelt eller har kompleks struktur.
K-means kan gi misvisende resultater i slike tilfeller.
Hvordan oppdager DBSCAN anomalier?
Ved å markere punkter som noise (label −1), altså punkter som ikke tilhører noen tetthetsbasert klynge.
DBSCAN er effektiv for å oppdage utliggere i data med varierende tetthet.
Hva er fordelen med DBSCAN for utliggere?
Den er laget for å oppdage isolerte punkter og krever ingen manuell terskelsetting.
DBSCAN tilpasser seg automatisk til datadistribusjonen.
Hva er en begrensning ved DBSCAN i anomalideteksjon?
Den krever tuning av eps og min_samples og fungerer dårlig i data med varierende tetthet.
Feilinnstilling av disse parameterne kan føre til dårlig ytelse.
Hva er grunnidéen bak Isolation Forest?
Anomalier isoleres lettere enn normale punkter i tilfeldige splits, så de havner høyere oppe i treet (kortere vei til rot).
Isolation Forest er en effektiv metode for å oppdage anomalier i store datasett.
Hvordan bygges en Isolation Forest?
Mange “isolation trees” bygges ved å splitte på tilfeldige features og verdier til hvert punkt havner alene i en løvnode.
Hver split i treet bidrar til å isolere datapunktene.
Hvordan tolkes prediksjonen i Isolation Forest?
Prediksjonsverdien −1 indikerer en anomali.
Positive verdier indikerer normale datapunkter.
Hva er parameteren contamination i Isolation Forest?
En anslått andel anomalier i datasettene, som påvirker hvor aggressivt modellen merker punkter som utliggere.
Riktig innstilling av contamination er viktig for nøyaktige resultater.
Hva er fordelene med Isolation Forest?
Isolation Forest er populær i maskinlæring for anomalideteksjon.
Hva er en ulempe ved Isolation Forest?
Resultatet påvirkes av hyperparametre som antall trær og contamination-rate; dårlig valg gir svake prediksjoner.
Hyperparametertuning er kritisk for ytelsen.
Når passer k-means best for anomalideteksjon?
Når dataene har nokså veldefinerte, omtrent kuleformede klynger og man ønsker en enkel avstandsbasert metode.
K-means er ikke alltid den beste metoden for alle datatyper.
Når passer DBSCAN best?
Når anomalier forventes å være punkter i områder med lav tetthet, og når klynger med ulike former skal håndteres.
DBSCAN er spesielt nyttig i komplekse datascenarier.
Når passer Isolation Forest best?
For store, høy-dimensjonale datasett der man ønsker en skalerbar, modellbasert metode som ikke krever klusterstruktur.
Isolation Forest er ideell for moderne databehandling.