Clustering Flashcards by Philipp Wagner

Was bedeutet Clustering?

Klassenzugehörigkeiten aus der Struktur der Merkmalsdaten schätzen
Instanzen / Vektoren aufgrund von Ähnlichkeiten oder ihren Eigenschaften in Cluster zusammenfügen

How well did you know this?

Not at all

Perfectly

Was ist die Aufgabe der Clusteranalyse?

Objekte eines unklassifizierten Merkmalsdatensatz in eine bestimmte Anzahl an Cluster zuordnen

How well did you know this?

Not at all

Perfectly

Auf was basieren Clusterverfahren?
Welchen Maßen?

Auf einem Distanz- oder Unähnlichkeitsmaß zwischen den Daten

How well did you know this?

Not at all

Perfectly

Welche zwei Clusterverfahren aus dem Hierarchical Clustering haben wir gelernt?

Agglomeratives Cl.
Divisives Cl.

How well did you know this?

Not at all

Perfectly

Was ist Agglomeratives Clustering?

Bottom-up-Verfahren
Zu Beginn jedes Objekt in eigenem Cluster > schrittweise werden Cluster zu immer größeren zusammengefasst > am Schluss ein Cluster mit allen Objekten

How well did you know this?

Not at all

Perfectly

Was muss berechnet werden für hierarchische Clusteranalysen?
Und was benötigt man dafür?

Distanz- oder Ähnlichkeitsmaß (Bestimmung des Abstandes zwischen zwei Objekten)
Fusionierungsalgorithmus (Bestimmung des Abstandes zwischen zwei Clustern)
Fusionierungsalgorithmus hat mehr Einfluss auf Gruppierung der Cluster

How well did you know this?

Not at all

Perfectly

Um Ähnlichkeiten zwischen Objekten zu erhalten, braucht man Ähnlichkeits- bzw. Distanzmaße
Für welche Daten werden die zwei jeweils verwendet in der Regel?

Ähnlichkeitsmaße: nominal- oder ordinalskalierte Variablen
Distanzmaße: intervall- und verhältnisskalierte Daten

How well did you know this?

Not at all

Perfectly

Was zeigt ein Ähnlichkeitsmaß mit dem Wert 0 an?
Was zeigt ein Distanzmaß mit dem Wert 0 an?

Ähnlichkeitsmaß: maximale Unähnlichkeit
Distanzmaß: maximale Ähnlichkeit

How well did you know this?

Not at all

Perfectly

Mit welchen Algorithmen werden Cluster gebildet?

Fusionierungsalgorithmen

How well did you know this?

Not at all

Perfectly

Welche Fusionierungsalgorithmen kennst du?

Single Linkage
Complete Linkage
Centroid Based Linkage
Average Linkage (sehr rechenintensiv, nicht wirklich besser)

How well did you know this?

Not at all

Perfectly

Welches Distantmaß kann z.B. beim Clustering verwendet werden?

Euklidische Distanz

How well did you know this?

Not at all

Perfectly

Erkläre Single Linkage kurz

Jede Instanz in eigenem Cluster
Schrittweise werden Cluster mit geringster Dinstanz zu einem Cluster zusammengefügt
Am Ende ein Cluster mit allen Instanzen

How well did you know this?

Not at all

Perfectly

Erkläre Complete Linkage kurz

Jede Instanz in eigenem Cluster
Cluster mit der minimalsten Maximaldistanz werden schrittweise vereint
Am Ende ein Cluster mit allen Instanzen

How well did you know this?

Not at all

Perfectly

Erkläre Centroid Based Linkage kurz

Jede Instanz in eigenem Cluster
1. Schritt die Cluster mit geringster Distanz werden vereint, danach wird ein Centroid gebildet (Mittelpunkt der zwei Instanzen)
Schrittweises vereinen der nächstgelegenen Cluster (Centroid wird herangezogen und jedesmal aktualisiert)
Am Ende ein Cluster mit allen Instanzen

How well did you know this?

Not at all

Perfectly

Was ist Divisives Clustering?

Top-down-Verfahren
Zu Beginn bilden alle Instanzen einen großen Cluster
Durchmesser (maximale Distanz aller Objekte innerhalb des Clusters) aller
Cluster wird berechnet
Cluster mit dem größten Durchmesser wird in zwei Cluster geteilt. Das Objekt, das die größte durchschnittliche Distanz zu allen anderen Objekten hat
bildet den Kern der Splittergruppen.
Jedes Objekt, das näher an der Splittergruppe liegt als an den restlichen Objekten, wird nun der Splittergruppe zugeordnet.
Schritte so lange wiederholen, bis alle Cluster nur noch eine Instanz enthalten

How well did you know this?

Not at all

Perfectly

Welche Visualisierungstechnik eignet sich für Hierarchisches Clustering?

Study These Flashcards

Dendrogramm

Was geben die x- und y-Achse bei einem Dendrogramm an?

Study These Flashcards

x = Instanzen (Reihenfolge ist irrelevant)
y = Distanz zwischen Cluster

Welche zwei Vorteile hat ein Dendrogramm?

Study These Flashcards

y-Achse = Distanz zwischen Cluster > vermittelt dadurch gut “natürliche Cluster”
Ein einzelner Punkt wird weit oben mit anderen Clustern vereint > wsl Außenseiter (passt inhaltlich oder kontextuell nicht zur Gruppe, statistisch nicht auffällig)

Welche zwei Anforderugen gibt es beim Partitioning-Based Clustering an die Cluster?

Study These Flashcards

Cluster sollen kompakt sein
Cluster sollen untereinander so weit wie möglich entfernt sein

Mit was kann Partitioning-Based Clustering gut umgehen?

Study These Flashcards

Big Data

Was ist der bekannteste Vertreter des Partitioning-Based Clustering?

Study These Flashcards

k-means Clustering

Mit welchen Daten ist k-means Clustering nur möglich

Study These Flashcards

Nur mit numerischen Werten

Wie läuft k-means Clustering ab?

Study These Flashcards

k wird festgelegt und bestimmt Anzahl der Cluster
Es werden zufällig k Clusterzentren ausgewählt
Jeder Punkt im Datenraum wird dem ihm am naheliegendsten Zentrum zugewiesen (verwende euklidische Abstandsfunktion)
Es werden die neuen Clusterzentren berechnet
Solange Wiederholung (iterativ) ab Schritt 3, bis die Zentren stabil sind

Was sollte beachtet werden bei k-means Clustering?

Study These Flashcards

k sollte nicht zu groß gewählt werden, da sonst Gefahr für Overfitting besteht

Ist k (k-means Clustering) in der Praxis vorgegeben?

Meistens nicht > verschiedene Werte für k systematisch testen und Lösung bewerten

Mit welcher Methode kann man die optimale Zahl für k (k-means Clustering) auswählen?

Elbow Method

Was macht die Elbow Method?

Vergleich der längsten Distanz zweier Objekte innerhalb des „breitesten“ Clusters

Wie sieht eine Visualisierung von der Elbow Method aus? Was ist auf der x- und y-Achse zu sehen?

x-Achse: Anzahl der Cluster y-Achse: längst gemessene Distanz des breitesten Clusters

Vorteile von k-means Clustering?

- einfach - effizient - kann mit vielen Datentypen umgehen - einsetzbar für Big Data

Nachteile von k-means Clustering?

- Hat Probleme "natürliche" Cluster zu erkennen, die: 1. keine kugelförmige Struktur haben > lösbar mit Subclustern 2. große Abweichungen in Dichte und Größe aufweisen - Ausreißer haben großen Einfluss auf Ergebnis

Clustering Flashcards

(30 cards)