Clustering Flashcards

(30 cards)

1
Q

Was bedeutet Clustering?

A
  • Klassenzugehörigkeiten aus der Struktur der Merkmalsdaten schätzen
  • Instanzen / Vektoren aufgrund von Ähnlichkeiten oder ihren Eigenschaften in Cluster zusammenfügen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist die Aufgabe der Clusteranalyse?

A

Objekte eines unklassifizierten Merkmalsdatensatz in eine bestimmte Anzahl an Cluster zuordnen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Auf was basieren Clusterverfahren?
Welchen Maßen?

A

Auf einem Distanz- oder Unähnlichkeitsmaß zwischen den Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche zwei Clusterverfahren aus dem Hierarchical Clustering haben wir gelernt?

A
  • Agglomeratives Cl.
  • Divisives Cl.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist Agglomeratives Clustering?

A
  • Bottom-up-Verfahren
  • Zu Beginn jedes Objekt in eigenem Cluster > schrittweise werden Cluster zu immer größeren zusammengefasst > am Schluss ein Cluster mit allen Objekten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was muss berechnet werden für hierarchische Clusteranalysen?
Und was benötigt man dafür?

A
  • Distanz- oder Ähnlichkeitsmaß (Bestimmung des Abstandes zwischen zwei Objekten)
  • Fusionierungsalgorithmus (Bestimmung des Abstandes zwischen zwei Clustern)
  • Fusionierungsalgorithmus hat mehr Einfluss auf Gruppierung der Cluster
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Um Ähnlichkeiten zwischen Objekten zu erhalten, braucht man Ähnlichkeits- bzw. Distanzmaße
Für welche Daten werden die zwei jeweils verwendet in der Regel?

A

Ähnlichkeitsmaße: nominal- oder ordinalskalierte Variablen
Distanzmaße: intervall- und verhältnisskalierte Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was zeigt ein Ähnlichkeitsmaß mit dem Wert 0 an?
Was zeigt ein Distanzmaß mit dem Wert 0 an?

A

Ähnlichkeitsmaß: maximale Unähnlichkeit
Distanzmaß: maximale Ähnlichkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Mit welchen Algorithmen werden Cluster gebildet?

A

Fusionierungsalgorithmen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Fusionierungsalgorithmen kennst du?

A
  • Single Linkage
  • Complete Linkage
  • Centroid Based Linkage
  • Average Linkage (sehr rechenintensiv, nicht wirklich besser)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welches Distantmaß kann z.B. beim Clustering verwendet werden?

A

Euklidische Distanz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Erkläre Single Linkage kurz

A
  • Jede Instanz in eigenem Cluster
  • Schrittweise werden Cluster mit geringster Dinstanz zu einem Cluster zusammengefügt
  • Am Ende ein Cluster mit allen Instanzen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Erkläre Complete Linkage kurz

A
  • Jede Instanz in eigenem Cluster
  • Cluster mit der minimalsten Maximaldistanz werden schrittweise vereint
  • Am Ende ein Cluster mit allen Instanzen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Erkläre Centroid Based Linkage kurz

A
  • Jede Instanz in eigenem Cluster
    1. Schritt die Cluster mit geringster Distanz werden vereint, danach wird ein Centroid gebildet (Mittelpunkt der zwei Instanzen)
  • Schrittweises vereinen der nächstgelegenen Cluster (Centroid wird herangezogen und jedesmal aktualisiert)
  • Am Ende ein Cluster mit allen Instanzen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist Divisives Clustering?

A
  • Top-down-Verfahren
  • Zu Beginn bilden alle Instanzen einen großen Cluster
  • Durchmesser (maximale Distanz aller Objekte innerhalb des Clusters) aller
    Cluster wird berechnet
  • Cluster mit dem größten Durchmesser wird in zwei Cluster geteilt. Das Objekt, das die größte durchschnittliche Distanz zu allen anderen Objekten hat
    bildet den Kern der Splittergruppen.
  • Jedes Objekt, das näher an der Splittergruppe liegt als an den restlichen Objekten, wird nun der Splittergruppe zugeordnet.
  • Schritte so lange wiederholen, bis alle Cluster nur noch eine Instanz enthalten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welche Visualisierungstechnik eignet sich für Hierarchisches Clustering?

17
Q

Was geben die x- und y-Achse bei einem Dendrogramm an?

A

x = Instanzen (Reihenfolge ist irrelevant)
y = Distanz zwischen Cluster

18
Q

Welche zwei Vorteile hat ein Dendrogramm?

A
  • y-Achse = Distanz zwischen Cluster > vermittelt dadurch gut “natürliche Cluster”
  • Ein einzelner Punkt wird weit oben mit anderen Clustern vereint > wsl Außenseiter (passt inhaltlich oder kontextuell nicht zur Gruppe, statistisch nicht auffällig)
19
Q

Welche zwei Anforderugen gibt es beim Partitioning-Based Clustering an die Cluster?

A
  • Cluster sollen kompakt sein
  • Cluster sollen untereinander so weit wie möglich entfernt sein
20
Q

Mit was kann Partitioning-Based Clustering gut umgehen?

21
Q

Was ist der bekannteste Vertreter des Partitioning-Based Clustering?

A

k-means Clustering

22
Q

Mit welchen Daten ist k-means Clustering nur möglich

A

Nur mit numerischen Werten

23
Q

Wie läuft k-means Clustering ab?

A
  1. k wird festgelegt und bestimmt Anzahl der Cluster
  2. Es werden zufällig k Clusterzentren ausgewählt
  3. Jeder Punkt im Datenraum wird dem ihm am naheliegendsten Zentrum zugewiesen (verwende euklidische Abstandsfunktion)
  4. Es werden die neuen Clusterzentren berechnet
  5. Solange Wiederholung (iterativ) ab Schritt 3, bis die Zentren stabil sind
24
Q

Was sollte beachtet werden bei k-means Clustering?

A

k sollte nicht zu groß gewählt werden, da sonst Gefahr für Overfitting besteht

25
Ist k (k-means Clustering) in der Praxis vorgegeben?
Meistens nicht > verschiedene Werte für k systematisch testen und Lösung bewerten
26
Mit welcher Methode kann man die optimale Zahl für k (k-means Clustering) auswählen?
Elbow Method
27
Was macht die Elbow Method?
Vergleich der längsten Distanz zweier Objekte innerhalb des „breitesten“ Clusters
28
Wie sieht eine Visualisierung von der Elbow Method aus? Was ist auf der x- und y-Achse zu sehen?
x-Achse: Anzahl der Cluster y-Achse: längst gemessene Distanz des breitesten Clusters
29
Vorteile von k-means Clustering?
- einfach - effizient - kann mit vielen Datentypen umgehen - einsetzbar für Big Data
30
Nachteile von k-means Clustering?
- Hat Probleme "natürliche" Cluster zu erkennen, die: 1. keine kugelförmige Struktur haben > lösbar mit Subclustern 2. große Abweichungen in Dichte und Größe aufweisen - Ausreißer haben großen Einfluss auf Ergebnis