K-Means Flashcards

(10 cards)

1
Q

Was ist K-Means?

A

Ein Clustering-Algorithmus im Unsupervised Learning, der Datenpunkte in k Gruppen (Cluster) aufteilt, sodass Punkte innerhalb eines Clusters möglichst ähnlich sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was bedeutet das k in K-Means?

A

Die Anzahl der Cluster, in die die Daten aufgeteilt werden sollen.
Dieser Wert muss vor dem Training festgelegt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist ein Centroid?

A

Der Mittelpunkt eines Clusters, berechnet als Mittelwert aller Punkte im Cluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie funktioniert K-Means grundsätzlich?

A

Zufällige Clusterzentren wählen

Datenpunkte dem nächsten Zentrum zuordnen

Neue Clusterzentren berechnen

Schritte wiederholen bis Konvergenz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche Distanz wird meist verwendet?

A

Euklidische Distanz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Zielfunktion minimiert K-Means?

A

Die Summe der quadratischen Abstände zu den Clusterzentren.
Auch genannt Within Cluster Sum of Squares (WCSS).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie bestimmt man ein gutes k?

A

Mit der Elbow Method:

Man plottet

k vs WCSS

Der Knick im Plot zeigt oft die optimale Clusterzahl.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welche Schwächen hat K-Means?

A

k muss vorher festgelegt werden

empfindlich gegenüber Ausreißern

funktioniert schlecht bei nicht-kugelförmigen Clustern

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Warum muss man Features oft skalieren?

A

K-Means basiert auf Distanzen.
Wenn ein Feature viel größere Werte hat, dominiert es die Distanzberechnung.

Darum verwendet man oft:

StandardScaler

MinMaxScaler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist ein häufiges Problem beim Start von K-Means?

A

Die Initialisierung der Clusterzentren kann zu unterschiedlichen Lösungen führen.

Darum nutzt man häufig:

k-means++

→ bessere Startpunkte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly