Was ist K-Means?
Ein Clustering-Algorithmus im Unsupervised Learning, der Datenpunkte in k Gruppen (Cluster) aufteilt, sodass Punkte innerhalb eines Clusters möglichst ähnlich sind.
Was bedeutet das k in K-Means?
Die Anzahl der Cluster, in die die Daten aufgeteilt werden sollen.
Dieser Wert muss vor dem Training festgelegt werden.
Was ist ein Centroid?
Der Mittelpunkt eines Clusters, berechnet als Mittelwert aller Punkte im Cluster.
Wie funktioniert K-Means grundsätzlich?
Zufällige Clusterzentren wählen
Datenpunkte dem nächsten Zentrum zuordnen
Neue Clusterzentren berechnen
Schritte wiederholen bis Konvergenz
Welche Distanz wird meist verwendet?
Euklidische Distanz
Welche Zielfunktion minimiert K-Means?
Die Summe der quadratischen Abstände zu den Clusterzentren.
Auch genannt Within Cluster Sum of Squares (WCSS).
Wie bestimmt man ein gutes k?
Mit der Elbow Method:
Man plottet
k vs WCSS
Der Knick im Plot zeigt oft die optimale Clusterzahl.
Welche Schwächen hat K-Means?
k muss vorher festgelegt werden
empfindlich gegenüber Ausreißern
funktioniert schlecht bei nicht-kugelförmigen Clustern
Warum muss man Features oft skalieren?
K-Means basiert auf Distanzen.
Wenn ein Feature viel größere Werte hat, dominiert es die Distanzberechnung.
Darum verwendet man oft:
StandardScaler
MinMaxScaler
Was ist ein häufiges Problem beim Start von K-Means?
Die Initialisierung der Clusterzentren kann zu unterschiedlichen Lösungen führen.
Darum nutzt man häufig:
k-means++
→ bessere Startpunkte.