K-Means Flashcards

Question 1

Q

Was ist K-Means?

Answer

A

Ein Clustering-Algorithmus im Unsupervised Learning, der Datenpunkte in k Gruppen (Cluster) aufteilt, sodass Punkte innerhalb eines Clusters möglichst ähnlich sind.

Question 2

Q

Was bedeutet das k in K-Means?

Answer

A

Die Anzahl der Cluster, in die die Daten aufgeteilt werden sollen.
Dieser Wert muss vor dem Training festgelegt werden.

Question 3

Q

Was ist ein Centroid?

Answer

A

Der Mittelpunkt eines Clusters, berechnet als Mittelwert aller Punkte im Cluster.

Question 4

Q

Wie funktioniert K-Means grundsätzlich?

Answer

A

Zufällige Clusterzentren wählen

Datenpunkte dem nächsten Zentrum zuordnen

Neue Clusterzentren berechnen

Schritte wiederholen bis Konvergenz

Question 5

Q

Welche Distanz wird meist verwendet?

Answer

A

Euklidische Distanz

Question 6

Q

Welche Zielfunktion minimiert K-Means?

Answer

A

Die Summe der quadratischen Abstände zu den Clusterzentren.
Auch genannt Within Cluster Sum of Squares (WCSS).

Question 7

Q

Wie bestimmt man ein gutes k?

Answer

A

Mit der Elbow Method:

Man plottet

k vs WCSS

Der Knick im Plot zeigt oft die optimale Clusterzahl.

Question 8

Q

Welche Schwächen hat K-Means?

Answer

A

k muss vorher festgelegt werden

empfindlich gegenüber Ausreißern

funktioniert schlecht bei nicht-kugelförmigen Clustern

Question 9

Q

Warum muss man Features oft skalieren?

Answer

A

K-Means basiert auf Distanzen.
Wenn ein Feature viel größere Werte hat, dominiert es die Distanzberechnung.

Darum verwendet man oft:

StandardScaler

MinMaxScaler

Question 10

Q

Was ist ein häufiges Problem beim Start von K-Means?

Answer

A

Die Initialisierung der Clusterzentren kann zu unterschiedlichen Lösungen führen.

Darum nutzt man häufig:

k-means++

→ bessere Startpunkte.

K-Means Flashcards

(10 cards)