Was bedeutet Clustering?
Was ist die Aufgabe der Clusteranalyse?
Objekte eines unklassifizierten Merkmalsdatensatz in eine bestimmte Anzahl an Cluster zuordnen
Auf was basieren Clusterverfahren?
Welchen Maßen?
Auf einem Distanz- oder Unähnlichkeitsmaß zwischen den Daten
Welche zwei Clusterverfahren aus dem Hierarchical Clustering haben wir gelernt?
Was ist Agglomeratives Clustering?
Was muss berechnet werden für hierarchische Clusteranalysen?
Und was benötigt man dafür?
Um Ähnlichkeiten zwischen Objekten zu erhalten, braucht man Ähnlichkeits- bzw. Distanzmaße
Für welche Daten werden die zwei jeweils verwendet in der Regel?
Ähnlichkeitsmaße: nominal- oder ordinalskalierte Variablen
Distanzmaße: intervall- und verhältnisskalierte Daten
Was zeigt ein Ähnlichkeitsmaß mit dem Wert 0 an?
Was zeigt ein Distanzmaß mit dem Wert 0 an?
Ähnlichkeitsmaß: maximale Unähnlichkeit
Distanzmaß: maximale Ähnlichkeit
Mit welchen Algorithmen werden Cluster gebildet?
Fusionierungsalgorithmen
Welche Fusionierungsalgorithmen kennst du?
Welches Distantmaß kann z.B. beim Clustering verwendet werden?
Euklidische Distanz
Erkläre Single Linkage kurz
Erkläre Complete Linkage kurz
Erkläre Centroid Based Linkage kurz
Was ist Divisives Clustering?
Welche Visualisierungstechnik eignet sich für Hierarchisches Clustering?
Dendrogramm
Was geben die x- und y-Achse bei einem Dendrogramm an?
x = Instanzen (Reihenfolge ist irrelevant)
y = Distanz zwischen Cluster
Welche zwei Vorteile hat ein Dendrogramm?
Welche zwei Anforderugen gibt es beim Partitioning-Based Clustering an die Cluster?
Mit was kann Partitioning-Based Clustering gut umgehen?
Big Data
Was ist der bekannteste Vertreter des Partitioning-Based Clustering?
k-means Clustering
Mit welchen Daten ist k-means Clustering nur möglich
Nur mit numerischen Werten
Wie läuft k-means Clustering ab?
Was sollte beachtet werden bei k-means Clustering?
k sollte nicht zu groß gewählt werden, da sonst Gefahr für Overfitting besteht