= Methode zur Visualisierung, Bewertung und Auswahl von Klassifikatoren des Data-Mining-Modells basierend auf ihrer Leistungsfähigkeit (performance)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
Klassifikation
A
(Lineare) Klassifikation = Einteilung der Daten in Klassen „Die Blauen möglichst gut von den Roten trennen“
(Lineare) Regression -> Hat verschiedene Datenpunkte & möchte diese durch einen funktionalen Zusammenhang beschreiben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
Klassifikationsgenauigkeit (Accuracy)
A
Die Genauigkeit (Accuracy) als Metrik zur Evaluierung zu verwenden macht nur dann Sinn, wenn 1. beide Klassen bzgl. ihrer Datensatzanzahl gleichhäufig vertreten sind und 2. die Fehlklassifikationskosten gleich hoch sind.
Beide Eigenschaften sind bei realen Problemen in der Praxis äußerst selten gegeben! -> Äußerst selten die gleiche Anzahl von Kündigern und loyalen Kunden -> Meist nicht gleichwertig p als n bzw. n als p falsch zu klassifizieren (z.B. normale E-Mail im Spambereich schlimmer als Spam-E-Mail im normalen Postfach)
Zitat: Tom Fawcett: „Accuracy is a simplistic measure that is misleading on many real-world problems. In fact, the best way to get a painful “But it worked in the lab, why doesn’t it work in the field?” experience is to use accuracy as an evaluation metric.”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
ROC-Charts bei diskreter, zweiwerter Klassifikation
A
Vertikal: TP Rate
Horizontal: FP Rate
Ein ROC-Chart zeigt den relativen Kompromiss zwischen dem Nutzen (TP) und den Kosten (FP).
Perfekte Klassifikation: P(0, 1)
Je weiter der Klassifikator sich im Nord-Westen befindet, desto besser ist er geeignet
Liberale Klassifikatoren: Nord-Osten → nimmt hohe Kosten in Kauf
Wenn man sich nicht auf der Geraden bewegt, trifft man zufällig eine Auswahl
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
ROC Charts bei probabilistischer Klassifikation
A
Nicht mehr nur diskrete Entscheidung, ob Beispiele links oder rechts der Geraden liegen
Stattdessen Berücksichtigung des Abstandes von der Geraden
Verwenden diesen Abstand als Score-Wert
Umso größer der Abstand, desto besser die Genauigkeit
Score-Wert sagt nicht nur aus, ob jemand z.B. einen Kredit kriegt oder nicht, sondern berechnet auch die Wahrscheinlichkeit, dass die Personen einen Kredit kriegt
als Tabelle: -> Je größer der Score-Wert, desto „positiver die Klasse“
als Graph -> Wenn man positiv liegt, geht man einen Schritt weiter nach oben -> Wenn man negativ liegt, geht man einen Schritt weiter nach rechts -> Punkt (1,1): alle positiven richtig klassifiziert, aber hat auch alle negativen als positiv erfasst -> Punkt (0,0): alle negativen richtig klassifiziert, aber hat auch alle positiven als negativ erfasst
Diskrete Klassifikation -> Mithilfe eines Schwellenwertes -> Alle, die einen größeren Score Wert als .54 haben, betrachte ich als positiv, die anderen als negativ -> Je mehr Werte man hat, desto kurvenhafter ist die Treppenfunktion
Je weniger sich der rote und der blaue Graph überlappen, desto besser ist die Trennfunktion
Unabhängigkeit der ROC-Charts vom Klassen-Verhältnis → Großer Vorteil
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
AUC: Area under a ROC curve
A
Bildet die Qualität eines Klassifikators mit Hilfe eines ROC-Charts auf einen einzigen numerischen Wert ab
Bestimmt die Fläche unter der ROC-Kurve
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
Optimale Auswahl eines Klassifikators auf der ROC-Kurve
A
Anstieg (m) der Tangenten berechnen -> m = c(p,n) * p(n) / c(n,p) * p(p)