ROC-CHART-ANALYSE Flashcards

Question 1

Q

Definition

Answer

A

ROC = Receiver Operating Characteristics
= Methode zur Visualisierung, Bewertung und Auswahl von Klassifikatoren des Data-Mining-Modells basierend auf ihrer Leistungsfähigkeit (performance)

Question 2

Q

Klassifikation

Answer

A

(Lineare) Klassifikation = Einteilung der Daten in Klassen
„Die Blauen möglichst gut von den Roten trennen“
(Lineare) Regression
-> Hat verschiedene Datenpunkte & möchte diese durch einen funktionalen Zusammenhang beschreiben

Question 3

Q

Klassifikationsgenauigkeit (Accuracy)

Answer

A

Die Genauigkeit (Accuracy) als Metrik zur Evaluierung zu verwenden macht nur dann Sinn, wenn
1. beide Klassen bzgl. ihrer Datensatzanzahl gleichhäufig vertreten sind und
2. die Fehlklassifikationskosten gleich hoch sind.
Beide Eigenschaften sind bei realen Problemen in der Praxis äußerst selten gegeben!
-> Äußerst selten die gleiche Anzahl von Kündigern und loyalen Kunden
-> Meist nicht gleichwertig p als n bzw. n als p falsch zu klassifizieren (z.B. normale E-Mail im Spambereich schlimmer als Spam-E-Mail im normalen Postfach)
Zitat: Tom Fawcett: „Accuracy is a simplistic measure that is misleading on many real-world problems. In fact, the best way to get a painful “But it worked in the lab, why doesn’t it work in the field?” experience is to use accuracy as an evaluation metric.”

Question 4

Q

ROC-Charts bei diskreter, zweiwerter Klassifikation

Answer

A

Vertikal: TP Rate
Horizontal: FP Rate
Ein ROC-Chart zeigt den relativen Kompromiss zwischen dem Nutzen (TP) und den Kosten (FP).
Perfekte Klassifikation: P(0, 1)
Je weiter der Klassifikator sich im Nord-Westen befindet, desto besser ist er geeignet
Konservative Klassifikatoren: Süd-Westen (bei P(0,0)
Liberale Klassifikatoren: Nord-Osten → nimmt hohe Kosten in Kauf
Wenn man sich nicht auf der Geraden bewegt, trifft man zufällig eine Auswahl

Question 5

Q

ROC Charts bei probabilistischer Klassifikation

Answer

A

Nicht mehr nur diskrete Entscheidung, ob Beispiele links oder rechts der Geraden liegen
Stattdessen Berücksichtigung des Abstandes von der Geraden
Verwenden diesen Abstand als Score-Wert
Umso größer der Abstand, desto besser die Genauigkeit
Score-Wert sagt nicht nur aus, ob jemand z.B. einen Kredit kriegt oder nicht, sondern berechnet auch die Wahrscheinlichkeit, dass die Personen einen Kredit kriegt
als Tabelle:
-> Je größer der Score-Wert, desto „positiver die Klasse“
als Graph
-> Wenn man positiv liegt, geht man einen Schritt weiter nach oben
-> Wenn man negativ liegt, geht man einen Schritt weiter nach rechts
-> Punkt (1,1): alle positiven richtig klassifiziert, aber hat auch alle negativen als positiv erfasst
-> Punkt (0,0): alle negativen richtig klassifiziert, aber hat auch alle positiven als negativ erfasst
Diskrete Klassifikation
-> Mithilfe eines Schwellenwertes
-> Alle, die einen größeren Score Wert als .54 haben, betrachte ich als positiv, die anderen als negativ
-> Je mehr Werte man hat, desto kurvenhafter ist die Treppenfunktion
Je weniger sich der rote und der blaue Graph überlappen, desto besser ist die Trennfunktion
Unabhängigkeit der ROC-Charts vom Klassen-Verhältnis → Großer Vorteil

Question 6

Q

AUC: Area under a ROC curve

Answer

A

Bildet die Qualität eines Klassifikators mit Hilfe eines ROC-Charts auf einen einzigen numerischen Wert ab
Bestimmt die Fläche unter der ROC-Kurve

Question 7

Q

Optimale Auswahl eines Klassifikators auf der ROC-Kurve

Answer

A

(7 cards)