Dropout & Stochastik
Was ist die Kernidee von Dropout?
Während des Trainings werden zufällig p%
der Neuronen (und deren Verbindungen) auf Null gesetzt.
Dropout & Stochastik
Dropout & Stochastik
Warum wirkt Dropout gegen Overfitting?
Es verhindert Co-Adaption (Neuronen können sich nicht auf die Anwesenheit anderer verlassen) und wirkt wie ein Ensemble vieler kleiner Netze.
Dropout & Stochastik
Wie unterscheidet sich Dropout in der Inference (Testphase)?
Alle Neuronen sind aktiv, aber ihre Gewichte/Aktivierungen werden mit (1-p) skaliert, um das Erwartungsniveau des Trainings beizubehalten.
Weight Decay (L2 Regularisierung)
Was fügt Weight Decay (L2) der Loss-Funktion hinzu?
Eine Strafe proportional zum Quadrat der Gewichte:
Weight Decay (L2 Regularisierung)
Was ist der Effekt von Weight Decay auf die Gewichte?
Es drückt die Gewichte Richtung Null, was zu “glatteren” Entscheidungsflächen und weniger Komplexität führt.
Weight Decay (L2 Regularisierung)
Warum sollte man Weight Decay meist nicht auf die Bias-Terme anwenden?
Biases haben viel weniger Parameter als Gewichte; sie zu bestrafen führt eher zu Underfitting ohne echtes Overfitting-Risiko.
Fortgeschrittene Techniken
Was ist Early Stopping und warum ist es “kostenlose” Regularisierung?
Abbruch des Trainings, sobald der Validation Loss steigt, obwohl der Training Loss sinkt. Es kostet keine zusätzliche Rechenzeit.
Fortgeschrittene Techniken
Wie wirkt Data Augmentation als Regularisierung?
Es vergrößert den Datensatz künstlich und zwingt das Modell, invariante Merkmale (z.B. Form statt Drehung) zu lernen.
Fortgeschrittene Techniken
Was ist Label Smoothing?
Statt [0,1] nutzt man Ziele wie [0.5,0.95]. Verhindert, dass das Modell “zu sicher” (overconfident) wird und Gradienten explodieren.
Fortgeschrittene Techniken
Wann nutzt man L1statt L2
Regularisierung?
Wenn man Sparse Models möchte (viele Gewichte werden exakt Null), was zur Feature-Selection dient.
Was ist Elastic Net Regularisierung?
Eine Linearkombination aus L1 und L2 Strafen. Sie nutzt die Feature Selection von L1 und die Stabilität von L2 gleichzeitig.
Was ist der praktische Vorteil von
L1 in hochdimensionalen Daten?
Es wirkt wie eine eingebaute Feature Selection. Unwichtige Inputs erhalten das Gewicht 0 und werden effektiv aus dem Modell entfernt.