Regularisierung Flashcards

Question 1

Q

Dropout & Stochastik

Was ist die Kernidee von Dropout?

Answer

A

Während des Trainings werden zufällig p%
der Neuronen (und deren Verbindungen) auf Null gesetzt.

Question 2

Q

Dropout & Stochastik

Question 3

Q

Dropout & Stochastik

Warum wirkt Dropout gegen Overfitting?

Answer

A

Es verhindert Co-Adaption (Neuronen können sich nicht auf die Anwesenheit anderer verlassen) und wirkt wie ein Ensemble vieler kleiner Netze.

Question 4

Q

Dropout & Stochastik

Wie unterscheidet sich Dropout in der Inference (Testphase)?

Answer

A

Alle Neuronen sind aktiv, aber ihre Gewichte/Aktivierungen werden mit (1-p) skaliert, um das Erwartungsniveau des Trainings beizubehalten.

Question 5

Q

Weight Decay (L2 Regularisierung)

Was fügt Weight Decay (L2) der Loss-Funktion hinzu?

Answer

A

Eine Strafe proportional zum Quadrat der Gewichte:

Question 6

Q

Weight Decay (L2 Regularisierung)

Was ist der Effekt von Weight Decay auf die Gewichte?

Answer

A

Es drückt die Gewichte Richtung Null, was zu “glatteren” Entscheidungsflächen und weniger Komplexität führt.

Question 7

Q

Weight Decay (L2 Regularisierung)

Warum sollte man Weight Decay meist nicht auf die Bias-Terme anwenden?

Answer

A

Biases haben viel weniger Parameter als Gewichte; sie zu bestrafen führt eher zu Underfitting ohne echtes Overfitting-Risiko.

Question 8

Q

Fortgeschrittene Techniken

Was ist Early Stopping und warum ist es “kostenlose” Regularisierung?

Answer

A

Abbruch des Trainings, sobald der Validation Loss steigt, obwohl der Training Loss sinkt. Es kostet keine zusätzliche Rechenzeit.

Question 9

Q

Fortgeschrittene Techniken

Wie wirkt Data Augmentation als Regularisierung?

Answer

A

Es vergrößert den Datensatz künstlich und zwingt das Modell, invariante Merkmale (z.B. Form statt Drehung) zu lernen.

Question 10

Q

Fortgeschrittene Techniken

Was ist Label Smoothing?

Answer

A

Statt [0,1] nutzt man Ziele wie [0.5,0.95]. Verhindert, dass das Modell “zu sicher” (overconfident) wird und Gradienten explodieren.

Question 11

Q

Fortgeschrittene Techniken

Wann nutzt man L1statt L2
Regularisierung?

Answer

A

Wenn man Sparse Models möchte (viele Gewichte werden exakt Null), was zur Feature-Selection dient.

Question 12

Q

Was ist Elastic Net Regularisierung?

Answer

A

Eine Linearkombination aus L1 und L2 Strafen. Sie nutzt die Feature Selection von L1 und die Stabilität von L2 gleichzeitig.

Question 13

Q

Question 14

Q

Was ist der praktische Vorteil von
L1 in hochdimensionalen Daten?

Answer

A

Es wirkt wie eine eingebaute Feature Selection. Unwichtige Inputs erhalten das Gewicht 0 und werden effektiv aus dem Modell entfernt.

Regularisierung Flashcards

(14 cards)