Regularisierung Flashcards

(14 cards)

1
Q

Dropout & Stochastik

Was ist die Kernidee von Dropout?

A

Während des Trainings werden zufällig p%
der Neuronen (und deren Verbindungen) auf Null gesetzt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dropout & Stochastik

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Dropout & Stochastik

Warum wirkt Dropout gegen Overfitting?

A

Es verhindert Co-Adaption (Neuronen können sich nicht auf die Anwesenheit anderer verlassen) und wirkt wie ein Ensemble vieler kleiner Netze.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Dropout & Stochastik

Wie unterscheidet sich Dropout in der Inference (Testphase)?

A

Alle Neuronen sind aktiv, aber ihre Gewichte/Aktivierungen werden mit (1-p) skaliert, um das Erwartungsniveau des Trainings beizubehalten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Weight Decay (L2 Regularisierung)

Was fügt Weight Decay (L2) der Loss-Funktion hinzu?

A

Eine Strafe proportional zum Quadrat der Gewichte:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Weight Decay (L2 Regularisierung)

Was ist der Effekt von Weight Decay auf die Gewichte?

A

Es drückt die Gewichte Richtung Null, was zu “glatteren” Entscheidungsflächen und weniger Komplexität führt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Weight Decay (L2 Regularisierung)

Warum sollte man Weight Decay meist nicht auf die Bias-Terme anwenden?

A

Biases haben viel weniger Parameter als Gewichte; sie zu bestrafen führt eher zu Underfitting ohne echtes Overfitting-Risiko.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Fortgeschrittene Techniken

Was ist Early Stopping und warum ist es “kostenlose” Regularisierung?

A

Abbruch des Trainings, sobald der Validation Loss steigt, obwohl der Training Loss sinkt. Es kostet keine zusätzliche Rechenzeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Fortgeschrittene Techniken

Wie wirkt Data Augmentation als Regularisierung?

A

Es vergrößert den Datensatz künstlich und zwingt das Modell, invariante Merkmale (z.B. Form statt Drehung) zu lernen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Fortgeschrittene Techniken

Was ist Label Smoothing?

A

Statt [0,1] nutzt man Ziele wie [0.5,0.95]. Verhindert, dass das Modell “zu sicher” (overconfident) wird und Gradienten explodieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Fortgeschrittene Techniken

Wann nutzt man L1statt L2
Regularisierung?

A

Wenn man Sparse Models möchte (viele Gewichte werden exakt Null), was zur Feature-Selection dient.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Elastic Net Regularisierung?

A

Eine Linearkombination aus L1 und L2 Strafen. Sie nutzt die Feature Selection von L1 und die Stabilität von L2 gleichzeitig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist der praktische Vorteil von
L1 in hochdimensionalen Daten?

A

Es wirkt wie eine eingebaute Feature Selection. Unwichtige Inputs erhalten das Gewicht 0 und werden effektiv aus dem Modell entfernt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly