Batch Normalisierung Flashcards

(13 cards)

1
Q

Basics

Welches Hauptproblem adressiert Batch Normalization (BN)?

A

Den Internal Covariate Shift (ständige Änderung der Verteilung der Layer-Inputs während des Trainings).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Basics

Was ist das primäre Ziel von BN?

A

Stabilisierung des Trainings und Ermöglichung höherer Lernraten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Basics

Wo wird BN im Netzwerk meist platziert?

A

zwischen dem linearen Layer (Conv/Fully Connected) und der Aktivierungsfunktion (ReLU).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Algorithmus

Wie wird der Input
innerhalb eines Minibatches normalisiert?

A

x^:Der standardisierte Wert (Zentralisiert auf 0, skaliert auf 1).
my(Batch) = mittelwert des Batches
sigma(Batch)=Varianz des batches
Epsilon:Eine winzige Zahl (z. B. 10hoch -5), damit du nie durch Null teilst, falls die Varianz mal 0 ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Algorithmus

Wozu dient das
(Epsilon) in der BN-Formel?

A

Numerische Stabilität (verhindert Division durch Null, falls die Varianz extrem klein ist).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Algorithmus

Was sind die zwei lernbaren Parameter in BN?

A

Lambda (Scale) und Beta (Shift), Sie erlauben dem Netz, die Normalisierung rückgängig zu machen, falls nötig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Training vs. Inference

Wie verhält sich BN während der Inference (Testphase)?

A

Es werden keine Batch-Statistiken genutzt, sondern globale Mittelwerte/Varianzen (Moving Averages), die während des Trainings berechnet wurden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Effekte & Grenzen

Warum wirkt BN leicht regularisierend?

A

Weil die Statistiken pro Minibatch leicht schwanken, was als Rauschen fungiert (ähnlich wie Dropout).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Effekte & Grenzen

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Effekte & Grenzen

Was ist ein bekannter Nachteil von BN bei kleinen Batch-Sizes?

A

Die Schätzung von my und delta wird ungenau/instabil, was die Modellperformance verschlechtert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie beeinflusst BN die Abhängigkeit von der Gewichtsinitialisierung?

A

BN macht das Netzwerk weniger empfindlich gegenüber der initialen Wahl der Gewichte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Batch Normalisierung (BN)?

A

Batch Normalization (BN) berechnet den Mittelwert und die Standardabweichung der Daten innerhalb eines Minibatches

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Algorythmus

In welcher Form speichert das Modell die Skalierung und Verschiebung bei der Batch-Normalisierung?

A

y: Output der Batch-Norm (wird an den nächsten Layer weitergegeben)
(Gamma): Skalierungsparameter (Scale)
(Beta): Verschiebungsparameter (Shift / Bias)
x^: Der bereits normalisierte Input (Mittelwert 0, Varianz 1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly