Basics
Welches Hauptproblem adressiert Batch Normalization (BN)?
Den Internal Covariate Shift (ständige Änderung der Verteilung der Layer-Inputs während des Trainings).
Basics
Was ist das primäre Ziel von BN?
Stabilisierung des Trainings und Ermöglichung höherer Lernraten.
Basics
Wo wird BN im Netzwerk meist platziert?
zwischen dem linearen Layer (Conv/Fully Connected) und der Aktivierungsfunktion (ReLU).
Algorithmus
Wie wird der Input
innerhalb eines Minibatches normalisiert?
x^:Der standardisierte Wert (Zentralisiert auf 0, skaliert auf 1).
my(Batch) = mittelwert des Batches
sigma(Batch)=Varianz des batches
Epsilon:Eine winzige Zahl (z. B. 10hoch -5), damit du nie durch Null teilst, falls die Varianz mal 0 ist.
Algorithmus
Wozu dient das
(Epsilon) in der BN-Formel?
Numerische Stabilität (verhindert Division durch Null, falls die Varianz extrem klein ist).
Algorithmus
Was sind die zwei lernbaren Parameter in BN?
Lambda (Scale) und Beta (Shift), Sie erlauben dem Netz, die Normalisierung rückgängig zu machen, falls nötig.
Training vs. Inference
Wie verhält sich BN während der Inference (Testphase)?
Es werden keine Batch-Statistiken genutzt, sondern globale Mittelwerte/Varianzen (Moving Averages), die während des Trainings berechnet wurden.
Effekte & Grenzen
Warum wirkt BN leicht regularisierend?
Weil die Statistiken pro Minibatch leicht schwanken, was als Rauschen fungiert (ähnlich wie Dropout).
Effekte & Grenzen
Effekte & Grenzen
Was ist ein bekannter Nachteil von BN bei kleinen Batch-Sizes?
Die Schätzung von my und delta wird ungenau/instabil, was die Modellperformance verschlechtert.
Wie beeinflusst BN die Abhängigkeit von der Gewichtsinitialisierung?
BN macht das Netzwerk weniger empfindlich gegenüber der initialen Wahl der Gewichte.
Was ist Batch Normalisierung (BN)?
Batch Normalization (BN) berechnet den Mittelwert und die Standardabweichung der Daten innerhalb eines Minibatches
Algorythmus
In welcher Form speichert das Modell die Skalierung und Verschiebung bei der Batch-Normalisierung?
y: Output der Batch-Norm (wird an den nächsten Layer weitergegeben)
(Gamma): Skalierungsparameter (Scale)
(Beta): Verschiebungsparameter (Shift / Bias)
x^: Der bereits normalisierte Input (Mittelwert 0, Varianz 1)