Optimizer
Eta / Alpha
Learning Rate: Die Schrittweite beim Gradient Descent.
Beta
Adam / Momentum
Exponential Decay Rates:
für das Momentum,
für die skalierte Varianz.
Gamma
Batch Norm
Scale Parameter: Lernt die optimale Skalierung nach der Normalisierung.
Beta
Batch Norm
Shift Parameter: Lernt den optimalen Bias (Verschiebung) nach der Normalisierung.
Lambda
Regularisierung
Weight Decay Coefficient: Stärke der L1/L2-Strafe (Penalty).
Epsilon
Stabilität
Smoothing Term: Sehr kleine Zahl (
), um Division durch Null zu verhindern.
My
Statistik
Mean: Der Mittelwert (z.B. eines Mini-Batches).
Sigma Quadrat
Statistik
Variance: Die Streuung der Daten.
Theta
General Modell
Ein Platzhalter für alle lernbaren Parameter (w und b) man schreibt oft f(x,Theta)
Phi
Aktivierung / Feature Map: Wird oft als Symbol für die Aktivierungsfunktion sigma oder eine nicht lineare Abbildung genutzt.