Was sind Optimizers?
Im Deep Learning (DL) sind Optimizers (Optimierer) Algorithmen, die dafür sorgen, dass eine KI aus ihren Fehlern lernt. Sie sind das „Gehirn“ hinter dem Lernprozess, das die internen Einstellungen (Gewichte) eines neuronalen Netzes anpasst, um die Vorhersagen immer genauer zu machen.
Die Mechanik
Was ist der Kern-Nachteil von Standard-SGD?
Langsame Konvergenz in “Tälern” (Oszillationen) und Anfälligkeit für lokale Minima/Sattelpunkte.
Die Mechanik
Wie löst Momentum das Oszillationsproblem?
Es nutzt den gleitenden Durchschnitt vergangener Gradienten, um die Bewegung in konsistente Richtungen zu beschleunigen.
Die Mechanik
Was ist die Kernidee von AdaGrad?
Adaptive Lernraten: Häufige Features erhalten kleinere Updates, seltene Features größere.
Moderne Standards
Warum ist RMSprop eine Verbesserung gegenüber AdaGrad?
Es verhindert das radikale Absinken der Lernrate durch einen exponentiell abfallenden Durchschnitt der quadrierten Gradienten.
Moderne Standards
Was ist RMSprop
RMSprop (Root Mean Square Propagation) ist ein intelligenter Optimierer, der die Lernrate für jedes einzelne Gewicht im neuronalen Netz automatisch anpasst. Er wurde entwickelt, um das Training schneller und stabiler zu machen, besonders wenn die Daten sehr ungleichmäßig sind.
Moderne Standards
Was kombiniert der Adam-Optimizer?
Momentum (1. Moment) und RMSprop (2. Moment/Skalierung).
Moderne Standards
Wozu dient die Bias-Correction in Adam?
Um die Initialisierung der Momente bei Null zu korrigieren (besonders wichtig in den ersten Iterationen).
Deep Dive & Best Practices
Was ist der Unterschied zwischen Adam und AdamW?
AdamW entkoppelt das Weight Decay von der Gradienten-Skalierung (führt zu besserer Generalisierung).
Deep Dive & Best Practices
Warum wählen Profis oft SGD mit Momentum für das finale Fine-Tuning?
Es generalisiert oft besser auf Testdaten als Adam, auch wenn es länger zum Trainieren braucht.
Deep Dive & Best Practices
Was bewirkt ein Learning Rate Scheduler?
Er reduziert die Lernrate über Zeit (z.B. Decay), um in das globale Minimum “einzurasten”, statt darüber hinwegzuspringen.
Deep Dive & Best Practices
Was ist der “Exploding Gradient” Effekt und wie stoppt man ihn?
Gradienten werden extrem groß; Lösung: Gradient Clipping (Begrenzung des Norm-Werts).
Was ist Gradient Clipping und warum wird es genutzt?
Eine Technik, bei der zu große Gradienten während der Backpropagation auf einen maximalen Schwellenwert begrenzt werden. Es verhindert das Exploding Gradient Problem (instabile Gewichts-Updates, die das Modell zerstören).