Was ist der häufigste Fehler beim Preprocessing (z.B. Mean/Std)?
Statistiken über den gesamten Datensatz berechnen statt nur über den Train-Set. (Informationen aus dem Test-Set “leaken” ins Training).
Warum scheitert Batch Normalization oft bei Multi-GPU Training?
Weil die Statistiken standardmäßig pro GPU berechnet werden. Ist die Batch-Size pro GPU zu klein (< 4), werden die Schätzungen instabil (Lösung: SyncBN).
Welcher Fehler tritt häufig bei der Loss-Funktion (CrossEntropy) auf?
Die doppelte Anwendung von Softmax. Viele Frameworks (wie PyTorch CrossEntropyLoss) erwarten rohe Logits, keine Wahrscheinlichkeiten als Input.
Warum bleibt der Loss manchmal konstant hoch, obwohl das Modell lernt?
Zu hohe Learning Rate am Anfang führt zu Dying ReLUs. Zu viele Neuronen landen im negativen Bereich, der Gradient wird 0, das Netz “erstarrt”.
Welcher “stille” Fehler ruiniert die Validierung bei Zeitreihen oder geordneten Daten?
Vergessen des Shufflings beim Training oder (umgekehrt) Shuffling bei Zeitreihen, was die zeitliche Kausalität zerstört.