Optimizers Flashcards

Question 1

Q

Was sind Optimizers?

Answer

A

Im Deep Learning (DL) sind Optimizers (Optimierer) Algorithmen, die dafür sorgen, dass eine KI aus ihren Fehlern lernt. Sie sind das „Gehirn“ hinter dem Lernprozess, das die internen Einstellungen (Gewichte) eines neuronalen Netzes anpasst, um die Vorhersagen immer genauer zu machen.

Question 2

Q

Die Mechanik

Was ist der Kern-Nachteil von Standard-SGD?

Answer

A

Langsame Konvergenz in “Tälern” (Oszillationen) und Anfälligkeit für lokale Minima/Sattelpunkte.

Question 3

Q

Die Mechanik

Wie löst Momentum das Oszillationsproblem?

Answer

A

Es nutzt den gleitenden Durchschnitt vergangener Gradienten, um die Bewegung in konsistente Richtungen zu beschleunigen.

Question 4

Q

Die Mechanik

Was ist die Kernidee von AdaGrad?

Answer

A

Adaptive Lernraten: Häufige Features erhalten kleinere Updates, seltene Features größere.

Question 5

Q

Moderne Standards

Warum ist RMSprop eine Verbesserung gegenüber AdaGrad?

Answer

A

Es verhindert das radikale Absinken der Lernrate durch einen exponentiell abfallenden Durchschnitt der quadrierten Gradienten.

Question 6

Q

Moderne Standards

Was ist RMSprop

Answer

A

RMSprop (Root Mean Square Propagation) ist ein intelligenter Optimierer, der die Lernrate für jedes einzelne Gewicht im neuronalen Netz automatisch anpasst. Er wurde entwickelt, um das Training schneller und stabiler zu machen, besonders wenn die Daten sehr ungleichmäßig sind.

Question 7

Q

Moderne Standards

Was kombiniert der Adam-Optimizer?

Answer

A

Momentum (1. Moment) und RMSprop (2. Moment/Skalierung).

Question 8

Q

Moderne Standards

Wozu dient die Bias-Correction in Adam?

Answer

A

Um die Initialisierung der Momente bei Null zu korrigieren (besonders wichtig in den ersten Iterationen).

Question 9

Q

Deep Dive & Best Practices

Was ist der Unterschied zwischen Adam und AdamW?

Answer

A

AdamW entkoppelt das Weight Decay von der Gradienten-Skalierung (führt zu besserer Generalisierung).

Question 10

Q

Deep Dive & Best Practices

Warum wählen Profis oft SGD mit Momentum für das finale Fine-Tuning?

Answer

A

Es generalisiert oft besser auf Testdaten als Adam, auch wenn es länger zum Trainieren braucht.

Question 11

Q

Deep Dive & Best Practices

Was bewirkt ein Learning Rate Scheduler?

Answer

A

Er reduziert die Lernrate über Zeit (z.B. Decay), um in das globale Minimum “einzurasten”, statt darüber hinwegzuspringen.

Question 12

Q

Deep Dive & Best Practices

Was ist der “Exploding Gradient” Effekt und wie stoppt man ihn?

Answer

A

Gradienten werden extrem groß; Lösung: Gradient Clipping (Begrenzung des Norm-Werts).

Question 13

Q

Was ist Gradient Clipping und warum wird es genutzt?

Answer

A

Eine Technik, bei der zu große Gradienten während der Backpropagation auf einen maximalen Schwellenwert begrenzt werden. Es verhindert das Exploding Gradient Problem (instabile Gewichts-Updates, die das Modell zerstören).

Optimizers Flashcards

(13 cards)