Optimizers Flashcards

(13 cards)

1
Q

Was sind Optimizers?

A

Im Deep Learning (DL) sind Optimizers (Optimierer) Algorithmen, die dafür sorgen, dass eine KI aus ihren Fehlern lernt. Sie sind das „Gehirn“ hinter dem Lernprozess, das die internen Einstellungen (Gewichte) eines neuronalen Netzes anpasst, um die Vorhersagen immer genauer zu machen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Die Mechanik

Was ist der Kern-Nachteil von Standard-SGD?

A

Langsame Konvergenz in “Tälern” (Oszillationen) und Anfälligkeit für lokale Minima/Sattelpunkte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Die Mechanik

Wie löst Momentum das Oszillationsproblem?

A

Es nutzt den gleitenden Durchschnitt vergangener Gradienten, um die Bewegung in konsistente Richtungen zu beschleunigen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Die Mechanik

Was ist die Kernidee von AdaGrad?

A

Adaptive Lernraten: Häufige Features erhalten kleinere Updates, seltene Features größere.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Moderne Standards

Warum ist RMSprop eine Verbesserung gegenüber AdaGrad?

A

Es verhindert das radikale Absinken der Lernrate durch einen exponentiell abfallenden Durchschnitt der quadrierten Gradienten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Moderne Standards

Was ist RMSprop

A

RMSprop (Root Mean Square Propagation) ist ein intelligenter Optimierer, der die Lernrate für jedes einzelne Gewicht im neuronalen Netz automatisch anpasst. Er wurde entwickelt, um das Training schneller und stabiler zu machen, besonders wenn die Daten sehr ungleichmäßig sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Moderne Standards

Was kombiniert der Adam-Optimizer?

A

Momentum (1. Moment) und RMSprop (2. Moment/Skalierung).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Moderne Standards

Wozu dient die Bias-Correction in Adam?

A

Um die Initialisierung der Momente bei Null zu korrigieren (besonders wichtig in den ersten Iterationen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Deep Dive & Best Practices

Was ist der Unterschied zwischen Adam und AdamW?

A

AdamW entkoppelt das Weight Decay von der Gradienten-Skalierung (führt zu besserer Generalisierung).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Deep Dive & Best Practices

Warum wählen Profis oft SGD mit Momentum für das finale Fine-Tuning?

A

Es generalisiert oft besser auf Testdaten als Adam, auch wenn es länger zum Trainieren braucht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Deep Dive & Best Practices

Was bewirkt ein Learning Rate Scheduler?

A

Er reduziert die Lernrate über Zeit (z.B. Decay), um in das globale Minimum “einzurasten”, statt darüber hinwegzuspringen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Deep Dive & Best Practices

Was ist der “Exploding Gradient” Effekt und wie stoppt man ihn?

A

Gradienten werden extrem groß; Lösung: Gradient Clipping (Begrenzung des Norm-Werts).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist Gradient Clipping und warum wird es genutzt?

A

Eine Technik, bei der zu große Gradienten während der Backpropagation auf einen maximalen Schwellenwert begrenzt werden. Es verhindert das Exploding Gradient Problem (instabile Gewichts-Updates, die das Modell zerstören).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly