Ableitung von f(x) = x + c
Die Steigung (der Gradient) ist immer 1.
Ableitung von f(a) = a * b (nach a)
Der Gradient ist b (der Hebel der anderen Zahl).
Ableitung von f(a) = a * b (nach b)
Der Gradient ist a.
Ableitung von f(x) = x**2 (Quadrat)
Der Gradient ist 2 * x.
Ableitung von f(x) = x**n (Potenz)
Der Gradient ist n * x**(n-1).
Die Kettenregel (Chain Rule) als Formel
Gesamt-Grad = Lokaler-Grad * Grad-von-vorn.
Ableitung von tanh(x) (Aktivierungsfunktion)
Der Gradient ist 1 - (tanh(x))**2.
Wie lautet die Formel für den ‘Manual Gradient’?
(f(x + h) - f(x)) / h.
Ableitung von e**x (Exponentialfunktion)
Der Gradient ist wieder e**x (sie bleibt gleich).
Was ist die Ableitung einer Konstanten (Zahl ohne x)?
Der Gradient ist immer 0.
Wie berechnet man das neue Gewicht (Update)?
Neues Gewicht = Altes Gewicht - (Lernrate * grad).
Warum ist der Gradient von ‘a’ bei d = a + b gleich 1?
Weil eine Addition die Steigung der Kurve nicht verändert (nur verschiebt).
Was ist die ‘data’ in einem Value-Objekt?
Der aktuelle Zahlenwert (der Ist-Zustand).
Was beschreibt der ‘grad’ (Gradient)?
Die Empfindlichkeit: Wie stark ändert sich das Endergebnis, wenn ich diesen Wert minimal erhöhe?
Was passiert mit dem Loss, wenn der grad negativ ist und ich den Wert erhöhe?
Der Loss wird kleiner (das Modell wird besser).
Warum addieren wir ‘h’ (0.0001) beim manuellen Ableiten?
Um die Steigung an einer winzigen Stelle zu messen (lokale Steigung).
Formel: d = a * b. Wie gross ist der grad von a?
Der Wert von b.
Formel: d = a + b. Wie gross ist der grad von a?
Immer 1 (da Addition nur verschiebt, nicht skaliert).
Was macht die Funktion ‘backward()’?
Sie berechnet die Gradienten rückwärts vom Ende (Loss) zum Anfang (Inputs).
Was ist die Kettenregel (Chain Rule) intuitiv?
Man multipliziert den lokalen Hebel mit dem Gradienten, der von “vorne” kommt.
Warum nutzt Karpathy ‘set()’ für ‘_prev’?
Damit jeder Knoten bei der Ableitung nur einmal besucht wird (keine Duplikate).
Was passiert mit dem grad bei einer Multiplikation mit 0?
Der Gradient wird 0 - die Verbindung ist “tot”, keine Information fliesst zurück.
Was ist ein ‘Step’ im Training?
Man ändert die Gewichte leicht in die Gegenrichtung des Gradienten (Gewicht -= Lernrate * grad).
Warum ist ‘grad’ am Anfang des Loss-Knotens immer 1.0?
Weil sich der Loss zu sich selbst exakt 1:1 verändert (Startpunkt).