Front
Back
Was ist Attention in neuronalen Netzen?
Ein Mechanismus der bestimmt wie stark ein Token auf andere Tokens achten soll.
Warum wurde Attention eingeführt?
Um langfristige Abhängigkeiten in Sequenzen besser zu modellieren.
Was ist Self Attention?
Ein Mechanismus bei dem jedes Token Aufmerksamkeit auf andere Tokens derselben Sequenz richtet.
Welche drei Vektoren werden in Attention erzeugt?
Query Key und Value.
Was beschreibt der Query Vektor?
Welche Information ein Token sucht.
Was beschreibt der Key Vektor?
Welche Information ein Token anbietet.
Was beschreibt der Value Vektor?
Die Information die weitergegeben wird.
Wie wird die Ähnlichkeit zwischen Tokens berechnet?
Mit einem Dot Product zwischen Query und Key.
Was ist die Attention Formel?
Attention(Q
Warum wird durch sqrt(d_k) geteilt?
Um große Dot Product Werte zu stabilisieren und Softmax nicht zu saturieren.
Was macht die Softmax Funktion in Attention?
Sie wandelt Scores in Wahrscheinlichkeiten um.
Was sind Attention Scores?
Die Ähnlichkeitswerte zwischen Query und Keys.
Was sind Attention Weights?
Die normalisierten Gewichte nach der Softmax.
Was passiert nach der Berechnung der Attention Weights?
Sie werden mit den Value Vektoren multipliziert.
Was ist Scaled Dot Product Attention?
Eine Attention Methode bei der das Dot Product durch sqrt(d_k) skaliert wird.
Warum ist Self Attention effizienter als RNNs?
Weil alle Tokens parallel verarbeitet werden können.
Was ist Multi Head Attention?
Mehrere Attention Mechanismen die parallel verschiedene Beziehungen lernen.
Warum nutzt man Multi Head Attention?
Um verschiedene Kontextbeziehungen gleichzeitig zu modellieren.
Was ist ein Attention Head?
Eine einzelne Attention Berechnung mit eigenen Projektionsmatrizen.
Wie kombiniert Multi Head Attention mehrere Heads?
Die Outputs werden konkateniert und linear transformiert.
Was ist der Vorteil von Self Attention gegenüber Convolution?
Sie kann globale Beziehungen zwischen allen Tokens modellieren.
Was ist ein Attention Matrix?
Eine Matrix die zeigt wie stark jedes Token auf jedes andere Token achtet.
Was ist der Kontextvektor in Attention?
Der gewichtete Durchschnitt der Value Vektoren.