Attention Flashcards by Pascal Pianezzi

Front

Back

How well did you know this?

Not at all

Perfectly

Was ist Attention in neuronalen Netzen?

Ein Mechanismus der bestimmt wie stark ein Token auf andere Tokens achten soll.

How well did you know this?

Not at all

Perfectly

Warum wurde Attention eingeführt?

Um langfristige Abhängigkeiten in Sequenzen besser zu modellieren.

How well did you know this?

Not at all

Perfectly

Was ist Self Attention?

Ein Mechanismus bei dem jedes Token Aufmerksamkeit auf andere Tokens derselben Sequenz richtet.

How well did you know this?

Not at all

Perfectly

Welche drei Vektoren werden in Attention erzeugt?

Query Key und Value.

How well did you know this?

Not at all

Perfectly

Was beschreibt der Query Vektor?

Welche Information ein Token sucht.

How well did you know this?

Not at all

Perfectly

Was beschreibt der Key Vektor?

Welche Information ein Token anbietet.

How well did you know this?

Not at all

Perfectly

Was beschreibt der Value Vektor?

Die Information die weitergegeben wird.

How well did you know this?

Not at all

Perfectly

Wie wird die Ähnlichkeit zwischen Tokens berechnet?

Mit einem Dot Product zwischen Query und Key.

How well did you know this?

Not at all

Perfectly

Was ist die Attention Formel?

Attention(Q

How well did you know this?

Not at all

Perfectly

Warum wird durch sqrt(d_k) geteilt?

Um große Dot Product Werte zu stabilisieren und Softmax nicht zu saturieren.

How well did you know this?

Not at all

Perfectly

Was macht die Softmax Funktion in Attention?

Sie wandelt Scores in Wahrscheinlichkeiten um.

How well did you know this?

Not at all

Perfectly

Was sind Attention Scores?

Die Ähnlichkeitswerte zwischen Query und Keys.

How well did you know this?

Not at all

Perfectly

Was sind Attention Weights?

Die normalisierten Gewichte nach der Softmax.

How well did you know this?

Not at all

Perfectly

Was passiert nach der Berechnung der Attention Weights?

Sie werden mit den Value Vektoren multipliziert.

How well did you know this?

Not at all

Perfectly

Was ist Scaled Dot Product Attention?

Study These Flashcards

Eine Attention Methode bei der das Dot Product durch sqrt(d_k) skaliert wird.

Warum ist Self Attention effizienter als RNNs?

Study These Flashcards

Weil alle Tokens parallel verarbeitet werden können.

Was ist Multi Head Attention?

Study These Flashcards

Mehrere Attention Mechanismen die parallel verschiedene Beziehungen lernen.

Warum nutzt man Multi Head Attention?

Study These Flashcards

Um verschiedene Kontextbeziehungen gleichzeitig zu modellieren.

Was ist ein Attention Head?

Study These Flashcards

Eine einzelne Attention Berechnung mit eigenen Projektionsmatrizen.

Wie kombiniert Multi Head Attention mehrere Heads?

Study These Flashcards

Die Outputs werden konkateniert und linear transformiert.

Was ist der Vorteil von Self Attention gegenüber Convolution?

Study These Flashcards

Sie kann globale Beziehungen zwischen allen Tokens modellieren.

Was ist ein Attention Matrix?

Study These Flashcards

Eine Matrix die zeigt wie stark jedes Token auf jedes andere Token achtet.

Was ist der Kontextvektor in Attention?

Study These Flashcards

Der gewichtete Durchschnitt der Value Vektoren.

Warum funktioniert Attention gut für Sprache?

Weil Wörter Beziehungen zu vielen anderen Wörtern haben können.

Was ist der Unterschied zwischen Self Attention und Cross Attention?

Self Attention nutzt dieselbe Sequenz für Q K V Cross Attention nutzt verschiedene Sequenzen.

Attention Flashcards

(26 cards)