Attention Flashcards

(26 cards)

1
Q

Front

A

Back

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist Attention in neuronalen Netzen?

A

Ein Mechanismus der bestimmt wie stark ein Token auf andere Tokens achten soll.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Warum wurde Attention eingeführt?

A

Um langfristige Abhängigkeiten in Sequenzen besser zu modellieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Self Attention?

A

Ein Mechanismus bei dem jedes Token Aufmerksamkeit auf andere Tokens derselben Sequenz richtet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche drei Vektoren werden in Attention erzeugt?

A

Query Key und Value.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was beschreibt der Query Vektor?

A

Welche Information ein Token sucht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was beschreibt der Key Vektor?

A

Welche Information ein Token anbietet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was beschreibt der Value Vektor?

A

Die Information die weitergegeben wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wie wird die Ähnlichkeit zwischen Tokens berechnet?

A

Mit einem Dot Product zwischen Query und Key.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist die Attention Formel?

A

Attention(Q

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Warum wird durch sqrt(d_k) geteilt?

A

Um große Dot Product Werte zu stabilisieren und Softmax nicht zu saturieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was macht die Softmax Funktion in Attention?

A

Sie wandelt Scores in Wahrscheinlichkeiten um.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind Attention Scores?

A

Die Ähnlichkeitswerte zwischen Query und Keys.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind Attention Weights?

A

Die normalisierten Gewichte nach der Softmax.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was passiert nach der Berechnung der Attention Weights?

A

Sie werden mit den Value Vektoren multipliziert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist Scaled Dot Product Attention?

A

Eine Attention Methode bei der das Dot Product durch sqrt(d_k) skaliert wird.

17
Q

Warum ist Self Attention effizienter als RNNs?

A

Weil alle Tokens parallel verarbeitet werden können.

18
Q

Was ist Multi Head Attention?

A

Mehrere Attention Mechanismen die parallel verschiedene Beziehungen lernen.

19
Q

Warum nutzt man Multi Head Attention?

A

Um verschiedene Kontextbeziehungen gleichzeitig zu modellieren.

20
Q

Was ist ein Attention Head?

A

Eine einzelne Attention Berechnung mit eigenen Projektionsmatrizen.

21
Q

Wie kombiniert Multi Head Attention mehrere Heads?

A

Die Outputs werden konkateniert und linear transformiert.

22
Q

Was ist der Vorteil von Self Attention gegenüber Convolution?

A

Sie kann globale Beziehungen zwischen allen Tokens modellieren.

23
Q

Was ist ein Attention Matrix?

A

Eine Matrix die zeigt wie stark jedes Token auf jedes andere Token achtet.

24
Q

Was ist der Kontextvektor in Attention?

A

Der gewichtete Durchschnitt der Value Vektoren.

25
Warum funktioniert Attention gut für Sprache?
Weil Wörter Beziehungen zu vielen anderen Wörtern haben können.
26
Was ist der Unterschied zwischen Self Attention und Cross Attention?
Self Attention nutzt dieselbe Sequenz für Q K V Cross Attention nutzt verschiedene Sequenzen.