BERT Flashcards

(26 cards)

1
Q

Front

A

Back

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist die Grundidee eines Transformers?

A

Ein Modell das Sequenzen mit Self-Attention statt RNN oder CNN verarbeitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Warum wurden Transformer entwickelt?

A

Um die Parallelisierung zu verbessern und langfristige Abhängigkeiten besser zu modellieren als RNNs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Self-Attention?

A

Ein Mechanismus bei dem jedes Token seine Beziehung zu allen anderen Tokens der Sequenz berechnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche drei Vektoren werden in Self-Attention erzeugt?

A

Query Key und Value.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was repräsentiert der Query Vektor?

A

Die Anfrage eines Tokens nach relevanter Information aus anderen Tokens.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was repräsentiert der Key Vektor?

A

Die Information die angibt wie relevant ein Token für andere Tokens einer Sequenz ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was repräsentiert der Value Vektor?

A

Die eigentlichen Informationen die weitergegeben werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist die Attention Formel?

A

Attention(Q K V) = softmax(QK^T / sqrt(d_k)) V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Warum wird durch sqrt(d_k) skaliert?

A

Um große Werte im Dot Product zu vermeiden und stabile Gradienten zu erhalten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was macht die Softmax Funktion in Attention?

A

Sie wandelt die Ähnlichkeiten zwischen Tokens in Wahrscheinlichkeitsgewichte um.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Multi Head Attention?

A

Mehrere parallele Attention Mechanismen die unterschiedliche Beziehungen zwischen Tokens lernen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Warum ist Multi Head Attention nützlich?

A

Sie erlaubt dem Modell verschiedene semantische Beziehungen gleichzeitig zu erfassen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Woraus besteht ein Transformer Encoder Block?

A

Multi Head Attention Feed Forward Network Residual Connections und Layer Normalization.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist das Feed Forward Network im Encoder?

A

Ein positionsweises neuronales Netzwerk das jedes Token unabhängig transformiert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Warum werden Residual Connections verwendet?

A

Sie stabilisieren das Training und verhindern Vanishing Gradients.

17
Q

Was ist Layer Normalization?

A

Eine Normalisierung der Aktivierungen innerhalb eines Layers zur Stabilisierung des Trainings.

18
Q

Warum braucht ein Transformer Positional Encoding?

A

Weil Self Attention keine Information über Reihenfolge besitzt.

19
Q

Wie wird Positional Encoding oft implementiert?

A

Mit sinus und cosinus Funktionen unterschiedlicher Frequenzen.

20
Q

Was bedeutet bidirectional bei BERT?

A

Das Modell nutzt Kontext von links und rechts gleichzeitig.

21
Q

Wofür steht BERT?

A

Bidirectional Encoder Representations from Transformers.

22
Q

Welche Architektur nutzt BERT?

A

Nur Transformer Encoder ohne Decoder.

23
Q

Was ist Masked Language Modeling?

A

Ein Pretraining Task bei dem zufällige Wörter maskiert werden und das Modell sie vorhersagen muss.

24
Q

Was war der zweite ursprüngliche BERT Pretraining Task?

A

Next Sentence Prediction.

25
Warum sind Transformer gut parallelisierbar?
Weil Self Attention alle Tokens gleichzeitig verarbeiten kann.
26
Was ist der Hauptunterschied zwischen BERT und GPT?
BERT nutzt Encoder Architektur GPT nutzt Decoder Architektur.