BERT Flashcards by Pascal Pianezzi

Front

Back

How well did you know this?

Not at all

Perfectly

Was ist die Grundidee eines Transformers?

Ein Modell das Sequenzen mit Self-Attention statt RNN oder CNN verarbeitet.

How well did you know this?

Not at all

Perfectly

Warum wurden Transformer entwickelt?

Um die Parallelisierung zu verbessern und langfristige Abhängigkeiten besser zu modellieren als RNNs.

How well did you know this?

Not at all

Perfectly

Was ist Self-Attention?

Ein Mechanismus bei dem jedes Token seine Beziehung zu allen anderen Tokens der Sequenz berechnet.

How well did you know this?

Not at all

Perfectly

Welche drei Vektoren werden in Self-Attention erzeugt?

Query Key und Value.

How well did you know this?

Not at all

Perfectly

Was repräsentiert der Query Vektor?

Die Anfrage eines Tokens nach relevanter Information aus anderen Tokens.

How well did you know this?

Not at all

Perfectly

Was repräsentiert der Key Vektor?

Die Information die angibt wie relevant ein Token für andere Tokens einer Sequenz ist.

How well did you know this?

Not at all

Perfectly

Was repräsentiert der Value Vektor?

Die eigentlichen Informationen die weitergegeben werden.

How well did you know this?

Not at all

Perfectly

Was ist die Attention Formel?

Attention(Q K V) = softmax(QK^T / sqrt(d_k)) V

How well did you know this?

Not at all

Perfectly

Warum wird durch sqrt(d_k) skaliert?

Um große Werte im Dot Product zu vermeiden und stabile Gradienten zu erhalten.

How well did you know this?

Not at all

Perfectly

Was macht die Softmax Funktion in Attention?

Sie wandelt die Ähnlichkeiten zwischen Tokens in Wahrscheinlichkeitsgewichte um.

How well did you know this?

Not at all

Perfectly

Was ist Multi Head Attention?

Mehrere parallele Attention Mechanismen die unterschiedliche Beziehungen zwischen Tokens lernen.

How well did you know this?

Not at all

Perfectly

Warum ist Multi Head Attention nützlich?

Sie erlaubt dem Modell verschiedene semantische Beziehungen gleichzeitig zu erfassen.

How well did you know this?

Not at all

Perfectly

Woraus besteht ein Transformer Encoder Block?

Multi Head Attention Feed Forward Network Residual Connections und Layer Normalization.

How well did you know this?

Not at all

Perfectly

Was ist das Feed Forward Network im Encoder?

Ein positionsweises neuronales Netzwerk das jedes Token unabhängig transformiert.

How well did you know this?

Not at all

Perfectly

Warum werden Residual Connections verwendet?

Study These Flashcards

Sie stabilisieren das Training und verhindern Vanishing Gradients.

Was ist Layer Normalization?

Study These Flashcards

Eine Normalisierung der Aktivierungen innerhalb eines Layers zur Stabilisierung des Trainings.

Warum braucht ein Transformer Positional Encoding?

Study These Flashcards

Weil Self Attention keine Information über Reihenfolge besitzt.

Wie wird Positional Encoding oft implementiert?

Study These Flashcards

Mit sinus und cosinus Funktionen unterschiedlicher Frequenzen.

Was bedeutet bidirectional bei BERT?

Study These Flashcards

Das Modell nutzt Kontext von links und rechts gleichzeitig.

Wofür steht BERT?

Study These Flashcards

Bidirectional Encoder Representations from Transformers.

Welche Architektur nutzt BERT?

Study These Flashcards

Nur Transformer Encoder ohne Decoder.

Was ist Masked Language Modeling?

Study These Flashcards

Ein Pretraining Task bei dem zufällige Wörter maskiert werden und das Modell sie vorhersagen muss.

Was war der zweite ursprüngliche BERT Pretraining Task?

Study These Flashcards

Next Sentence Prediction.

Warum sind Transformer gut parallelisierbar?

Weil Self Attention alle Tokens gleichzeitig verarbeiten kann.

Was ist der Hauptunterschied zwischen BERT und GPT?

BERT nutzt Encoder Architektur GPT nutzt Decoder Architektur.

BERT Flashcards

(26 cards)