Front
Back
Was ist die Grundidee eines Transformers?
Ein Modell das Sequenzen mit Self-Attention statt RNN oder CNN verarbeitet.
Warum wurden Transformer entwickelt?
Um die Parallelisierung zu verbessern und langfristige Abhängigkeiten besser zu modellieren als RNNs.
Was ist Self-Attention?
Ein Mechanismus bei dem jedes Token seine Beziehung zu allen anderen Tokens der Sequenz berechnet.
Welche drei Vektoren werden in Self-Attention erzeugt?
Query Key und Value.
Was repräsentiert der Query Vektor?
Die Anfrage eines Tokens nach relevanter Information aus anderen Tokens.
Was repräsentiert der Key Vektor?
Die Information die angibt wie relevant ein Token für andere Tokens einer Sequenz ist.
Was repräsentiert der Value Vektor?
Die eigentlichen Informationen die weitergegeben werden.
Was ist die Attention Formel?
Attention(Q K V) = softmax(QK^T / sqrt(d_k)) V
Warum wird durch sqrt(d_k) skaliert?
Um große Werte im Dot Product zu vermeiden und stabile Gradienten zu erhalten.
Was macht die Softmax Funktion in Attention?
Sie wandelt die Ähnlichkeiten zwischen Tokens in Wahrscheinlichkeitsgewichte um.
Was ist Multi Head Attention?
Mehrere parallele Attention Mechanismen die unterschiedliche Beziehungen zwischen Tokens lernen.
Warum ist Multi Head Attention nützlich?
Sie erlaubt dem Modell verschiedene semantische Beziehungen gleichzeitig zu erfassen.
Woraus besteht ein Transformer Encoder Block?
Multi Head Attention Feed Forward Network Residual Connections und Layer Normalization.
Was ist das Feed Forward Network im Encoder?
Ein positionsweises neuronales Netzwerk das jedes Token unabhängig transformiert.
Warum werden Residual Connections verwendet?
Sie stabilisieren das Training und verhindern Vanishing Gradients.
Was ist Layer Normalization?
Eine Normalisierung der Aktivierungen innerhalb eines Layers zur Stabilisierung des Trainings.
Warum braucht ein Transformer Positional Encoding?
Weil Self Attention keine Information über Reihenfolge besitzt.
Wie wird Positional Encoding oft implementiert?
Mit sinus und cosinus Funktionen unterschiedlicher Frequenzen.
Was bedeutet bidirectional bei BERT?
Das Modell nutzt Kontext von links und rechts gleichzeitig.
Wofür steht BERT?
Bidirectional Encoder Representations from Transformers.
Welche Architektur nutzt BERT?
Nur Transformer Encoder ohne Decoder.
Was ist Masked Language Modeling?
Ein Pretraining Task bei dem zufällige Wörter maskiert werden und das Modell sie vorhersagen muss.
Was war der zweite ursprüngliche BERT Pretraining Task?
Next Sentence Prediction.