NLP Text Preprocessing Flashcards

(20 cards)

1
Q

Warum müssen Texte in Zahlen umgewandelt werden?

A

Maschinelles Lernen und neuronale Netze arbeiten ausschliesslich mit Zahlen (z. B. Matrixmultiplikationen), nicht mit Zeichen oder Text.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist der Unterschied zwischen einer ‘sparse’ und einer ‘dense’ Repräsentation?

A

Sparse: Viele Nullen, hohe Dimensionalität wächst mit Vokabular. Dense: Wenige Nullen, niedrigere Dimensionalität.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Definiere den Begriff ‘Corpus’ in der NLP.

A

Ein Corpus ist eine Sammlung von maschinenlesbaren Textdaten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Stemming?

A

Die Reduzierung von Wörtern auf ihren Wortstamm (oft kein echtes Wort, z. B. ‘happi’). Es ist regelbasiert und verringert die Vokabulargrösse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist Lemmatisierung?

A

Ein linguistischer Ansatz, der Wörter auf ihre Grundform (Lemma) zurückführt. Erfordert Wissen über die Wortart (POS) und ist komplexer/langsamer als Stemming.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind Stopwords?

A

Häufig vorkommende Wörter mit geringem Informationsgehalt (z. B. ‘der’, ‘und’). Ihre Entfernung reduziert die Vokabulargrösse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist der Unicode-Standard?

A

Ein universeller Standard zur Kodierung von Zeichen, der es ermöglicht, Texte aus fast allen Sprachen weltweit einheitlich darzustellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Erkläre das Prinzip von Byte-Pair Encoding (BPE).

A

Ein Bottom-up-Tokenizer, der iterativ die häufigsten aufeinanderfolgenden Token-Paare zu neuen Token zusammenfügt.

https://www.youtube.com/shorts/g7NtCKbLSho

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welche zwei Schritte umfasst ein moderner Tokenizer wie BPE?

A
  1. Token Learner: Lernt Token aus einem Corpus.
  2. Token Encoder: Mappt Wörter eines neuen Satzes auf die gelernten Token.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Warum ist Textvorverarbeitung oft schwierig?

A

Text ist ‘noisy’ durch Tippfehler, Slang, Emoticons, inkonsistente Gross-/Kleinschreibung und Sonderzeichen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie funktioniert der BPE-Trainingsprozess (Learner)?

A
  1. Initialisierung mit allen Einzelzeichen.
  2. Iteratives Finden und Verschmelzen des häufigsten Paares benachbarter Token.
  3. Update des Vokabulars und Corpus.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wann stoppt der BPE-Algorithmus?

A

Entweder wenn der Corpus eine bestimmte Zielgrösse erreicht hat oder wenn eine vordefinierte Anzahl neuer Token erstellt wurde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist ein entscheidender Vorteil von BPE bei LLMs?

A

Es kann mit unbekannten Wörtern (Out-of-Vocabulary, OOV) umgehen, indem es diese in bekannte Sub-Word-Token zerlegt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welcher weit verbreitete Stemmer wird im Dokument erwähnt?

A

Der Porter Stemmer (oft für Englisch verwendet).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Warum ist Lemmatisierung komplexer als Stemming?

A

Sie erfordert eine linguistische Analyse und Kenntnis über die Wortart (Part-of-Speech, POS), z. B. ob ein Wort ein Verb oder Nomen ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Nenne drei konkrete Schritte zur Reinigung von ‘noisy’ Text.

A
  1. Konvertierung in Kleinschreibung.
  2. Entfernung übermässiger Interpunktion.
  3. Ersetzung von Emojis durch Unicode.
17
Q

Was bedeutet ‘Tokenization’ bei modernen Modellen wie BERT?

A

Es ist der Prozess, Text in kleinere Einheiten (Token) zu zerlegen, wobei oft Byte-Pair Encoding zum Einsatz kommt.

18
Q

Warum ist das Entfernen von Stopwords bei Chatbots problematisch?

A

Stopwords (wie ‘nicht’ oder ‘kein’) tragen massgeblich zur Bedeutung und Nuance eines Satzes bei, die für die Konversation wichtig ist.

19
Q

Was ist der Unterschied zwischen UTF-8 und ASCII?

A

UTF-8 ist kompatibel mit ASCII; die ersten 128 Codepoints sind in beiden Standards identisch.

20
Q

Welches Problem löst Unicode in der internationalen Textverarbeitung?

A

Es bietet eine konsistente Kodierung für multilingualen Text und beendet das Chaos unterschiedlicher Zeichensätze.