NLP Text Preprocessing Flashcards

Question 1

Q

Warum müssen Texte in Zahlen umgewandelt werden?

Answer

A

Maschinelles Lernen und neuronale Netze arbeiten ausschliesslich mit Zahlen (z. B. Matrixmultiplikationen), nicht mit Zeichen oder Text.

Question 2

Q

Was ist der Unterschied zwischen einer ‘sparse’ und einer ‘dense’ Repräsentation?

Answer

A

Sparse: Viele Nullen, hohe Dimensionalität wächst mit Vokabular. Dense: Wenige Nullen, niedrigere Dimensionalität.

Question 3

Q

Definiere den Begriff ‘Corpus’ in der NLP.

Answer

A

Ein Corpus ist eine Sammlung von maschinenlesbaren Textdaten.

Question 4

Q

Was ist Stemming?

Answer

A

Die Reduzierung von Wörtern auf ihren Wortstamm (oft kein echtes Wort, z. B. ‘happi’). Es ist regelbasiert und verringert die Vokabulargrösse.

Question 5

Q

Was ist Lemmatisierung?

Answer

A

Ein linguistischer Ansatz, der Wörter auf ihre Grundform (Lemma) zurückführt. Erfordert Wissen über die Wortart (POS) und ist komplexer/langsamer als Stemming.

Question 6

Q

Was sind Stopwords?

Answer

A

Häufig vorkommende Wörter mit geringem Informationsgehalt (z. B. ‘der’, ‘und’). Ihre Entfernung reduziert die Vokabulargrösse.

Question 7

Q

Was ist der Unicode-Standard?

Answer

A

Ein universeller Standard zur Kodierung von Zeichen, der es ermöglicht, Texte aus fast allen Sprachen weltweit einheitlich darzustellen.

Question 8

Q

Erkläre das Prinzip von Byte-Pair Encoding (BPE).

Answer

A

Ein Bottom-up-Tokenizer, der iterativ die häufigsten aufeinanderfolgenden Token-Paare zu neuen Token zusammenfügt.

https://www.youtube.com/shorts/g7NtCKbLSho

Question 9

Q

Welche zwei Schritte umfasst ein moderner Tokenizer wie BPE?

Answer

A

Token Learner: Lernt Token aus einem Corpus.
Token Encoder: Mappt Wörter eines neuen Satzes auf die gelernten Token.

Question 10

Q

Warum ist Textvorverarbeitung oft schwierig?

Answer

A

Text ist ‘noisy’ durch Tippfehler, Slang, Emoticons, inkonsistente Gross-/Kleinschreibung und Sonderzeichen.

Question 11

Q

Wie funktioniert der BPE-Trainingsprozess (Learner)?

Answer

A

Initialisierung mit allen Einzelzeichen.
Iteratives Finden und Verschmelzen des häufigsten Paares benachbarter Token.
Update des Vokabulars und Corpus.

Question 12

Q

Wann stoppt der BPE-Algorithmus?

Answer

A

Entweder wenn der Corpus eine bestimmte Zielgrösse erreicht hat oder wenn eine vordefinierte Anzahl neuer Token erstellt wurde.

Question 13

Q

Was ist ein entscheidender Vorteil von BPE bei LLMs?

Answer

A

Es kann mit unbekannten Wörtern (Out-of-Vocabulary, OOV) umgehen, indem es diese in bekannte Sub-Word-Token zerlegt.

Question 14

Q

Welcher weit verbreitete Stemmer wird im Dokument erwähnt?

Answer

A

Der Porter Stemmer (oft für Englisch verwendet).

Question 15

Q

Warum ist Lemmatisierung komplexer als Stemming?

Answer

A

Sie erfordert eine linguistische Analyse und Kenntnis über die Wortart (Part-of-Speech, POS), z. B. ob ein Wort ein Verb oder Nomen ist.

Question 16

Q

Nenne drei konkrete Schritte zur Reinigung von ‘noisy’ Text.

Answer

Study These Flashcards

A

Konvertierung in Kleinschreibung.
Entfernung übermässiger Interpunktion.
Ersetzung von Emojis durch Unicode.

Question 17

Q

Was bedeutet ‘Tokenization’ bei modernen Modellen wie BERT?

Answer

Study These Flashcards

A

Es ist der Prozess, Text in kleinere Einheiten (Token) zu zerlegen, wobei oft Byte-Pair Encoding zum Einsatz kommt.

Question 18

Q

Warum ist das Entfernen von Stopwords bei Chatbots problematisch?

Answer

Study These Flashcards

A

Stopwords (wie ‘nicht’ oder ‘kein’) tragen massgeblich zur Bedeutung und Nuance eines Satzes bei, die für die Konversation wichtig ist.

Question 19

Q

Was ist der Unterschied zwischen UTF-8 und ASCII?

Answer

Study These Flashcards

A

UTF-8 ist kompatibel mit ASCII; die ersten 128 Codepoints sind in beiden Standards identisch.

Question 20

Q

Welches Problem löst Unicode in der internationalen Textverarbeitung?

Answer

Study These Flashcards

A

Es bietet eine konsistente Kodierung für multilingualen Text und beendet das Chaos unterschiedlicher Zeichensätze.

NLP Text Preprocessing Flashcards

(20 cards)