Warum müssen Texte in Zahlen umgewandelt werden?
Maschinelles Lernen und neuronale Netze arbeiten ausschliesslich mit Zahlen (z. B. Matrixmultiplikationen), nicht mit Zeichen oder Text.
Was ist der Unterschied zwischen einer ‘sparse’ und einer ‘dense’ Repräsentation?
Sparse: Viele Nullen, hohe Dimensionalität wächst mit Vokabular. Dense: Wenige Nullen, niedrigere Dimensionalität.
Definiere den Begriff ‘Corpus’ in der NLP.
Ein Corpus ist eine Sammlung von maschinenlesbaren Textdaten.
Was ist Stemming?
Die Reduzierung von Wörtern auf ihren Wortstamm (oft kein echtes Wort, z. B. ‘happi’). Es ist regelbasiert und verringert die Vokabulargrösse.
Was ist Lemmatisierung?
Ein linguistischer Ansatz, der Wörter auf ihre Grundform (Lemma) zurückführt. Erfordert Wissen über die Wortart (POS) und ist komplexer/langsamer als Stemming.
Was sind Stopwords?
Häufig vorkommende Wörter mit geringem Informationsgehalt (z. B. ‘der’, ‘und’). Ihre Entfernung reduziert die Vokabulargrösse.
Was ist der Unicode-Standard?
Ein universeller Standard zur Kodierung von Zeichen, der es ermöglicht, Texte aus fast allen Sprachen weltweit einheitlich darzustellen.
Erkläre das Prinzip von Byte-Pair Encoding (BPE).
Ein Bottom-up-Tokenizer, der iterativ die häufigsten aufeinanderfolgenden Token-Paare zu neuen Token zusammenfügt.
https://www.youtube.com/shorts/g7NtCKbLSho
Welche zwei Schritte umfasst ein moderner Tokenizer wie BPE?
Warum ist Textvorverarbeitung oft schwierig?
Text ist ‘noisy’ durch Tippfehler, Slang, Emoticons, inkonsistente Gross-/Kleinschreibung und Sonderzeichen.
Wie funktioniert der BPE-Trainingsprozess (Learner)?
Wann stoppt der BPE-Algorithmus?
Entweder wenn der Corpus eine bestimmte Zielgrösse erreicht hat oder wenn eine vordefinierte Anzahl neuer Token erstellt wurde.
Was ist ein entscheidender Vorteil von BPE bei LLMs?
Es kann mit unbekannten Wörtern (Out-of-Vocabulary, OOV) umgehen, indem es diese in bekannte Sub-Word-Token zerlegt.
Welcher weit verbreitete Stemmer wird im Dokument erwähnt?
Der Porter Stemmer (oft für Englisch verwendet).
Warum ist Lemmatisierung komplexer als Stemming?
Sie erfordert eine linguistische Analyse und Kenntnis über die Wortart (Part-of-Speech, POS), z. B. ob ein Wort ein Verb oder Nomen ist.
Nenne drei konkrete Schritte zur Reinigung von ‘noisy’ Text.
Was bedeutet ‘Tokenization’ bei modernen Modellen wie BERT?
Es ist der Prozess, Text in kleinere Einheiten (Token) zu zerlegen, wobei oft Byte-Pair Encoding zum Einsatz kommt.
Warum ist das Entfernen von Stopwords bei Chatbots problematisch?
Stopwords (wie ‘nicht’ oder ‘kein’) tragen massgeblich zur Bedeutung und Nuance eines Satzes bei, die für die Konversation wichtig ist.
Was ist der Unterschied zwischen UTF-8 und ASCII?
UTF-8 ist kompatibel mit ASCII; die ersten 128 Codepoints sind in beiden Standards identisch.
Welches Problem löst Unicode in der internationalen Textverarbeitung?
Es bietet eine konsistente Kodierung für multilingualen Text und beendet das Chaos unterschiedlicher Zeichensätze.