come
fim
O que é PLN?
Campo da IA que ensina computadores a entender, interpretar e gerar linguagem humana
Diferença: PLN vs Linguística Computacional
PLN foca em aplicações práticas, Linguística Computacional foca em teoria linguística
Os 4 níveis de análise em PLN
O que é Tokenização?
Dividir texto em unidades menores (tokens) - palavras, pontuação
Exemplo de tokenização em português
“Olá, mundo!” → [“Olá”, “,”, “mundo”, “!”]
O que são Stop Words?
Palavras muito frequentes sem significado único (ex: “o”, “de”, “em”)
Por que remover Stop Words?
Reduz ruído e dimensionalidade, foca em palavras semanticamente importantes
O que é Stemming?
Reduzir palavras à raiz (ex: “correndo” → “corr”) - método heurístico
O que é Lemmatization?
Reduzir palavras ao lemma usando dicionário (ex: “correndo” → “correr”)
O que é POS Tagging?
Marcar cada palavra com sua classe gramatical (substantivo, verbo, etc.)
Tags POS básicas em português
NOUN (substantivo), VERB (verbo), ADJ (adjetivo), ADV (advérbio)
O que é Parsing Sintático?
Analisar estrutura gramatical da frase (árvore de dependências)
Exemplo de parsing
“O gato preto” → [DET] [NOUN] [ADJ]
O que é NER (Named Entity Recognition)?
Identificar entidades nomeadas (pessoas, lugares, organizações, datas)
Exemplo de NER
“João viajou para Paris em 2023” → [PESSOA] [LUGAR] [DATA]
O que é Análise de Sentimentos?
Determinar emoção/polaridade em texto (positivo, negativo, neutro)
Exemplo de análise de sentimentos
“Adorei o filme!” → POSITIVO
O que são Word Embeddings?
Representação vetorial densa que captura significado semântico
Vantagem de embeddings sobre one-hot
Capturam relações semânticas (ex: rei - homem + mulher = rainha)
Diferença: Word2Vec Skip-gram vs CBOW
Skip-gram: palavra → contexto
O que é TF-IDF?
Estatística que mede importância de palavra no documento vs corpus
Fórmula do TF-IDF
TF-IDF = TF(t,d) × IDF(t)
O que é arquitetura Transformer?
Baseada em mecanismo de atenção, não usa RNNs - mais paralelizável