Transformers Flashcards

Question 1

Q

Cite os principais impactos da arquitetura Transformers

Answer

A

Mecanismo de atenção
Paralelização
Escalabilidade
Transferência de aprendizado
Aplicações versáteis

Question 2

Q

Qual a origem da arquitetura Transformers?

Answer

A

“Attention is All You Need”, Vaswani et al, 2017

Question 3

Q

Explique teoricamente Mecanismo de atenção

Answer

A

Permite que o modelo dê importância variável a diferentes partes de uma sequência. Isso facilita a captura de dependências de longo alcance e a compreensão de contextos complexos.

Isso porque nem todas as partes de uma sequência são igualmente relevantes para a tarefa.

Question 4

Q

Dê o passo-a-passo de Mecanismo de atenção

Answer

A

O modelo aprende 3 conjuntos de pesos: chave (key), valor (value) e consulta (query). Primeiro ele calcula as representações de chave, consulta e valor para cada token da sequência de entrada, usando os pesos aprendidos.
Calcula a pontuação de atenção entre cada par de tokens (chave e consulta), geralmente usando o produto escalar seguido de uma normalização.
Aplica a função softmax às pontuações de atenção para obter uma distribuição de probabilidade que some 1, representando a importância relativa de cada token na sequência.
Multiplica as representações de valor (passo 1) pelo pesos de atenção normalizados (passo 3) e soma os resultados para obter a saída ponderada do mecanismo de atenção.

Question 5

Q

Dê o passo-a-passo matemático de Mecanismo de atenção

Answer

A

1.
K_i = W_k * X_i
Q_i = W_q * X_i
V_i = W_v * X_i

sendo W_* as matrizes de pesos e X_i cada token.

2.
score(Q_i, K_i) = (Q_i * K_i ^ T) / sqrt(d_k)

Em que d_k é a dimensão das representações das keys e queries e sua raíz quadrada é usada para normalizar a pontuação de atenção, evitando valores muito grandes ou pequenos.

3.
A_ij = softmax(score(Q_i, K_i)) = exp(score(Q_i, K_i)) / (exp(score(Q_i, K_i)))

A_ij é o peso de atenção do i-ésimo token da query em relação ao j-ésimo token da key

4.
Attention_output_i = (A_ij * V_j)

Resultando em uma representação ponderada para cada token de query com base em sua importância relativa em relação aos tokens de key.

Question 6

Q

Descreva as principais diferenças entre Multi-head attention para Atenção por produto escalar

Answer

A

Ideia principal: permitir que o modelo preste atenção a diferentes tipos de informações contextuais simultaneamente.

Resultados: melhora na capacidade do modelo de entender as dependências e relações entre os tokens na sequência de entrada.

Ele divide as representações de key, query e value em várias “cabeças” menores e aplica o mecanismo de atenção a cada uma delas de forma independente. Em seguida, as saídas ponderadas de cada cabeça são concatenadas e transformadas novamente para obter a saída final da camada de atenção multi-cabeça.

Question 7

Q

Explique brevemente Paralelização

Answer

A

Os Transformers não dependem de cálculos sequenciais, como as redes recorrentes (ex. LSTM e GRU), o que permite uma paralelização mais eficiente e um treinamento mais rápido.

Question 8

Q

Explique brevemente Escalabilidade

Answer

A

Permitem o treinamento com bilhões de parâmetros e a obtenção de um desempenho significativamente melhor em várias tarefas de PLN.

Question 9

Q

Explique brevemente Transferência de aprendizado

Answer

A

Técnica de aprendizado de máquina que aproveita um modelo pré-treinado em uma tarefa para ajudar a resolver outra tarefa relacionada, geralmente com menos dados de treinamento.

Objetivo principal: transferir o conhecimento adquirido pelo modelo durante o treinamento em uma tarefa para acelerar e melhorar o desempenho em outra.

Question 10

Q

Cite algumas de suas aplicações

Answer

A

Tradução automática, geração de texto, análise de sentimento, resposta a perguntas, … A arquitetura também foi adaptada para outras áreas como visão computacional e análise de séries temporais.

Question 11

Q

Cite o objetivo principal da arquitetura Transformers

Answer

A

Melhorar a eficiência e a capacidade de lidar com problemas em sequência, como PLN e análise de séries temporais.

Question 12

Q

Qual sua principal inovação?

Answer

A

Atenção auto-regressiva.

Permite que o modelo atribua pesos diferentes a diferentes partes da sequência de entrada dependendo da sua importância para a tarefa específica.

Essa atenção é calculada usando usando uma técnica chamada “Mecanismo de atenção por produto escalar”, que permite ao modelo aprender padrões de longo alcance e interações entre as palavras de uma sequência.

Question 13

Q

Explique brevemente os dois componentes principais da arquitetura Transformers

Answer

A

Codificador: processa a sequência de entrada e gera uma representação vetorial contínua.

Decodificador: usa essa representação para gerar a sequência de saída.
Ambos os componentes são compostos por várias camadas de atenção, cada uma com suas próprias conexões e parâmetros aprendidos.

Question 14

Q

Cite casos em que o Transfer Learning é particularmente útil

Answer

A

os dados disponíveis são limitados ou insuficientes para treinar um modelo do zero
o tempo e os recursos computacionais são limitados
a tarefa original e a nova tarefa compartilham características e padrões semelhantes

Question 15

Q

Descreva o passo-a-passo básico de utilização do Transfer Learning

Answer

A

Escolher um modelo pré-treinado adequado
Adaptar o modelo às suas necessidades (ex. substituir ou ajustar camadas, como a de output)
Treinar o modelo com seus dados de treinamento. Pode envolver fine-tuning (modelo é treinado com taxa de aprendizado menor para ajustar os pesos pré-treinados sem causar mudanças drásticas nos parâmetros)
Avaliar o desempenho do modelo e fazer ajustes adicionais, se necessário

Question 16

Q

Quais submódulos compões as camadas do Encoder e do Decoder?

Answer

Study These Flashcards

A

Encoder

Mecanismo de atenção por produto escalar (Self-Attention)
Rede Feed-Forward Posicional (Position-wise Feed-Forward Network)

Decoder

Mecanismo de Atenção por Produto Escalar (Self-Attention)
Atenção entre Codificador-Decodificador (Encoder-Decoder Attention)
Rede Feed-Forward Posicional (Position-wise Feed-Forward Network)

Cada submódulo é seguido por uma conexão residual, que adiciona a saída do submódulo à entrada original, e por uma normalização da camada

Question 17

Q

Explique positional encoding

Answer

Study These Flashcards

A

Incorpora informações sobre a posição dos tokens na sequência. Isso é necessário pois os mecanismos de atenção não têm noção de ordem inerente e precisamos que o modelo entenda e represente as dependências e relações entre os tokens considerando suas posições na sequência.

É adicionada à representação inicial de cada token antes que ele passe pelas camadas do Encoder e do Decoder.

Existem várias formas de implementação, mas no artigo original do Transformer é baseada em funções seno e cosseno com diferentes frequências.

Question 18

Q

Explique o que é BERT

Answer

Study These Flashcards

A

Bidirectional Encoder Representations from Transformers

Modelo de aprendizado profundo desenvolvido pela Google AI Language em 2018

É baseado na arquitetura Transformer e utiliza uma técnica de treinamento bidirecional para aprender representações de linguagem de alta qualidade.

Ao contrário dos modelos anteriores de PLN, o BERT considera os contextos à esquerda e à direita das palavras simultaneamente. Isso permite que o modelo entenda melhor o significado das palavras com base em seus contextos de uso.

Existem diversas versões e variantes do modelo BERT.

Transformers Flashcards

(18 cards)