Feedforward Networks Flashcards

Question 1

Q

Por que elas são chamadas de feedforward?

Answer

A

Porque o output de um layer será input do outro em sequência.

Question 2

Q

O que é a profundidade (depth) da rede?

Answer

A

É o tamanho da cadeia (número de layers)

Question 3

Q

O que faz uma camada ser oculta?

Answer

A

Não existe um y especificado para elas ao contrário da camada de output.

Question 4

Q

Explique o funcionamento das units

Answer

A

Cada camada consiste de várias units que atuam em paralelo. Cada uma representa uma função vetor para escalar. Retornam um valor de ativação (activation value).

Question 5

Q

Explique o básico sobre o Teorema da Aproximação Central.

Answer

A

Uma linear output layer + ao menos uma hidden layer podem aproximar qualquer função Borel mensurável com quase 0 de erro desde que tenhamos hidden units o suficiente.
Podemos conseguir qualquer grau de acurácia que quisermos desde que tenhamos uma rede grande o suficiente.
É possível representar um grande número de funções em uma rede profunda composta somente por ReLU.
Um MLP grande vai conseguir fazer essa representação, mas não necessariamente irá aprender a função.

Question 6

Q

Descreva o passo-a-passo básico de cálculos da rede no sentido direto.

Answer

A

Multiplicar inputs pelos pesos
Somar o resultado
Aplicar a Função de Ativação e obter o Valor de Ativação
Atualiza os pesos com base no cálculo de erro (MSE ou RMSE)

Question 7

Q

Descreva brevemente learning rate e nomeie seus principais impactos

Answer

A

Determina a magnitude das atualizações dos pesos durante o treinamento, ou seja, o quanto os pesos são ajustados a cada passo do algoritmo de otimização.

Sua importância está relacionada ao seu impacto na velocidade de convergência e na qualidade do modelo treinado.

Question 8

Q

Descreva os efeitos da learning rate sobre a velocidade de convergência

Answer

A

Uma taxa de aprendizado bem ajustada permite que o modelo alcance uma solução ótima ou quase ótima em um tempo razoável.

Se a taxa for muito alta, o modelo pode divergir ou oscilar ao redor do mínimo, nunca alcançando uma solução estável.

Se a taxa for muito baixa, o modelo pode levar muito tempo para convergir ou ficar preso em um mínimo local ou em um platô.

Question 9

Q

Descreva os efeitos da learning rate sobre a qualidade do modelo treinado

Answer

A

Uma taxa de aprendizado bem ajustada permite que o modelo alcance um bom equilíbrio entre underfitting e overfitting, além disso, pode ajudar o modelo a escapar de mínimos locais subótimos e encontrar soluções melhores.

Question 10

Q

Cite estratégias para encontrar uma learning rate adequada

Answer

A

Experimentação: testar diferentes valores e escolher aquele que resulta no melhor desempenho do modelo, com base em métricas de validação
Grid search ou Random search: exploram sistematicamente o espaço de hiperparâmetros e encontram a combinação que resulta no melhor desempenho do modelo
Taxa de aprendizado adaptativa: algumas variantes do Gradiente Descendente, como Adam, RMSprop e Adagrad ajustam automaticamente a taxa de aprendizado ao longo do treinamento, o que facilita a escolha de um valor inicial

Question 11

Q

Explique dropout

Answer

A

É uma técnica de regularização usada em Deep Learning para reduzir o problema de overfitting.

A ideia é “desligar” aleatoriamente certos neurônios durante o treinamento, o que ajuda a prevenir a dependência excessiva de qualquer neurônio específico e, consequentemente, evita a coadaptação entre eles.

É como se estivéssemos treinando uma “bag” (coleção) de sub-redes diferentes, cada uma com uma arquitetura ligeiramente diferente, pois alguns neurônios estão desligados. Costuma levar a um modelo mais robusto e com melhor capacidade de generalização.

Question 12

Q

Explique teoricamente Batch Normalization

Answer

A

Ténica usada em Deep Learning para estabilizar e acelerar o aprendizado das redes neurais. Ela padroniza as entradas de modo que tenham média 0 e variância unitária. Isso é feito ao calcular a média e a variância do batch de dados que passam por uma camada e, em seguida, normalizar os dados com esses valores. A normalização é seguida por uma operação de escalonamento e deslocamento, que permite que a camada aprenda a melhor distribuição dos dados.

Question 13

Q

Cite os benefícios do Batch Normalization

Answer

A

Acelera o treinamento: ajuda a mitigar o problema do desaparecimento do gradiente, que pode retardar o treinamento de redes neurais profundas
Permite uma maior taxa de aprendizado: sem batch normalization, as redes neurais podem ser sensíveis à escolha da taxa de aprendizado. Uma taxa de aprendizado muito alta pode levar a explodir gradientes, enquanto que uma muito baixa pode levar a um treinamento muito lento.
Atua como uma forma de regularização: adiciona um pouco de ruído aos dados de entrada de cada camada. Pode ter efeito de regularização similar ao de dropout.

Feedforward Networks Flashcards

(13 cards)