Por que elas são chamadas de feedforward?
Porque o output de um layer será input do outro em sequência.
O que é a profundidade (depth) da rede?
É o tamanho da cadeia (número de layers)
O que faz uma camada ser oculta?
Não existe um y especificado para elas ao contrário da camada de output.
Explique o funcionamento das units
Cada camada consiste de várias units que atuam em paralelo. Cada uma representa uma função vetor para escalar. Retornam um valor de ativação (activation value).
Explique o básico sobre o Teorema da Aproximação Central.
Descreva o passo-a-passo básico de cálculos da rede no sentido direto.
Descreva brevemente learning rate e nomeie seus principais impactos
Determina a magnitude das atualizações dos pesos durante o treinamento, ou seja, o quanto os pesos são ajustados a cada passo do algoritmo de otimização.
Sua importância está relacionada ao seu impacto na velocidade de convergência e na qualidade do modelo treinado.
Descreva os efeitos da learning rate sobre a velocidade de convergência
Uma taxa de aprendizado bem ajustada permite que o modelo alcance uma solução ótima ou quase ótima em um tempo razoável.
Se a taxa for muito alta, o modelo pode divergir ou oscilar ao redor do mínimo, nunca alcançando uma solução estável.
Se a taxa for muito baixa, o modelo pode levar muito tempo para convergir ou ficar preso em um mínimo local ou em um platô.
Descreva os efeitos da learning rate sobre a qualidade do modelo treinado
Uma taxa de aprendizado bem ajustada permite que o modelo alcance um bom equilíbrio entre underfitting e overfitting, além disso, pode ajudar o modelo a escapar de mínimos locais subótimos e encontrar soluções melhores.
Cite estratégias para encontrar uma learning rate adequada
Explique dropout
É uma técnica de regularização usada em Deep Learning para reduzir o problema de overfitting.
A ideia é “desligar” aleatoriamente certos neurônios durante o treinamento, o que ajuda a prevenir a dependência excessiva de qualquer neurônio específico e, consequentemente, evita a coadaptação entre eles.
É como se estivéssemos treinando uma “bag” (coleção) de sub-redes diferentes, cada uma com uma arquitetura ligeiramente diferente, pois alguns neurônios estão desligados. Costuma levar a um modelo mais robusto e com melhor capacidade de generalização.
Explique teoricamente Batch Normalization
Ténica usada em Deep Learning para estabilizar e acelerar o aprendizado das redes neurais. Ela padroniza as entradas de modo que tenham média 0 e variância unitária. Isso é feito ao calcular a média e a variância do batch de dados que passam por uma camada e, em seguida, normalizar os dados com esses valores. A normalização é seguida por uma operação de escalonamento e deslocamento, que permite que a camada aprenda a melhor distribuição dos dados.
Cite os benefícios do Batch Normalization