Gradient descent, update di gradient descent, update rule with loss
cos’è il momentum? quanti parametri ci sono in più rispetto allo stndard SGD? perchè è migliorativo rispetto a standard SGD
Perchè SGD è “Stocastico”?
• La SGD affronta il problema della valutazione costosa approssimando il gradiente dell’intera somma, valutandolo solo in un sottoinsieme casuale degli addendi ad ogni iterazione
aggiornamento del perceptron vs Gradient Descent
• Per il GD aggiorniamo sempre i parametri, non solo quando sbaglia