Unsupervised learning Flashcards

Question 1

Q

Dimensionality reduction cos’è e a cosa serve? vantaggi?

Answer

A

• Comprime i dati di input riducendo la dimensionalità delle features,
conservando quante più informazioni possibili.
• Ciò riduce i tempi di elaborazione e/o memorizzazione dei dati
• Permette una migliore visualizzazione dei dati

Question 2

Q

Metodi shallow, come faccio a fare dimentionality reduction?

Question 3

Q

PCA

Answer

A

Trova le direzioni ortogonali di maggior varianza
Cambia il sistema di coordinate
Cancella le features con minor varianza

Question 4

Q

k-means

Answer

A

Fisso un numero k di cluster
Partizionare i dati in k set minimizzando la variazione di ciascuno
Ciclo:
- Calcolare i k centroidi
- Assegnare i punti al centroide più vicino
Convergenza garantita anche se di un minimo locale

Question 5

Q

come EM migliora k-means (expectation maximization)

Answer

A

Usa cluster ellittici

* È un’algoritmo di clustering SOFT

Question 6

Q

normalizzazione, perchè è importante normalizzare le features prima di darle a k-means?

Answer

A

• La normalizzazione è necessaria in caso di dati con scale differenti

Question 7

Q

Density estimation, esempio di modello per farlo

Answer

A

VAE (esplicito)

* GAN (implicito)

Question 8

Q

mi scrive la loss del K-Means?

Answer

A

• Minimizzare la varianza di ogni set

Question 9

Q

K-means converge? come funziona l’algoritmo di K-means

Answer

A

Inizia con acluni centri di cluster iniziali
Itera:
- Assegna ad ogni esempio il centro più vicino
- Ricalcola i centri come media degli esmpi del cluster

Question 10

Q

Come si misura la distanza tra i punti in k-means?

Answer

A

• Distanza euclidea

Question 11

Q

PCA, come calcolo la FPC con l’eigenvalue decomposition?

Question 12

Q

differenza tra k means e hierarchical clustering

Answer

A

• Produce una serie di cluster annidati organizzati come un albero gerarchico chiamato dendrogramma

Question 13

Q

Quali altri problemi ci sono in unsupervised learning?

Answer

A

Density estimation
Dimensionalitu reduction
Clustering

Question 14

Q

Perché in K-means ogni tanto la distanza euclidea non è la migliore scelta?

Answer

A

Ci possono essere dati con una grande distanza ma con una distribuzione simile
In quel caso conviene utilizzare cosine similarity

Unsupervised learning Flashcards

(14 cards)