¿Que pasa cuando se aumenta el N en el algoritmo de ngrams?
Mayor sparsity
El algoritmo de Porter es un algoritmo de:
Stemming.
¿Qué arregla de RNN las LSTM?
RNN: Recurrent Neural Networks
LSTM: Long short-term memory network
Mejor manejo de dependencias a largo plazo
Las LSTMs son capaces de manejar dependencias a largo plazo porque tienen una estructura interna especial con “gates” que les permite controlar el flujo de información a través de la red. Estos gates permiten a las LSTMs recordar información relevante de entradas anteriores, incluso si están separadas por muchos pasos en la secuencia.
¿Cuál es ejemplo de autosupervisado?
La respuesta correcta es: word2vec.
El aprendizaje autosupervisado es un tipo de aprendizaje automático en el que el modelo se entrena sin etiquetas de datos. En cambio, el modelo aprende a identificar patrones en los datos sin saber qué representan esos patrones.
Skip-grams y BPE son dos algoritmos de aprendizaje supervisado que se utilizan para generar vectores de palabras. LDA es un algoritmo de aprendizaje no supervisado que se utiliza para generar temas a partir de texto.
Word2vec es un algoritmo de aprendizaje autosupervisado que se utiliza para generar vectores de palabras.
En word2vec, el modelo se entrena para predecir palabras que aparecen cerca de una palabra dada. Esto permite al modelo aprender las relaciones entre palabras, incluso si no tiene etiquetas de datos.
¿Qué solucionan los embeddings respecto de los ngramas?
Reduce sparsity
¿Qué diferencia tienen los transformers de las RNN?
Las métricas de evaluación de sistemas de traducción automático como chrF, BLEU, BERT-Score, etc. miden:
1. La similitud entre las traducciones del sistema y el texto en el idioma original.
2. Miden tanto la fluidez de las traducciones del sistema como su similitud como su con traducciones humanas de referencia.
3. Miden la similitud entre las traducciones del sistema y las traducciones humanas de referencia.
4. Miden el nivel de acuerdo o “agreement” entre crowdworkers que evalúan las traducciones del sistema.
Miden la similitud entre las traducciones del sistema y traducciones humanas de referencia (ground truth).
¿Qué se puede hacer un con modelo entrenado masked?
Agregar una capa para poder clasificar sentiment.
Ej. BERT
¿Para que se usan las RNN?
LM: Language Model
MT: Machine Translation
¿Como se soluciona el exploding gradient?
Clipping.
Gradient clipping:
- Si la norma del gradiente es mayor que un umbral, se lo reduce
- Se da un paso en la misma dirección pero más pequeño. En otras palabras, avanza en la misma dirección pero menos
Teniendo “planta del pie” y “planta planta”, en word2vec:
¿Cómo da la similitud coseno para embeddings?
a. 1
b. -1
c. 0
d. No se puede saber
No se puede saber.
La similitud coseno para embeddings de word2vec se calcula como el producto punto entre los vectores de las palabras, dividido por el producto de sus magnitudes. En este caso, los vectores de las palabras “planta del pie” y “planta planta” serían muy similares, ya que ambas se refieren a la misma parte del cuerpo. Sin embargo, la magnitud de los vectores puede variar según el corpus de entrenamiento utilizado para generar los embeddings. Por lo tanto, no se puede saber con certeza cuál será la similitud coseno entre estas dos palabras.
Si los vectores de las palabras “planta del pie” y “planta planta” tienen la misma magnitud, entonces la similitud coseno sería 1. Sin embargo, si los vectores tienen magnitudes diferentes, entonces la similitud coseno podría ser cualquier valor entre 0 y 1.
Por ejemplo, si los vectores de las palabras “planta del pie” y “planta planta” tienen magnitudes de 10, entonces la similitud coseno sería 1. Sin embargo, si los vectores tienen magnitudes de 1 y 100, respectivamente, entonces la similitud coseno sería 0.01.
Teniendo “La capital de Colombia es Bogotá” y “Me gusta vivir en la capital de mi país” para embeddings c/ BERT, ¿Cómo da la similitud coseno?
a. 1
b. -1
c. 0
d. No se puede saber a priori
d. No se puede saber a priori
Este puede dar un número cercano a 1 pero no puede ser determinado a priori. El caso en el que da 1 es que sean iguales los embedding a evaluar.
¿Para qué sirve TF-IDF?
Obtener palabras mas relevantes en un documento a partir de una colección.
Para un transformer block que admite inputs de máx. 512 tokens:
Responder Verdadero o Falso para cada una.
Respuestas:
Sea el vocabulario V={el, pasto, río, sol, zapato} y el texto X=”el sol ilumina el pasto mientras el río fluye”. ¿Cuál es la represtación en features de X. según el modelo bag-of-words? Considerar una segmentación en palabras y feature ordenados alfabéticamente
1. {1, 1, 1, 1, 1, 1, 1, 1, 1}
2. {3, 1, 1, 1, 0}
3. {1, 1, 1, 1, 0}
4. {1, 1, 0, 1, 1, 0, 1, 1, 0}
Se suman las que están a un vector del mismo tamaño que el vocabulario.
La estrategia de interpolar promediando probabilidades de n-gramas de distinto orden aplicada a los modelos de lenguaje n-gram (“interpolation”):
1. Permite calcular la perplexity de una secuencia siempre
2. Permite calcular la perplexity de una secuencia si todos los tokens están en el vocabulario
3. No tiene influencia en la perplexity del modelo
4. Siempre mejora el rendimiento del modelo
Una medida de evaluación intrínseca de modelos de lenguaje es:
Perplexity
Evaluación intrínseca: Independiente de otras aplicaciones o tareas
F-Score → Medir el grado de overlap.
BLEU → También mide overlap. No consideran el orden
TF-IDF → Nos permite buscar palabras que son importantes para cierto documento
Se tienen las palabras “cherry” e “information”. ¿Cuál es su similitud coseno?
1. 88.4
2. 1.15
3. 0.18
4. 40716
0.18
No puede dar más de uno la similitud coseno.
Teniendo un modelo feed-forward de clasificación aplicado a una secuencia de tokens 1,…,n el cual:
y la secuencia de tokens “el perro persigue al gato” (a) y “el gato persigue al perro” (b):
1. La salida del modelo será distinta para (a) y (b)
2. La salida del modelo será igual para (a) y (b)
3. A más rendimiento, mayor será la diferencia entre la salida de las dos secuencias
4. A mayor sea el número de épocas con las que se entrena el modelo, mayor debería ser la diferencia entre la salida de las dos secuencias
La salida del modelo será igual tanto para (a) como para (b).
Se hace mean pooling de los embeddings, no importa el orden.
Teniendo un modelo RRN de clasificación aplicado a una secuencia de tokens y la secuencia de tokens “el perro persigue al gato” (a) y “el gato persigue al perro” (b):
1. La salida del modelo será distinta para (a) y (b)
2. La salida del modelo será igual para (a) y (b)
3. A más rendimiento, mayor será la diferencia entre la salida de las dos secuencias
4. A mayor sea el número de épocas con las que se entrena el modelo, mayor debería ser la diferencia entre la salida de las dos secuencias
Los modelos de lenguaje neuronales basados en ventanas (“window-based neural LMs”) predicen la siguiente palabra dado el contexto previo y típicamente usan como entrada:
1. El promedio de los embeddings de los tokens de un contexto de tamaño variable
2. La concatenación de los embeddings de los tokens de un contexto de tamaño variable
3. El promedio de los embeddings de los tokens de un contexto de tamaño fijo
4. La concatenación de los embeddings de los tokens de un contexto de tamaño fijo
Hay que preservar orden, se concatena, y no es de tamaño variable
¿Qué es un tópico en un modelo Latent Dirichlet Allocation (LDA)?
1. La frecuencia con la que una palabra específica aparece en un documento
2. Una distribución de probabilidad sobre las palabras del vocabulario que representa un tema o cocepto latente
3. Una palabra clave que destaca la idea principal de un documento
4. Un conjunto de palabras aisladas que no tienen relación entre sí en el contexto del documento analizado
Una distribución de probabilidad sobre las palabras del vocabulario que representa un tema o cocepto latente
Definición.
Un modelo de lenguaje casual pre-entrenado con un obetivo de predecir el siguiente token:
1. Puede ser usado para generar texto únicamente añadiendo una capa adicional al modelo original
2. Puede ser usado sin modificaciones para generar texto (ej. muestreando la siguiente palabra de acuerdo a una distribución de probabildiades)
3. Puede ser usado para generar texto únicamente añadiendo una capa adicional al modelo original y haciendo fine-tuning de los parámetros
4. Puede usarse exclusivamente para la clasificación de secuencias.
Puede ser usado sin modificaciones para generar texto (ej. muestreando la siguiente palabra de acuerdo a una distribución de probabildiades)
Modelo de lenguaje casual: generación autorregresiva / text completion
(1) y (3) aplican más a BERT que NO es un modelo de lenguaje casual pre-entrenado.
Los embeddings de posición usados típicamente en la entrada de una arquitectura de transformers:
1. Son importantes en el modelado de lenguaje pero no para clasificar secuencias porque en este último caso no afectan a la salida del modelo
2. Son importantes para clasificar secuencias pero no en el modelado de lenguaje porque en este último caso no afectan a la salida del modelo
3. Son perjudicales para clasificar secuencias porque agregan info irrelevante
4. Son importantes tanto en el modelo de lenguaje como en la clasificación de secuencias
Son importantes tanto en el modelo de lenguaje como en la clasificación de secuencias