# ¿Para que se usan las RNN? 1. Solo LM. 2. LM y clasificación (sin MT). 3. LM, clasificación y MT. 4. Ninguna de las anteriores. LM: Language Model MT: Machine Translation

2. LM y clasificación (sin MT).

# Para un transformer block que admite inputs de máx. 512 tokens: 1. Puede procesar una secuencia de 600 tokens. 2. Puede procesar secuencias de largo variable (menores a 512). 3. Requiere padding para procesar secuencias de menos de 512 tokens (completar con un token especial hasta llegar a 512 posiciones). 4. El costo computacional es independiente de la longitud del input (e.g. el cómputo es el mismo para 10 tokens que para 512). Responder Verdadero o Falso para cada una.

Respuestas: 1. Falso. Un transformer block que admite inputs de máx. 512 tokens no puede procesar una secuencia de 600 tokens. La longitud del input debe ser menor o igual a 512. 2. Verdadero. Un transformer block que admite inputs de máx. 512 tokens puede procesar secuencias de largo variable (menores a 512). En este caso, el transformer simplemente ignorará los tokens que excedan los 512. 3. Falso. Un transformer no requiere padding obligatorio para procesar secuencias más cortas. Puede manejar secuencias de longitud variable sin la necesidad de agregar tokens especiales de padding. 4. Falso. El costo computacional de un transformer block es dependiente de la longitud del input. El costo computacional aumenta linealmente con la longitud del input.

Final Flashcards by Gian Luca Pecile

¿Que pasa cuando se aumenta el N en el algoritmo de ngrams?

Mayor sparsity

How well did you know this?

Not at all

Perfectly

El algoritmo de Porter es un algoritmo de:

Tokenización
Lemmatización
Stemming
Traducción

Stemming.

How well did you know this?

Not at all

Perfectly

¿Qué arregla de RNN las LSTM?

Mejor manejo de dependencias a largo plazo
Capacidad de aprendizaje más rápida
Mayor capacidad de memoria
Menor probabilidad de sobreajuste

RNN: Recurrent Neural Networks
LSTM: Long short-term memory network

Mejor manejo de dependencias a largo plazo

Las LSTMs son capaces de manejar dependencias a largo plazo porque tienen una estructura interna especial con “gates” que les permite controlar el flujo de información a través de la red. Estos gates permiten a las LSTMs recordar información relevante de entradas anteriores, incluso si están separadas por muchos pasos en la secuencia.

How well did you know this?

Not at all

Perfectly

¿Cuál es ejemplo de autosupervisado?

Skip-grams
BPE
Latent Dirichlet Allocation (LDA)
word2vec

La respuesta correcta es: word2vec.

El aprendizaje autosupervisado es un tipo de aprendizaje automático en el que el modelo se entrena sin etiquetas de datos. En cambio, el modelo aprende a identificar patrones en los datos sin saber qué representan esos patrones.

Skip-grams y BPE son dos algoritmos de aprendizaje supervisado que se utilizan para generar vectores de palabras. LDA es un algoritmo de aprendizaje no supervisado que se utiliza para generar temas a partir de texto.

Word2vec es un algoritmo de aprendizaje autosupervisado que se utiliza para generar vectores de palabras.
En word2vec, el modelo se entrena para predecir palabras que aparecen cerca de una palabra dada. Esto permite al modelo aprender las relaciones entre palabras, incluso si no tiene etiquetas de datos.

How well did you know this?

Not at all

Perfectly

¿Qué solucionan los embeddings respecto de los ngramas?

Reduce sparsity

How well did you know this?

Not at all

Perfectly

¿Qué diferencia tienen los transformers de las RNN?

RNN procesan los datos secuencialmente, una palabra a la vez
Todas las arquitecturas de RNN deben tener un ciclo de realimentación que permite a la red aprender relaciones entre las palabras anteriores y posteriores
Los transformers son más capaces de aprender relaciones a largo alcance entre las palabras
Los transformers se componen de dos capas principales: una capa de codificador y una capa de decodificador (no tienen ciclos)
En términos de rendimiento, los transformers han demostrado ser superiores a las RNN.

How well did you know this?

Not at all

Perfectly

Las métricas de evaluación de sistemas de traducción automático como chrF, BLEU, BERT-Score, etc. miden:
1. La similitud entre las traducciones del sistema y el texto en el idioma original.
2. Miden tanto la fluidez de las traducciones del sistema como su similitud como su con traducciones humanas de referencia.
3. Miden la similitud entre las traducciones del sistema y las traducciones humanas de referencia.
4. Miden el nivel de acuerdo o “agreement” entre crowdworkers que evalúan las traducciones del sistema.

Miden la similitud entre las traducciones del sistema y traducciones humanas de referencia (ground truth).

How well did you know this?

Not at all

Perfectly

¿Qué se puede hacer un con modelo entrenado masked?

Agregar una capa para poder clasificar sentiment.
Adivinar la palabra maskeada.
No se puede hacer nada.
Ninguna de las anteriores

Agregar una capa para poder clasificar sentiment.

Ej. BERT

How well did you know this?

Not at all

Perfectly

¿Para que se usan las RNN?

Solo LM.
LM y clasificación (sin MT).
LM, clasificación y MT.
Ninguna de las anteriores.

LM: Language Model
MT: Machine Translation

LM y clasificación (sin MT).

How well did you know this?

Not at all

Perfectly

¿Como se soluciona el exploding gradient?

Mayor sparsity
Batch normalization
Dropout
Clipping

Clipping.

Gradient clipping:
- Si la norma del gradiente es mayor que un umbral, se lo reduce
- Se da un paso en la misma dirección pero más pequeño. En otras palabras, avanza en la misma dirección pero menos

How well did you know this?

Not at all

Perfectly

Teniendo “planta del pie” y “planta planta”, en word2vec:

¿Cómo da la similitud coseno para embeddings?
a. 1
b. -1
c. 0
d. No se puede saber

No se puede saber.

La similitud coseno para embeddings de word2vec se calcula como el producto punto entre los vectores de las palabras, dividido por el producto de sus magnitudes. En este caso, los vectores de las palabras “planta del pie” y “planta planta” serían muy similares, ya que ambas se refieren a la misma parte del cuerpo. Sin embargo, la magnitud de los vectores puede variar según el corpus de entrenamiento utilizado para generar los embeddings. Por lo tanto, no se puede saber con certeza cuál será la similitud coseno entre estas dos palabras.

Si los vectores de las palabras “planta del pie” y “planta planta” tienen la misma magnitud, entonces la similitud coseno sería 1. Sin embargo, si los vectores tienen magnitudes diferentes, entonces la similitud coseno podría ser cualquier valor entre 0 y 1.

Por ejemplo, si los vectores de las palabras “planta del pie” y “planta planta” tienen magnitudes de 10, entonces la similitud coseno sería 1. Sin embargo, si los vectores tienen magnitudes de 1 y 100, respectivamente, entonces la similitud coseno sería 0.01.

How well did you know this?

Not at all

Perfectly

Teniendo “La capital de Colombia es Bogotá” y “Me gusta vivir en la capital de mi país” para embeddings c/ BERT, ¿Cómo da la similitud coseno?
a. 1
b. -1
c. 0
d. No se puede saber a priori

d. No se puede saber a priori

Este puede dar un número cercano a 1 pero no puede ser determinado a priori. El caso en el que da 1 es que sean iguales los embedding a evaluar.

How well did you know this?

Not at all

Perfectly

¿Para qué sirve TF-IDF?

Obtener palabras mas relevantes en un documento a partir de una colección.

How well did you know this?

Not at all

Perfectly

Para un transformer block que admite inputs de máx. 512 tokens:

Puede procesar una secuencia de 600 tokens.
Puede procesar secuencias de largo variable (menores a 512).
Requiere padding para procesar secuencias de menos de 512 tokens (completar con un token especial hasta llegar a 512 posiciones).
El costo computacional es independiente de la longitud del input (e.g. el cómputo es el mismo para 10 tokens que para 512).

Responder Verdadero o Falso para cada una.

Respuestas:

Falso. Un transformer block que admite inputs de máx. 512 tokens no puede procesar una secuencia de 600 tokens. La longitud del input debe ser menor o igual a 512.
Verdadero. Un transformer block que admite inputs de máx. 512 tokens puede procesar secuencias de largo variable (menores a 512). En este caso, el transformer simplemente ignorará los tokens que excedan los 512.
Falso. Un transformer no requiere padding obligatorio para procesar secuencias más cortas. Puede manejar secuencias de longitud variable sin la necesidad de agregar tokens especiales de padding.
Falso. El costo computacional de un transformer block es dependiente de la longitud del input. El costo computacional aumenta linealmente con la longitud del input.

How well did you know this?

Not at all

Perfectly

Sea el vocabulario V={el, pasto, río, sol, zapato} y el texto X=”el sol ilumina el pasto mientras el río fluye”. ¿Cuál es la represtación en features de X. según el modelo bag-of-words? Considerar una segmentación en palabras y feature ordenados alfabéticamente
1. {1, 1, 1, 1, 1, 1, 1, 1, 1}
2. {3, 1, 1, 1, 0}
3. {1, 1, 1, 1, 0}
4. {1, 1, 0, 1, 1, 0, 1, 1, 0}

{3, 1, 1, 1, 0}

Se suman las que están a un vector del mismo tamaño que el vocabulario.

How well did you know this?

Not at all

Perfectly

La estrategia de interpolar promediando probabilidades de n-gramas de distinto orden aplicada a los modelos de lenguaje n-gram (“interpolation”):
1. Permite calcular la perplexity de una secuencia siempre
2. Permite calcular la perplexity de una secuencia si todos los tokens están en el vocabulario
3. No tiene influencia en la perplexity del modelo
4. Siempre mejora el rendimiento del modelo

Study These Flashcards

Permite calcular la perplexity de una secuencia si todos los tokens están en el vocabulario

Una medida de evaluación intrínseca de modelos de lenguaje es:

F-Score
Perplexity
BLEU
TF-IDF

Study These Flashcards

Perplexity

Evaluación intrínseca: Independiente de otras aplicaciones o tareas

F-Score → Medir el grado de overlap.
BLEU → También mide overlap. No consideran el orden
TF-IDF → Nos permite buscar palabras que son importantes para cierto documento

Se tienen las palabras “cherry” e “information”. ¿Cuál es su similitud coseno?
1. 88.4
2. 1.15
3. 0.18
4. 40716

Study These Flashcards

0.18

No puede dar más de uno la similitud coseno.

Teniendo un modelo feed-forward de clasificación aplicado a una secuencia de tokens 1,…,n el cual:

En su entrada, hace un promedio del mean pooling de los embeddings e de cada token i
En su salida intermedia aplica una función g
En la salida del modelo aplica la función softmax

y la secuencia de tokens “el perro persigue al gato” (a) y “el gato persigue al perro” (b):
1. La salida del modelo será distinta para (a) y (b)
2. La salida del modelo será igual para (a) y (b)
3. A más rendimiento, mayor será la diferencia entre la salida de las dos secuencias
4. A mayor sea el número de épocas con las que se entrena el modelo, mayor debería ser la diferencia entre la salida de las dos secuencias

Study These Flashcards

La salida del modelo será igual tanto para (a) como para (b).

Se hace mean pooling de los embeddings, no importa el orden.

Teniendo un modelo RRN de clasificación aplicado a una secuencia de tokens y la secuencia de tokens “el perro persigue al gato” (a) y “el gato persigue al perro” (b):
1. La salida del modelo será distinta para (a) y (b)
2. La salida del modelo será igual para (a) y (b)
3. A más rendimiento, mayor será la diferencia entre la salida de las dos secuencias
4. A mayor sea el número de épocas con las que se entrena el modelo, mayor debería ser la diferencia entre la salida de las dos secuencias

Study These Flashcards

La salida del modelo será distinta para (a) y (b)

Los modelos de lenguaje neuronales basados en ventanas (“window-based neural LMs”) predicen la siguiente palabra dado el contexto previo y típicamente usan como entrada:
1. El promedio de los embeddings de los tokens de un contexto de tamaño variable
2. La concatenación de los embeddings de los tokens de un contexto de tamaño variable
3. El promedio de los embeddings de los tokens de un contexto de tamaño fijo
4. La concatenación de los embeddings de los tokens de un contexto de tamaño fijo

Study These Flashcards

La concatenación de los embeddings de los tokens de un contexto de tamaño fijo

Hay que preservar orden, se concatena, y no es de tamaño variable

¿Qué es un tópico en un modelo Latent Dirichlet Allocation (LDA)?
1. La frecuencia con la que una palabra específica aparece en un documento
2. Una distribución de probabilidad sobre las palabras del vocabulario que representa un tema o cocepto latente
3. Una palabra clave que destaca la idea principal de un documento
4. Un conjunto de palabras aisladas que no tienen relación entre sí en el contexto del documento analizado

Study These Flashcards

Una distribución de probabilidad sobre las palabras del vocabulario que representa un tema o cocepto latente

Definición.

Un modelo de lenguaje casual pre-entrenado con un obetivo de predecir el siguiente token:
1. Puede ser usado para generar texto únicamente añadiendo una capa adicional al modelo original
2. Puede ser usado sin modificaciones para generar texto (ej. muestreando la siguiente palabra de acuerdo a una distribución de probabildiades)
3. Puede ser usado para generar texto únicamente añadiendo una capa adicional al modelo original y haciendo fine-tuning de los parámetros
4. Puede usarse exclusivamente para la clasificación de secuencias.

Study These Flashcards

Puede ser usado sin modificaciones para generar texto (ej. muestreando la siguiente palabra de acuerdo a una distribución de probabildiades)

Modelo de lenguaje casual: generación autorregresiva / text completion

(1) y (3) aplican más a BERT que NO es un modelo de lenguaje casual pre-entrenado.

Los embeddings de posición usados típicamente en la entrada de una arquitectura de transformers:
1. Son importantes en el modelado de lenguaje pero no para clasificar secuencias porque en este último caso no afectan a la salida del modelo
2. Son importantes para clasificar secuencias pero no en el modelado de lenguaje porque en este último caso no afectan a la salida del modelo
3. Son perjudicales para clasificar secuencias porque agregan info irrelevante
4. Son importantes tanto en el modelo de lenguaje como en la clasificación de secuencias

Study These Flashcards

Son importantes tanto en el modelo de lenguaje como en la clasificación de secuencias

# La cantidad de pesos de un modelo de lenguaje basado en RRN: 1. Depende de la longitud de la entrada porque el cómputo es secuencial: a mayor cantidad de tokens, mayor cantidad de parámetros. 2. Depende de la longitud de la entrada porque el cómputo es paralelizable: a mayor cantidad de tokens, mayor cantidad de parámetros 3. Es independiente de la cantidad de tokens de la entrada 4. Depende de la longitud de la entrada en las LSTMs y es independiente de las RRN simples

Es independiente de la cantidad de tokens de la entrada.

Final Flashcards

Incluye material encontrado hasta 2023b - 1° fecha. (25 cards)