Intro AI + Machine learning Flashcards

Question

Which of the following is NOT one of Google's principles for responsible AI? A) Be bold, but responsible B) Avoid creating or reinforcing unfair bias C) Be accountable to people D) Maximize profit above all else

Answer 1

D Google's AI Principles focus on ethical considerations like social benefit, avoiding bias, and accountability, but maximizing profit is not listed, highlighting the emphasis on responsible development over financial gain.

Answer 2

C AI foundations, AI development, and AI solutions Las Tres Capas de IA en Google Cloud Google organiza su stack de IA en una pirámide, donde cada capa superior se basa en la inferior, ofreciendo niveles crecientes de abstracción. 1. AI Foundations (Cimientos de IA) 🏛️ Esta es la capa base de la pirámide. Proporciona la infraestructura de hardware y software fundamental optimizada para cargas de trabajo de IA. Componentes: Incluye el hardware de alto rendimiento como las Tensor Processing Units (TPUs) y las GPUs, que son esenciales para entrenar modelos grandes de manera eficiente. 2. AI Development (Desarrollo de IA) 🛠️ Esta es la capa intermedia, dirigida a desarrolladores y científicos de datos. Ofrece una plataforma unificada para construir, entrenar, desplegar y gestionar modelos de machine learning personalizados. Componente principal: El producto estrella aquí es Vertex AI, que integra todo el ciclo de vida del ML, desde la preparación de datos hasta la predicción y el monitoreo (MLOps). 3. AI Solutions (Soluciones de IA) ✨ Esta es la capa superior. Consiste en soluciones pre-construidas y listas para usar que resuelven problemas de negocio específicos. Están diseñadas para ser implementadas rápidamente, a menudo sin necesidad de tener un profundo conocimiento en machine learning. Ejemplos: Contact Center AI (para mejorar los centros de llamadas), Document AI (para extraer datos de documentos) o Discovery AI (para búsquedas avanzadas). Opciones Incorrectas A. Foundation models, large language models, and application models: Estos son tipos de modelos, no las capas del framework de Google Cloud. B. ML development, ML applications, and ML use cases: Los conceptos son similares, pero no es la terminología oficial que usa Google para describir las capas de su plataforma. D. AI, ML, and deep learning: Estos son campos de estudio dentro de la informática, no capas de una plataforma en la nube.

Answer 3

A Google makes tools that empower others to harness AI for individual and collective benefit

Answer 4

C TPUs (tensor processing units)

Answer 5

D Archive storage

Answer 6

D Cloud Storage

Answer 7

D Machine learning

Answer 8

A Unsupervised learning, cluster analysis ✅ Opción Correcta A. Aprendizaje no supervisado, análisis de clústeres (Unsupervised learning, cluster analysis) Esta opción es la única que se alinea perfectamente con los requisitos del problema. ¿Por qué "Aprendizaje no supervisado"? El detalle clave es que la colección de fotos es "no etiquetada" (unlabeled). Esto significa que no tienes respuestas correctas predefinidas para entrenar un modelo. El aprendizaje no supervisado es el enfoque que se utiliza para encontrar patrones y estructuras ocultas en datos sin etiquetar. ¿Por qué "Análisis de clústeres"? El objetivo es "agrupar" (group) las fotos en diferentes conjuntos basándose en sus similitudes. Esta es precisamente la definición de análisis de clústeres (o clustering): agrupar automáticamente los datos en grupos (clústeres) donde los elementos dentro de un mismo grupo son más similares entre sí que con los de otros grupos. ❌ Opciones Incorrectas B y C. Aprendizaje supervisado (Supervised learning) Ambas opciones son incorrectas porque proponen usar aprendizaje supervisado. ¿Por qué no son correctas? El aprendizaje supervisado (tanto la regresión lineal como la logística) requiere datos etiquetados para el entrenamiento. Por ejemplo, para entrenar un modelo que identifique gatos, necesitarías miles de fotos con la etiqueta "gato". Como el problema indica que las fotos no están etiquetadas, estos métodos no se pueden aplicar. D. Aprendizaje no supervisado, reducción de dimensionalidad (Unsupervised learning, dimensionality reduction) Aunque utiliza el paradigma correcto (aprendizaje no supervisado), no es la técnica adecuada para el objetivo final. ¿Por qué no es correcta? La reducción de dimensionalidad (como el PCA) es una técnica no supervisada que se utiliza para reducir el número de variables en un conjunto de datos, simplificándolo. Si bien puede ser un paso útil antes de realizar un análisis de clústeres (para que funcione mejor), su propósito principal no es agrupar los datos, sino simplificarlos. La tarea específica de agrupar es el clustering.

Answer 9

C CREATE MODEL

Answer 10

B ✅ B. APIs Pre-entrenadas (Pre-trained APIs) Esta es la opción correcta porque cumple con el requisito principal: no querer entrenar un modelo propio. Las APIs pre-entrenadas de Google son modelos de machine learning ya listos para usar, que Google ha entrenado con enormes cantidades de datos. Para este caso, la empresa usaría la API de Video Intelligence. Cómo funciona: La empresa envía sus vídeos a la API. El modelo pre-entrenado de Google analiza el contenido. La API devuelve etiquetas y categorías que describen lo que aparece en el vídeo (p. ej., "boda", "evento deportivo", "conferencia"). Es la forma más rápida y sencilla de obtener resultados de ML sin ninguna experiencia en entrenamiento. 📲 ❌ Opciones Incorrectas A. BigQuery ML: Esta herramienta se usa para crear y entrenar modelos de ML sobre datos que ya están en BigQuery (generalmente datos tabulares, no vídeos). Requiere entrenamiento. C. AutoML: Aunque AutoML automatiza el proceso, su objetivo es entrenar un modelo personalizado con los datos que tú le proporcionas. La empresa tendría que subir sus propios vídeos etiquetados para que AutoML cree un modelo nuevo, lo cual viola el requisito de "no entrenar". D. Entrenamiento personalizado (Custom training): Esta es la opción más compleja. Implica escribir el código del modelo desde cero y gestionar todo el proceso de entrenamiento. Es exactamente lo que la empresa quiere evitar.

Answer 11

A BigQuery ML

Answer 12

B Custom training

Answer 13

B tf.keras.Sequential ✅ Opción Correcta B. tf.keras.Sequential 🧱 Esta es la forma más sencilla y común de crear un modelo en Keras. Piensa en ello como un contenedor vacío al que le vas añadiendo capas (tf.keras.layers) en secuencia, una después de la otra, para construir tu red neuronal. Ejemplo conceptual model = tf.keras.Sequential([ tf.keras.layers.Dense(128, activation='relu'), # Primera capa tf.keras.layers.Dense(64, activation='relu'), # Segunda capa tf.keras.layers.Dense(10, activation='softmax') # Capa de salida ]) ❌ Opciones Incorrectas A. tf.keras.Run Esta función o clase no existe en la librería tf.keras. Es simplemente un distractor. C. model.compile ⚙️ Esta función se usa después de haber creado el modelo. Su propósito no es construir la red, sino configurarla para el entrenamiento. Aquí es donde defines el optimizador (cómo aprende el modelo), la función de pérdida (cómo se mide el error) y las métricas de evaluación. D. model.fit 🏋️ Esta función se usa después de crear y compilar el modelo. Su propósito es entrenar el modelo utilizando tus datos. Le pasas los datos de entrenamiento y le dices cuántas veces debe "estudiarlos" (epochs).

Answer 14

A La API de Natural Language es una herramienta diseñada específicamente para analizar y comprender texto. Sus dos funciones más importantes y utilizadas son: Análisis de sentimiento: Determina si un bloque de texto tiene una connotación emocional positiva, negativa o neutra. Identificación de entidades (sujetos): Extrae y clasifica personas, lugares, organizaciones y otros "sujetos" mencionados en el texto. Esta opción describe perfectamente las capacidades centrales del servicio. ❌ Opciones Incorrectas B. Generar subtítulos para un vídeo de YouTube. Esto es incorrecto. Para convertir el audio de un vídeo en texto (subtítulos), se necesita la API Speech-to-Text. La API de Natural Language analiza texto que ya existe, no lo crea a partir de audio. C. Clasificar imágenes. Esto es incorrecto. Para analizar y clasificar el contenido de una imagen (identificar objetos, caras, etc.), se utiliza la API Vision AI. La API de Natural Language solo trabaja con texto, no con píxeles. D. Completar nuevas áreas de una imagen existente. Esto es incorrecto. Esta tarea, conocida como inpainting o relleno generativo, es una función de modelos de Inteligencia Artificial generativa para imágenes, como Imagen en Vertex AI. No tiene nada que ver con el análisis de lenguaje natural.

Answer 15

D Data preparation, model development, model serving

Answer 16

B Respuesta Correcta B. Data preparation (Preparación de Datos): Esta es la etapa inicial y crucial de cualquier flujo de trabajo de Machine Learning. Incluye todas las tareas necesarias para limpiar, transformar y organizar los datos brutos antes de alimentar el modelo. Las actividades clave en esta etapa son: Carga/Ingesta de datos (Data Upload/Ingestion): Obtener los datos de su fuente de origen y cargarlos en el entorno de trabajo. Ingeniería de características (Feature Engineering): El proceso de seleccionar, transformar y crear nuevas variables (características o features) a partir de los datos sin procesar para mejorar el rendimiento del modelo. Esto es fundamental para el éxito del modelo. Respuestas Incorrectas A. Model training (Entrenamiento del Modelo): Esta etapa ocurre después de la preparación de los datos. El entrenamiento consiste en alimentar el modelo con los datos preparados (las características y las etiquetas) y ajustar sus pesos internos para que aprenda a mapear las entradas a las salidas deseadas. C. Model serving (Servicio del Modelo): Esta es la etapa final, que ocurre después de que el modelo ha sido entrenado, validado y desplegado. El servicio implica poner el modelo en producción para que pueda recibir nuevas entradas de datos y generar predicciones en tiempo real o por lotes. Es la fase de uso del modelo.

Answer 17

A Por qué la opción A es la correcta La opción A) Model development (Desarrollo del modelo) es la fase central del proceso donde se crea y perfecciona el modelo. Este es el corazón del trabajo de un científico de datos e incluye un ciclo iterativo de: Entrenamiento (Training): Se elige un algoritmo (como una red neuronal, un árbol de decisión, etc.) y se le alimenta con los datos preparados para que "aprenda" los patrones que contienen. Aquí es donde se ajustan los parámetros internos del modelo. Evaluación (Evaluation): Una vez entrenado, el modelo se prueba con un conjunto de datos que no ha visto antes (el conjunto de validación o test) para medir su rendimiento y precisión. Este ciclo de entrenar y evaluar se repite, a menudo ajustando hiperparámetros (como el learning rate que vimos antes), hasta que el modelo cumple con los criterios de calidad deseados. Por lo tanto, ambas actividades son componentes esenciales de la fase de desarrollo. 👨‍💻🔬 Por qué las otras opciones son incorrectas B) Data preparation (Preparación de datos): Incorrecto. Esta es una fase previa al desarrollo del modelo. Consiste en tomar los datos brutos y limpiarlos, transformarlos, normalizarlos y estructurarlos de manera que el algoritmo pueda entenderlos. Es como preparar los ingredientes antes de empezar a cocinar. No puedes entrenar un modelo con datos desordenados o incompletos. C) Model serving (Puesta en producción del modelo): Incorrecto. Esta es una fase posterior al desarrollo. Una vez que tienes un modelo entrenado y evaluado que te satisface, el "model serving" o despliegue es el proceso de integrarlo en una aplicación real para que pueda hacer predicciones con datos nuevos y en tiempo real. Es como poner el coche que has construido en la carretera para que la gente lo use. D) Problem framing (Definición del problema): Incorrecto. Esta es la primera fase de todo el flujo de trabajo, incluso antes de la preparación de los datos. Aquí es donde se define el objetivo de negocio. ¿Qué problema queremos resolver? ¿Qué métrica definirá el éxito? ¿Es un problema de clasificación o de regresión? Se trata de entender el "porqué" antes de empezar a trabajar en el "cómo".

Answer 18

A PPor qué la respuesta A (Recall) es la buena El objetivo principal es "identificar tantos casos potenciales como sea posible". En un contexto médico de pre-diagnóstico de cáncer, esto significa que el peor error posible es un Falso Negativo (FN). Un Falso Negativo ocurre cuando el modelo dice que un paciente está sano, pero en realidad sí tiene cáncer. Este es el peor escenario, ya que esa persona no recibirá tratamiento a tiempo. El Recall (también conocido como Sensibilidad o Tasa de Verdaderos Positivos) es la métrica que mide exactamente este problema. Su fórmula es: RECALL = VERDADEROS POSITIVOS / ( VERADEROS POSITIVOS + FALSOS NEGATIVOS) En español simple, el Recall responde a la pregunta: "De todas las personas que realmente tienen cáncer, ¿a cuántas logramos identificar?". Al maximizar el Recall, estás forzando al modelo a minimizar los Falsos Negativos. El modelo se vuelve muy "sensible" y prefiere pecar de precavido. Está bien si genera algunos Falsos Positivos (pacientes sanos marcados como "potencial caso", que luego se descartarán con más pruebas), siempre y cuando no se le escape ningún caso real. Por qué las otras opciones son malas B. Precision (Precisión): Esta métrica mide lo opuesto. Responde a la pregunta: "De todos los pacientes que el modelo dijo que tenían cáncer, ¿cuántos acertó?". Optimizar la precisión significa minimizar los Falsos Positivos (FP). En este escenario, el modelo sería muy "cauteloso", y solo marcaría un caso si estuviera segurísimo. Esto provocaría que muchos casos dudosos se quedaran sin marcar, aumentando los Falsos Negativos, lo cual es inaceptable. C. Feature importance (Importancia de las características): Esto no es una métrica de rendimiento del modelo. Es una técnica de explicabilidad (IA Explicable o XAI) que te dice qué factores (ej. "edad", "genes", "peso") usó el modelo para tomar su decisión. Es útil para validar el modelo, pero no mide si está cumpliendo su objetivo. D. Confusion matrix (Matriz de confusión): La matriz de confusión no es una métrica única en la que te puedas "enfocar". Es una herramienta (una tabla) que visualiza el rendimiento y se usa como base para calcular las métricas como el Recall, la Precision y la Accuracy. No puedes "optimizar la matriz de confusión" directamente; optimizas una de las métricas que se derivan de ella.

Answer 19

B Precision El objetivo principal es "que no se desperdicien manzanas buenas". Esto significa que el error que se debe evitar a toda costa es clasificar una manzana buena como defectuosa. En terminología de machine learning, esto es un Falso Positivo. Positivo: La manzana es "defectuosa". Negativo: La manzana es "buena". Falso Positivo: El modelo dice que la manzana es "defectuosa", pero en realidad era "buena". (🍎→🗑️= 낭비/desperdicio). La métrica que se enfoca en minimizar los Falsos Positivos es la precisión. ✅ Opción Correcta B. Precision (Precisión) ¿Qué mide?: De todas las manzanas que el modelo predijo como defectuosas, ¿qué porcentaje realmente lo eran? Fórmula: Precisión = Verdaderos Positivos / (Verdaderos Positivos + Falsos Positivos) ¿Por qué es correcta?: Un modelo con alta precisión es muy fiable cuando identifica una manzana como defectuosa. Si la precisión es del 99%, significa que el 99% de las manzanas que el sistema aparta son realmente malas, y solo el 1% son buenas (minimizando el desperdicio). Esto se alinea perfectamente con el objetivo del negocio. ❌ Opciones Incorrectas A. Recall (Exhaustividad o Sensibilidad) ¿Qué mide?: De todas las manzanas que eran realmente defectuosas, ¿qué porcentaje encontró el modelo? ¿Por qué no es correcta?: Un modelo con alto recall se asegura de encontrar la mayor cantidad posible de manzanas malas. Sin embargo, para lograrlo, podría volverse menos estricto y, como consecuencia, clasificar erróneamente muchas manzanas buenas como malas (aumentando los Falsos Positivos). Esto llevaría a desperdiciar manzanas buenas, que es exactamente lo que se quiere evitar. C. Feature importance (Importancia de características) ¿Qué es?: Esta no es una métrica de rendimiento del modelo. Indica qué características de la manzana (como color, tamaño o forma) son más importantes para el modelo al tomar una decisión. Es útil para entender el modelo, pero no para medir si cumple el objetivo de negocio. D. Confusion matrix (Matriz de confusión) ¿Qué es?: La matriz de confusión es una tabla que muestra el rendimiento completo del modelo (Verdaderos Positivos, Falsos Positivos, etc.). Es la herramienta que se usa para calcular métricas como la precisión y el recall, pero no es la métrica específica en la que el modelo debe enfocarse. La pregunta pide la métrica, no la herramienta para visualizarla.

Answer 20

C Vertex AI Pipelines

Answer 21

A You can include both prebuilt components (by Google) and custom components into the pipeline.

Answer 22

A It learns from a massive amount of existing content and can then be used to solve general problems or be further tuned to solve specific problems.

Answer 23

A A tool that lets you quickly test and customize generative AI models so you can leverage their capabilities in your applications.

Answer 24

C Few-shot prompt

Answer 25

B Set the temperature to a high value.

Answer 26

A Vertical solutions, which focus on specific industries, and horizontal solutions, which solve problems across industries.

Answer 27

D Contact Center AI

Answer 28

A A prompt is the natural language request or instruction to guide a model to generate a desired output.

Answer 29

C Claro, aquí tienes la explicación. La respuesta correcta es la c) BOOSTED_TREE_CLASSIFIER. Por qué la opción c) es la correcta Un BOOSTED_TREE_CLASSIFIER es la elección adecuada porque tu objetivo es una clasificación binaria. Esto significa que quieres predecir una de dos posibles categorías: el cliente abandona (churn) o no abandona. Classifier (Clasificador): El propio nombre lo indica. Este tipo de modelo está diseñado específicamente para asignar una etiqueta o categoría a cada dato. En este caso, las etiquetas son "abandona" y "no abandona". Boosted Tree (Árbol Potenciado): Es un método de aprendizaje automático muy potente que combina múltiples árboles de decisión débiles para crear un modelo predictivo fuerte y preciso. Es especialmente eficaz para datos tabulares, como suelen ser los datos de clientes. En resumen, un BOOSTED_TREE_CLASSIFIER está diseñado exactamente para el problema que se plantea: clasificar entre dos o más categorías. Por qué las otras opciones son incorrectas a) BOOSTED_TREE_REGRESSOR: Esta opción es incorrecta porque un regresor (REGRESSOR) se utiliza para predecir un valor numérico continuo, no una categoría. Por ejemplo, lo usarías si quisieras predecir cuánto gastará un cliente el próximo mes o cuántos días tardará en abandonar. No sirve para predecir la pregunta de "sí o no" que implica el abandono. b) LINEAR_REG: Al igual que el anterior, LINEAR_REG es un modelo de regresión (en este caso, regresión lineal). Su función es encontrar una relación lineal para predecir un número continuo. Intentar usarlo para una clasificación binaria es conceptualmente incorrecto y daría resultados poco fiables. Para usar un modelo lineal en clasificación, necesitarías una LOGISTIC_REGRESSION (Regresión Logística), que sí está adaptada para problemas de clasificación. d) GRADIENT_BOOSTING: Esta opción es demasiado genérica y ambigua. Gradient Boosting es la técnica subyacente que utilizan tanto BOOSTED_TREE_CLASSIFIER como BOOSTED_TREE_REGRESSOR. Es el "cómo" se entrena el modelo, no el tipo de modelo específico para una tarea. Aunque la técnica es correcta, no especifica si se va a aplicar a un problema de clasificación o de regresión, por lo que BOOSTED_TREE_CLASSIFIER es una respuesta mucho más precisa y completa.

Answer 30

Es el uso del algoritmo Gradient Boosted Trees para tareas de clasificación y regresión.

Answer 31

CREATE MODEL ... OPTIONS(MODEL_TYPE='BOOSTED_TREE_CLASSIFIER')

Answer 32

B En BigQuery ML, la regresión lineal es el algoritmo estándar para predecir un valor numérico continuo (como el precio de una casa, la temperatura o las ventas futuras). El parámetro específico que espera Google Cloud para este tipo de modelo es exactamente 'linear_reg'. Por qué las otras son incorrectas: A) model_type=’regression’: Aunque "regression" es el nombre general del concepto estadístico, no es el nombre del parámetro técnico en BigQuery. SQL requiere nombres específicos para los modelos, y regression a secas daría un error de sintaxis. C) model_type=’logistic_reg’: Este comando existe, pero se utiliza para Regresión Logística. A pesar de llevar "regresión" en el nombre, se usa para problemas de clasificación (predecir categorías como "Sí/No", "Spam/No Spam"), no para predecir valores numéricos continuos. D) model_type=’tree_reg’: Este comando no existe como tal en la sintaxis estándar de BigQuery ML. Si quisieras usar modelos basados en árboles para una regresión, tendrías que usar opciones como 'boosted_tree_regressor' o 'random_forest_regressor'. Ejemplo de cómo se vería el código completo: CREATE OR REPLACE MODEL `mi_proyecto.mi_dataset.modelo_ventas` OPTIONS(model_type='linear_reg') AS SELECT label, -- La columna que quieres predecir feature1, feature2 FROM `mi_proyecto.mi_dataset.datos_entrenamiento` Punto clave para el examen: * Si el objetivo es predecir un número: linear_reg. Si el objetivo es predecir una categoría: logistic_reg.

Answer 33

Cuando se requiere alta precisión en datos tabulares, los modelos lineales son insuficientes y el conjunto de datos es de tamaño mediano.

Answer 34

Alta precisión en las predicciones y su capacidad para manejar bien datos faltantes y mixtos (numéricos y categóricos).

Answer 35

El entrenamiento es más lento que en modelos más simples y son menos interpretables que un modelo lineal.

Answer 36

ML.EVALUATE

Answer 37

ML.PREDICT

Answer 38

Es la columna que se quiere predecir. Se especifica con input_label_cols=['nombre_columna'], en este caso, ['precio'].

Answer 39

Para evaluar el rendimiento del modelo en datos que no ha "visto" durante el entrenamiento, lo que da una medida más realista de su precisión y ayuda a detectar el sobreajuste (overfitting).

Answer 40

Significa que el modelo se entrenará utilizando todas las columnas (*) de la tabla especificada (mi_dataset.mi_tabla) como datos de entrada.

Answer 41

B b) Permite aislar la causa de los cambios (Respuesta Correcta) ✅ Esta es la razón principal. La repetibilidad funciona como un control científico. Al asegurarte de que un proceso produce exactamente el mismo resultado si no cambias nada, estableces una línea base fiable. Para la depuración (Debugging): Si encuentras un error, necesitas poder reproducirlo de manera consistente para entender qué lo causa. Si el error aparece y desaparece al azar, es casi imposible de arreglar. La repetibilidad garantiza que el error se manifieste cada vez que ejecutes el código bajo las mismas condiciones. Para las pruebas (Testing): Cuando modificas tu código para arreglar un error o añadir una nueva función, necesitas saber con certeza que cualquier cambio en el resultado se debe a tu modificación y no a otro factor, como una división aleatoria de datos de entrenamiento y prueba que ha sido diferente esta vez. En resumen, la repetibilidad elimina el azar y te permite aislar el impacto de tus cambios en el código. a) Porque los errores de código solo aparecen en ejecuciones repetibles (Incorrecta) ❌ Esto es falso. De hecho, algunos de los errores más difíciles de depurar (conocidos como Heisenbugs) son aquellos que aparecen de forma intermitente y no son fáciles de repetir, como las condiciones de carrera (race conditions) en programas paralelos. c) Porque los procesos repetibles usan menos memoria (Incorrecta) ❌ No existe una relación directa entre la repetibilidad de un proceso y la cantidad de memoria que consume. Un proceso puede ser perfectamente repetible y consumir mucha memoria, o ser no repetible y consumir poca. Son conceptos independientes. d) Porque simplifica la sintaxis de la consulta SQL (Incorrecta) ❌ La repetibilidad es un concepto sobre el comportamiento de la ejecución del código, no sobre la sintaxis del lenguaje. La complejidad de una consulta SQL no tiene nada que ver con si su ejecución producirá siempre el mismo resultado. Resumen Clave La repetibilidad es crucial porque elimina la aleatoriedad, permitiéndote confiar en que los resultados de tus pruebas cambian únicamente cuando tú cambias el código. Esto es esencial para depurar errores de forma fiable y validar que tus soluciones funcionan correctamente.

Answer 42

Significa asegurar que se obtengan exactamente los mismos resultados del modelo si se vuelve a ejecutar el mismo código.

Answer 43

Para garantizar una comparación justa. Ambos modelos deben entrenar y ser evaluados con los mismos conjuntos de datos.

Answer 44

1. Entornos de producción y auditoría (para consistencia y trazabilidad). 2. Documentación científica o técnica (para que otros puedan replicar tus resultados).

Answer 45

Dificulta saber si una variación en el resultado se debe a un cambio en el código o simplemente al azar en la división de los datos.

Answer 46

No. En algunos casos es aceptable, como en la exploración inicial de datos o al usar validación cruzada.

Answer 47

B Análisis de la Solución Correcta (B) ✅ Las APIs preentrenadas de Google Cloud, como la API de Video Intelligence, son modelos de Machine Learning que Google ya ha construido y entrenado con una cantidad masiva de datos. Están listos para usar "out-of-the-box". ¿Cómo funciona? La empresa de vídeo simplemente envía sus archivos de metraje a la API. ¿Qué recibe a cambio? La API analiza el vídeo y devuelve información estructurada, como etiquetas de objetos y actividades ("coche", "boda", "deportes"), detección de cambios de escena, transcripción de audio, etc. ¿Requiere entrenamiento? No. Todo el trabajo de entrenamiento ya lo ha hecho Google. Es la solución perfecta para obtener capacidades de ML potentes sin necesidad de tener datos de entrenamiento ni experiencia en ML. 🧠 Por qué las otras opciones son incorrectas ❌ A) BigQuery ML: El error: BigQuery ML permite a los usuarios crear y entrenar modelos de ML utilizando consultas SQL sobre los datos que ya tienen en BigQuery. Aunque simplifica el proceso, sigue siendo una forma de entrenamiento de modelos, que es lo que la empresa quiere evitar. C) AutoML: El error: AutoML es una herramienta fantástica para entrenar modelos personalizados con tus propios datos, pero de forma automatizada. Aún necesitarías proporcionar un conjunto de datos etiquetado (por ejemplo, cientos de vídeos ya categorizados) para que AutoML aprenda de ellos y cree un nuevo modelo. Esto es, por definición, un proceso de entrenamiento. D) Custom training (Entrenamiento personalizado): El error: Esta es la opción más opuesta a lo que se pide. Implica escribir el código del modelo desde cero (usando TensorFlow, PyTorch, etc.) y gestionar todo el ciclo de vida del entrenamiento. Requiere un alto nivel de experiencia y es exactamente el proceso que la empresa no quiere realizar.

Answer 48

C AutoML is described as a "no-code solution that helps you build your own machine learning models on Vertex AI through a point-and-click interface". It is suitable for users with small to medium training data sizes and low machine learning/coding expertise, allowing them to train custom models with their own data with minimal coding. While BigQuery ML allows building models using SQL queries, it's not a point-and-click "codeless" solution in the same sense as AutoML. Pre-trained APIs do not involve training your own model, and Custom training is a code-based solution.

Answer 49

C ✅ C. Es la afirmación INCORRECTA Esta opción es la respuesta correcta porque mezcla y describe incorrectamente las funcionalidades de Vertex AI. Analicemos por qué es falsa: "Permite ajustar los hiperparámetros con API preentrenadas...": Esto es incorrecto. Las API preentrenadas (como Cloud Vision API o Natural Language API) son modelos de "caja negra" listos para usar. No puedes acceder a sus hiperparámetros ni ajustarlos. "...y AutoML para modelos personalizados": Esto también es incorrecto. AutoML y los modelos personalizados son dos enfoques diferentes para crear un modelo. Usas AutoML para que Google cree un modelo por ti automáticamente, o construyes un modelo personalizado (por ejemplo, con TensorFlow/PyTorch) cuando necesitas un control total. No usas AutoML "para" un modelo personalizado. La declaración confunde conceptos fundamentales, por lo que no es un beneficio real de la plataforma. ❌ A, B y D son Beneficios REALES de Vertex AI Estas opciones describen ventajas clave de la plataforma y, por lo tanto, son respuestas incorrectas a la pregunta. A. Es integrado (seamless): Verdadero. Vertex AI unifica todo el ciclo de vida del aprendizaje automático, desde la preparación de datos (con Feature Store) y el entrenamiento hasta el despliegue y la monitorización (con Pipelines y Model Monitoring) en una única interfaz. B. Es escalable: Verdadero. Es una plataforma en la nube diseñada para escalar. Las herramientas de MLOps te ayudan a gestionar la producción a gran escala, y la infraestructura subyacente ajusta la potencia de cómputo según sea necesario. D. Es rápido (speedy): Verdadero. Con herramientas como AutoML o el SDK de Vertex AI, puedes crear y desplegar modelos con muchas menos líneas de código en comparación con la creación de todo el flujo de trabajo desde cero, lo que acelera significativamente el desarrollo.

Answer 50

A, B, C y E The Natural Language API offers four main types of analysis: * Entity analysis identifies subjects like proper nouns (person, place, organization) and common nouns (goods). * Sentiment analysis identifies emotions (positive, negative, neutral) at both document and entity levels. * Syntax analysis extracts linguistic information and relationships between words. * Category analysis classifies text based on topics or keywords. Image recognition (D) is performed by the Vision API, which is a different pre-trained API for images and video, not the Natural Language API.

Answer 51

B, C y D ✅ Respuestas Correctas B. Los contenedores precompilados (Pre-built containers) vienen con plataformas preinstaladas como Python, TensorFlow y PyTorch. Explicación: Esta afirmación es correcta. Google Cloud ofrece contenedores Docker ya listos y optimizados que incluyen las versiones más comunes de los frameworks de Machine Learning (como TensorFlow, PyTorch, Scikit-learn), junto con sus dependencias (como Python, CUDA para GPUs, etc.). Usar estos contenedores te ahorra el trabajo de tener que crear y mantener tu propio entorno desde cero, acelerando enormemente el proceso de desarrollo. C. Vertex AI Workbench es un entorno de notebooks Jupyter que soporta todo el flujo de trabajo de la ciencia de datos. Explicación: Esto es correcto. Vertex AI Workbench es el entorno de desarrollo gestionado de Google Cloud basado en JupyterLab. Está diseñado para cubrir todo el ciclo de vida del ML: desde la exploración y preparación de datos (integrándose con BigQuery y Cloud Storage), pasando por la experimentación y el entrenamiento de modelos, hasta la implementación y el monitoreo de los mismos. Es la herramienta principal para el desarrollo interactivo en la plataforma. D. Se pueden aprovechar librerías de ML como TensorFlow, scikit-learn y PyTorch para evitar programar desde cero. Explicación: Esta afirmación es correcta y fundamental. El propósito de estas librerías de alto nivel es precisamente abstraer la complejidad matemática subyacente. En lugar de tener que programar a mano algoritmos como la retropropagación (backpropagation) o las operaciones de las redes neuronales, puedes usar las capas, optimizadores y funciones que estas librerías ya te ofrecen. Esto te permite construir modelos complejos de manera mucho más rápida y con menos errores. ❌ Respuestas Incorrectas A. Siempre debes usar un contenedor personalizado (custom container) para definir el tipo de máquina y los discos exactos. Explicación: Esto es incorrecto por dos motivos principales: "Siempre" es falso: No es obligatorio usar contenedores personalizados. Como se menciona en la opción B, puedes (y a menudo es recomendable) usar los contenedores precompilados que Google Cloud provee. El contenedor no define el hardware: Un contenedor Docker define el entorno de software (librerías, dependencias, código). El hardware (el tipo de máquina, la cantidad de CPUs/GPUs, el tamaño del disco) se especifica por separado en la configuración del trabajo de entrenamiento (CustomJob) en Vertex AI, no dentro del propio contenedor. E. tf.keras.Sequential se usa principalmente para compilar un modelo especificando las funciones de pérdida y los optimizadores. Explicación: Esto es incorrecto. La afirmación confunde dos pasos distintos del proceso de Keras: tf.keras.Sequential: Se utiliza para definir la arquitectura del modelo, es decir, para apilar las capas una tras otra en un orden secuencial (por ejemplo, una capa de entrada, seguida de una capa densa, seguida de una capa de salida). model.compile(): Es el método que se utiliza para configurar el proceso de entrenamiento del modelo una vez que su arquitectura ya ha sido definida. Es aquí donde se especifican el optimizador (ej. 'adam'), la función de pérdida (ej. 'binary_crossentropy') y las métricas a monitorear (ej. ['accuracy']).

Answer 52

D Pre-trained APIs are ideal for users with limited ML expertise and no training data. They offer ready-to-use models for tasks like sentiment analysis and entity recognition.

Answer 53

A y C Both pre-trained APIs and AutoML do not allow manual tuning of hyperparameters. BigQuery ML and Custom training provide more control, including hyperparameter tuning.

Answer 54

B BigQuery ML is designed for SQL users working with tabular data. It enables ML model creation using standard SQL queries.

Answer 55

A, C y D Por qué A, C y D son correctas A) Seamless integration (Integración fluida) Esta opción es correcta. Uno de los mayores beneficios de Vertex AI es que funciona como un "pegamento" que une todas las herramientas y servicios que necesitas para un proyecto de Machine Learning (ML) en Google Cloud. Se integra de forma nativa con servicios como BigQuery (para datos), Cloud Storage (para almacenamiento) y otros. Esto evita que tengas que construir conexiones complejas manualmente, haciendo que todo el flujo de trabajo, desde la preparación de los datos hasta el despliegue del modelo, sea mucho más sencillo y rápido. 🚀 C) Scalable infrastructure (Infraestructura escalable) Esta opción es correcta. Vertex AI está construido sobre la infraestructura global de Google, lo que significa que puedes escalar tus proyectos según tus necesidades. Puedes pasar de entrenar un modelo pequeño en tu portátil a entrenar un modelo gigantesco con terabytes de datos usando cientos de máquinas, todo sin tener que preocuparte por comprar o gestionar el hardware. La plataforma se encarga de asignar los recursos necesarios automáticamente, ya sea para entrenamiento o para servir predicciones a millones de usuarios. 🌍 D) Unified interface for predictive and generative AI (Interfaz unificada para IA predictiva y generativa) Esta opción es correcta. Este es un diferenciador clave de Vertex AI. No solo te permite crear modelos de ML "clásicos" o predictivos (como predecir ventas o clasificar imágenes), sino que también integra herramientas de IA generativa (como los modelos de lenguaje que potencian a los chatbots o la generación de imágenes). Tener todo en una misma plataforma simplifica enormemente el desarrollo, ya que los equipos no necesitan aprender y usar herramientas diferentes para cada tipo de IA. Es como tener una navaja suiza para la inteligencia artificial. 🤖 Por qué B es incorrecta B) Manual hyperparameter tuning only (Solo ajuste manual de hiperparámetros) Esta opción es incorrecta porque describe una limitación, no un beneficio. De hecho, Vertex AI ofrece una potente herramienta de ajuste de hiperparámetros automatizado (Vertex AI Vizier). Ajuste manual: Requiere que un experto pruebe combinaciones de parámetros una por una, lo cual es lento, tedioso y a menudo no encuentra la mejor configuración. Ajuste automatizado: Vertex AI usa algoritmos inteligentes para buscar de forma eficiente las mejores combinaciones de hiperparámetros, ahorrando tiempo y, por lo general, logrando mejores resultados para el modelo. Por lo tanto, la afirmación "solo manual" es falsa y lo contrario a uno de los beneficios reales de la plataforma.

Answer 56

B Neural architecture search and transfer learning are used in AutoML to automatically choose and tune optimal model architectures based on training data.

Answer 57

C ✅ Por qué la opción C (AutoML) es la correcta AutoML es la suite de productos de Google Cloud diseñada específicamente para cumplir con este requisito. Su propósito principal es democratizar el acceso al machine learning, permitiendo a los usuarios crear modelos personalizados de alta calidad con un mínimo esfuerzo técnico. Sin escribir código: AutoML ofrece una interfaz gráfica de usuario (GUI) completa. El proceso consiste en subir tus datos (por ejemplo, un archivo CSV o imágenes), hacer clic para seleccionar qué quieres predecir y pulsar un botón para entrenar el modelo. Interfaz "point-and-click": Todo el flujo de trabajo, desde la ingesta de datos hasta la evaluación y el despliegue del modelo, se gestiona a través de menús y botones visuales. Construye modelos personalizados: A diferencia de las APIs pre-entrenadas, AutoML entrena un modelo nuevo y único, optimizado específicamente para los datos y el caso de uso que tú le proporcionas. Analogía: Usar AutoML es como usar una cafetera súper automática moderna. Tú solo pones los granos de café (tus datos) y el agua, seleccionas "Espresso" (tu objetivo) y pulsas un botón. La máquina se encarga de todo el proceso complejo (moler, prensar, calentar, etc.) para darte un resultado de alta calidad. ❌ Por qué las otras opciones son incorrectas A) Pre-trained APIs (APIs preentrenadas): Con estas APIs (como Cloud Vision o Natural Language API), no construyes un modelo, simplemente usas un modelo ya construido por Google. Además, para usarlas, necesitas escribir código para hacer las llamadas a la API. B) BigQuery ML: Esta opción te permite construir modelos, pero requiere escribir código SQL. Es una potente herramienta para analistas de datos que conocen SQL, pero no cumple el requisito de "sin escribir código". Es una solución "low-code" (bajo en código), no "no-code" (sin código). D) Custom Training (Entrenamiento personalizado): Esta es la opción con más código de todas. Está diseñada para científicos de datos e ingenieros de machine learning que quieren tener control total y escriben sus propios modelos desde cero usando frameworks como TensorFlow o PyTorch.

Answer 58

B y C Pre-trained APIs offer ready-to-use models for common tasks (like image and text analysis) and are designed for users with little or no ML expertise. They do not require training data or allow hyperparameter tuning

Answer 59

C BigQuery ML allows users to build and execute ML models directly using SQL queries on data stored in BigQuery.

Answer 60

B y D BigQuery ML requires SQL skills and understanding of ML concepts, while Custom Training requires advanced coding and ML expertise for full control over the pipeline. Pre-trained APIs and AutoML are designed for users with less technical background.

Answer 61

B Transfer learning leverages existing pre-trained models, allowing users to achieve high accuracy on new tasks with smaller datasets and reduced computational requirements

Answer 62

D TensorFlow Lite is a framework for deploying ML models on mobile and edge devices, not a development option for building AI projects on Google Cloud in the context of the certification. The other options are explicitly mentioned as AI development options.

Answer 63

B Pre-trained APIs use existing ML models provided by Google, so no training data is needed, making them ideal for quick solutions without model training, such as text analysis or image recognition.

Answer 64

A BigQuery ML is designed for building ML models using SQL queries on structured, tabular data within BigQuery, suitable for data engineers working with structured datasets.

Answer 65

B AutoML on Vertex AI automates the entire ML process, from data preparation to model serving, using the user’s data, and supports multiple data types, minimizing coding needs.

Answer 66

C Custom training on Vertex AI involves a code-based approach requiring significant ML expertise and coding skills, typically using Python and TensorFlow, for highly customized solutions.

Answer 67

D The three main stages of the ML workflow with Vertex AI are Data preparation, Model development, and Model serving. Data preparation includes data uploading and feature engineering. Model development covers model training and evaluation. Model serving encompasses model deployment and monitoring

Answer 68

C Vertex AI Pipelines is the toolkit that automates, monitors, and governs machine learning systems by orchestrating the workflow in a serverless manner, enabling continuous integration, training, and delivery (CI, CT, CD). When building an ML pipeline on Vertex AI, you can include both pre-built components provided by Google and custom components that you develop yourself.

Answer 69

B B. Recall (También conocido como Exhaustividad o Sensibilidad) El Recall mide la capacidad de un modelo para encontrar todos los casos positivos relevantes dentro de un conjunto de datos. La fórmula es: Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos) Vamos a traducir esto al problema del hospital: Verdadero Positivo (VP): El modelo predice "cáncer" y el paciente realmente tiene cáncer. ¡Un acierto! Falso Negativo (FN): El modelo predice "sano" pero el paciente realmente tiene cáncer. ¡Este es el peor error posible! Un paciente con cáncer no sería diagnosticado a tiempo, lo que podría tener consecuencias fatales. El objetivo principal del hospital es "identificar tantos casos potenciales de cáncer como sea posible". Esto significa que quieren minimizar los Falsos Negativos a toda costa. Quieren asegurarse de que si una persona tiene cáncer, el modelo la identifique. Al priorizar el Recall, el hospital se asegura de que el modelo sea extremadamente bueno encontrando a los pacientes que sí tienen la enfermedad. La propia pregunta indica que están dispuestos a aceptar un mayor número de "falsos positivos" (pacientes sanos marcados como enfermos) como consecuencia. Un falso positivo genera ansiedad y pruebas adicionales, pero un falso negativo puede costar una vida. En resumen: Maximizar el Recall es sinónimo de minimizar los casos de cáncer no detectados, lo cual es exactamente el objetivo del hospital. Explicación de las Respuestas Incorrectas A. Precisión (Precision) La Precisión mide, de todas las veces que el modelo predijo "cáncer", cuántas veces acertó. La fórmula es: Verdaderos Positivos / ( Verdaderos Positivos + Falsos Positivos ) also Positivo (FP): El modelo predice "cáncer" pero el paciente está sano. Si el hospital priorizara la precisión, el objetivo sería asegurarse de que cada vez que el modelo da una alarma de "cáncer", esta sea correcta. Esto reduciría el número de pacientes sanos que son sometidos a pruebas innecesarias. Sin embargo, para ser muy preciso, un modelo puede volverse demasiado "cauteloso" y solo marcar los casos más obvios, dejando pasar casos más dudosos que podrían ser cáncer (aumentando los Falsos Negativos). Esto va en contra del objetivo principal. C. Importancia de las Características (Feature Importance) Esto no es una métrica de evaluación del rendimiento del modelo en sí misma. La importancia de las características es una técnica de análisis que nos dice qué variables de entrada (ej: edad, tipo de sangre, marcadores genéticos) está utilizando el modelo para tomar sus decisiones. Es muy útil para entender y depurar el modelo, pero no mide directamente si está cumpliendo su objetivo de detectar a los enfermos. D. Tasa de Verdaderos Negativos (True Negative Rate o Especificidad) La Tasa de Verdaderos Negativos (también conocida como Especificidad) mide la capacidad del modelo para identificar correctamente a los pacientes sanos. La fórmula es: Verdaderos Negativos / ( Verdaderos Negativos + Falsos Positivos ) Verdadero Negativo (VN): El modelo predice "sano" y el paciente realmente está sano. Priorizar esta métrica significaría que el hospital quiere ser excelente identificando a las personas que no tienen cáncer. Aunque esto es bueno, no es el objetivo principal. El objetivo principal es encontrar a los que sí lo tienen. Un modelo podría tener una tasa de verdaderos negativos altísima simplemente clasificando a casi todo el mundo como "sano", lo que provocaría que se pasaran por alto muchos casos de cáncer reales (un Recall muy bajo). Conclusión Final En diagnósticos médicos donde no detectar una enfermedad grave (un Falso Negativo) tiene un coste humano altísimo, la métrica a priorizar es casi siempre el Recall (Sensibilidad). Es preferible tener una red de seguridad que peque de exceso de celo (más Falsos Positivos) a una que deje escapar casos críticos.

Answer 70

A, B y D Un Feature Store es un repositorio centralizado que te permite gestionar, compartir y servir características (features) de Machine Learning de manera consistente. Beneficios Correctos ✅ A. Las características se pueden compartir para el entrenamiento y el servicio, manteniendo la consistencia en toda la organización. Este es uno de los beneficios más importantes. El Feature Store sirve los mismos valores de características tanto para el entrenamiento de modelos (en lotes) como para la inferencia en tiempo real (online serving). Esto evita el sesgo de entrenamiento-servicio (training-serving skew), un problema común donde las discrepancias en el preprocesamiento de datos entre el entrenamiento y la producción degradan el rendimiento del modelo. B. Las características son reutilizables, lo que ayuda a ahorrar tiempo y reduce la duplicación de esfuerzos. Una vez que un equipo de ingeniería de datos crea una característica útil (por ejemplo, "promedio de compras del cliente en los últimos 30 días"), esta se almacena en el Feature Store. A partir de ese momento, cualquier otro equipo o modelo en la organización puede reutilizarla sin tener que volver a calcularla desde cero. 🔄 D. Las características son escalables, proporcionando automáticamente un servicio de baja latencia. El componente de servicio en línea (online serving) de Vertex AI Feature Store está diseñado para ser altamente escalable y ofrecer una latencia muy baja (del orden de milisegundos). Esto es crucial para aplicaciones en tiempo real que necesitan obtener características rápidamente para hacer una predicción instantánea. Opciones Incorrectas ❌ C. Automatiza el entrenamiento y la evaluación de modelos sin necesidad de conocimientos de codificación. Esto describe la funcionalidad de Vertex AI AutoML, no del Feature Store. El Feature Store se enfoca en la gestión de las características, que son la entrada para el entrenamiento, pero no realiza el entrenamiento del modelo en sí. E. Está construido sobre una interfaz de usuario fácil de navegar, lo que facilita el uso de las características. Si bien Vertex AI tiene una interfaz de usuario, los beneficios principales del Feature Store radican en su funcionalidad programática (APIs), la consistencia que garantiza y su rendimiento. Una "interfaz fácil" es una característica secundaria y subjetiva, no un beneficio fundamental en el flujo de trabajo de ML en comparación con la prevención del sesgo o la reutilización.

Answer 71

C Para entender por qué, primero hay que diferenciar claramente entre parámetros e hiperparámetros en el contexto del machine learning. Parámetros: Son valores internos del modelo que la máquina aprende por sí misma durante el entrenamiento. Son el resultado del proceso de aprendizaje. El ejemplo más claro son los pesos y sesgos de una red neuronal. Hiperparámetros: Son las configuraciones externas del modelo que un humano decide antes de empezar el entrenamiento. Definen la arquitectura de la red y cómo se llevará a cabo el aprendizaje. Imagina que estás horneando un pastel 🎂: Los hiperparámetros son la receta que tú eliges: la temperatura del horno, el tiempo de cocción, cuántas capas tendrá el pastel, etc. Los parámetros son los cambios químicos que ocurren dentro de la masa mientras se hornea para que sepa bien. Tú no los controlas directamente, son el resultado de seguir la receta. ✅ Por qué la opción C es la correcta Todos los elementos de esta lista son "ajustes de la receta" que el ingeniero o científico de datos debe decidir antes de entrenar el modelo: Neuronas y capas: Es el diseño arquitectónico de la red. ¿Será profunda o ancha? El humano lo decide. Funciones de activación: El humano elige qué función (ReLU, Sigmoid, etc.) se usará en las neuronas para introducir no linealidad. Tasa de aprendizaje (Learning rate): Es quizás el hiperparámetro más famoso. El humano decide el tamaño de los "pasos" que dará el modelo para ajustar sus pesos y corregir errores. Épocas (Epochs): El humano decide cuántas veces el modelo verá el conjunto de datos completo durante el entrenamiento. ❌ Por qué las otras opciones son incorrectas A. Pesos y Sesgos: Estos son el ejemplo perfecto de parámetros. Son los valores que la red ajusta y aprende durante el entrenamiento para minimizar el error. No son decididos por un humano. B. Funciones de coste y Retropropagación: Estos son componentes fundamentales del proceso de entrenamiento, no configuraciones ajustables. La retropropagación (Backpropagation) es el algoritmo que la red usa para aprender, y la función de coste es la métrica que usa para saber cómo de mal lo está haciendo. Aunque el humano elige la función de coste, se considera una parte de la definición del problema más que un hiperparámetro ajustable. D. Descenso de gradiente y Salida predicha (ŷ): El descenso de gradiente es el algoritmo de optimización que se usa para minimizar el error (el proceso de aprendizaje en sí). La salida predicha (ŷ) es el resultado que produce el modelo para una entrada dada; no es ni un parámetro ni un hiperparámetro.

Answer 72

B The three main stages are: data preparation (e.g., uploading data and feature engineering), model development (e.g., training and evaluation), and model serving (e.g., deployment and monitoring).

Answer 73

A y C Un Feature Store es un servicio centralizado para almacenar, gestionar y servir características (features) de Machine Learning, resolviendo problemas comunes en el ciclo de vida de los modelos. Ventajas Correctas ✅ A) Las características son reutilizables en el entrenamiento y en el servicio (serving). Este es el beneficio principal. Creas una característica una sola vez (por ejemplo, "total gastado por un cliente en los últimos 7 días") y la almacenas. Luego, esa misma característica puede ser consumida tanto por el pipeline de entrenamiento (para entrenar el modelo) como por el punto final de predicción en tiempo real. Esto garantiza la consistencia y evita el sesgo de entrenamiento-servicio (training-serving skew). 🔄 C) Permite predicciones de baja latencia. Para hacer una predicción en tiempo real, un modelo necesita los valores más actuales de sus características de forma casi instantánea. El Feature Store ofrece un servicio online optimizado para entregar estas características con una latencia muy baja (en milisegundos). Esto es crucial para que las aplicaciones puedan obtener predicciones rápidas. ⚡ Opciones Incorrectas ❌ B) Solo admite datos en streaming. Esto es falso. Vertex AI Feature Store está diseñado para ingerir datos tanto en lotes (batch), desde fuentes como BigQuery o Cloud Storage, como en streaming a través de su API. D) Solo admite datos tabulares. Esto es incorrecto. Aunque la fuente de datos suele ser tabular, las características almacenadas pueden tener tipos de datos más complejos, como embeddings (que son arrays o vectores de números), además de los tipos de datos escalares tradicionales.

Answer 74

C In fraud detection, it’s important to catch as many actual frauds as possible. High recall ensures that fewer fraudulent transactions are missed (i.e., fewer false negatives).

Answer 75

A y C Vertex AI Pipelines is the core automation toolkit and supports integration with Kubeflow Pipelines and TensorFlow Extended (TFX). BigQuery ML is for SQL-based modeling, and Cloud Build Pipelines is not designed for ML workflow orchestration.

Answer 76

C Las funciones de activación son el componente que otorga a las redes neuronales su capacidad para aprender relaciones complejas. ¿Por qué es la respuesta correcta? La razón principal para usar funciones de activación es para convertir un modelo lineal en uno no lineal. Sin una función de activación, cada capa de una red neuronal simplemente realizaría una operación lineal: salida = pesos * entradas + sesgo. Si apilas muchas de estas capas lineales, el resultado final sigue siendo una simple función lineal. Un modelo así solo podría aprender relaciones muy básicas, como una línea recta. La función de activación introduce una transformación no lineal a la salida de cada neurona. Es este "quiebre" de la linealidad lo que permite a la red en su conjunto aproximar funciones increíblemente complejas y aprender patrones intrincados, como reconocer imágenes, entender el lenguaje o predecir mercados. En resumen, las funciones de activación son las que le dan a las redes neuronales su poder y flexibilidad. ¿Por qué las otras opciones son incorrectas? A) Para acelerar el entrenamiento: Aunque algunas funciones de activación (como ReLU) pueden ayudar a que el entrenamiento sea más rápido y eficiente en comparación con otras, esta no es su razón de ser principal. Su propósito fundamental es la no linealidad, no la velocidad. B) Para asegurar que el modelo realice regresión: El tipo de tarea (regresión o clasificación) se define principalmente por la función de activación de la capa de salida y la función de pérdida, no por las funciones de activación en las capas ocultas. D) Para calcular la función de pérdida: La función de pérdida es un componente separado que se calcula después de que la red ha producido una salida. Mide qué tan equivocado está el modelo, mientras que las funciones de activación son parte del proceso para generar esa salida.

Answer 77

B The standard workflow consists of preparing the data, developing the model (training and evaluation), and then serving the model (deployment and monitoring).

Answer 78

B Feature engineering and data upload are part of the data preparation stage, where you prepare raw data for model training.

Answer 79

B Recall measures the ability of a model to identify all relevant cases (true positives). In medical diagnosis, missing a positive case is critical, so maximizing recall is preferred.

Answer 80

A y D Vertex AI Pipelines allows you to combine prebuilt and custom components, and prebuilt components can be customized to suit specific workflow needs.

Answer 81

B Vertex AI Feature Store centralizes feature management, making features shareable, reusable, and scalable across ML projects.

Answer 82

B The document emphasizes that the machine learning workflow on Google Cloud consists of three main stages: Data Preparation (uploading and preparing data), Model Development (training and evaluating the model), and Model Serving (deploying the model for predictions). This structure is central to the AI development process described.

Answer 83

B ✅ La Solución Correcta: AutoML (B) AutoML (Automated Machine Learning) es la solución de Google Cloud diseñada específicamente para permitir a los usuarios crear modelos de machine learning de alta calidad sin necesidad de escribir código. El proceso con AutoML es puramente visual a través de una interfaz gráfica: Subes tus datos (imágenes, texto, tablas, etc.). Seleccionas la variable que quieres predecir. Haces clic en "Entrenar modelo". La plataforma se encarga automáticamente de todo el proceso complejo por debajo: la selección del mejor algoritmo, el ajuste de hiperparámetros y la ingeniería de características. Es la definición perfecta de una herramienta "no-code" para machine learning. 🤖 ❌ Por Qué las Otras Opciones son Incorrectas Las otras opciones son herramientas que, por el contrario, requieren escribir código. A) Vertex AI Workbench: Es un entorno de desarrollo basado en Jupyter Notebooks. Es un lugar para que los científicos de datos escriban, ejecuten y depuren su código de machine learning, principalmente en Python. C) Colab: Similar a Workbench, es un entorno de notebooks gratuito de Google para escribir y ejecutar código. No es una herramienta "no-code". D) TensorFlow: No es una solución, sino una biblioteca de programación (library) de código abierto. Es el "motor" que los desarrolladores usan escribiendo código para construir modelos de machine learning desde cero.

Answer 84

B Recall, also known as sensitivity, measures the ability of a model to identify all relevant instances. It is calculated as the number of true positives divided by the sum of true positives and false negatives, a critical metric for scenarios where missing positive cases is significant, such as medical diagnostics.

Answer 85

D MLOps, as described in the document, integrates machine learning development with operations to manage models in production. It includes automating the entire workflow, deploying models, and continuously monitoring their performance, addressing challenges like evolving data and code.

Answer 86

A The Vertex AI Feature Store is designed to manage and serve features, which are measurable properties of data used in machine learning models. It supports both training and serving phases by providing scalable and low-latency access, making it essential for managing feature lifecycles in ML projects.

Answer 87

D ✅ Explicación de A y B (Por qué son correctas)Ambas opciones describen dos caras del mismo problema: la separación perfecta.A. Ayuda a evitar que los pesos (weights) se disparen a +/- infinito.Imagina que tus datos de dos clases (positivos y negativos) se pueden separar perfectamente con una línea.La regresión logística quiere encontrar la línea que mejor separa los datos.Para estar "más segura" de su predicción, intentará que la probabilidad para los puntos positivos sea lo más cercana a 1 posible, y para los negativos lo más cercana a 0.La única forma de que la función sigmoide $\sigma(z)$ devuelva un 1 perfecto es si su entrada (el logit, $z = w \cdot x + b$) es $+\infty$. Y para que devuelva 0, el logit debe ser $-\infty$.Para hacer que el logit $z$ sea infinito, el algoritmo intentará hacer que los pesos (weights, $w$) sean infinitamente grandes.La regularización (como L1 o L2) añade una penalización al tamaño de los pesos. Le dice al modelo: "Oye, sepáralos bien, pero mantén los pesos lo más pequeños posible". Esta penalización actúa como un "ancla" que evita que los pesos se disparen al infinito.B. Ayuda a que los logits se mantengan alejados de las asíntotas, lo que puede detener el entrenamiento.Esta es la consecuencia directa de A.Las "asíntotas" de la función sigmoide son las partes planas en la parte superior (cerca de 1) e inferior (cerca de 0).El entrenamiento (como el Descenso de Gradiente) funciona calculando la pendiente (el gradiente) de la curva para saber cómo ajustar los pesos.1En las zonas planas (asíntotas), la pendiente es casi cero.Si los pesos se vuelven enormes (como en A), los logits $z$ también lo hacen, y las predicciones caen en estas zonas planas.Cuando el gradiente es cero, el modelo no recibe ninguna señal sobre cómo mejorar. Las actualizaciones de los pesos se vuelven minúsculas y el entrenamiento se detiene (se congela).Al aplicar la regularización (A), se evita que los pesos crezcan, lo que mantiene a los logits (B) fuera de estas "zonas muertas" y permite que el entrenamiento continúe.2En resumen: A es el problema fundamental (pesos infinitos) y B es el síntoma que mata el entrenamiento (gradientes que se desvanecen). La regularización soluciona A, lo que a su vez soluciona B.❌ Por Qué la C es IncorrectaC. Transforma las salidas en una estimación de probabilidad calibrada.La regresión logística ya produce salidas que se interpretan como probabilidades (valores entre 0 y 1).3La "calibración" (que un 80% de confianza signifique que 8 de cada 10 veces acierta) es una propiedad deseable, pero no es la razón principal por la que se necesita la regularización.Si bien la regularización puede mejorar la calibración al evitar que el modelo se vuelva "demasiado confiado" (prediciendo 0.9999 todo el tiempo), su propósito fundamental es resolver la inestabilidad numérica y de entrenamiento descrita en A y B.

Answer 88

B Generative AI is a type of artificial intelligence that generates content for you. It learns from a massive amount of existing content, such as text, image, and video, in a process called training, which results in a "foundation model". The generated content can be multi-modal, including text, code, images, speech, video, and even 3D. The process of generating content is not random, nor is it based on unalterable predetermined algorithms

Answer 89

A, C y D A foundation model is typically large, defined by a significant number of parameters, massive training data, and high computational power needs. While foundation models can be used directly to solve general problems like content extraction and document summarization, they can also be further trained with new datasets in a specific field to solve particular problems, which is known as fine-tuning. Gemini is explicitly mentioned as Google's most recent foundation model, capable of handling multimodal data.

Answer 90

B The anatomy of a prompt includes one or more of the following components: Input (required), Context (optional), and Examples (optional). Vertex AI Studio serves as an intuitive interface for developers to access foundational models and build generative AI applications in a low-code or no-code environment. It enables rapid testing and prototyping, tuning and customizing models with your own data, augmenting them with real-world information, and efficiently deploying models in production environments.

Answer 91

C The temperature setting controls the degree of randomness in the response. A high temperature setting extends the range of possible words to include those that have low possibility and are more unusual. This setting is recommended if you want to generate more "creative" or unexpected content, such as an advertisement slogan. Conversely, a low temperature setting narrows the range to high-possibility words, leading to more "typical" answers

Answer 92

C Contact Center AI (CCAI) is Google’s solution specifically designed to apply AI in contact centers with the goal of increasing customer satisfaction and operational efficiency. It can help automate simple interactions via a virtual agent, assist human agents, and unlock caller insights. Document AI is for extracting information from documents, Healthcare Data Engine is for generating healthcare insights, and Vertex AI Search for Retail provides search and recommendations for retailers.

Answer 93

A Vertex AI Studio is the end-to-end development interface for generative AI on Google Cloud. It supports no-code and low-code workflows for prompt design, model tuning, and access to models like Gemini.

Answer 94

A y B Higher temperature introduces more randomness in output. Increasing top P widens the selection range of potential tokens, allowing for more diverse results. Setting top K = 1 or lowering temperature reduces creativity and focuses on most probable tokens.

Answer 95

C ¿Qué es "Few-Shot Prompting"? Imagina que quieres enseñarle a un niño un juego nuevo. En lugar de solo darle las instrucciones (el reglamento), juegas un par de rondas de ejemplo con él para que vea cómo funciona. El "Few-Shot Prompting" es exactamente eso, pero para una inteligencia artificial. Dentro de la propia instrucción (el "prompt"), incluyes unos pocos ejemplos completos de la tarea que quieres que realice. Esto ayuda al modelo a entender el patrón, el formato y el tipo de respuesta que esperas. Ejemplo simple de Few-Shot Prompting: Clasifica el sentimiento del texto. Texto: "Me encantó la película, es fantástica." Sentimiento: Positivo Texto: "El servicio fue terriblemente lento." Sentimiento: Negativo Texto: "Hoy es martes." Sentimiento: Neutro Texto: "Qué producto tan increíble, lo compraría de nuevo." Sentimiento: El modelo ve los tres ejemplos ("few shots") y entiende que debe responder "Positivo". Análisis de las Opciones C) Un modelo recibe unos pocos ejemplos... (Correcta) ✅ Esta opción describe perfectamente la técnica: le das al modelo una pequeña cantidad de ejemplos (shots) para guiarlo y mostrarle el comportamiento deseado. A) Un modelo recibe ningún ejemplo, solo instrucciones (Incorrecta) ❌ Esto describe una técnica diferente llamada "Zero-Shot Prompting". En este caso, solo le das la instrucción directa sin ningún ejemplo, confiando en que el modelo ya sabe cómo realizar la tarea. Por ejemplo: Clasifica el siguiente texto como positivo o negativo: "Qué producto tan increíble". B) El modelo es entrenado con grandes conjuntos de datos antes de su despliegue (Incorrecta) ❌ Esto describe el pre-entrenamiento de un modelo fundacional (como GPT o Gemini). Es el proceso inicial donde el modelo aprende sobre el lenguaje a partir de cantidades masivas de datos de internet. El "prompting" es la técnica que usas para interactuar con el modelo después de que ya ha sido pre-entrenado. D) Un prompt es diseñado manualmente usando ajuste a nivel de token (Incorrecta) ❌ Esto describe una técnica mucho más avanzada y compleja, a veces llamada "prompt tuning" o "soft prompting", donde en lugar de usar palabras, se optimizan vectores numéricos (tokens) para guiar al modelo. El "Few-Shot Prompting" estándar se hace con ejemplos en lenguaje natural, no con este tipo de ajuste de bajo nivel.

Answer 96

D Gemini is Google’s multimodal foundation model capable of processing and generating across text, image, and video modalities.

Answer 97

B Parameter-efficient tuning (like adapter tuning or reinforcement learning with human feedback) adjusts only a small subset of model parameters, making it faster and cheaper while preserving the base model intact.

Answer 98

A Generative AI models are trained on large datasets and learn patterns from them, allowing them to generate new content. They can also be fine-tuned for domain-specific tasks.

Answer 99

B Vertex AI Studio is designed to help users test, customize, and deploy generative AI models efficiently in their applications.

Answer 100

A, C y D Effective prompts should be concise, specific, and include examples or instructions to guide the model. Asking multiple unrelated tasks in one prompt can reduce response quality.

Answer 101

B Parameter-efficient tuning, such as adapter tuning, updates only a subset of model parameters, making it efficient for scenarios with limited data and resources.

Answer 102

B Google Cloud distinguishes between vertical solutions, which are tailored for specific industries, and horizontal solutions, which address common needs across industries.

Answer 103

C Generative AI is specifically designed to create new content based on patterns learned from existing data, distinguishing it from other AI types focused on classification, prediction, or optimization.

Answer 104

C Pre-trained models are initially trained on vast datasets for general tasks, while fine-tuned models adapt these to specific domains, enhancing performance for targeted applications like finance or healthcare.

Answer 105

D ✅ La Respuesta Correcta: Vertex (D) La opción Vertex (cuyo nombre completo es Vertex AI) es la correcta porque no es un modelo fundamental, sino una plataforma. Piensa en la siguiente analogía: Vertex AI es el taller o el estudio de un artista. Es el lugar que contiene todas las herramientas, la infraestructura y los servicios para trabajar. Gemini, Codey e Imagen son las herramientas especializadas que se usan dentro de ese taller (los pinceles, los cinceles, el software, etc.). Vertex AI es la plataforma unificada de Google Cloud para el ciclo de vida del machine learning (MLOps). Es el servicio que utilizas para acceder, entrenar, ajustar y desplegar los modelos fundamentales, pero no es un modelo en sí mismo. 🛠️ ❌ Por Qué las Otras Opciones Son Incorrectas Las otras tres opciones sí son modelos fundamentales (Foundation Models) de Google: A) Gemini: Es la familia de modelos multimodales más avanzada de Google, capaz de entender y procesar texto, código, imágenes, audio y video. 🧠 B) Codey: Es una familia de modelos de lenguaje grandes (LLMs) especializada y optimizada para tareas relacionadas con el código de programación (generar, completar y explicar código). 💻 C) Imagen: Es un modelo de difusión de texto a imagen, diseñado para generar imágenes fotorrealistas y de alta calidad a partir de descripciones en lenguaje natural. 🎨

Answer 106

B A prompt includes the input (request), context (guiding information), and examples (demonstrating desired outputs), enabling effective interaction with the model.

Answer 107

B The workflow begins with the input prompt, followed by safety checks, model processing, optional customization, grounding to prevent hallucinations, and final response delivery.

Answer 108

B Predicting a future spending amount involves forecasting a numeric variable, which defines it as a regression problem. Since the team has historical purchase data with actual spending amounts, this is considered labeled data, falling under supervised learning. A linear regression model is commonly used to solve regression problems.

Answer 109

D Cloud Run is a fully managed compute platform specifically designed for request or event-driven stateless workloads. It excels at abstracting all infrastructure management, automatically scales up and down from zero (meaning no cost when idle), and charges only for the resources consumed, making it highly efficient for such use cases. While other options like Compute Engine, GKE, and App Engine offer compute capabilities, they do not inherently provide the "scale to zero" and "pay-per-use" model as optimally for stateless, event-driven applications as Cloud Run.

Answer 110

C Google's AI principles integrate responsible AI and include concrete standards such as: "AI should be built and tested for safety", "AI should avoid creating or reinforcing unfair bias", and "AI should be accountable to people". The option "AI should prioritize maximum profit and market share" is not one of Google's seven announced AI principles. The principles emphasize broader ethical considerations like social benefit, fairness, and transparency over purely commercial objectives.

Answer 111

C AutoML on Vertex AI is described as a no-code solution that enables users to build their own custom machine learning models through a point-and-click interface on Vertex AI. It automates significant parts of the ML pipeline, allowing data scientists to focus on solving business problems with minimal coding. Pre-trained APIs are ready-made and don't require training data or custom model building. BigQuery ML involves SQL coding. Custom training requires manual coding and provides the highest level of control, which is contrary to minimizing coding.

Answer 112

B The three main stages of the ML workflow with Vertex AI are Data Preparation, Model Development, and Model Serving. Data preparation involves uploading and feature engineering. Model development includes training and evaluation. Model serving covers deployment and monitoring. A crucial characteristic highlighted in the sources is that the ML workflow is iterative, not linear, allowing for continuous adjustments and improvements throughout the process, for example, returning to data preparation if monitoring reveals issues.

Answer 113

B AutoML on Google Cloud enables no-code ML model development through a UI, allowing users to focus on business problems rather than code or infrastructure.

Answer 114

B, C y D Google’s Responsible AI principles include building AI systems that are safe, fair, and accountable. Replacing human decision-making is not a principle.

Answer 115

C BigQuery ML lets you build and train ML models directly within BigQuery using SQL, ideal for users familiar with SQL and working with tabular data.

Answer 116

A, B y C BigQuery ML supports models such as linear and logistic regression, k-means clustering, and others, but not SVMs.

Answer 117

C TPUs are specialized hardware developed by Google for high-efficiency acceleration of ML workloads, especially deep learning.

Answer 118

B BigQuery ML enables users to create and execute machine learning models in BigQuery using standard SQL queries, making it ideal for those who prefer a no-code or low-code approach

Answer 119

A Vertex AI Pipelines orchestrates ML workflows, automates processes, and supports monitoring and governance, making it the preferred tool for MLOps on Google Cloud

Answer 120

A, B y D Precision and recall are standard metrics for classification problems, measuring the correctness of positive predictions and the ability to identify all positives, respectively. ROC AUC evaluates the trade-off between true positive and false positive rates. Mean Squared Error is used for regression, not classification

Answer 121

C Google’s Responsible AI principles include being socially beneficial, avoiding unfair bias, and accountability. Maximizing profit is not a listed principle

Answer 122

C AutoML provides a no-code solution to build custom ML models using a graphical interface, making it suitable for users with limited coding experience Esta es la opción correcta porque está diseñada específicamente para usuarios con poca o ninguna experiencia en programación que quieren crear modelos personalizados de alta calidad. 👩‍💻 Para datos tabulares, usarías AutoML Tables. El proceso es muy sencillo: Subes tu conjunto de datos (por ejemplo, un archivo CSV). Seleccionas la columna que quieres predecir. Haces clic en "Entrenar". AutoML se encarga de todo lo demás automáticamente: ingeniería de características, selección del mejor tipo de modelo, ajuste de hiperparámetros y evaluación. Es la forma más rápida y sencilla de crear un modelo personalizado sin necesidad de escribir código. ❌ Opciones Incorrectas A. APIs Pre-entrenadas (Pre-trained APIs): Estas APIs usan modelos ya entrenados por Google para tareas genéricas (como analizar texto o imágenes). No te permiten crear un modelo personalizado con tus propios datos tabulares. B. BigQuery ML: Es una muy buena opción "low-code" (de bajo código), pero requiere que escribas consultas en SQL para entrenar el modelo. Para alguien con experiencia mínima en código, la interfaz gráfica de AutoML es aún más sencilla. D. Entrenamiento personalizado en Vertex AI Workbench (Custom Training): Esta opción es para expertos. Requiere que escribas tu propio código de modelo desde cero usando lenguajes como Python y librerías como TensorFlow o PyTorch. Es lo opuesto a tener una experiencia mínima en programación.

Answer 123

B The Google Cloud AI and ML platform is designed to support the entire machine learning workflow, from data preparation to model deployment, providing tools like Vertex AI, AutoML, and BigQuery ML.

Answer 124

C Google's seven principles of responsible AI include social benefit, avoiding bias, safety, accountability, privacy, scientific excellence, and appropriate use. Maximizing profit is not explicitly mentioned as a principle.

Answer 125

B Generative AI refers to models that generate new content, such as text, images, or music, by learning patterns from existing data. It is a subset of AI focused on content creation.

Answer 126

B AutoML is a suite of machine learning products on Google Cloud that enables users to build custom models without writing code, leveraging technologies like transfer learning and neural architecture search.

Answer 127

B Vertex AI organiza el flujo de trabajo de aprendizaje automático en un ciclo de vida completo y gestionado. Las tres etapas principales de este ciclo son las que mejor describen el proceso de principio a fin dentro de la plataforma. b) Preparación de datos, desarrollo del modelo y servicio del modelo. (✅ Opción Correcta) Esta es la respuesta correcta porque representa las tres fases lógicas y de alto nivel del ciclo de vida de MLOps en Vertex AI: Preparación de datos (Data preparation): Esta es la primera etapa fundamental. Incluye todo lo necesario para que tus datos estén listos para el entrenamiento, como la ingesta, limpieza, preprocesamiento e ingeniería de características. Herramientas de Vertex AI como Feature Store y la integración con BigQuery y Dataflow son clave aquí. Desarrollo del modelo (Model development): Una vez que los datos están listos, esta es la fase central donde se crea el modelo. Abarca la experimentación, el entrenamiento del modelo, la evaluación de su rendimiento y el ajuste de hiperparámetros para optimizarlo. Aquí es donde usas Vertex AI Training y Experiments. Servicio del modelo (Model serving): Después de entrenar y validar un modelo, el objetivo final es ponerlo en producción. Esta etapa incluye el despliegue del modelo en un endpoint para que pueda recibir datos y devolver predicciones en tiempo real o por lotes. También implica el monitoreo continuo del modelo para asegurar su rendimiento. Estas tres etapas cubren todo el viaje, desde los datos brutos hasta un modelo productivo y supervisado. 👍 ¿Por qué las otras opciones son incorrectas? Las otras opciones son incorrectas porque listan sub-tareas específicas que pertenecen a las etapas principales, en lugar de describir las etapas completas. a) Recopilación de datos, entrenamiento del modelo, despliegue del modelo. Esta opción es incorrecta porque la "recopilación de datos" suele ser un paso previo al flujo de trabajo en Vertex AI. La plataforma generalmente asume que los datos ya han sido recopilados y están en un lugar como Google Cloud Storage o BigQuery. "Preparación de datos" es un término más preciso para la primera etapa dentro de la plataforma. c) Ingeniería de características, evaluación del modelo, monitoreo del modelo. Esta opción es demasiado granular. La "ingeniería de características" es parte de la preparación de datos. La "evaluación del modelo" es parte del desarrollo del modelo. Y el "monitoreo" es parte del servicio del modelo. Son componentes, no las etapas principales. d) Ingesta de datos, ajuste del modelo, escalado del modelo. Al igual que la opción c), esta lista describe actividades específicas. La "ingesta de datos" es parte de la preparación de datos, el "ajuste del modelo" es parte del desarrollo, y el "escalado" es una consideración técnica del servicio del modelo.

Answer 128

A y D ✅ A) Almacenar datos tabulares en BigQuery. Esta es una práctica fundamental en el ecosistema de Google Cloud. ¿Por qué?: BigQuery es el almacén de datos (data warehouse) sin servidor de Google, altamente optimizado para datos estructurados y tabulares. Vertex AI tiene una integración nativa y de alto rendimiento con BigQuery. Esto te permite crear conjuntos de datos de Vertex AI directamente desde tablas de BigQuery, entrenar modelos con AutoML o código personalizado, y servir predicciones de manera extremadamente eficiente. Es la opción preferida para cualquier dato con formato de tabla. 📊 ✅ D) Evitar almacenar datos en almacenamiento en bloque (block storage). Esta también es una práctica recomendada para los conjuntos de datos principales de Machine Learning. ¿Por qué?: El almacenamiento en bloque (como los Persistent Disks de Compute Engine) funciona como un disco duro virtual conectado a una sola máquina. No es ideal para ML porque: No es fácilmente accesible por múltiples nodos de entrenamiento en paralelo. No es escalable ni rentable para grandes volúmenes de datos. El servicio recomendado para almacenar los datos de entrenamiento es el almacenamiento de objetos (object storage), es decir, Cloud Storage (GCS). GCS es escalable, económico y está diseñado para ser accedido masivamente en paralelo por los trabajos de entrenamiento distribuido de Vertex AI. ☁️ ❌ B) Almacenar datos de imagen, video, audio y no estructurados en almacenamiento en bloque. Esta opción es incorrecta precisamente por la razón explicada en el punto D. ¿Por qué?: El lugar correcto para almacenar grandes archivos binarios y datos no estructurados como imágenes, videos o audios es Cloud Storage (GCS), que es un servicio de almacenamiento de objetos. Usar almacenamiento en bloque sería ineficiente, caro y crearía cuellos de botella durante el entrenamiento. ❌ C) Usar Vertex AI Feature Store con datos no estructurados. Esta opción es incorrecta porque malinterpreta el propósito de un Feature Store. ¿Qué es un Feature Store?: Es un repositorio para almacenar, servir y gestionar características (features) de Machine Learning, que son datos procesados y estructurados, listos para ser consumidos por un modelo. ¿Por qué es incorrecto?: No almacenas datos brutos y no estructurados (como un archivo de imagen JPG) en un Feature Store. Lo que haces es procesar esa imagen para extraer características (por ejemplo, un vector de incrustación o embedding generado por una red neuronal) y son esas características (el vector) las que almacenas en el Feature Store. El Feature Store trabaja con los resultados del procesamiento, no con los datos crudos.

Answer 129

B For "large datasets, distributed training, or scheduled training, use the Vertex training service". The Vertex Training service is also recommended "to productionize training even on small datasets if the training is carried out on a schedule or in response to the arrival of additional data". For small datasets, training within Workbench Notebooks may be sufficient

Answer 130

A, B y D ✅ Opción A: Correcta Implementar la detección de skew (desviación) proporcionando una referencia a los datos de entrenamiento originales del modelo. Explicación: Esta es una de las prácticas más importantes en el monitoreo de modelos. ¿Qué es el Skew? El training-serving skew (desviación entre entrenamiento y producción) ocurre cuando los datos que tu modelo recibe en producción son estadísticamente diferentes de los datos con los que fue entrenado. Por ejemplo, si entrenaste un modelo para predecir precios de casas con datos de 2020, pero ahora en 2025 lo usas con datos de un mercado inmobiliario completamente diferente. ¿Por qué es importante? Un modelo funciona bien cuando los datos que ve son similares a los que "estudió". Si los datos de producción se desvían mucho de los de entrenamiento, el rendimiento del modelo inevitablemente se degradará. Vertex AI te permite especificar tu dataset de entrenamiento como línea base para que pueda comparar continuamente los datos nuevos con los originales y alertarte si detecta diferencias significativas. ✅ Opción B: Correcta Si el acceso a los datos de entrenamiento originales no está disponible, habilitar la detección de drift (deriva) para rastrear cómo cambian las entradas a lo largo del tiempo. Explicación: Esta es una alternativa excelente cuando la opción A no es posible. ¿Qué es el Drift? El data drift (deriva de datos) se refiere al cambio en las propiedades estadísticas de los datos de entrada a lo largo del tiempo. En lugar de comparar los datos actuales con los de entrenamiento, se comparan los datos recientes (p. ej., de la última hora) con los de un período anterior (p. ej., del día anterior). ¿Por qué es útil? A veces, no tienes acceso a los datos de entrenamiento originales por razones de privacidad, tamaño o porque simplemente se perdieron. La detección de drift te permite identificar si las características de tus datos de entrada están cambiando con el tiempo, lo cual es una causa muy común de la degradación del rendimiento. Vertex AI permite configurar trabajos de monitoreo para detectar drift sin necesidad de los datos de entrenamiento, ofreciendo una forma flexible de mantener la salud del modelo. ✅ Opción D: Correcta Ajustar los umbrales de alerta para las métricas de monitoreo basándose en el caso de uso específico, la experiencia del usuario en el dominio y las métricas iniciales de monitoreo del modelo. Explicación: El monitoreo no es una solución "talla única"; necesita personalización. ¿Qué son los umbrales? Son los límites que tú defines. Si la desviación (skew o drift) de una característica supera este límite, Vertex AI genera una alerta. ¿Por qué ajustarlos? Los umbrales por defecto pueden ser demasiado sensibles (generando falsas alarmas) o muy poco sensibles (no detectando problemas reales). Un experto en el dominio (p. ej., un analista financiero para un modelo de fraude) sabe qué nivel de cambio es normal y cuál es preocupante. Por ejemplo, una pequeña variación en la edad promedio de los usuarios puede ser normal, pero un cambio drástico en la distribución de países podría ser una señal de un ataque o un problema en la recolección de datos. Vertex AI te da control total para configurar estos umbrales por cada característica, lo que hace que las alertas sean mucho más significativas y procesables. ❌ Opción C: Incorrecta Ignorar los cambios en las propiedades estadísticas de las entradas a lo largo del tiempo, ya que rara vez tienen un impacto significativo en la precisión de la predicción. Explicación: Esta afirmación es fundamentalmente errónea y va en contra de todo el propósito del monitoreo de modelos. La premisa central del Machine Learning es que un modelo aprenderá patrones de los datos de entrenamiento y los aplicará a datos nuevos que sigan una distribución similar. Cuando las propiedades estadísticas de los datos de entrada cambian (es decir, cuando hay skew o drift), esta premisa se rompe. Ignorar estos cambios es la receta perfecta para que un modelo falle silenciosamente en producción, tomando decisiones incorrectas y causando un impacto negativo en el negocio. El objetivo del monitoreo es precisamente detectar estos cambios para poder actuar (p. ej., reentrenando el modelo).

Answer 131

A y C A pipeline is characterized by being "composed of modular pieces, components" and offering "automation and orchestration". A primary benefit is that "Pipelines automate the training and deployment of models". Visualizing experiment metrics (loss, accuracy) is a function of Vertex AI TensorBoard, not Vertex AI Pipelines.

Answer 132

B "Artifact lineage describes all the factors that resulted in an artifact," including "The training, test, and evaluation data used to create the model," "The hyperparameters used during model training," and "The code that was used to train the model". By using artifact lineage, you can "understand differences in performance or accuracy over several pipeline runs". Storing data in block storage is generally advised against. Using a Git repository for pipeline definitions and training code is a best practice for version control. Vertex AI TensorBoard is used for visualizing experiment metrics and graphs, not for tracking all model artifacts and their comprehensive lineage.

Answer 133

B BigQuery is recommended for storing and processing structured tabular data to ensure scalability and integration with Vertex AI workflows.

Answer 134

A, B y D ✅ Prácticas Recomendadas (Respuestas Correctas) A) Habilitar el escalado automático (Enable automatic scaling) Esta es una buena práctica fundamental por eficiencia y fiabilidad. Los modelos de machine learning en producción a menudo reciben una cantidad de tráfico muy variable. ¿Por qué es bueno? El escalado automático permite a Vertex AI ajustar dinámicamente los recursos (las máquinas o "nodos" que ejecutan tu modelo) según la demanda en tiempo real. Si hay poco tráfico, reduce el número de nodos para que no pagues por recursos que no estás usando. Si hay un pico de tráfico, añade más nodos automáticamente para que tu servicio no se sature y siga respondiendo rápido a los usuarios. Analogía: Es como un supermercado que abre más cajas cuando hay mucha gente en la cola y cierra algunas cuando la tienda está vacía. Es la forma más inteligente y económica de gestionar los recursos. B) Especificar los requisitos de rendimiento (Specify performance requirements) Esto es crucial para que Vertex AI sepa qué tipo de servicio esperas ofrecer. No es lo mismo un modelo interno que se usa una vez por hora que una aplicación de cara al cliente que recibe miles de peticiones por segundo. ¿Por qué es bueno? Al desplegar el modelo, puedes indicar métricas como la latencia máxima que estás dispuesto a tolerar (el tiempo de respuesta) o el número de consultas por segundo (QPS) que esperas. El resultado: Basándose en estos requisitos, Vertex AI puede tomar decisiones informadas sobre qué tipo de máquina (CPU, memoria) y cuántas réplicas iniciales desplegar para cumplir tus objetivos desde el principio, optimizando la relación entre coste y rendimiento. D) Planificar las entradas al modelo (Plan inputs to the model) Un modelo de ML es muy estricto con el formato de los datos que recibe. Espera los datos exactamente de la misma forma en que fue entrenado. ¿Por qué es bueno? La planificación de las entradas implica asegurarse de que cualquier dato que envíes al modelo para una predicción (por ejemplo, una imagen subida por un usuario o un texto) se preprocese para que coincida con el formato que el modelo espera (tamaño, tipo de dato, normalización, etc.). Sin esto, el modelo fallará. Por ejemplo, si un modelo de visión artificial fue entrenado con imágenes de 224x224 píxeles en blanco y negro, y le envías una imagen en color de 1080x720, te dará un error. Planificar las entradas es garantizar que esta transformación se haga siempre antes de llamar al modelo. ❌ Práctica No Recomendada (Respuesta Incorrecta) C) Usar siempre GPUs para el despliegue (Always use GPUs for deployment) La palabra clave aquí es "siempre", y en tecnología, las soluciones universales casi nunca son la mejor opción. ¿Por qué es malo? Las GPUs (Unidades de Procesamiento Gráfico) son aceleradores muy potentes, ideales para cálculos paralelos masivos. Son fantásticas para entrenar modelos grandes y para la inferencia (predicción) de modelos muy complejos, como los de visión artificial o grandes modelos de lenguaje. Sin embargo, son significativamente más caras que las CPUs. La realidad: Muchos modelos de ML (como regresiones logísticas, árboles de decisión, XGBoost, o redes neuronales pequeñas) funcionan de manera muy eficiente y con una latencia muy baja en CPUs, que son mucho más baratas. Forzar el uso de una GPU para estos modelos sería un desperdicio de dinero 💸. La verdadera buena práctica: Es elegir el hardware (CPU o un tipo específico de GPU/TPU) que mejor se adapte a las necesidades de tu modelo específico y a tus objetivos de latencia y coste. Se trata de optimizar, no de usar siempre lo más potente.

Answer 135

C Feature Store centralizes feature storage, allowing reusability across models and simplifying version control and consistency.

Answer 136

A y B WIT and LIT are specialized tools within Notebooks for understanding model behavior. TensorBoard is used more for visualization of training metrics, and Dataflow is for data processing.

Answer 137

C Vertex AI Pipelines helps streamline the ML lifecycle by connecting modular components for data prep, training, evaluation, and deployment.

Answer 138

B ¿Por qué la B es la "buena"? En el desarrollo moderno de Machine Learning (MLOps), la eficiencia y la reutilización son claves. Vertex AI Feature Store actúa como un repositorio centralizado de características (features) que ya han sido procesadas, limpiadas y validadas por otros equipos o ingenieros de datos. Evitar la duplicidad: El primer paso lógico siempre debe ser "mirar la despensa antes de ir al supermercado". Si otro equipo ya creó una característica (por ejemplo, "promedio de gasto mensual del usuario") y la guardó en el Feature Store, no tiene sentido que tú escribas código para calcularla de nuevo desde cero. Consistencia: Usar características existentes garantiza que todos los modelos usen la misma definición de los datos, evitando el sesgo entre entrenamiento y predicción (training-serving skew). Velocidad: Te permite empezar a entrenar mucho más rápido porque te saltas la ingeniería de datos inicial. En resumen: La regla de oro es reutilizar antes de crear. Por eso, verificar el inventario (Feature Store) es siempre el paso número uno. ¿Por qué las demás son las "malas"? Las otras opciones no son necesariamente "erróneas" en todo el proceso, pero no son el primer paso: A. Create a new feature using your Cloud Storage bucket (Crear una nueva característica usando tu bucket de Cloud Storage): Esto es lo que haces solo si el paso B falla (es decir, si buscaste en el Feature Store y no encontraste lo que necesitabas). Si empiezas por aquí, corres el riesgo de crear una característica duplicada que ya existía, desperdiciando tiempo y recursos. C. Fetch raw data from your data lake (Obtener datos sin procesar de tu lago de datos): Al igual que la opción A, esto es un paso posterior. Ir al data lake implica que vas a tener que limpiar y procesar los datos tú mismo. Solo debes hacer esto si confirmas que nadie más lo ha hecho antes y que la característica no está disponible en el Feature Store. D. Join feature values and new feature values (Unir valores de características y nuevos valores): Esta es una operación técnica de manipulación de datos que ocurre mucho más adelante. No puedes unir (hacer un join de) valores si primero no has identificado qué características existen o cuáles necesitas crear.

Answer 139

C It is recommended to create a separate notebook instance for each team member to facilitate individual development, experimentation, and collaboration.

Answer 140

C TensorBoard es la herramienta de visualización diseñada específicamente para el machine learning. Vertex AI, la plataforma de MLOps de Google Cloud, se integra de forma nativa con una versión gestionada llamada Vertex AI TensorBoard. Propósito específico: Su función principal es rastrear y visualizar las métricas y los resultados de los experimentos de machine learning. Esto incluye visualizar métricas como la pérdida (loss) o la precisión (accuracy) a lo largo del tiempo, comparar el rendimiento de diferentes ejecuciones de un modelo, ver histogramas de pesos y sesgos, y analizar gráficos de modelos. Integración nativa: Cuando ejecutas trabajos de entrenamiento o pipelines en Vertex AI, puedes configurarlos para que envíen sus métricas directamente a una instancia de Vertex AI TensorBoard. Esto te da un lugar centralizado y persistente para analizar y comparar todos tus experimentos sin esfuerzo adicional. En resumen, TensorBoard es la herramienta estándar y más adecuada para esta tarea dentro del ecosistema de Vertex AI. Las respuestas incorrectas y por qué lo son: A. BigQuery BigQuery es un almacén de datos (data warehouse) sin servidor. Su función es almacenar y analizar grandes volúmenes de datos mediante consultas SQL. Aunque teóricamente podrías enviar los logs de tus métricas a una tabla de BigQuery y luego usar otra herramienta (como Looker Studio) para visualizarlos, este no es su propósito principal. Sería un proceso manual y mucho menos eficiente que usar TensorBoard, que está diseñado para esta tarea. B. Dataflow Dataflow es un servicio para procesar datos en streaming o por lotes (ETL). Se utiliza para transformar y mover datos, no para visualizarlos. Puedes usarlo en una fase previa para preparar los datos antes del entrenamiento, pero no tiene ninguna funcionalidad para visualizar las métricas de un experimento de machine learning. Es la herramienta equivocada para este trabajo. D. Workbench Notebooks Workbench Notebooks es el entorno de JupyterLab gestionado de Vertex AI. Dentro de un notebook, puedes escribir código para entrenar modelos y, por supuesto, usar librerías como Matplotlib o Seaborn para crear gráficos y visualizaciones. Sin embargo, esto tiene dos limitaciones: Es para análisis ad-hoc: Las visualizaciones viven dentro de esa sesión del notebook. No es una solución centralizada ni persistente para comparar múltiples experimentos que se ejecutan de forma independiente (por ejemplo, como trabajos programados). No es la herramienta final: A menudo, el código que escribes en un notebook es el que envía las métricas a TensorBoard para una visualización y seguimiento más robustos. Por lo tanto, aunque puedes visualizar en un notebook, la herramienta principal de Vertex AI para visualizar y comparar experimentos es TensorBoard.

Answer 141

B BigQuery is recommended for processing and transforming tabular data due to its powerful SQL capabilities and integration with BigQuery ML for machine learning tasks.

Answer 142

B Skew detection is a crucial best practice in model monitoring to ensure that the model's performance remains consistent and to detect any deviations that might affect prediction accuracy.

Answer 143

D ¿Por qué la opción D es la correcta? D. BigQuery for tabular data and TensorFlow Extended for TensorFlow-based models. (BigQuery para datos tabulares y TensorFlow Extended para modelos basados en TensorFlow). Esta opción propone usar cada herramienta para lo que está específicamente diseñada, creando un flujo de trabajo (pipeline) de Machine Learning eficiente y robusto. BigQuery para datos tabulares 🧠: Fortaleza principal: BigQuery es un almacén de datos (data warehouse) masivamente escalable, optimizado para consultas SQL sobre datos estructurados (tabulares). Uso ideal: Es perfecto para las primeras etapas del preprocesamiento: filtrar datos, unir tablas, realizar agregaciones, y hacer transformaciones iniciales que se pueden expresar fácilmente en SQL. Puedes manejar terabytes de datos de forma muy rápida y rentable directamente donde residen. TensorFlow Extended (TFX) para modelos de TensorFlow ⚙️: Fortaleza principal: TFX es un ecosistema diseñado para crear pipelines de ML de producción con TensorFlow. Su componente Transform es crucial para el preprocesamiento. Uso ideal: Se encarga de las transformaciones que son específicas del modelo y que deben ser consistentes entre el entrenamiento y la inferencia (cuando el modelo hace predicciones). Por ejemplo: Normalización: Escalar valores numéricos (ej. a un rango de 0 a 1). Creación de vocabularios: Convertir texto a identificadores numéricos. One-hot encoding: Convertir variables categóricas. Ventaja clave: TFX evita un problema muy común llamado sesgo de entrenamiento-servicio (training-serving skew). Esto ocurre cuando los datos se procesan de manera diferente durante el entrenamiento y durante la predicción, lo que degrada el rendimiento del modelo. TFX genera un grafo de preprocesamiento que se guarda y se reutiliza de forma idéntica en ambas fases, garantizando la consistencia. En resumen, la opción D propone un flujo lógico: primero, usa el poder de BigQuery para el trabajo pesado de preparación de datos a gran escala, y luego, usa TFX para el preprocesamiento fino y específico del modelo, asegurando que sea replicable y robusto. ¿Por qué las otras opciones son incorrectas? ❌ A. Dataflow para datos tabulares y BigQuery para datos no estructurados. Esta opción invierte los roles de las herramientas. BigQuery no está diseñado para datos no estructurados (como imágenes o audio). Su fuerte son los datos tabulares. Por otro lado, aunque Dataflow puede procesar datos tabulares, es mucho menos eficiente que BigQuery para realizar operaciones tipo SQL. Dataflow brilla más en el procesamiento de flujos de datos (streaming) o transformaciones complejas que no se pueden hacer con SQL. ❌ B. Solo Dataflow para todas las tareas de preprocesamiento. Esto sería ineficiente y costoso. Implicaría extraer todos los datos de BigQuery (que ya es un motor de procesamiento potentísimo) para procesarlos en Dataflow. Se estarían ignorando las capacidades de BigQuery para realizar el filtrado y las agregaciones iniciales de manera mucho más rápida y barata. ❌ C. Solo BigQuery para todas las tareas de preprocesamiento. Esta opción es tentadora pero incompleta y arriesgada. Se pueden hacer muchas transformaciones en BigQuery, pero es muy difícil gestionar las transformaciones que dependen de estadísticas calculadas sobre los datos de entrenamiento (como la media y la desviación estándar para la normalización). Intentar aplicar estas mismas estadísticas de forma consistente a los nuevos datos en el momento de la predicción solo con SQL es complejo y una fuente común del sesgo de entrenamiento-servicio. TFX está diseñado específicamente para solucionar este problema.

Answer 144

B La respuesta correcta: B. Drift (Deriva) El Drift (también conocido como deriva de datos o deriva del modelo) es exactamente el fenómeno descrito: las propiedades estadísticas de los datos que el modelo recibe en producción cambian con el tiempo y ya no coinciden con las de los datos con los que fue entrenado. Analogía: Imagina que entrenas un modelo para predecir la venta de abrigos basándote en datos de los últimos 5 años. De repente, llega un invierno inusualmente cálido. Los datos de entrada (temperaturas) han "derivado" de lo que el modelo considera normal, y sus predicciones sobre la venta de abrigos serán mucho menos precisas. Las "reglas del juego" han cambiado. 📈📉 Impacto: El Drift es una de las principales razones por las que el rendimiento de los modelos de machine learning se degrada en producción y por lo que es crucial monitorizarlos y reentrenarlos periódicamente. Por qué las otras opciones son incorrectas A. Overfitting (Sobreajuste) El Overfitting es un problema que ocurre durante el entrenamiento del modelo. Sucede cuando el modelo aprende "demasiado bien" los datos de entrenamiento, incluyendo el ruido y las casualidades, en lugar de las tendencias generales. Como resultado, funciona muy bien con los datos que ya ha visto, pero es incapaz de generalizar y falla con datos nuevos. No describe un cambio en los datos a lo largo del tiempo. C. Underfitting (Subajuste) El Underfitting también es un problema de entrenamiento. Es lo opuesto al overfitting: el modelo es demasiado simple y no logra capturar ni siquiera las tendencias básicas de los datos de entrenamiento. Funciona mal tanto con los datos de entrenamiento como con datos nuevos. D. Skew (Sesgo o Asimetría) El Skew describe la forma de la distribución de los datos. Por ejemplo, "feature skew" significa que la distribución de una característica no es simétrica. Aunque existe un concepto relacionado llamado "training-serving skew" (cuando los datos en producción son inherentemente diferentes a los de entrenamiento), el término Drift es el que se usa específicamente para describir el proceso de cambio a lo largo del tiempo. El "skew" es una foto fija de la distribución; el "drift" es la película de cómo esa distribución cambia.

Answer 145

D Messy" or "untidy" data refers to issues like missing attribute values, noise, outliers, duplicates, wrong data formats, or unsuited categorical data. Transforming categorical features into numerical one-hot encodings is a method used to improve data quality, making it ready for machine learning algorithms, rather than being an issue itself

Answer 146

B In supervised learning, if the label (the characteristic you want to predict) is a discrete quantity with a finite number of values or classes, it is a classification problem. Since "fraudulent" or "not fraudulent" are distinct, separate categories, this is a classification task. Regression problems, in contrast, aim to predict continuous values. While you could build a regression model to predict the number of fraudulent transactions or their amounts, the task of determining whether a specific transaction falls into one of two distinct categories is classification.

Answer 147

B y D The learning rate is a hyperparameter that determines the step size in gradient descent. If the learning rate is too large, the algorithm might "overshoot" the minimum, bouncing from wall to wall or even entirely out of the optimal "valley" on the loss surface. This means the process is not guaranteed to converge to the true minimum. While a higher learning rate might show a rapid initial drop in loss, it doesn't guarantee faster convergence to the global minimum or improved generalization.

Answer 148

C ✅ Razón 1: Por qué la (C) es la correcta (C) To accurately assess the model's ability to generalize to new, unseen data and identify overfitting. (Para evaluar con precisión la capacidad del modelo para generalizar a datos nuevos y no vistos e identificar el sobreajuste). Esta opción es la correcta porque define perfectamente el problema central del machine learning: la generalización. El objetivo de un modelo no es funcionar bien con los datos que ya ha visto, sino predecir correctamente datos futuros que nunca ha visto. Para entender esto, piensa en la analogía de un estudiante: Datos de Entrenamiento (Training): Es el libro de texto y los ejercicios que el estudiante usa para aprender la materia. Datos de Validación (Validation): Son los exámenes de práctica o simulacros. El estudiante los usa para ver qué tan bien está aprendiendo realmente y para ajustar su método de estudio (por ejemplo, "necesito repasar más este tema"). Datos de Prueba (Test): Es el examen final. Es la primera vez que el estudiante ve estas preguntas y su nota en este examen es la medida real de cuánto sabe. Ahora, veamos los dos conceptos clave de la respuesta (C): Generalizar (Generalize): Si el estudiante solo memoriza las respuestas del libro (entrenamiento), sacará un 10 en los ejercicios. Pero si en el examen final (prueba) le cambian un poco los números o las preguntas, fallará estrepitosamente. No ha generalizado el conocimiento. Identificar el Sobreajuste (Identify Overfitting): El "sobreajuste" es exactamente eso: memorizar en lugar de aprender. ¿Cómo lo detectamos? Usando el set de validación. Si el "estudiante" (modelo) saca un 100% en los datos de entrenamiento (el libro) pero un 50% en los de validación (examen de práctica), sabemos que está memorizando. Ha ocurrido un sobreajuste. La división del dataset nos permite simular este escenario: entrenamos con unos datos, comprobamos si hay sobreajuste con otros (validación) y, al final, damos una nota honesta e imparcial al modelo usando datos que jamás ha usado para entrenar o ajustar (prueba). ❌ Razón 2: Por qué las otras son incorrectas A) To ensure the model learns complex patterns from all available data simultaneously. (Para asegurar que el modelo aprende patrones complejos de todos los datos disponibles simultáneamente). Incorrecta porque: Esto es lo opuesto a lo que hacemos. Si el modelo usara "todos los datos disponibles simultáneamente" para aprender, no tendríamos forma de comprobar si ha memorizado o si puede generalizar. Sería como darle a un estudiante el examen final mientras estudia el libro de texto. Su nota sería perfecta, pero no nos diría nada sobre su conocimiento real. B) To prevent underfitting by making sure the model is exposed to a diverse range of examples during training. (Para prevenir el subajuste (underfitting) asegurando que el modelo se expone a una gama diversa de ejemplos durante el entrenamiento). Incorrecta porque: El subajuste (underfitting) ocurre cuando el modelo es demasiado simple y ni siquiera puede aprender los patrones de los datos de entrenamiento (sería un estudiante que ni siquiera entiende el libro de texto). Si bien tener datos diversos es bueno, la división del dataset no previene el subajuste. De hecho, si divides tus datos y dejas un set de entrenamiento demasiado pequeño, podrías causar subajuste. La división se hace principalmente para combatir el sobreajuste. D) To reduce the computational cost of model training by using smaller subsets of data. (Para reducir el coste computacional del entrenamiento usando subconjuntos más pequeños de datos). Incorrecta porque: Este es un efecto secundario, no la razón principal. Es cierto que entrenar con el 80% de los datos (el set de entrenamiento) es más rápido que entrenar con el 100%. Sin embargo, el objetivo no es ahorrar tiempo de cómputo, sino obtener una evaluación fiable. Si el objetivo fuera solo ahorrar tiempo, simplemente tomaríamos una muestra aleatoria pequeña y ya está. La división en tres sets (entrenamiento, validación y prueba) tiene un propósito metodológico estricto para asegurar la calidad del modelo.

Answer 149

B, C y D BQML is a powerful tool that allows users to create and train machine learning models directly within BigQuery using familiar SQL commands, thus eliminating the need to export data. This significantly speeds up development and time to production. It supports a variety of model types for both classification (e.g., Logistic Regression, DNN Classifier, XGBoost Classifier) and regression (e.g., Linear Regression, DNN Regressor, XGBoost Regressor), as well as other models like K-means clustering and matrix factorization for recommendations. Furthermore, BQML automates common ML tasks, including data preprocessing and hyperparameter tuning.

Answer 150

C Esta es la técnica estándar y más común para tratar con valores faltantes en datos de tipo categórico. ¿Por qué la C es la correcta? La moda es simplemente el valor que aparece con más frecuencia en una columna. Los datos categóricos son etiquetas o nombres (por ejemplo, colores como "rojo", "azul"; o países como "España", "Francia"). Lógica: La imputación por la moda rellena los huecos con el valor más común. La idea es que, si un dato falta, lo más probable es que sea igual a la categoría más frecuente. Es una solución sencilla, rápida y lógica. 🧠 Por ejemplo, si en una columna de "país" la mayoría de tus clientes son de "España", rellenarías los campos de país vacíos con "España". ¿Por qué las otras son incorrectas? A) Reemplazarlos con la media: Esto es para datos numéricos. No se puede calcular la media (el promedio) de palabras. ¿Cuál es el promedio de "rojo" y "azul"? No tiene sentido matemático. B) Usar interpolación lineal: Esto también es para datos numéricos, normalmente en series de tiempo. Sirve para estimar un valor entre otros dos puntos conocidos (por ejemplo, la temperatura a las 14:00 si conoces la de las 13:00 y las 15:00). No se puede "interpolar" un valor entre "perro" y "gato". D) Eliminar todas las filas con valores faltantes: Esta es una medida drástica y generalmente una mala idea. Si eliminas cada fila a la que le falte un solo dato, podrías perder una enorme cantidad de información valiosa. Es como tirar a la basura todo el historial de un cliente solo porque no se registró su país de origen. 🗑️

Answer 151

A, C y D EDA helps to maximize insights, detect outliers, and uncover important variables, often through visualization techniques. While EDA can contribute indirectly to accuracy, its direct goal is not performance tuning.

Answer 152

C ¿Por qué se utiliza el One-Hot Encoding? 📊 La mayoría de los algoritmos de machine learning no pueden trabajar directamente con datos de texto (categóricos); necesitan que toda la información de entrada sea numérica. El one-hot encoding es una técnica fundamental para lograr esta conversión. Su función es tomar una columna con variables categóricas (ej. "color" con valores como 'Rojo', 'Verde', 'Azul') y transformarla en múltiples columnas nuevas, una por cada categoría única. Cada nueva columna es binaria (contiene solo 0s o 1s), actuando como un interruptor de "encendido/apagado". Ejemplo simple: Si tienes una columna Ciudad: Madrid París Londres El one-hot encoding la convierte en tres columnas: | Ciudad_Madrid | Ciudad_París | Ciudad_Londres | |:---:|:---:|:---:| | 1 | 0 | 0 | | 0 | 1 | 0 | | 0 | 0 | 1 | Este método es crucial porque permite al modelo entender las categorías sin crear una relación de orden falsa entre ellas (por ejemplo, que París (2) es "mayor" que Madrid (1)). ¿Por qué las otras opciones son incorrectas? ❌ A) Para normalizar variables continuas: La normalización (escalar valores a un rango, como de 0 a 1) se aplica a variables numéricas continuas (como edad, precio o temperatura), no a categorías. B) Para eliminar valores atípicos (outliers): La eliminación de outliers es una tarea de limpieza de datos. El one-hot encoding es una tarea de ingeniería de características (feature engineering). Son pasos diferentes en el proceso de preparación de datos. D) Para reducir la dimensionalidad: El one-hot encoding hace exactamente lo contrario: aumenta la dimensionalidad. Convierte una sola columna en múltiples columnas nuevas, lo que incrementa el número total de características en el conjunto de datos.

Answer 153

C 🟢 Por qué la C es la correcta Para identificar el tipo de modelo, debes responder dos preguntas clave: ¿Cuál es el objetivo? ¿Predecir una categoría o un número? Tu objetivo es predecir si la transacción es "fraudulenta" o "no fraudulenta". Estas son clases o categorías distintas. Cuando el objetivo es predecir una categoría, el problema es de Clasificación (Classification). ¿Cómo es la "etiqueta" (el dato que quieres predecir)? La "etiqueta" (label) es el valor de salida que esperas. Tus únicas dos salidas posibles son "Fraudulento" o "No Fraudulento". Esto es un conjunto finito de valores discretos. Por lo tanto, es una etiqueta categórica (categorical label). Uniendo ambas respuestas: Estás construyendo un modelo de Clasificación que utiliza una etiqueta categórica. 🔴 Por qué las otras son incorrectas A) Regression, categorical label (Regresión, etiqueta categórica): Incorrecto: La "Regresión" (Regression) se usa para predecir un valor numérico continuo (ej. predecir el precio de una casa, la temperatura de mañana o el importe del fraude). Tu objetivo no es predecir un número, sino una clase (sí/no). Además, "Regresión" y "etiqueta categórica" son términos que se contradicen. B) Regression, continuous label (Regresión, etiqueta continua): Incorrecto: Esta opción describe un problema de regresión puro. Sería la respuesta correcta si la pregunta fuera: "Estás construyendo un modelo para predecir el importe exacto en euros que se perderá en una transacción fraudulenta". Pero ese no es el caso; solo estás prediciendo "sí" o "no". D) Classification, continuous label (Clasificación, etiqueta continua): Incorrecto: Esta opción es una contradicción en sí misma. La "Clasificación" (el tipo de problema) se define por usar "etiquetas categóricas". Una "etiqueta continua" (continuous label) se usa, por definición, en problemas de "Regresión". No puedes tener un problema de clasificación con una etiqueta continua.

Answer 154

A, B y D Improving data quality can involve removing unwanted or irrelevant values, converting data types (e.g., to datetime), and addressing missing values. Creating identical training and test sets is not a valid practice, as it leads to data leakage and poor generalization.

Answer 155

A Mean Absolute Error (MAE) provides the average magnitude of errors between predicted and actual values, making it ideal for regression models. Precision, F1 Score, and Log Loss are generally used for classification tasks.

Answer 156

B This is a classification problem under supervised learning because the correct output (fraudulent or not) is a discrete label and known for each transaction.

Answer 157

A y D El Problema: Datos Perfectamente Separables Para entender por qué la regularización es tan importante en la regresión logística, primero hay que comprender un problema que puede surgir durante su entrenamiento: cuando los datos son perfectamente separables linealmente. Esto ocurre cuando se puede trazar una línea (o un hiperplano en más dimensiones) que separe a la perfección los ejemplos de una clase de los de la otra. Cuando esto sucede, el modelo intenta tener una confianza del 100% en sus predicciones. Para que la función sigmoide devuelva una probabilidad muy cercana a 1 o 0, su entrada (z = w*x + b) debe tender a +∞ o -∞. Para lograr esto, el algoritmo de entrenamiento intentará que los pesos (w) se hagan cada vez más y más grandes, tendiendo al infinito. Esto provoca que el modelo nunca converja a una solución finita. ✅ Por qué A y D son correctas La regularización añade una penalización al tamaño de los pesos, resolviendo este problema de dos maneras que están directamente relacionadas: A. Para evitar que los pesos (weights) tiendan a infinito Esto es el efecto más directo y la razón principal. La regularización añade un término a la función de coste que "castiga" al modelo por tener pesos grandes. El optimizador ahora tiene que encontrar un equilibrio: minimizar el error de clasificación y, al mismo tiempo, mantener los pesos pequeños. Esto fuerza a los pesos a permanecer en valores finitos y razonables, incluso si los datos son perfectamente separables. D. Para evitar la saturación en la salida de la función sigmoide Este es un efecto secundario directo de lo anterior. La "saturación" de la sigmoide ocurre cuando su salida está muy cerca de 0 o 1. En estas zonas "planas", el gradiente es casi cero, lo que detiene o ralentiza enormemente el aprendizaje del modelo. Al evitar que los pesos se disparen al infinito (opción A), la regularización mantiene las entradas de la función sigmoide en una zona más "activa" (la parte inclinada de la curva), evitando la saturación extrema y permitiendo que el entrenamiento continúe de forma efectiva. ❌ Por qué B y C son incorrectas B. Para asegurar que el modelo solo produzca 0 o 1 Esto es conceptualmente incorrecto. Un modelo de regresión logística produce probabilidades, que son valores continuos entre 0 y 1 (por ejemplo, 0.85). La clasificación final como 0 o 1 se obtiene al aplicar un umbral (normalmente 0.5) a esa probabilidad, pero no es la salida directa del modelo. C. Para evitar el problema del gradiente desvaneciente (vanishing gradient) en modelos profundos Este es un problema real, pero pertenece a un contexto diferente: el entrenamiento de redes neuronales profundas (deep learning). No es un problema característico de un modelo simple como la regresión logística.

Answer 158

B Splitting the data ensures the model is trained, tuned, and evaluated on independent samples, which helps prevent overfitting and provides a reliable estimate of real-world performance.

Answer 159

C The slides (pages 284-287) explicitly warn that using RAND() is not repeatable, as it generates a new random number on each run. Ordering by a field can introduce bias. The correct and recommended method for creating repeatable splits in BigQuery is to use a deterministic hash function like FARM_FINGERPRINT on a field that distributes well, and then use the MOD (modulo) operator to partition the data into reproducible buckets.

Answer 160

D ✅ Opción D: La Respuesta Correcta (Overfitting) D. The model is overfitting the data. (El modelo está sobreajustando los datos.) Esta es la descripción perfecta para la situación descrita. El sobreajuste (o overfitting) ocurre cuando un modelo de machine learning aprende "demasiado bien" los datos de entrenamiento, hasta el punto de que memoriza el ruido y los detalles específicos de ese conjunto de datos en lugar de capturar el patrón general. Los síntomas clave del overfitting son exactamente los que se mencionan: Error extremadamente bajo (o cero) en los datos de entrenamiento: Un RMSE (Error Cuadrático Medio) de 0 en el set de entrenamiento significa que el modelo predice esos datos a la perfección. Ha "memorizado" las respuestas. Error mucho más alto en datos nuevos: Un RMSE de 3.2 en datos no vistos (unseen data) indica que el modelo es incapaz de generalizar su conocimiento. Cuando se enfrenta a ejemplos que no ha visto antes, su rendimiento se desploma. Imagina que estudias para un examen memorizando las respuestas exactas de un examen de práctica, en lugar de entender los conceptos. Sacarás un 10 en ese examen de práctica, pero si el examen real tiene preguntas ligeramente diferentes, suspenderás. Eso es el overfitting. El primer modelo, el lineal, con un RMSE de 2.2 en entrenamiento y 2.19 en los datos nuevos, es un ejemplo de un modelo que generaliza bien. ❌ ¿Por Qué las Otras Opciones son Incorrectas? A. El modelo está infraajustando los datos (Underfitting). El infraajuste (underfitting) es el problema opuesto. Ocurre cuando un modelo es demasiado simple para capturar la estructura de los datos. Síntomas: Un modelo infraajustado tendría un error alto tanto en los datos de entrenamiento como en los datos nuevos. Por qué no aplica aquí: Nuestro segundo modelo tiene un error perfecto (0) en los datos de entrenamiento, lo cual es lo contrario al infraajuste. B. El modelo está generalizando bien. Generalizar bien significa que el rendimiento del modelo es consistente entre los datos de entrenamiento y los datos nuevos. Hay una pequeña diferencia entre el error de entrenamiento y el de prueba. Ejemplo de buena generalización: El primer modelo lineal (RMSE de 2.2 en entrenamiento y 2.19 en prueba) es un ejemplo perfecto de esto. Por qué no aplica aquí: Nuestro segundo modelo tiene una diferencia abismal entre el error de entrenamiento (0) y el de prueba (3.2), lo que indica una mala generalización. C. El modelo tiene una alta tasa de aprendizaje (learning rate). La tasa de aprendizaje es un hiperparámetro que controla qué tan grandes son los ajustes que hace el modelo durante el entrenamiento. Qué significa: Es un detalle del proceso de entrenamiento, no una descripción del estado final del modelo (como lo son overfitting/underfitting). Por qué no aplica aquí: Si bien una tasa de aprendizaje mal ajustada puede contribuir a un mal modelo, no es la descripción del problema en sí. El problema observable es el overfitting. Describir el modelo como "con una alta tasa de aprendizaje" es como describir a una persona con fiebre diciendo "tomó una medicina equivocada"; puede que sea la causa, pero el síntoma principal es la fiebre. La descripción más precisa del estado del modelo es el sobreajuste.

Answer 161

B The presentation (pages 241-253) outlines this exact use case. BigQuery ML (BQML) allows users to build, train, and evaluate models directly in BigQuery using SQL syntax, which is perfect for a SQL-savvy analyst. It avoids the complexity of Python frameworks and the need to move large amounts of data. Vertex AI AutoML Tables has a 100 GB limit for datasets (page 247), making it unsuitable for the 150 GB dataset.

Answer 162

C El Dilema: ¿Qué Error es Peor? En este escenario, estamos ante un diagnóstico médico para una enfermedad grave. Hay dos tipos de errores que el modelo puede cometer: Falso Positivo: El modelo identifica a un paciente sano como enfermo. Consecuencia: El paciente se asusta y se somete a más pruebas, pero al final se confirma que está sano. Es un inconveniente, pero no es fatal. Falso Negativo: El modelo identifica a un paciente enfermo como sano. Consecuencia: Es una catástrofe. La persona enferma no recibe tratamiento y la enfermedad progresa. La pregunta establece claramente que la prioridad es "identificar tantos casos positivos reales como sea posible", aceptando que se marquen incorrectamente algunos pacientes sanos. Esto significa que nuestro objetivo principal es minimizar los Falsos Negativos a toda costa. ✔️ Por qué Recall (Sensibilidad) es la métrica correcta Recall (también conocido como Sensibilidad o Tasa de Verdaderos Positivos) responde a la siguiente pregunta: De todas las personas que realmente estaban enfermas, ¿qué porcentaje detectó correctamente el modelo? Fórmula: Recall = Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos) Maximizar el Recall es, por definición, minimizar los Falsos Negativos. Esta métrica está perfectamente alineada con el objetivo de negocio: encontrar a todos los enfermos, aunque eso signifique que la "red" que lanzamos para atraparlos sea tan amplia que también atrape a algunos sanos. ❌ Por qué las otras opciones son incorrectas A. Accuracy (Exactitud): Esta métrica es engañosa para enfermedades raras. Si solo el 0.1% de la población tiene la enfermedad, un modelo inútil que siempre predice "sano" tendría una exactitud del 99.9%, pero no salvaría ninguna vida. No es una métrica útil aquí. B. Precision (Precisión): Esta métrica responde a una pregunta diferente: "De todos los pacientes que el modelo marcó como enfermos, ¿cuántos lo estaban realmente?". La precisión penaliza los Falsos Positivos. Si optimizáramos para la precisión, el modelo se volvería muy cauteloso y solo marcaría los casos más obvios para no equivocarse, lo que haría que se le escaparan muchos casos reales (aumentando los Falsos Negativos). Es lo contrario de lo que se necesita. D. Confusion Matrix (Matriz de Confusión): La matriz de confusión no es una métrica en sí misma. Es la tabla que resume los aciertos y errores (Verdaderos Positivos, Falsos Negativos, etc.). Es la herramienta que usamos para calcular métricas como el Recall y la Precisión, pero no es el valor único que se optimiza.

Answer 163

B y D Ambas respuestas correctas describen dos caras de la misma moneda: el problema del sobreajuste (overfitting) en datos que son perfectamente separables. B. Para ayudar a evitar que los pesos del modelo tiendan a infinito positivo o negativo. Esta es la razón fundamental para usar regularización en una regresión logística. El Problema: Imagina que tus datos se pueden separar perfectamente con una línea. El modelo de regresión logística intentará tener una confianza del 100% en sus predicciones. Para lograr esto, la función sigmoide, que convierte el logit (z) en una probabilidad, debe devolver un valor lo más cercano posible a 1 para una clase y a 0 para la otra. ¿Cómo lo logra el modelo? La función sigmoide σ(z) = 1 / (1 + e^(−z)) se aproxima a 1 cuando z tiende a infinito positivo, y se aproxima a 0 cuando z tiende a infinito negativo. El logit se calcula como z = wᵗx + b. Para que z sea extremadamente grande o pequeño, el modelo necesita que los pesos (w) crezcan mucho, incluso hasta valores infinitos. Esto ocurre cuando los datos son perfectamente separables y el modelo busca una confianza total en sus predicciones. D. Para ayudar a evitar que los logits del modelo permanezcan en las partes planas y asintóticas de la función sigmoide, lo que puede detener el entrenamiento. Esta es una consecuencia directa del problema descrito en el punto B. El Problema: Como vimos, sin regularización, los pesos pueden volverse enormes. Esto hace que los logits (z) también se vuelvan enormes (muy positivos o muy negativos). Si miras la gráfica de la función sigmoide, en sus extremos es casi completamente plana. ¿Por qué es malo? El entrenamiento del modelo se basa en el descenso de gradiente, que utiliza la derivada (la pendiente) de la función de coste para actualizar los pesos. La pendiente en las partes planas de la sigmoide es prácticamente cero. Si el gradiente es cero, las actualizaciones de los pesos también son cero, y el modelo simplemente deja de aprender. Este fenómeno se conoce como el "problema de la desaparición del gradiente" (vanishing gradient). La Solución (Regularización): Al mantener los pesos pequeños (como se explica en B), la regularización asegura que los logits z se mantengan en la zona central de la función sigmoide, donde la pendiente no es cero. Esto permite que el gradiente siga fluyendo y que el modelo pueda continuar aprendiendo y ajustando sus pesos de manera efectiva. Respuestas Incorrectas A. Para transformar la salida del modelo en una estimación de probabilidad calibrada. Esto es incorrecto porque la regularización y la calibración son dos conceptos distintos. ¿Qué es la calibración? Un modelo está calibrado si, cuando predice una probabilidad del 80%, realmente acierta el 80% de las veces. La salida de una regresión logística puede parecer una probabilidad, pero no está necesariamente calibrada; puede ser sistemáticamente demasiado confiada o poco confiada. ¿Para qué sirve la regularización? La regularización sirve para controlar la complejidad del modelo y prevenir el sobreajuste. No está diseñada para asegurar que las probabilidades de salida reflejen las probabilidades del mundo real. Para calibrar un modelo se usan técnicas específicas después del entrenamiento, como la escala de Platt (Platt Scaling) o la regresión isotónica. C. Para disminuir el tiempo que tarda en ejecutarse un solo paso de entrenamiento (época). Esto es incorrecto; de hecho, la regularización aumenta ligeramente el tiempo de computación por paso. ¿Qué ocurre en un paso de entrenamiento? El modelo calcula la función de coste y su gradiente para actualizar los pesos. El efecto de la regularización: La regularización añade un término extra a la función de coste (por ejemplo, la suma de los cuadrados de los pesos). Esto significa que en cada paso, el modelo tiene que hacer un cálculo adicional para la penalización y su derivada. Conclusión: Aunque la diferencia es mínima, la regularización añade trabajo computacional, por lo que un paso de entrenamiento tarda un poco más, no menos.

Answer 164

B Vertex AI es la plataforma unificada de Google Cloud diseñada específicamente para gestionar y automatizar todo el ciclo de vida del machine learning (MLOps), desde la ingesta de datos hasta la producción. ✅ La Solución Correcta: B B) Vertex AI Vertex AI es la plataforma MLOps (Machine Learning Operations) de extremo a extremo de Google Cloud. Su propósito principal es proporcionar un entorno único para realizar todas las tareas relacionadas con el machine learning. ¿Por qué es correcto? Incluye herramientas integradas para cada paso del pipeline que se menciona en la pregunta: Preparación de datos: Permite gestionar y etiquetar conjuntos de datos. Entrenamiento de modelos: Ofrece opciones como AutoML (entrenamiento automatizado) y trabajos de entrenamiento personalizados para código propio. Despliegue y servicio: Facilita la creación de "endpoints" para servir predicciones en tiempo real y la ejecución de predicciones por lotes. Automatización: Su componente clave, Vertex AI Pipelines, permite orquestar y automatizar todos estos pasos en un flujo de trabajo repetible y robusto. Analogía 💡: Si construir un modelo de ML es como construir un coche, Vertex AI es toda la fábrica automatizada. No es solo el almacén de piezas (Cloud Storage) o una máquina específica (Dataflow), sino el sistema que gestiona toda la línea de montaje. ❌ Las Opciones Incorrectas: A, C y D Estas son herramientas importantes que se utilizan dentro de un pipeline de ML, pero no son el servicio principal para orquestarlo. A) BigQuery Es un almacén de datos (data warehouse) serverless. Es excelente para almacenar y procesar los datos que se usarán para el entrenamiento. Incluso tiene una función (BigQuery ML) para entrenar modelos con SQL, pero no es la plataforma que orquesta pipelines complejos de extremo a extremo. C) Cloud Storage Es el servicio de almacenamiento de objetos. Es fundamental para guardar artefactos como los conjuntos de datos, los modelos entrenados y los ficheros de código. Es el "disco duro" del pipeline, pero es un servicio pasivo que no ejecuta ni automatiza nada. D) Dataflow Es un servicio para el procesamiento de datos a gran escala. Es una herramienta muy potente para la fase de preparación y transformación de datos del pipeline, pero su función se limita a esa etapa. No se encarga del entrenamiento ni del despliegue del modelo.

Answer 165

B TensorFlow is fundamentally defined as an open-source, high-performance library for numerical computation. The sources highlight that it's "not just about machine learning" and can be used for any numeric computation, citing examples like solving partial differential equations in fluid dynamics.

Answer 166

B, C y D * Statement A is false. Vertex AI is an orthogonal managed service that cuts across all abstraction levels, providing a fully hosted TensorFlow environment. Low-level APIs are closer to the hardware and C++ implementation. * Statement B is true. The Core Python API indeed holds the fundamental numeric processing code, including operations like add, subtract, divide, and matrix multiply, as well as functions for creating variables and tensors. * Statement C is true. High-level APIs such as tf.keras and tf.data are designed to simplify tasks like distributed training, data preprocessing, and the definition, compilation, and training of models. * Statement D is true. Vertex AI is explicitly described as an orthogonal managed service that enables users to run TensorFlow on the cloud on a cluster of machines without needing to install software or manage servers, irrespective of the TensorFlow abstraction level they are using

Answer 167

D For large datasets that won't fit into memory, the sources state that TFRecords are especially useful for sequence data, data that cannot fit in memory, I/O bound training applications, and TPU training. The TFRecordDataset class is specifically designed to read these files, which are TensorFlow's own binary storage format and use the tf.train.Example protocol buffer for structured data. While other dataset types exist, TFRecordDataset is presented as the optimized choice for these specific constraints.

Answer 168

B La API Funcional trata a las capas como funciones. En lugar de simplemente apilar cosas, tú defines qué entra y qué sale de cada capa de forma explícita. Por qué gana: Es la única que permite crear Grafos Acíclicos Dirigidos (DAGs). Multientrada/Salida: Puedes tener una entrada para imágenes y otra para texto, y combinarlas a mitad del modelo. Conexiones residuales: Permite hacer "saltos" (como en ResNet), donde la salida de la capa 1 se suma directamente a la capa 3. Capas compartidas: Puedes usar la misma instancia de una capa (por ejemplo, un detector de bordes) en dos ramas distintas del modelo. 2. Las "Malas": ¿Por qué no funcionan aquí? A. Keras Sequential API (La "Demasiado Simple") Es la más fácil de usar, pero es literalmente una pila lineal de capas. El fallo: Solo permite una entrada y una salida. No puedes hacer bifurcaciones, ni saltos, ni compartir capas. Si intentas hacer una conexión residual (unir la capa A con la C saltándote la B), la Sequential API simplemente no sabe cómo gestionarlo. C. Keras Estimator API (La "Anticuada") Esta API pertenece más al ecosistema antiguo de TensorFlow que a Keras puro. El fallo: Está prácticamente en desuso para la creación de modelos modernos. Se centraba más en el escalado y el entrenamiento en servidores que en la flexibilidad de la arquitectura del modelo. Hoy en día, Keras maneja eso mucho mejor de forma nativa. D. Keras Subclassing API (La "Demasiado Compleja") Aquí es donde escribes código Python puro (class MyModel(tf.keras.Model):). El fallo: Aunque técnicamente puede hacer todo lo que hace la Funcional, no es la "recomendada" para topologías no lineales estándar por una razón: es una caja negra. Al ser imperativa (código que se ejecuta paso a paso), Keras no puede "ver" el gráfico del modelo de antemano. Esto hace que sea más difícil de inspeccionar, depurar y guardar/cargar que la API Funcional. Se reserva para investigación pura donde necesitas lógica personalizada muy loca.

Answer 169

C Regularización: El Objetivo 🎯 Antes de analizar las opciones, recuerda el objetivo: estás combatiendo el sobreajuste (overfitting). Tanto la regularización L1 como la L2 lo hacen añadiendo una penalización a la función de pérdida por tener pesos (weights) demasiado grandes. La diferencia clave está en cómo calculan esa penalización. L1 (Lasso): Penaliza la suma de los valores absolutos de los pesos. L2 (Ridge): Penaliza la suma de los valores al cuadrado de los pesos. ✅ C. La regularización L1 mide la complejidad del modelo como la suma de los valores absolutos de los componentes del vector de pesos. Esta es la respuesta correcta. Es la definición precisa de la penalización L1. ¿Qué significa?: Al añadir λ * Σ|w| a la función de pérdida, la regularización L1 fuerza al modelo a mantener los pesos pequeños. Su propiedad más interesante es que tiende a hacer que los pesos de las características menos importantes se vuelvan exactamente cero, realizando así una especie de selección de características automática. ❌ A. La regularización L1 también se conoce como "weight decay" y confina el vector de pesos dentro de una forma circular lisa. Esta afirmación es incorrecta porque confunde L1 con L2. "Weight decay": Este es el apodo de la regularización L2, no L1. "Forma circular lisa": Esto describe la restricción geométrica de L2. La restricción de L1 tiene la forma de un rombo (o un hiper-rombo en más dimensiones), que tiene "esquinas". Es precisamente en estas esquinas donde los pesos se vuelven cero. ❌ B. La regularización L2 se puede usar como un mecanismo de selección de características al llevar algunos pesos a ser exactamente cero. Esta afirmación es incorrecta porque le atribuye a L2 una propiedad de L1. Llevar pesos a cero: Esta es la característica principal de la regularización L1. La penalización cuadrática de L2 hace que los pesos sean muy pequeños, pero muy rara vez los convierte en exactamente cero. L2 prefiere distribuir la importancia entre todas las características en lugar de eliminar algunas por completo. ❌ D. Tanto la regularización L1 como la L2 evitan que los gradientes exploten o desaparezcan. Esta afirmación es incorrecta porque confunde el propósito de la regularización. El problema que resuelven: L1 y L2 están diseñadas para combatir el sobreajuste. Explosión/desvanecimiento de gradientes (Exploding/Vanishing Gradients): Este es un problema de inestabilidad en el entrenamiento, no de sobreajuste. Se soluciona con otras técnicas como el recorte de gradientes (gradient clipping), el uso de funciones de activación adecuadas (como ReLU), o la normalización por lotes (batch normalization). Resumen Final 🧠 Característica-Regularización L1 (Lasso) Regularización L2 (Ridge) - Penalización Suma de valores absolutos `Σ w -Efecto Principal Lleva pesos a cero (dispersión) Hace los pesos pequeños -Uso Secundario Selección de características Previene pesos muy grandes -Apodo Común Lasso Weight Decay -Forma Geométrica Rombo / Diamante Círculo / Esfera

Answer 170

C The tf.data API allows building efficient and scalable input data pipelines from simple, reusable components. It supports various data sources and formats, including large out-of-memory datasets.

Answer 171

C y D Componentes del Grafo de TensorFlow C) Nodos, representando operaciones como MatMul, BiasAdd, etc. (Correcta) ✅ En un grafo de TensorFlow, los nodos (Nodes) representan operaciones matemáticas (tf.Operation). Cada nodo es un punto de cálculo, como una multiplicación de matrices (MatMul), la suma de un sesgo (BiasAdd), una función de activación (como ReLU), o incluso la definición de una constante o una variable. D) Aristas, representando el flujo de datos entre operaciones (Correcta) ✅ Las aristas (Edges) del grafo representan los tensores (tf.Tensor) que fluyen entre los nodos. Un tensor es la estructura de datos fundamental en TensorFlow, que es esencialmente un array multidimensional (como un vector o una matriz). Las aristas conectan la salida de una operación (un tensor) con la entrada de la siguiente operación, definiendo así el orden y el flujo de los cálculos. Por qué las otras son incorrectas A) Aristas, representando operaciones matemáticas (Incorrecta) ❌ Esta opción invierte los roles. Las aristas no son las operaciones; son las "tuberías" por las que viajan los datos (tensores) entre las operaciones. B) Nodos, representando arrays de datos (Incorrecta) ❌ Esta opción también invierte los roles. Los nodos son las operaciones, no los datos en sí. Los arrays de datos (tensores) son representados por las aristas que conectan los nodos. En resumen: Nodos = Operaciones (Cálculos) Aristas = Tensores (Datos)

Answer 172

C El Problema del Gradiente Evanescente (Vanishing Gradient) 📉 Antes de ver las opciones, es clave entender este problema. Imagina que entrenar una red neuronal es como dar órdenes al primer eslabón de una cadena muy larga basándote en el resultado del último eslabón. El "gradiente" es la señal o corrección que se envía hacia atrás a través de la red (backpropagation). En el problema del gradiente evanescente, esta señal se vuelve cada vez más y más pequeña a medida que viaja hacia las capas iniciales. Cuando la señal llega a las primeras capas, es tan débil (casi cero) que estas capas no aprenden nada o aprenden muy lentamente. La causa principal son las funciones de activación cuyo derivado es un número pequeño. En la retropropagación, se multiplican los derivados de todas las capas. Si multiplicas muchos números menores que 1, el resultado se desvanece exponencialmente hacia cero. ✅ C) Sigmoid Esta es la respuesta correcta y la causante clásica de este problema. Función: La función sigmoide comprime cualquier número a un rango entre 0 y 1. Su Derivado: El problema está en su derivado. El valor máximo del derivado de la función sigmoide es 0.25. En la mayoría de los casos, es mucho más pequeño. Impacto: Al retropropagar el error a través de una red profunda con muchas capas sigmoides, estás multiplicando repetidamente números que son, como mucho, 0.25. Esto hace que la señal del gradiente se encoja drásticamente, provocando que se desvanezca antes de llegar a las primeras capas. ❌ A) ReLU, B) Leaky ReLU y D) ELU Estas tres opciones son incorrectas porque, de hecho, fueron diseñadas para solucionar el problema del gradiente evanescente. ReLU (Rectified Linear Unit): Su función es max(0, x). Su Derivado: El derivado es 1 para cualquier valor positivo y 0 para los negativos. Al multiplicar por 1, la señal del gradiente pasa a través de las neuronas activas sin disminuir su intensidad. Esto evita que la señal se desvanezca. Leaky ReLU y ELU (Exponential Linear Unit): Son variantes de ReLU. Su Derivado: Al igual que ReLU, su derivado es 1 para valores positivos. Para los valores negativos, tienen un pequeño gradiente distinto de cero, lo que ayuda a evitar otros problemas (como las "neuronas muertas"), pero la idea principal de mantener un gradiente de 1 para las activaciones positivas persiste. Resumen Final 🧠 Función Derivado Máximo Efecto en el Gradiente Sigmoid 0.25 💥 Causa el problema ReLU 1 ✅ Soluciona el problema Leaky ReLU 1 ✅ Soluciona el problema ELU 1 ✅ Soluciona el problema

Answer 173

A, B y D Por qué A, B y D son CORRECTAS El Sequential API (model = Sequential()) es excelente para crear "pilas" de capas simples, donde los datos fluyen en una línea recta: Entrada -> Capa 1 -> Capa 2 -> Salida. El Functional API (model = Model(inputs=..., outputs=...)) es más potente y flexible porque te permite construir "grafos" de capas, no solo líneas rectas. A) Permite construir modelos con múltiples entradas y salidas: Correcto. Con la API Funcional, puedes definir una lista de entradas (inputs=[input1, input2]) y una lista de salidas (outputs=[output1, output2]). Esto es fundamental para tareas como modelos que combinan imágenes y texto, o modelos que predicen múltiples cosas a la vez. El API Secuencial no puede hacer esto. B) Habilita el uso compartido de capas (layer sharing) y arquitecturas personalizadas: Correcto. "Layer sharing" significa que puedes crear una instancia de una capa (ej. shared_layer = Dense(64)) y usarla en diferentes partes de tu modelo (ej. output1 = shared_layer(input_a), output2 = shared_layer(input_b)). Esto es la base de arquitecturas como las redes siamesas y es imposible en el API Secuencial. D) Soporta topologías no lineales como las conexiones residuales: Correcto. Una "conexión residual" (como en ResNet) implica tomar la entrada de un bloque (x_input) y sumarla a la salida de ese bloque (x_output). En la API Funcional, esto es fácil: x = add([x_input, x_output]). Esto es una topología no lineal (un grafo con un "salto") que el API Secuencial no puede manejar. Por qué C es INCORRECTA C) Optimiza automáticamente los hiperparámetros: Incorrecto. Ni el API Funcional ni el Secuencial se encargan de esto. La optimización de hiperparámetros (como elegir el mejor learning rate o el número óptimo de capas) es un proceso separado que se realiza con herramientas como KerasTuner o scikit-learn. El API que usas para construir el modelo no realiza la optimización de ese modelo.

Answer 174

B tf.saved_model.save() is used to export a model to the SavedModel format, which is the standard format in TensorFlow for serving and deployment across platforms like Vertex AI.

Answer 175

C The Functional API allows for building models with complex topologies, including multiple inputs and outputs, shared layers, and non-linear data flows. The Sequential API only supports simple, linear stacks of layers.

Answer 176

A, B y D The tf.data API allows you to create input pipelines that are modular, scalable, and efficient. It supports parallel preprocessing and progressive loading of data from disk, enabling the handling of large out-of-memory datasets. Training on CPU is unrelated to the tf.data API's main purpose.

Answer 177

B L1 regularization leads to sparsity in weights by pushing some weights to zero, effectively performing feature selection and reducing model complexity.

Answer 178

B Vertex AI offers managed infrastructure for large-scale distributed training, model deployment, and predictions without needing to manage the underlying servers.

Answer 179

A y B L2 regularization penalizes the magnitude of weights (discouraging large weights), while regularization in general is an effective method to reduce overfitting by penalizing model complexity. Regularization may increase training loss but can lower generalization error. L1 regularization is commonly used for feature selection.

Answer 180

D Por qué la opción D es la correcta Vertex AI es una plataforma muy completa, y Google Cloud ofrece múltiples formas integradas para seguir el progreso de un trabajo de entrenamiento, adaptándose a diferentes necesidades: desde resúmenes visuales de alto nivel hasta la depuración detallada línea por línea. Las tres opciones son métodos estándar y válidos para esta tarea. A) Usando TensorBoard: TensorBoard es una potente herramienta de visualización para experimentos de machine learning. Vertex AI tiene una integración nativa con TensorBoard, lo que te permite monitorizar métricas en tiempo real, como la pérdida (loss) de entrenamiento/validación, la precisión (accuracy) o cualquier otra métrica que definas. Es la mejor forma de obtener una comprensión visual e intuitiva de cómo está evolucionando el rendimiento de tu modelo en cada época. Puedes ver si tu modelo está aprendiendo, estancándose o sobreajustando (overfitting) con solo mirar los gráficos. 📊 B) A través de la Consola de Google Cloud: La Consola de Google Cloud ofrece un panel de control de alto nivel para todos tus trabajos de Vertex AI. Aquí puedes ver el estado de tu trabajo (por ejemplo, En cola, Preparando, Ejecutando, Completado, Fallido), cuánto tiempo lleva en ejecución y los recursos que está consumiendo (como el uso de CPU/GPU). Es tu centro de control para gestionar los trabajos. C) Revisando los logs del trabajo: Cada trabajo de entrenamiento en Vertex AI genera logs (registros), que puedes ver en Cloud Logging. Estos logs contienen información detallada y con marca de tiempo sobre todo lo que ocurre dentro de tu contenedor de entrenamiento. Esto incluye cualquier sentencia print() que pongas en tu código, mensajes específicos del framework que uses (TensorFlow, PyTorch, etc.) y, muy importante, cualquier mensaje de error o traza de la pila (stack trace) si algo va mal. Los logs son esenciales para la depuración (debugging) y para obtener una visión granular, línea por línea, del proceso. 🛠️

Answer 181

A Este concepto se conoce como Nucleus Sampling (muestreo de núcleo) y es una técnica para controlar la creatividad y la coherencia de un modelo de lenguaje. Aquí te explico la lógica detrás de "la buena" y por qué las demás no encajan: ¿Cómo funciona el Top-P? Cuando un modelo de IA genera texto, no elige una palabra al azar, sino que asigna una probabilidad a cada token posible. Si ordenamos esas palabras de mayor a menor probabilidad: El modelo empieza a sumar las probabilidades de las palabras más probables (las que están arriba en la lista). Se detiene justo cuando la suma acumulada alcanza o supera el valor P (en este caso, 0.9 o 90%). El modelo entonces ignora el resto de las palabras y elige la siguiente palabra solo entre ese grupo seleccionado. Por qué las otras son "las malas": B) El modelo eliminará el 90% de los tokens: Incorrecto. Top-P no corta por cantidad de tokens, sino por el "peso" de su probabilidad. Si 2 palabras ya suman el 90%, se eliminan miles de otras palabras, no solo el 90%. C) Seleccionará tokens con probabilidad individual de 0.9: Incorrecto. Es muy raro que un solo token tenga una probabilidad tan alta (0.9). Si esto fuera así, el modelo casi nunca tendría opciones para elegir. Top-P usa la suma acumulada. D) El modelo elegirá entre los 9 mejores tokens: Incorrecto. Esto describe otra técnica llamada Top-K (donde K=9). Top-P es dinámico; a veces 0.9 de probabilidad se reparte entre 2 palabras, y otras veces entre 50.

Answer 182

B La ingeniería de características se define como el proceso de transformar datos brutos en características que representan mejor el problema subyacente para los modelos predictivos, lo que lleva a una mejor precisión del modelo en datos no vistos. También implica combinar el conocimiento del dominio, la intuición y las habilidades de ciencia de datos para crear características que hagan que los modelos se entrenen más rápido y proporcionen predicciones más precisas

Answer 183

A, C y D Una buena característica debe estar relacionada con el objetivo que se predice, ser conocida en el momento de la predicción, ser numérica con una magnitud significativa y tener suficientes ejemplos en el conjunto de datos. También debe incorporar la perspicacia humana al problema

Answer 184

D A) Las características son difíciles de compartir y reutilizar En muchas empresas, diferentes equipos de datos terminan calculando la misma variable (por ejemplo, "promedio de compras mensuales") por separado. Esto es ineficiente y lleva a inconsistencias. La solución: Vertex AI funciona como un repositorio centralizado. Una vez que alguien define una feature, cualquier otro equipo puede buscarla en el catálogo y usarla en su modelo, ahorrando tiempo y cómputo. B) Dificultad para servir características en producción con baja latencia Entrenar un modelo con datos históricos es fácil, pero cuando el modelo está "en vivo" (producción) y necesita predecir algo en milisegundos, obtener esos datos actualizados es un reto técnico enorme. La solución: El Feature Store separa el almacenamiento en dos: Offline: Para entrenamiento (grandes volúmenes de datos históricos). Online: Una base de datos optimizada para lectura ultrarrápida que permite al modelo consultar los valores más recientes en milisegundos. C) Mitigar el sesgo (skew) entre entrenamiento y servicio Este es uno de los problemas más graves en ML. Ocurre cuando los datos que usaste para entrenar el modelo se calcularon de forma distinta a los datos que el modelo recibe cuando está funcionando en vivo. La solución: Al usar la misma fuente (el Feature Store) tanto para extraer datos históricos como para la inferencia en tiempo real, garantizas que la lógica de cálculo sea idéntica. Esto elimina la posibilidad de que el modelo se confunda por variaciones en el formato o cálculo de los datos.

Answer 185

D Las cruces de características (feature crosses) se centran en la memorización y son especialmente útiles en conjuntos de datos grandes, no pequeños. Al combinar características, como la hora del día y el día de la semana, pueden permitir que el modelo aprenda patrones complejos (como los de tráfico), pero esto a menudo conduce a entradas muy dispersas (con muchos ceros)

Answer 186

B La cláusula TRANSFORM en BigQuery ML permite definir transformaciones de datos durante la creación del modelo. La principal ventaja es que estas transformaciones se aplican automáticamente durante las fases de predicción y evaluación, lo que significa que el código cliente para la predicción no necesita cambiar, haciendo que las mejoras del modelo sean transparentes para dicho código

Answer 187

C A feature must be available at the moment the model is used for prediction. If it’s not known at prediction time, the model won’t be able to use it effectively—even if it was available during training.

Answer 188

A, C y D Good features are (1) available at prediction time, (2) numeric and with meaningful scales so models can learn from them, and (3) sufficiently present in the dataset to allow generalization.

Answer 189

C Por qué la opción C es la correcta C. tf.keras.layers.StringLookup + tf.keras.layers.CategoryEncoding Para que una red neuronal entienda categorías en formato de texto (como "perro", "gato", "pez"), necesita convertirlas a un formato numérico. El one-hot encoding para strings se hace en dos pasos: Paso 1: Convertir texto a números enteros (StringLookup). La red no entiende la palabra "gato". La capa StringLookup crea un vocabulario y asigna un número entero único a cada palabra. Por ejemplo: {"perro": 0, "gato": 1, "pez": 2}. Paso 2: Convertir números enteros a vectores one-hot (CategoryEncoding). Ahora que tenemos números, la capa CategoryEncoding los transforma en vectores. Esto evita que el modelo aprenda una relación de orden falsa (por ejemplo, que pez (2) > gato (1)). 0 (perro) se convierte en [1, 0, 0] 1 (gato) se convierte en [0, 1, 0] 2 (pez) se convierte en [0, 0, 1] La combinación de ambas capas realiza el proceso completo y es la forma recomendada de hacerlo en Keras. Por qué las otras opciones son incorrectas A. tf.keras.layers.Hashing Esta capa también convierte texto en números enteros, pero usando una función de hash en lugar de un vocabulario explícito. Es útil cuando tienes muchísimas categorías (cientos de miles). Sin embargo, no realiza el segundo paso de la codificación one-hot, por lo que es una solución incompleta para este problema. B. tf.keras.layers.CategoryEncoding Esta capa solo realiza el segundo paso del proceso (de entero a one-hot). No puede procesar texto directamente. Si le pasas las palabras "perro" o "gato", dará un error porque espera números enteros como entrada. D. tf.keras.layers.Discretization Esta capa se usa para un propósito completamente diferente: agrupar datos numéricos continuos (como la edad o el precio) en "cubetas" o rangos discretos. No tiene ninguna utilidad para procesar datos de texto.

Answer 190

C Feature crossing involves combining multiple features (e.g., product or concatenation) to capture non-linear interactions that a model might otherwise miss.

Answer 191

A y C Feature hashing and normalization are examples of representation transformation. Polynomial expansion and feature crossing are used for feature construction.

Answer 192

B Vertex AI Feature Store provides a centralized repository to organize, store, and serve machine learning features, making feature reuse and sharing across teams easier and reducing training-serving skew.

Answer 193

A, C y D A good feature must be available at prediction-time, be numeric or convertible to numeric, and have enough examples to avoid bias and overfitting. Including all raw data (B) can introduce noise, not quality.

Answer 194

B Feature crosses help capture interactions between two or more features, which can reveal complex patterns that individual features on their own would not capture

Answer 195

B ML.BUCKETIZE is used in BigQuery ML to split a continuous feature into buckets, thereby converting it into a categorical feature that can be one-hot encoded or otherwise transformed

Answer 196

A, B y C Source data must have an entity ID column (STRING), feature columns that match the destination feature name, and (optionally) a timestamp column. Separate BigQuery datasets for each feature are not required.

Answer 197

B Transforms data to enhance model accuracy, as per the summary’s definition.

Answer 198

B Por qué es la buena: La construcción de características (Feature Construction) consiste en crear nuevas características sintéticas a partir de las originales para ayudar al modelo a entender patrones que no son obvios por separado. El concepto clave: Al multiplicar dos variables (por ejemplo, Longitud x Ancho = Área), estás creando una interacción o un cruce de características (Feature Cross). Por qué es vital: Muchos modelos (especialmente los lineales) no pueden ver la relación entre dos variables si se las das por separado. Al "construir" esta tercera variable multiplicada, le das al modelo una pista explícita sobre cómo interactúan, añadiendo información nueva y valiosa que no existía antes en los datos crudos. Por qué las otras son las malas A. Bucketization (Discretización) Qué es: Convertir una variable numérica continua (ej. edad: 24, 25, 26...) en rangos o "cubos" (ej. 18-25, 26-35...). Por qué no encaja: Esto se considera una transformación o preprocesamiento. No estás creando información nueva combinando datos, simplemente estás simplificando o cambiando el formato de una variable existente. C. One-hot encoding Qué es: Convertir categorías (ej. "Rojo", "Verde", "Azul") en columnas binarias (1 o 0). Por qué no encaja: Al igual que la bucketization, esto es representación de datos. Es necesario para que las matemáticas funcionen, pero no "construye" una característica nueva basada en la lógica del negocio o interacciones, solo traduce el idioma de texto a números. D. PCA (Análisis de Componentes Principales) Qué es: Una técnica matemática para reducir la cantidad de variables (dimensionalidad), condensando la información. Por qué no encaja: PCA se clasifica como Extracción de Características (Feature Extraction). Aunque técnicamente crea nuevos valores, su objetivo es resumir y reducir la información automática y matemáticamente, perdiendo la interpretabilidad original, mientras que la "construcción" suele ser un proceso aditivo y manual para enriquecer el modelo.

Answer 199

D Good features should be simple, not complex, to avoid overfitting, per summary.

Answer 200

B Vertex AI Feature Store is for feature management, as highlighted in the summary.

Answer 201

B Square footage is relevant and numeric, unlike arbitrary data, per the example.

Answer 202

C Dataflow, which uses the Apache Beam programming model, is recommended for handling large volumes of unstructured data. It can convert this data into binary formats such as TFRecord, which significantly improves data ingestion performance during the training process. While BigQuery is used for tabular data, Dataproc is for existing Hadoop/Spark users, and Dataprep is focused on visual data cleaning and structuring

Answer 203

C Custom training is the best option when you need flexibility and fine-grained control over the model's architecture, framework, or exported model assets, and when your use case doesn't fit AutoML's predefined offerings. It requires data science expertise and programming ability to develop the training application. AutoML is for predefined objectives and codeless solutions, while BQML is suitable for SQL users with data entirely in BigQuery.

Answer 204

D Vertex Vizier offers Grid Search, Random Search, and Bayesian Optimization. Bayesian Optimization is specifically highlighted as the method that "takes into account past evaluations when choosing the hyperparameter set to evaluate next" and "typically requires fewer iterations to get to the optimal set of hyperparameter values". It is also the default algorithm if one is not specified.

Answer 205

C Vertex AI Model Monitoring uses different baselines for these two types of monitoring. For skew detection, the comparison is made against the "statistical distribution of the feature's values in the training data". For drift detection, the comparison is against the "statistical distribution of the feature's values seen in production in the recent past".

Answer 206

C Vertex AI Pipelines is described as "managed Kubeflow v2 for practitioners to accelerate productionization and Standardization of AI". It enables "automation and orchestration" of "portable and scalable ML workflows that are based on containers and Google Cloud services". Other options describe functionalities of AutoML (A), Model Registry (B), and Dataprep (D).

Answer 207

C BigQuery ML allows users comfortable with SQL to train, evaluate, and deploy ML models directly from BigQuery using standard SQL syntax

Answer 208

A, C y D Best practices include choosing appropriate machine types, enabling automatic scaling, and defining performance requirements aligned with business objectives. Default input settings may not fit all use cases.

Answer 209

C Por qué la C es la respuesta correcta El Descenso de Gradiente (Gradient Descent) es el algoritmo de optimización que se usa dentro del proceso de entrenamiento de un modelo para encontrar los mejores parámetros (es decir, los pesos y sesgos). Funciona calculando el error (pérdida) del modelo y ajustando los parámetros en la dirección que reduce ese error. Vertex Vizier (y cualquier herramienta de ajuste de hiperparámetros) opera un nivel por encima de esto. Su trabajo no es ajustar los parámetros (los pesos internos), sino encontrar los mejores hiperparámetros (las configuraciones antes de entrenar, como la tasa de aprendizaje, el número de capas o el tamaño del lote). Vizier trata el proceso de entrenamiento del modelo (que usa Gradient Descent) como una "caja negra". Le da a la caja un conjunto de hiperparámetros, espera a que termine de entrenar y recibe una puntuación (ej. "precisión del 85%"). Luego, usa esa puntuación para decidir qué hiperparámetros probará en el siguiente experimento. En resumen: Gradient Descent: Optimiza los parámetros (dentro del entrenamiento). Vertex Vizier: Optimiza los hiperparámetros (fuera del entrenamiento). Por qué las otras respuestas son incorrectas Estas son, de hecho, las tres estrategias principales que Vertex Vizier sí utiliza para decidir qué hiperparámetros probar: A) Grid Search (Búsqueda en Rejilla): Incorrecto porque Vizier sí lo ofrece. Es un método de fuerza bruta que prueba cada combinación posible de una cuadrícula de valores que tú defines. B) Random Search (Búsqueda Aleatoria): Incorrecto porque Vizier sí lo ofrece. Prueba combinaciones aleatorias de hiperparámetros dentro de tu espacio de búsqueda. A menudo es más eficiente que Grid Search. D) Bayesian Optimization (Optimización Bayesiana): Incorrecto porque este es el método estrella de Vizier. Es un algoritmo inteligente que aprende de los resultados de los experimentos anteriores para decidir qué combinación de hiperparámetros es más probable que dé el mejor resultado, permitiéndole encontrar la mejor configuración mucho más rápido.

Answer 210

A, B, C y D Each tool addresses different preprocessing needs: BigQuery for SQL-based tabular transformations, Dataflow for unstructured/streaming, TensorFlow Extended within TF workflows, and Dataproc for Spark/Hadoop ETL jobs.

Answer 211

B Model monitoring is designed to ensure model predictions remain reliable by alerting data scientists to data drift or training-serving skew, which can indicate the need for retraining or further investigation.

Answer 212

A A. Data Collection, Model Training, Model Deployment, Model Monitoring (Correcta) ✅ Esta opción describe perfectamente el ciclo de vida completo y continuo de un proyecto de ML en una empresa, también conocido como MLOps (Machine Learning Operations). Recolección de Datos (Data Collection): Todo empieza aquí. No hay Machine Learning sin datos. Es el primer paso fundamental para cualquier proyecto. Entrenamiento del Modelo (Model Training): Con los datos listos, se entrena el modelo para que aprenda a hacer predicciones. Esta es la fase central de "creación" del modelo. Despliegue del Modelo (Model Deployment): Un modelo entrenado no sirve de nada si no se pone en producción para que la empresa lo utilice. El despliegue es el proceso de integrar el modelo en los sistemas existentes (una app, una web, etc.) para que pueda hacer predicciones con datos nuevos. Monitorización del Modelo (Model Monitoring): Una vez desplegado, el trabajo no ha terminado. Hay que vigilar constantemente el rendimiento del modelo para detectar si se degrada con el tiempo (lo que se conoce como model drift o concept drift). Si su rendimiento baja, es necesario volver a entrenarlo. En resumen: La opción A es la única que presenta un ciclo completo, realista y de alto nivel, desde el inicio (datos) hasta el mantenimiento a largo plazo (monitorización), que es crucial en un entorno empresarial. B. Experimentation, Training Operationalization, Model Deployment, Prediction Serving (Incorrecta) ❌ Esta opción es demasiado técnica y se centra en aspectos muy específicos de la ingeniería de ML, mezclando etapas con conceptos. Experimentation (Experimentación) y Training Operationalization (Operacionalización del Entrenamiento) son en realidad sub-tareas de la fase de Entrenamiento del Modelo. Prediction Serving (Servicio de Predicciones) no es una etapa en sí misma, sino el resultado del Despliegue del Modelo. Lo más importante: omite etapas fundamentales como la Recolección de Datos al principio y la Monitorización al final. C. Problem Definition, Data Preparation, Model Building, Model Evaluation (Incorrecta) ❌ Esta opción describe el flujo de trabajo de un proyecto de ciencia de datos académico o de investigación, no un ciclo empresarial completo. Describe bien los pasos para crear un modelo en un entorno aislado (definir el problema, preparar los datos, construir el modelo y evaluarlo). Sin embargo, se detiene justo antes de los pasos más importantes para una empresa: el Despliegue y la Monitorización. Un modelo que solo se evalúa pero nunca se pone en producción no genera valor de negocio. D. Feature Engineering, Model Training, Hyperparameter Tuning, Model Serving (Incorrecta) ❌ Esta opción es incorrecta porque mezcla etapas principales con sub-etapas muy específicas del proceso de entrenamiento. Feature Engineering (Ingeniería de Características) es una parte de la preparación de datos. Hyperparameter Tuning (Ajuste de Hiperparámetros) es una parte del entrenamiento del modelo. Al igual que la opción B, se enfoca demasiado en los detalles técnicos del entrenamiento y omite las etapas críticas de Recolección de Datos y Monitorización.

Answer 213

C Dataplex is explicitly described as unifying distributed data and automating governance, enabling data meshes across projects without movement, as noted in the data management section. Other tools serve related but distinct purposes, such as Feature Store for ML data or Analytics Hub for data exchange.

Answer 214

B The document states Dataflow is recommended for converting unstructured data into TFRecord, optimizing training performance, as part of the preprocessing options for different data types. Other tools serve different purposes, such as BigQuery for tabular data or Dataproc for Hadoop-based pipelines.

Answer 215

B AutoML is a no-code solution for predefined objectives (e.g., regression, classification) with minimal expertise, as noted in the training models section. Custom training is for scenarios needing flexibility, like mixed inputs or distributed training, making options A, C, and D incorrect.

Answer 216

C The document explicitly states Bayesian Optimization is the most efficient, using probabilistic models to select promising hyperparameters, reducing trials compared to Grid Search or Random Search, as detailed in the hyperparameter tuning section.

Answer 217

C Esta proporción es muy común y asegura suficientes datos para entrenar sin descuidar la evaluación ni el ajuste de hiperparámetros.

Answer 218

C El conjunto de prueba simula datos nuevos no vistos y nos dice si el modelo realmente generaliza.

Answer 219

C El muestreo estratificado garantiza que la proporción de clases se mantenga en cada subconjunto, lo cual es clave en conjuntos desbalanceados.

Answer 220

B ¿Por qué la "B" es la correcta? El propósito del conjunto de prueba (test set) es actuar como una evaluación final e imparcial de cómo se comportará el modelo en el mundo real. Debe ser datos que el modelo nunca haya visto durante su construcción. Si utilizas el conjunto de prueba para ajustar los hiperparámetros (hacer tuning): Fuga de Información (Data Leakage): Estás filtrando información de la respuesta correcta dentro del diseño del modelo. Sesgo de Selección: Al elegir los hiperparámetros que mejor funcionan para ese conjunto de prueba específico, estás optimizando el modelo para esos datos concretos. Resultado: El modelo "se aprende" o se ajusta excesivamente (overfitting) a las peculiaridades del conjunto de prueba. Reportará métricas excelentes en tu evaluación, pero probablemente fallará en producción con datos nuevos. Analogía del Examen: Es como si el profesor te dejara ver las preguntas exactas del examen final mientras estudias. Sacarás un 10 en el examen, pero eso no significa que hayas aprendido la materia, solo memorizaste las respuestas específicas de ese examen. ¿Por qué las otras opciones son incorrectas? A) El modelo mejora en datos reales: ❌ Incorrecta. Explicación: Ocurre lo contrario. El modelo tendrá una evaluación engañosamente buena en el test set, pero su capacidad de generalizar a datos reales (producción) probablemente será peor, porque los hiperparámetros se eligieron para satisfacer al test set, no a la generalidad del problema. C) Aumenta la pérdida de validación: ❌ Incorrecta. Explicación: No hay una relación directa que cause que la pérdida de validación (si existiera un conjunto separado) aumente. De hecho, si estás usando el test set como validación, la pérdida en ese set disminuiría artificialmente, dándote una falsa sensación de éxito. D) El modelo entrena más rápido: ❌ Incorrecta. Explicación: La velocidad de entrenamiento depende de la naturaleza de los hiperparámetros (ej. un learning rate alto o un batch size grande), no de qué datos uses para seleccionarlos. Usar el conjunto de prueba no cambia la física de cómo la CPU/GPU procesa las matemáticas. Resumen: La división correcta de datos Para evitar este error (Opción B), siempre debes dividir tus datos en tres partes: Entrenamiento (Training): Para que el modelo aprenda los pesos. Validación (Validation): Para ajustar los hiperparámetros y medir el rendimiento intermedio. Prueba (Test): Una "caja fuerte" que solo abres una vez al final de todo el proyecto para la calificación final. Nunca se usa para tomar decisiones de diseño.

Answer 221

D La validación cruzada permite usar más eficientemente los datos al rotar los subconjuntos, lo cual es ideal con conjuntos pequeños.

Answer 222

B La función de coste es la métrica que el algoritmo de optimización (como el descenso de gradiente) intenta minimizar. Mide qué tan "mal" o "equivocado" está el modelo en sus predicciones, y esa medida es la que guía el ajuste de sus parámetros para mejorar.

Answer 223

B El MSE es el estándar para problemas de regresión. Calcula el promedio de los errores al cuadrado (la diferencia entre el valor predicho y el real). Penaliza más los errores grandes debido al término cuadrático, lo que lo hace muy efectivo para este tipo de tareas.

Answer 224

C La Entropía Cruzada es ideal para problemas de clasificación. Mide la diferencia entre dos distribuciones de probabilidad: la distribución real (la etiqueta verdadera, ej. [0, 1, 0]) y la distribución predicha por el modelo (ej. [0.1, 0.8, 0.1]). Es la opción estándar para la clasificación multiclase. Para clasificación binaria, se usa la Entropía Cruzada Binaria.

Answer 225

B El MSE eleva al cuadrado las diferencias, por lo que un valor atípico que genere un error grande tendrá un impacto desproporcionado en la pérdida total. El MAE, al usar el valor absoluto, no magnifica los errores grandes de la misma manera, lo que hace que el modelo sea más robusto o resistente a la influencia de estos valores atípicos.

Answer 226

D La Respuesta Correcta: Opción D Regularización L2 (Ridge) ¿Qué hace? La regularización Ridge añade una penalización a la función de pérdida equivalente al cuadrado de la magnitud de los coeficientes. Comportamiento con Multicolinealidad: Cuando tienes características muy correlacionadas (ej: "metros cuadrados" y "número de habitaciones", que suelen subir juntos), el modelo sin regularizar se vuelve inestable y asigna pesos gigantescos a una y negativos a la otra para compensar. Ridge resuelve esto encogiendo (shrinking) los coeficientes de ambas características hacia cero, pero manteniéndolos equilibrados. Por qué es la clave aquí: La frase crítica del enunciado es: "no quieres eliminar ninguna por completo". Ridge nunca lleva los coeficientes a cero absoluto; los hace muy pequeños, pero los mantiene todos. Esto preserva la información sutil de todas las variables. Por qué las otras son "malas" Opción A: Regularización L1 (Lasso) El problema: Hace selección de características (Feature Selection). Por qué falla: L1 tiene una propiedad geométrica (la "esquina" del rombo en la optimización) que tiende a forzar los coeficientes a ser exactamente cero. En este escenario: Si tienes dos variables correlacionadas, Lasso elegirá arbitrariamente una y matará (pondrá a cero) a la otra. Como el enunciado dice explícitamente que "crees que todas aportan información y no quieres eliminar ninguna", Lasso es la herramienta incorrecta aquí. Opción B: No usar ninguna regularización El problema: Varianza alta e inestabilidad. Por qué falla: La multicolinealidad hace que la matriz de diseño sea casi singular (difícil de invertir matemáticamente). Esto provoca que pequeños cambios en los datos de entrenamiento causen cambios salvajes en los coeficientes del modelo. El modelo sobreajustará (Overfitting) y fallará al generalizar. Opción C: Usar una tasa de aprendizaje más alta El problema: No soluciona el problema estructural. Por qué falla: La tasa de aprendizaje (learning rate) controla qué tan rápido aprende el modelo, no cómo maneja la complejidad o la correlación. De hecho, en presencia de multicolinealidad, la superficie de error suele ser un valle estrecho y alargado; una tasa de aprendizaje alta probablemente hará que el modelo diverja (se vuelva loco) en lugar de converger.

Answer 227

B Explicación de la respuesta correcta (B)La opción B (L1_REG y L2_REG) es la correcta porque, en la sintaxis de CREATE MODEL de BigQuery ML, estos son los nombres exactos de los parámetros dentro de OPTIONS que se usan para definir la fuerza de la regularización.L1_REG: Este parámetro espera un valor numérico (FLOAT64, $>= 0$) que especifica el peso o la "fuerza" de la regularización L1 (también conocida como Lasso). Un valor más alto aumenta la penalización, lo que puede forzar que algunas ponderaciones de características se vuelvan exactamente cero, ayudando así a la selección de características.L2_REG: Este parámetro también espera un valor numérico (FLOAT64, $>= 0$) que especifica la fuerza de la regularización L2 (también conocida como Ridge). Un valor más alto penaliza las ponderaciones grandes, ayudando a prevenir el sobreajuste (overfitting).Un ejemplo de uso en una sentencia CREATE MODEL sería: CREATE OR REPLACE MODEL `mi_dataset.mi_modelo` OPTIONS( model_type='LOGISTIC_REG', L1_REG = 1.0, -- Especifica la fuerza de L1 L2_REG = 0.5 -- Especifica la fuerza de L2 ) AS SELECT ... Por qué las otras opciones son incorrectas Opción A (REGULARIZATION_TYPE='L1' y REGULARIZATION_TYPE='L2'): Esta sintaxis es incorrecta. BigQuery ML no tiene un único parámetro REGULARIZATION_TYPE para seleccionar el tipo de regularización. En su lugar, BQML aplica la regularización L1 si tú proporcionas un valor para L1_REG, y aplica L2 si proporcionas un valor para L2_REG. Puedes incluso usar ambos al mismo tiempo (lo que se conoce como regularización Elastic Net). Opción C (LASSO y RIDGE): Estos son los nombres conceptuales de los métodos de regularización (Lasso para L1 y Ridge para L2), pero no son los nombres de los parámetros de OPTIONS en la sintaxis SQL de BigQuery ML. Opción D (PENALTY='L1' y PENALTY='L2'): Esta es una fuente común de confusión, ya que el parámetro penalty se usa en otras bibliotecas de machine learning muy populares, como scikit-learn en Python. Sin embargo, esta no es la sintaxis correcta para BigQuery ML. BQML es más explícito y separa los controles de fuerza para L1 y L2 en sus propios parámetros.

Answer 228

C Una de las contrapartidas más importantes al usar PCA es el intercambio que se hace entre la simplicidad del modelo y la capacidad de interpretar sus resultados. ¿Por qué la Opción C es la correcta? ✅ El núcleo del problema de la interpretabilidad radica en cómo PCA transforma los datos. PCA toma tus características originales y las combina para crear un nuevo conjunto de características llamadas componentes principales. Características Originales: Suelen ser fácilmente interpretables. Por ejemplo: edad, ingresos, altura, presión arterial. Componentes Principales (Nuevas Características): Son combinaciones matemáticas abstractas de todas las características originales. Por ejemplo, el primer componente (PC1) podría ser algo como: PC1=(0.45×edad)−(0.30×ingresos)+(0.81×altura)+... Cuando entrenas un modelo de machine learning usando estos componentes principales, el modelo te dirá la importancia de PC1, PC2, etc. Pero, ¿qué significa que PC1 sea importante? Es muy difícil de explicar en términos de negocio o del mundo real, porque PC1 no es una cosa, sino una mezcla de muchas. Se pierde la capacidad de decir frases simples y directas como: "El modelo predice un mayor riesgo porque los ingresos del cliente son bajos". En su lugar, tendrías que decir: "El modelo predice un mayor riesgo porque el valor de PC1 es alto", lo cual no es intuitivo ni explicable para la mayoría de las personas. Esta pérdida de interpretabilidad es una desventaja fundamental. ¿Por qué las otras opciones son incorrectas? ❌ A. Requiere que los datos sigan una distribución no lineal. Esto es falso. De hecho, PCA es una técnica lineal que funciona mejor para capturar relaciones lineales en los datos. Para estructuras no lineales, se necesitan técnicas más avanzadas como Kernel PCA. B. Siempre aumenta el riesgo de sobreajuste (overfitting). Esto es lo contrario de la realidad. PCA es a menudo una técnica muy eficaz para reducir el sobreajuste. Al disminuir el número de características y eliminar las de menor varianza (que a menudo son ruido), se simplifica el modelo y se le ayuda a generalizar mejor a datos nuevos. D. Solo funciona con variables categóricas. Esto también es incorrecto. PCA está diseñado fundamentalmente para variables numéricas y continuas, ya que se basa en cálculos de varianza y covarianza. Para usar variables categóricas, primero deben ser convertidas a un formato numérico (por ejemplo, mediante one-hot encoding).

Answer 229

D D. Hay un 85% de probabilidad de que el cliente abandone el servicio. Esta es la interpretación perfecta. Un modelo de regresión logística no genera directamente la etiqueta final (como 'churn' o 'no churn'). En su lugar, su salida principal es un valor de probabilidad entre 0 y 1. Este valor (en este caso, 0.85) representa la probabilidad estimada por el modelo de que el cliente pertenezca a la clase "positiva". En un modelo de abandono, la clase "positiva" (la que se está tratando de predecir) es casi siempre el evento de 'churn' (abandono). Por lo tanto, un 0.85 significa que el modelo estima que hay un 85% de probabilidad de que ese cliente en particular abandone el servicio. Posteriormente, se aplica un umbral de decisión (generalmente 0.5) a esta probabilidad para tomar la decisión final. Como 0.85 > 0.5, la predicción final del modelo sería 'churn'. Por qué las otras opciones son incorrectas A. El modelo cometió un error, ya que la salida debería ser 'churn' o 'no churn'. Incorrecto. El modelo no cometió un error. La salida de probabilidad (0.85) es el resultado intermedio esperado. La etiqueta final se deriva de esta probabilidad. B. El cliente es un 85% 'churn'. Incorrecto. Esta es una mala interpretación semántica. Un cliente no puede ser "85% churn"; o abandona o no abandona. La cifra del 85% es una probabilidad (la confianza del modelo), no un estado parcial del cliente. C. La predicción correcta es 'no churn' con una confianza del 15%. Incorrecto. Esto está doblemente mal. Si la probabilidad de 'churn' es del 85%, la probabilidad de 'no churn' es 1 - 0.85 = 0.15 (15%). Dado que el 85% es mucho mayor que el 15% (y está por encima del umbral de 0.5), la predicción final sería 'churn', no 'no churn'.

Answer 230

A La Respuesta Correcta A. 80% ¿Por qué? La Precisión (Precision) responde a la pregunta: "De todos los casos que el modelo predijo como positivos (Fraude), ¿cuántos eran realmente positivos?". La fórmula es: TP / (TP + FP) TP (Verdaderos Positivos): 80 (El modelo dijo Fraude y ERA Fraude). FP (Falsos Positivos): 20 (El modelo dijo Fraude, pero ERA legal). Cálculo: 1- Sumamos todas las predicciones positivas: $80 + 20 = 100$. 2- Dividimos los aciertos entre ese total: $\frac{80}{100} = 0.8$. 3- Resultado: 80%. En el contexto de fraude, una precisión del 80% significa que de cada 100 veces que bloqueas una tarjeta, en 20 te has equivocado y has molestado a un cliente honesto. Por qué las otras opciones son incorrectas (Las Trampas) Estas opciones no son números aleatorios; son los resultados de otras métricas que suelen confundirse. B. 88.9% $\rightarrow$ Esto es el RECALL (Sensibilidad) Fórmula: $TP / (TP + FN)$ Cálculo: $80 / (80 + 10) = 80 / 90 = 0.888...$ Explicación: El Recall responde a: "De todos los fraudes que EXISTEN en la realidad, ¿cuántos detectó el modelo?". Aquí te olvidaste de los 10 fraudes que se escaparon (FN), pero la pregunta pedía Precisión, no Recall. C. 97.2% $\rightarrow$ Esto es la ACCURACY (Exactitud) Fórmula: $(TP + TN) / Total$ Cálculo: $(80 + 990) / 1100 = 1070 / 1100 = 0.9727...$ Explicación: La Accuracy mide qué tan bien acierta el modelo en general (tanto fraudes como no fraudes). La trampa: En detección de fraude, la Accuracy suele ser engañosamente alta porque hay muchísimos casos negativos (TN=990). Decir "97% de exactitud" suena genial, pero si tu modelo no detectara ningún fraude, seguiría teniendo una exactitud altísima solo por acertar los casos normales. Por eso nunca usamos Accuracy en datos desbalanceados. D. 98% $\rightarrow$ Esto es la SPECIFICITY (Especificidad) Fórmula: $TN / (TN + FP)$ Cálculo: $990 / (990 + 20) = 990 / 1010 = 0.9801...$ Explicación: Mide qué tan bueno es el modelo detectando las transacciones legítimas (negativos). Resumen Mental para el Examen: El Denominador Para no confundirte nunca entre Precisión y Recall, mira siempre el denominador (la parte de abajo de la fracción): PRECISIÓN (Precision): El denominador es lo que DICE EL MODELO ($TP + FP$). Foco: Calidad de la predicción. RECALL (Sensibilidad): El denominador es lo que ES LA REALIDAD ($TP + FN$). Foco: Cantidad de casos encontrados.

Answer 231

B y C Supervised learning requires labeled data and is task-driven to identify a goal, while unsupervised learning deals with unlabeled data to find patterns. Within supervised learning, regression models predict continuous values (like tip amount or dog weight), and classification models predict discrete categories (like sex of a customer or dog breed). Therefore, option A is incorrect as it describes unsupervised learning, and option D is incorrect because a continuous label requires a regression algorithm, not classification.

Answer 232

A, B y C BigQuery ML allows users to build ML models using SQL, making it accessible for SQL-proficient Data Analysts. AutoML is a "fastest path from data to value" no-code/low-code solution suitable for users with limited ML expertise, automating many steps. Custom training offers deep control and customization using code, which is suitable for Data Scientists needing to fine-tune or automate complex workflows. Pre-trained APIs are ready-made solutions that use pre-trained models, not for building custom models from scratch with unique datasets

Answer 233

B The sources explicitly define the three main stages of the ML workflow: Data preparation (gathering and prepping ingredients), Model development (experimenting with recipes, training, and evaluating), and Model serving (serving the meal and monitoring feedback)

Answer 234

A, B y C The Feature Store directly addresses all three mentioned pain points: it facilitates sharing and reuse via a centralized repository; it provides scalable, low-latency serving by managing the underlying infrastructure; and it alleviates training-serving skew by ensuring feature consistency between training and serving, along with monitoring capabilities. However, feature engineering is still described as a primarily manual, time-consuming task, so option D is incorrect as Feature Store does not fully automate this process.

Answer 235

C The Sum of Errors can lead to issues where positive and negative errors cancel each other out, making it an unreliable measure of overall error. The Mean Squared Error (MSE) squares the errors, resulting in units that are squared (e.g., pounds-squared), which can be hard to interpret. The Root Mean Squared Error (RMSE) takes the square root of the MSE, bringing the error back to the original units of the label, making it more interpretable and a common metric for evaluating regression models, with the goal to minimize it. The sum of absolute errors is an alternative, but RMSE is specifically highlighted for its interpretability in original units.

Answer 236

C Vertex AI Pipelines help automate and orchestrate machine learning workflows, allowing for consistent, repeatable processes across components like data ingestion, training, and deployment.

Answer 237

C BigQuery ML lets users build and train models using SQL queries directly within BigQuery, without moving data elsewhere.

Answer 238

B Supervised learning uses labeled data to train models for tasks like regression (continuous outcomes) and classification (categorical outcomes).

Answer 239

A, C y D AutoML is codeless and handles architecture and tuning automatically. Custom training is more flexible and allows manual tuning, but it requires programming skills. Only AutoML is limited to predefined objectives.

Answer 240

B Vertex AI Feature Store helps alleviate training-serving skew by enabling reuse of computed features for both training and serving.

Answer 241

B Vertex AI AutoML enables users to train machine learning models without writing code, automating tasks like feature engineering, model selection, and hyperparameter tuning. It’s suitable for users with limited ML expertise, allowing rapid prototyping with a simple UI

Answer 242

A, B y C The typical ML workflow consists of data preparation, model development, and model serving. Data encryption is important for security but is not considered a core stage of the ML workflow itself

Answer 243

B Vertex AI Feature Store is a managed service that provides a centralized place to store, share, and serve machine learning features across teams and projects, enabling efficient feature reuse and reducing issues like training-serving skew

Answer 244

B BigQuery ML enables users to build, train, and serve machine learning models directly within BigQuery using SQL queries. This makes it easy to apply ML on structured data without exporting data or writing custom code

Answer 245

A y C Custom training on Vertex AI is chosen when teams need full flexibility for defining the model structure, developing custom algorithms, or require advanced configuration and tuning that AutoML cannot provide. AutoML is ideal for standard tasks on well-defined data types, especially when ease of use and speed are required

Answer 246

C The "Machine Learning on Google Cloud learning path" slide explicitly lists five courses. These are "Introduction to AI and ML on Google Cloud," "Launching into Machine Learning," "TensorFlow on Google Cloud," "Feature Engineering," and "Machine Learning in the Enterprise." "Data Engineering on Google Cloud" is not mentioned as part of this specific learning path.

Answer 247

B The presentation states that BigQuery ML "Allows you to use SQL to invoke machine learning models on structured data" and "Doesn't require exporting data out of BigQuery to create and train a model." This highlights its unique capability to perform machine learning directly within the BigQuery data warehouse using standard SQL.

Answer 248

D The "ML workflow (Cont.)" slide explicitly describes the final stage, model serving, as where "the model was deployed and monitored. This translates to serving the meal to customers and adjusting the menu as more people tried and reviewed the dish." The other options describe the data preparation and model development stages.

Answer 249

B y C The "Fully managed Feature Store" slide highlights its key benefits. It mentions a "Centralized feature repository with easy APIs to search and discover features" which facilitates sharing and reuse. It also explicitly states that it helps to "Alleviate training-serving skew" by letting you "Compute feature values once; re-use for training and serving." While other tools handle pipeline automation or custom training, the Feature Store's main role is managing and serving features consistently.

Answer 250

C The "When to use AutoML and when to use Custom Training" slide clearly states that for AutoML, "No, AutoML is codeless" is the answer to "Programming ability needed." In contrast, for Custom Training, the answer is "Yes, to develop the training application." The other statements incorrectly describe the characteristics of these two approaches.

Answer 251

B AI is a broad field focused on creating intelligent systems, while ML is a specific set of techniques within AI that enables systems to learn from data and improve performance without explicit programming.

Answer 252

A In TensorFlow, loss functions (e.g., Mean Squared Error, Root Mean Squared Error) measure the discrepancy between the model's predictions and actual values, guiding the training process to minimize this error.

Answer 253

B One-hot encoding is a common technique in feature engineering to convert categorical data into a numerical format that can be used by machine learning algorithms, improving model performance.

Answer 254

A The standard machine learning workflow begins with preparing the data, followed by developing the model, and ends with serving the model to make predictions on new data.

Answer 255

A Vertex AI is a unified platform that supports the entire machine learning lifecycle, including creating datasets, training models, evaluating accuracy, tuning hyperparameters, deploying models, and serving predictions.

Answer 256

C Por qué la opción C es la correcta C. Que puede ser resuelto por una máquina de Turing determinista en tiempo polinómico. Esta es la definición formal de la clase P. Vamos a desglosarla: Problema de decisión: Un problema con una respuesta de "sí" o "no". Máquina de Turing determinista: Es el modelo teórico de un ordenador normal, que sigue una secuencia de instrucciones paso a paso sin adivinar. Tiempo polinómico: Esta es la parte más importante. Significa que si el tamaño de la entrada del problema es n, el tiempo que tarda el algoritmo en encontrar la solución es, en el peor de los casos, proporcional a n elevado a una potencia constante (n², n³, etc.). En términos sencillos, un problema está en P si existe un algoritmo eficiente que lo resuelve. A medida que el problema crece, el tiempo de solución crece de manera predecible y manejable, no de forma explosiva. Por ejemplo, ordenar una lista o encontrar el camino más corto en un mapa son problemas en P. Por qué las otras opciones son incorrectas A. Que el problema solo puede tener dos respuestas: 'sí' o 'no'. Esto define lo que es un problema de decisión, no la clase P. Todos los problemas en P son problemas de decisión, pero no todos los problemas de decisión están en P (algunos son mucho más difíciles o incluso irresolubles). B. Que su solución puede ser verificada en tiempo polinómico si se proporciona una prueba. Esta es la definición de la clase de complejidad NP (Nondeterministic Polynomial time). La diferencia clave es resolver vs. verificar. P (Resolver): Puedo encontrar la solución desde cero rápidamente. NP (Verificar): Si me das una posible solución, puedo comprobar rápidamente si es correcta. Por ejemplo, encontrar los factores primos de un número muy grande es difícil (no se conoce un algoritmo en P), pero si me das los factores, puedo multiplicarlos rápidamente para verificar que son correctos (está en NP). Todo problema en P está también en NP, pero no se sabe si NP está contenido en P (el famoso problema P vs. NP). D. Que puede ser resuelto por una máquina de Turing no determinista en tiempo polinómico. Esta es simplemente la definición formal y técnica de la clase NP, equivalente a la opción B. Una "máquina no determinista" es un concepto teórico que puede explorar múltiples caminos a la vez, lo que le permite "adivinar" la respuesta correcta y luego verificarla.

Answer 257

B NP significa 'Tiempo Polinómico No Determinista', y una de sus definiciones equivalentes es que una solución candidata puede ser verificada rápidamente (en tiempo polinómico).

Answer 258

B Esta es la definición de la completitud en NP. Si encuentras una solución eficiente para un problema NP-completo, puedes resolver eficientemente todos los problemas en NP.

Answer 259

A Por qué es la buena:Todo nuestro sistema de seguridad en internet (bancos, compras, contraseñas, HTTPS) se basa en una premisa: "Es fácil multiplicar dos números primos gigantes, pero es casi imposible descubrir cuáles eran esos dos números si solo tienes el resultado (factorización)".El vínculo P=NP: La factorización de enteros es un problema que, hoy en día, creemos que es "difícil" (tarda miles de años en computación clásica). Si se demuestra que $P = NP$, significa que existe un algoritmo rápido (polinómico) para resolver problemas de verificación.El colapso: Dado que verificar si una contraseña es correcta es fácil (clase NP), si $P = NP$, encontrar esa contraseña también sería fácil (clase P). RSA y otros algoritmos asimétricos se romperían en cuestión de minutos o segundos.Por qué las otras son las malasB. Las matemáticas se considerarían “completamente resueltas”Por qué falla: Aunque demostrar teoremas sería mucho más fácil (porque encontrar una demostración corta pasaría a ser algo automatizable), no todo estaría resuelto.El límite: Existen problemas "indecidibles" (como el Problema de la Parada de Turing) que no tienen solución algorítmica, sin importar si $P = NP$ o no. La lógica tiene límites que van más allá de la complejidad computacional.C. Los ordenadores dejarían de necesitar más memoria RAMPor qué falla: Estás confundiendo Tiempo con Espacio.La diferencia: $P$ vs $NP$ es una cuestión de Tiempo (cuántos pasos tarda el procesador). Aunque resuelvas un problema rápido, podrías seguir necesitando almacenar gigabytes de datos en la memoria para procesarlos. La complejidad espacial es un tema aparte.D. No tendría ningún impacto práctico, sería un resultado puramente teóricoPor qué falla: Sería el mayor avance tecnológico de la historia.La revolución: Aparte de destruir la criptografía, revolucionaría la logística (el problema del viajante se resolvería perfecto al instante), la medicina (plegamiento de proteínas para curar cáncer), la optimización de tráfico, la economía, etc. El mundo cambiaría radicalmente.

Answer 260

C El Problema del Viajante de Comercio es un ejemplo clásico de un problema NP-completo con importantes aplicaciones en logística y planificación

Answer 261

B PCA busca una proyección de menor dimensión que capture la mayor varianza posible de los datos originales.

Answer 262

C ¿Por qué la C es la buena? (El concepto de Varianza Global) Para entender esto, hay que recordar qué hace el PCA (Análisis de Componentes Principales). Su objetivo es reducir la complejidad de los datos encontrando los patrones que más se repiten o que capturan la mayor "varianza" (información). Patrones Comunes: En un set de datos de caras, casi todas las imágenes tienen la misma estructura básica: una forma ovalada, dos ojos, una nariz y una boca en posiciones similares. El PC1: El Primer Componente Principal busca la dirección donde los datos varían más en conjunto. Visualmente, esto se traduce en las características que todas las imágenes comparten con mayor fuerza. Eigenfaces: En visión por computador, estos componentes se llaman "Eigenfaces" (caras propias). El PC1 suele parecerse a una "cara fantasma" o borrosa que representa la estructura general de una cara humana y, a menudo, la iluminación global de la escena. Es el "molde" base sobre el cual se construyen las diferencias. Nota: Matemáticamente, el PC1 captura la mayor variación respecto al promedio. Si sumas el PC1 a la "cara media" matemática, obtienes la variación más común (por ejemplo, caras más anchas vs. más estrechas, o luz a la derecha vs. luz a la izquierda). ¿Por qué las malas son las malas? Aquí explicamos por qué las otras opciones contradicen la lógica del algoritmo: A. Una imagen completamente en negro sin información. Por qué falla: El PCA busca maximizar la información (varianza). Una imagen negra implica que todos los valores son cero (o constantes), lo que significa varianza cero. El PC1 es, por definición, el componente con más información, no con menos. Una imagen negra sería el resultado de algo que no tiene importancia en los datos. B. Detalles muy específicos como el color de los ojos de una sola persona. Por qué falla: El PCA prioriza lo global, no lo local. Un detalle específico de una sola persona (como un lunar o un color de ojos raro) es una anomalía estadística, no un patrón general. Este tipo de detalles se encontrarían en los últimos componentes principales (por ejemplo, el PC100 o PC200), que se encargan de capturar el "ruido" o los detalles finos una vez que la estructura general ya ha sido explicada. D. El fondo de una de las imágenes. Por qué falla: Esto depende del dataset, pero generalmente el PCA busca correlaciones. Si los fondos son aleatorios en cada foto, el PCA los considerará "ruido" y no aparecerán en el PC1. Si el fondo es idéntico en todas (ej. una pared blanca), el PCA lo eliminará al centrar los datos (restar la media) y se centrará en lo que cambia (las caras). El PC1 nunca representará el fondo de "una sola" imagen, porque el PC1 se calcula usando todas las imágenes a la vez. Resumen Visual Si tuvieras que reconstruir una cara humana usando PCA, el proceso sería como pintar un cuadro por capas: PC1 (Opción C): Pintas el óvalo de la cara y las sombras principales (la base). PC2 - PC10: Defines si la cara es ancha o delgada, si es hombre o mujer, o la dirección de la luz. PC50+ (Opción B): Empiezas a pintar detalles finos como lunares o arrugas específicas.

Answer 263

D El Análisis de Componentes Principales (PCA) es una técnica de reducción de dimensionalidad cuyo objetivo es simplificar un conjunto de datos complejo conservando la mayor cantidad de información relevante posible. ¿Por qué la Opción D es la correcta? ✅ La "información" en el contexto de PCA se mide a través de la varianza. Una alta varianza en una dirección específica significa que los datos están muy dispersos en ese eje, lo que indica que hay una estructura o patrón significativo. El funcionamiento de PCA se basa precisamente en encontrar estas direcciones: Primer Componente Principal (PC1): Es la nueva dirección (un eje creado a partir de una combinación de las variables originales) que captura la máxima varianza posible en los datos. Es la dimensión más "importante" del conjunto de datos. Segundo Componente Principal (PC2): Es la siguiente dirección, perpendicular a la primera, que captura la máxima varianza restante. Y así sucesivamente... Cada componente subsiguiente captura la mayor varianza posible sin estar correlacionado con los anteriores. Al reducir los datos a un número menor de componentes, lo que haces es quedarte con los primeros (PC1, PC2, etc.), que son, por definición, las direcciones de mayor varianza. De esta forma, descartas las dimensiones con menos varianza, que a menudo se consideran "ruido". En resumen, PCA prioriza y conserva la estructura fundamental de los datos, que se encuentra en los ejes de mayor dispersión. ¿Por qué las otras opciones son incorrectas? ❌ A. La información de las dos primeras variables del conjunto de datos original. Esto es incorrecto. PCA no selecciona variables originales; crea nuevas variables (los componentes principales) que son combinaciones lineales de todas las variables originales. B. La información considerada como 'ruido' o variación aleatoria. Esto es exactamente lo contrario de lo que hace PCA. El objetivo es eliminar el ruido (las direcciones de baja varianza) y conservar la "señal" (las direcciones de alta varianza). C. La información correspondiente a las variables con los valores medios más altos. La media de una variable no indica su importancia en términos de varianza. De hecho, un paso estándar de preprocesamiento antes de aplicar PCA es centrar los datos (restar la media a cada variable), por lo que la media se vuelve cero y no influye en el resultado. PCA se centra en la dispersión de los datos, no en su ubicación central.

Answer 264

A K-Means es un algoritmo de agrupamiento (clustering) que busca formar K grupos basándose en la similitud de los datos, medida por la distancia a un punto central o centroide.

Answer 265

C 'K' es un hiperparámetro que el usuario debe especificar, indicando al algoritmo cuántos grupos debe buscar.

Answer 266

D En este paso, se calcula la distancia de cada punto a cada uno de los K centroides y se asigna al más próximo.

Answer 267

C El centroide se recalcula para ser el verdadero 'centro' (la media) de todos los puntos que actualmente pertenecen a su grupo.

Answer 268

A Una mala inicialización de los centroides puede hacer que el algoritmo converja a un resultado subóptimo. Por eso se suele ejecutar varias veces con diferentes inicios.

Answer 269

D 🟢 Por qué la D es la correcta: Los centroides se mueven... El algoritmo K-Means es un proceso iterativo que se repite en dos pasos hasta que los centroides dejan de moverse (convergencia): Paso 1: Asignación. Se toma cada punto de dato (que está fijo en su posición) y se mide su distancia a cada uno de los centroides actuales. El punto de dato es asignado o etiquetado con el color del centroide que tenga más cercano. Importante: En este paso, los puntos no se mueven. Solo reciben una etiqueta. Paso 2: Actualización (El movimiento). Una vez que todos los puntos tienen una etiqueta (ej. "Clúster 1", "Clúster 2"), miramos cada clúster por separado. El centroide de ese clúster ahora se mueve a una nueva posición. ¿Cuál es esa nueva posición? Es el centro exacto (la media o promedio) de todos los puntos que fueron asignados a su clúster en el Paso 1. Este ciclo se repite. Como los centroides se han movido, en el siguiente "Paso 1" algunos puntos que estaban en la frontera pueden ser re-asignados a un nuevo centroide, lo que a su vez hará que los centroides se muevan de nuevo en el "Paso 2". La respuesta D describe perfectamente el "Paso 2", que es el único momento donde algo realmente "se mueve" (cambia sus coordenadas). 🔴 Por qué las otras son incorrectas A. Los puntos más lejanos (outliers) se eliminan... Esto es incorrecto. El algoritmo K-Means estándar no elimina outliers. De hecho, los outliers son un problema para K-Means, porque al calcular la media (el centro), un outlier tira con mucha "fuerza" del centroide hacia él, distorsionando el clúster. B. Los puntos de datos se mueven ligeramente... Esta es la trampa más común. Los puntos de datos nunca se mueven. Sus coordenadas son los datos de entrada; son fijos. Lo único que cambia para un punto de dato es su etiqueta (el clúster al que pertenece). C. Tanto los puntos de datos como los centroides se mueven... Incorrecto por la misma razón que B. Solo los centroides se mueven. 💡 Analogía para entenderlo mejor Imagina un juego con varios jugadores (los puntos de datos) que están clavados en el suelo en un campo de fútbol; no pueden moverse. Ahora, quieres colocar 3 capitanes (los centroides) en el campo. Iteración 1 (Inicio): Pones a los 3 capitanes (centroides) en posiciones aleatorias. Paso 1 (Asignación): Cada jugador (punto) mira a los 3 capitanes y levanta la mano para "unirse" al equipo del capitán que esté más cerca de él. Paso 2 (Actualización/Movimiento): Ahora, cada capitán (centroide) mira a todos los jugadores que levantaron la mano por él y camina (se mueve) para situarse justo en el centro geográfico (la media) de su nuevo equipo. Iteración 2 (Repetir): Paso 1: Como los capitanes se han movido, algunos jugadores que estaban "en la frontera" ahora se dan cuenta de que otro capitán está más cerca, así que cambian su asignación (levantan la mano por el otro capitán). Paso 2: Los capitanes ven que sus equipos han cambiado, así que se mueven de nuevo para re-centrarse con sus nuevos miembros. El juego termina cuando los capitanes dejan de moverse, porque eso significa que los equipos (clústeres) están estables. Como ves, los jugadores (puntos) están fijos, y los capitanes (centroides) son los que se mueven.

Answer 270

C El criterio de asignación es la proximidad. Cada punto se agrupa con el centroide al que está más cerca, generalmente medido con la distancia euclidiana.

Answer 271

A La nueva posición del centroide es el promedio de las coordenadas de todos los puntos que pertenecen a su clúster.

Answer 272

B El algoritmo converge cuando los centroides dejan de moverse significativamente porque los puntos ya no cambian de clúster. La solución se ha estabilizado.

Answer 273

B La regresión logística utiliza la función sigmoide para mapear la salida de un modelo lineal a una probabilidad, la cual siempre estará acotada entre 0 y 1.

Answer 274

B La regresión logística asume una relación lineal entre las variables predictoras y el 'logaritmo de las odds' (log-odds) del resultado. Esto crea una frontera de decisión lineal.

Answer 275

A ✅ Por qué la opción A es la correcta El objetivo de la regresión logística es predecir una probabilidad (valor entre 0 y 1) usando un modelo lineal, cuya salida natural no está limitada a ese rango. Aquí entra el logit. Problema: Una línea recta (como Y = b₀ + b₁X) puede dar valores de -∞ a +∞, pero una probabilidad solo va de 0 a 1. No se pueden conectar directamente. Solución (Logit): El logit o log-odds es una transformación matemática que convierte la escala de probabilidad [0, 1] en una escala de línea recta [-∞, +∞]. Primero se convierte la probabilidad (p) en odds: Odds = p / (1 - p) Luego se calcula el logaritmo natural de los odds: Log-odds = ln(p / (1 - p)) Esta transformación permite asumir una relación lineal entre las variables predictoras (X) y el resultado transformado (log-odds): ln(p / (1 - p)) = b₀ + b₁X Analogía: La relación entre X y p es una curva en forma de 'S'. El logit es como una lente matemática que la endereza para poder analizarla con herramientas lineales. ❌ Por qué las otras opciones son incorrectas B. Es una métrica para medir el error: Incorrecto. El log-odds transforma la variable de salida, no mide el error. La métrica de error más común es la Pérdida Logarítmica (Log Loss) o Entropía Cruzada Binaria. C. Es simplemente otra palabra para la probabilidad predicha: Incorrecto. La probabilidad va de 0 a 1, el log-odds de -∞ a +∞. Son distintos. D. Es una función de activación que transforma una relación lineal en una no lineal (curva 'S'): Incorrecto. Eso describe la función inversa al logit, llamada sigmoide. Resumen: Logit: transforma la curva 'S' en línea recta (log-odds). Sigmoide: transforma la línea recta en curva 'S' (probabilidad). Son procesos opuestos, aunque relacionados.

Answer 276

C Puedes añadir transformaciones de tus variables (X², log(X), etc.) como nuevas predictoras. El modelo sigue siendo lineal respecto a los coeficientes, pero ahora puede modelar fronteras de decisión no lineales.

Answer 277

B Pequeños cambios en la iluminación, la pose o la expresión facial alteran los valores de los píxeles de una manera muy compleja. No se puede trazar una 'línea' o 'plano' simple para resolverlo.

Answer 278

C Este es el punto clave. Métodos como HOG o las cascadas de Haar transforman los píxeles en un espacio de características donde el problema se vuelve más 'sencillo' y una SVM puede encontrar un hiperplano de separación eficaz.

Answer 279

D Esta es la ventaja fundamental del 'deep learning'. Las capas convolucionales de la red aprenden a identificar las características óptimas (bordes, texturas, formas, etc.) por sí mismas durante el entrenamiento.

Answer 280

A La temperatura puede ser 22°C, 22.1°C, 22.11°C, etc. Puede tomar cualquier valor dentro de un rango, por lo que es continua.

Answer 281

C La regresión lineal es la herramienta perfecta para predecir una cantidad que puede variar en un rango continuo (ej: predecir un precio de 150.000,50€).

Answer 282

C La regresión logística predice una probabilidad (que es una variable continua). Luego, usamos esa probabilidad para tomar una decisión (ej: si P > 0.5, es una cara).

Answer 283

B El formato de la salida no coincide. La regresión logística da un solo número, mientras que 'predecir una cara' significa generar una matriz de miles de valores de píxeles.

Answer 284

B ✅ Respuesta Correcta B. Encontrar el hiperplano que maximice la distancia (el margen) a los puntos de datos más cercanos de cada clase. ¿Por qué es correcta? 🎯 Esta es la definición fundamental de una Máquina de Vectores de Soporte (SVM, por sus siglas en inglés). Imagina que tienes que dibujar una línea para separar dos grupos de puntos (círculos y cuadrados) en un papel. Podrías dibujar muchas líneas, pero la SVM busca la mejor línea posible. ¿Y cuál es la mejor? Aquella que está lo más lejos posible de los puntos más cercanos de cada grupo. Hiperplano: Es el término técnico para la línea (en 2D) o el plano (en 3D) que separa las clases. Margen: Es la distancia desde el hiperplano hasta los puntos más cercanos. Es como el ancho de una "calle" que separa dos barrios. Vectores de soporte: Son esos puntos de datos más cercanos al hiperplano que "sostienen" el margen. El objetivo de la SVM es maximizar este margen (hacer la calle lo más ancha posible), porque un margen más grande generalmente significa que el modelo clasificará nuevos datos de forma más robusta y precisa. ❌ Respuestas Incorrectas A. Agrupar los puntos de datos en 'K' clústeres, de forma similar a K-Means. ¿Por qué es incorrecta? Esto describe un problema de clustering (agrupamiento), que es una tarea de aprendizaje no supervisado. Algoritmos como K-Means encuentran grupos naturales en los datos sin saber a qué categoría pertenecen. La SVM es un algoritmo de clasificación, una tarea de aprendizaje supervisado, lo que significa que aprende a partir de datos que ya tienen etiquetas (ya sabemos qué puntos son círculos y cuáles son cuadrados). C. Predecir un valor continuo, como el precio de una acción. ¿Por qué es incorrecta? Esto describe un problema de regresión. La regresión se usa para predecir un número (un valor continuo), como la temperatura de mañana o el precio de una casa. Aunque existe una variante de SVM para regresión (SVR), la pregunta se refiere al clasificador SVM, cuyo objetivo principal es predecir una categoría o clase (ej: "spam" o "no spam", "perro" o "gato"). D. Encontrar una línea o plano (hiperplano) que pase por el mayor número de puntos posible. ¿Por qué es incorrecta? Esto es conceptualmente lo contrario de lo que hace una SVM. Un clasificador SVM no intenta pasar a través de los puntos, sino entre los grupos de puntos. Un hiperplano que pasa por muchos puntos sería un mal separador de clases. El objetivo es la separación, no el ajuste.

Answer 285

D Son los puntos críticos que definen la posición del hiperplano. Si movieras uno de estos puntos, la frontera cambiaría.

Answer 286

B El truco del kernel permite a la SVM operar en un espacio de características de mayor dimensión sin tener que calcular explícitamente las coordenadas, permitiéndole crear fronteras de decisión no lineales en el espacio original.

Answer 287

C Si los datos son linealmente separables, un kernel lineal es la opción más simple y eficiente. No hay necesidad de proyectar los datos a una dimensión superior.

Answer 288

B Un kernel define cómo medir la relación entre puntos. Un kernel lineal usa una distancia simple, mientras que uno no lineal (como el RBF) puede ver similitudes más complejas, como si los puntos estuvieran 'cerca' en una dimensión superior.

Answer 289

B Si no ajustas el peso, la SVM podría decidir que lo mejor es clasificar todo como clase A para tener un 99% de acierto. Al darle más peso a la clase B, 'penalizas' más los errores en esa clase, forzando al modelo a prestarle atención.

Answer 290

D 'C' gestiona el trade-off entre sesgo y varianza. Un 'C' bajo favorece un modelo más simple (margen ancho, más sesgo). Un 'C' alto favorece un modelo más complejo que se ajusta a los datos de entrenamiento (margen estrecho, más varianza).

Answer 291

D Un 'gamma' alto hace que el modelo sea muy sensible a cada punto individual. La frontera se vuelve muy 'ondulada' para capturar cada detalle, lo que puede ser un signo de sobreajuste (overfitting).

Answer 292

B Los algoritmos de optimización de las SVM modernas son muy eficientes. Tienen criterios internos para saber cuándo han encontrado la mejor solución posible y se detienen solos. El límite de iteraciones es más bien una salvaguarda para evitar que se ejecute indefinidamente si algo va mal

Answer 293

D El objetivo es automatizar la búsqueda de los mejores 'ajustes' (hiperparámetros, como C, gamma, learning rate, etc.) para que nuestro modelo generalice mejor.

Answer 294

B Si le das 3 valores para el parámetro A y 4 para el B, probará las 3x4=12 combinaciones sin saltarse ninguna. Es exhaustiva sobre la rejilla definida.

Answer 295

C Tú le dices 'prueba 20 combinaciones' y el método elige 20 pares de valores (uno para cada hiperparámetro) de forma aleatoria a partir de los rangos que has definido.

Answer 296

C ¿Por qué la opción C es la correcta? C. Porque Random Search no malgasta intentos probando múltiples veces valores de un hiperparámetro poco importante. Esta afirmación da en el clavo de la ventaja principal de Random Search. La idea fundamental es que, en la mayoría de los problemas de machine learning, no todos los hiperparámetros tienen la misma importancia. Algunos tienen un impacto enorme en el rendimiento del modelo, mientras que otros apenas lo afectan. Grid Search es un método sistemático que prueba todas las combinaciones posibles de una cuadrícula que tú defines. Si tienes un hiperparámetro importante (ej. la tasa de aprendizaje) y uno poco importante (ej. el número de workers), Grid Search gastará la misma cantidad de esfuerzo en ambos. Por cada valor del parámetro importante, probará todos los valores del parámetro sin importancia, lo cual es un desperdicio de recursos computacionales. Random Search, en cambio, elige combinaciones de hiperparámetros al azar dentro del espacio de búsqueda. Esto significa que cada intento prueba un valor único para cada hiperparámetro. Al no estar atado a una cuadrícula fija, es mucho más probable que explore una mayor diversidad de valores para los hiperparámetros que sí son importantes, aumentando así la probabilidad de encontrar una combinación cercana a la óptima con el mismo número de intentos. Como se ve en la imagen, con el mismo número de puntos (intentos), Grid Search solo prueba 3 valores distintos para cada parámetro. En cambio, Random Search prueba 9 valores únicos y diferentes para cada uno, explorando el espacio de búsqueda de manera mucho más eficiente. ¿Por qué las otras opciones son incorrectas? A. Porque Random Search está garantizado que prueba los valores óptimos. Esto es falso. Ningún método de búsqueda (excepto probar absolutamente todos los valores, lo cual es imposible) puede "garantizar" encontrar el óptimo. Random Search es un método probabilístico; simplemente aumenta las probabilidades de encontrar una buena solución, pero no ofrece ninguna garantía. B. Porque Grid Search tiende a sobreajustar el modelo más que Random Search. Esto es incorrecto. El sobreajuste (overfitting) es una característica del modelo final, no del método de búsqueda en sí. Tanto Grid Search como Random Search pueden encontrar combinaciones de hiperparámetros que lleven a un sobreajuste. La tendencia al sobreajuste depende más de los rangos de valores que se exploren y de una correcta validación cruzada que del método de búsqueda utilizado. D. Porque la aleatoriedad pura siempre es mejor que un método sistemático. Esto es una generalización excesiva y falsa. Afirmar que lo aleatorio "siempre" es mejor es incorrecto. Los métodos sistemáticos como Grid Search son muy útiles cuando el espacio de búsqueda es pequeño y se sabe que todos los hiperparámetros son importantes. La ventaja de Random Search es específica del contexto de la optimización de hiperparámetros, donde la importancia de estos es desigual.

Answer 297

D Su gran ventaja es que desglosa los aciertos (verdaderos positivos y negativos) y los errores (falsos positivos y negativos), dándote una visión completa del comportamiento del modelo.

Answer 298

B El modelo acertó al identificar correctamente a un paciente que tiene la enfermedad.

Answer 299

C Por ejemplo, predecir 'no es fraude' cuando sí lo es, o 'no tiene la enfermedad' cuando sí la tiene. El coste es alto porque el problema real pasa desapercibido.

Answer 300

D Es una 'falsa alarma'. El modelo predijo 'positivo' (fraude) pero se equivocó. Esto causa una molestia al cliente, pero es a menudo preferible a dejar pasar un fraude real.

Answer 301

B El número más alto fuera de la diagonal es 25, que corresponde a Zorros reales que fueron incorrectamente clasificados como Gatos. Este es el principal punto de fallo del modelo.

Answer 302

C De los 30 Gatos que clasificó mal, 22 fueron etiquetados como Zorros. Esto nos dice que el modelo ve características muy similares entre Gatos y Zorros

Answer 303

B Por qué es la buena: Esta opción se conoce técnicamente como Análisis de Error (Error Analysis). La matriz de confusión ya te ha dicho qué está pasando (el modelo confunde gatos y zorros). Ahora necesitas saber por qué. Diagnóstico cualitativo: Al mirar las fotos específicas donde el modelo falló (los 22 gatos que creyó que eran zorros y viceversa), podrías descubrir patrones humanos: ¿Están mal etiquetadas las fotos originales? (Quizás un humano etiquetó mal). ¿Son zorros bebés que parecen gatos? ¿Es el fondo? (Quizás todas las fotos de zorros son en la nieve y si pones un gato en la nieve, el modelo se confunde). Acción informada: Solo viendo los datos puedes decidir si necesitas limpiar las etiquetas, conseguir mejores fotos o cambiar la arquitectura del modelo. Por qué las otras son las malas A. Volver a entrenar con más iteraciones Por qué falla: Esto es "fuerza bruta" ciega. Si el modelo está confundido porque los datos son ambiguos o sucios, entrenar más tiempo solo hará que el modelo esté más seguro de su error (overfitting) o no cambie nada. "La esperanza no es una estrategia de ingeniería". C. Calcular la precisión (accuracy) total Por qué falla: La precisión es un número resumen. Te dirá "tienes un 85% de acierto", pero oculta el problema real. El problema: Ya sabes que hay un problema específico entre Gatos y Zorros. Calcular el promedio global no te ayuda a diagnosticar ese fallo local. Es como saber que tienes fiebre (el síntoma) pero no buscar la infección (la causa). D. Añadir muchas más fotos de Perros Por qué falla: Esto es irrelevante para el conflicto Gato vs. Zorro. El riesgo: De hecho, podría empeorar las cosas al desbalancear las clases (Class Imbalance). Si el modelo ve 90% perros, empezará a predecir "Perro" para todo por estadística, ignorando aún más a los zorros y gatos.

Answer 304

C El Recall (TP / (TP+FN)) te dice 'De todos los Zorros que había, ¿cuántos encontraste?'. En este caso, 73 / (2+25+73) = 73%. Revela que el modelo 'se perdió' un 27% de los zorros, la mayoría de ellos porque los llamó 'Gatos'.

Answer 305

A Esta es la definición precisa. El aprendizaje supervisado aprende de ejemplos con respuestas conocidas, el no supervisado busca patrones en datos sin respuestas, y el semi-supervisado aprovecha lo mejor de ambos mundos.

Answer 306

D No tienes etiquetas previas. El objetivo es que el algoritmo (como K-Means) explore los datos y encuentre patrones o 'clústeres' de forma autónoma. Esto es aprendizaje no supervisado.

Answer 307

C Este es el caso de uso perfecto. Puedes etiquetar a mano un pequeño subconjunto y luego usar la estructura de la gran masa de datos no etiquetados para mejorar el rendimiento del modelo.

Answer 308

D Esta es la estrategia semi-supervisada (a veces llamada de 'un solo tipo'). El modelo se convierte en un experto en la normalidad. Cuando se encuentra con algo que se desvía mucho de esa normalidad aprendida, lo marca como anómalo.

Answer 309

D K-Means define los clusters por su 'centro' (centroide). Esto funciona bien para grupos con forma de mancha o círculo, pero falla estrepitosamente cuando los clusters tienen formas alargadas, curvas o complejas.

Answer 310

D . K-Means busca minimizar la suma de las distancias al cuadrado dentro de cada cluster. Esto hace que prefiera clusters de tamaño y densidad similares, por lo que puede 'robar' puntos del cluster grande para asignarlos a centroides que deberían estar en el cluster pequeño, o dividir el grande.

Answer 311

C Una mala colocación inicial de los centroides puede hacer que el algoritmo se quede 'atascado' en una solución subóptima. Por eso, la práctica estándar es ejecutar K-Means varias veces (con n_init) y quedarse con el mejor resultado.

Answer 312

B K-Means no puede descubrir el número de clusters por sí mismo. Te obliga a tomar una decisión que puede no tener fundamento. Si eliges un K incorrecto, el modelo forzará los datos a encajar en ese número de grupos, aunque no tenga sentido.

Answer 313

B Al principio, cada una de las tres puertas tiene la misma probabilidad de ocultar el coche.

Answer 314

C Esta es la estrategia ganadora. Sigue leyendo las siguientes preguntas para entender por qué.

Answer 315

B Esta es la clave. La acción de Monty te da información. Él 'filtra' la puerta incorrecta del grupo de las que no elegiste, por lo que la probabilidad de 2/3 que tenía ese grupo ahora recae enteramente en la puerta que queda.

Answer 316

D Al considerar más vecinos, el modelo se vuelve menos sensible a puntos individuales (ruido) y la frontera que separa las clases se suaviza. Esto generalmente produce un modelo que generaliza mejor.

Answer 317

A Con K=1, el modelo se aprende 'de memoria' el conjunto de entrenamiento, incluyendo el ruido. Crea pequeñas islas de clasificación alrededor de puntos individuales, lo que probablemente hará que no generalice bien a datos nuevos.

Answer 318

B Con 'distance', la influencia de un vecino es inversamente proporcional a su distancia. Esto puede ayudar a crear fronteras de decisión más precisas, especialmente cerca de los límites entre clases.

Answer 319

C Si K es grande, es posible que incluyas vecinos de la clase incorrecta que están lejos. Al ponderar por distancia, la influencia de esos vecinos lejanos y 'malos' se reduce, y los vecinos cercanos y 'buenos' tienen más peso en la decisión.

Answer 320

A Se busca ver si el algoritmo puede encontrar por sí mismo los 10 grupos de dígitos basándose únicamente en su apariencia, sin usar las etiquetas.

Answer 321

C El centroide es la media matemática de todas las imágenes de su clúster. Al promediar muchas imágenes de '8' escritas de formas distintas, el resultado es una versión arquetípica o promediada.

Answer 322

C La precisión fallaría porque el 'clúster 0' no es igual a la etiqueta '7'. Se necesitan métricas como 'homogeneity' o 'adjusted rand score' que no dependen de los nombres de las etiquetas, sino de la consistencia de la agrupación.

Answer 323

C Las imágenes tienen mucho 'ruido' y píxeles correlacionados. PCA crea nuevas características más informativas y con menos ruido. Esto hace que las distancias entre puntos sean más significativas, lo que ayuda a K-Means a formar clústeres mejores y más compactos.

Answer 324

C El parámetro `scoring` acepta cadenas de texto como 'accuracy' o 'neg_mean_squared_error' para definir la métrica de evaluación.

Answer 325

D Conceptos Clave: Precisión vs. Exhaustividad Exhaustividad (Recall): Mide tu capacidad para encontrar a todos los que realmente deberían entrar. De todos los mayores de edad que hay en la fila, ¿a cuántos has dejado pasar? Si dejas pasar a todos los mayores de edad, tu exhaustividad es del 100%, incluso si también se te cuelan menores. El objetivo es no dejar a nadie válido fuera. Precisión (Precision): Mide la calidad de tus admisiones. De todas las personas a las que has dejado entrar, ¿cuántas eran realmente mayores de edad? Si dejas entrar a 100 personas, pero 50 son menores, tu precisión es solo del 50%. El objetivo es que tus aciertos sean de calidad. Aplicando los Conceptos al Problema El modelo del enunciado clasifica casi todos los anuncios como "oferta". Volviendo a nuestra analogía, es como un portero que, para no equivocarse, deja entrar a casi todo el mundo que está en la fila. ¿Cómo será su Exhaustividad? Muy alta. Al dejar entrar a casi todos, se asegura de que prácticamente ninguna persona que sea realmente mayor de edad (ninguna "oferta de empleo real") se quede fuera. Ha "capturado" casi todos los casos positivos que existen. ¿Cómo será su Precisión? Baja. Al dejar entrar a casi todos, no solo admite a los mayores de edad (ofertas reales), sino también a una gran cantidad de menores (anuncios que no son ofertas). Por lo tanto, si miras al grupo de gente que ha entrado, una gran proporción de ellos serán "falsos positivos", es decir, admisiones incorrectas. La calidad de su selección es muy pobre. Análisis de las Opciones a) Precisión alta y exhaustividad baja: Incorrecto. Esto sería un portero muy estricto que deja pasar a muy poca gente, pero los pocos que entran son, con seguridad, mayores de edad. Se le escaparían muchos mayores de edad de la fila (exhaustividad baja). b) Precisión baja y exhaustividad baja: Incorrecto. Esto describiría al peor portero posible: no solo se le cuelan muchos menores (precisión baja), sino que además deja fuera a muchos mayores de edad (exhaustividad baja). c) Precisión alta y exhaustividad alta: Incorrecto. Este es el escenario ideal, un modelo perfecto. Sería un portero que deja entrar a todos los mayores de edad y solo a los mayores de edad. d) Precisión baja y exhaustividad muy alta: Correcto. Este es nuestro portero "permisivo". Se asegura de que todos los mayores de edad entren (exhaustividad muy alta), pero a costa de colar a muchos menores (precisión baja). Esto describe perfectamente el comportamiento del modelo.

Answer 326

C El F1-Score es la media armónica de la precisión y la exhaustividad. Es muy útil cuando ambas métricas son importantes y se busca un modelo que tenga un buen balance entre no cometer errores de falsos positivos (buena precisión) y no omitir casos positivos reales (buena exhaustividad).

Answer 327

B Existe un compromiso (trade-off) entre ambas. Si quieres aumentar la exhaustividad (encontrar más casos positivos), a menudo debes relajar los criterios del modelo. Esto provoca que se cometan más errores de falsos positivos, lo que a su vez reduce la precisión.

Answer 328

B La precisión mide la calidad de las predicciones positivas. Responde a la pregunta: "De todo lo que el modelo dijo que era positivo, ¿cuántas veces acertó?". Se prioriza para minimizar los falsos positivos. Un falso positivo en el filtrado de correo (un email importante marcado como spam) es un error muy molesto, por lo que se busca una alta precisión.

Answer 329

B La exhaustividad se centra en minimizar los falsos negativos (errores donde no se detecta algo que sí existía). Responde a la pregunta: "De todos los casos positivos reales, ¿cuántos fue capaz de encontrar el modelo?". Es crucial cuando es muy importante no pasar por alto ningún caso positivo, como en un control de seguridad.

Answer 330

B Esta es una distinción fundamental. La precisión ( TP+FP TP ) solo mira el rendimiento dentro de las predicciones que el modelo hizo como positivas. En cambio, la exactitud ( Total TP+TN ) mide el rendimiento global del modelo sobre todas las clases, incluyendo los negativos que predijo correctamente.

Answer 331

C Para lograr un recall altísimo, un modelo puede simplemente etiquetar casi todas las instancias como positivas. De esta forma, se asegura de "capturar" a todos los verdaderos positivos, pero a costa de generar una enorme cantidad de falsos positivos, lo que hunde la métrica de precisión.

Answer 332

C El F1-Score es la media armónica de la precisión y el recall (2⋅ precision+recall precision⋅recall ). Se utiliza cuando se desea encontrar un buen balance entre minimizar los falsos positivos (alta precisión) y minimizar los falsos negativos (alto recall). Es especialmente útil en conjuntos de datos desbalanceados.

Answer 333

B La precisión mide la calidad de las predicciones positivas. Responde a la pregunta: "De todo lo que el modelo etiquetó como positivo, ¿cuánto era realmente positivo?". Se prioriza para minimizar los falsos positivos. En el caso del spam, un falso positivo (un email importante marcado como spam) es un error muy costoso, por lo que se busca una alta precisión.

Answer 334

C El recall se centra en minimizar los falsos negativos (casos positivos que el modelo no detectó). Responde a la pregunta: "De todos los positivos que había, ¿cuántos encontró el modelo?". Es una métrica crucial cuando es muy importante no pasar por alto ningún caso positivo, como en el diagnóstico de enfermedades.

Answer 335

D La precisión se centra en la calidad de las predicciones positivas. Es alta cuando el modelo genera pocos Falsos Positivos.

Answer 336

B Si el 99% de los datos pertenece a la clase A y el 1% a la clase B, un modelo que siempre prediga A tendrá un 99% de exactitud, pero será inútil para detectar la clase B.

Answer 337

C La Sensibilidad (o Recall) mide la capacidad del modelo para encontrar todos los casos positivos reales. Es vital en medicina, donde no detectar una enfermedad (un Falso Negativo) puede tener graves consecuencias.

Answer 338

A Es 'Falso' porque la predicción es incorrecta (el correo no era spam), y 'Positivo' porque el modelo lo ha etiquetado con la clase positiva (spam).

Answer 339

A Su propósito es mostrar un resumen de las predicciones correctas e incorrectas que realiza un modelo, desglosado por cada una de las clases.

Answer 340

C El Coeficiente de Silueta es una métrica popular para evaluar la calidad de los grupos creados por un algoritmo de agrupamiento.

Answer 341

B Proporciona un desglose detallado de las clasificaciones correctas e incorrectas para cada clase.

Answer 342

C El MSE mide la diferencia cuadrática promedio entre los valores estimados y el valor real, que es una forma común de evaluar los modelos de regresión.

Answer 343

C La precisión se calcula como TP / (TP + FP), centrándose en la corrección de las predicciones positivas.

Answer 344

D Al promediar el rendimiento en múltiples divisiones, reduce la varianza de la estimación del rendimiento.

Answer 345

C La exactitud es la medida más general del rendimiento. Responde a la pregunta: "De todo lo que el modelo predijo, ¿qué porcentaje fue correcto?". Para ello, suma todos los aciertos (verdaderos positivos y verdaderos negativos) y los divide entre el total de casos.

Answer 346

B La precisión se centra exclusivamente en la calidad de las predicciones positivas. Es una medida de fiabilidad. Si un modelo tiene alta precisión, significa que cuando te dice que algo es "positivo", puedes confiar bastante en que es verdad.

Answer 347

C Este es el ejemplo clásico de un conjunto de datos desbalanceado. La exactitud será muy alta porque el modelo acierta en la gran mayoría de los casos (los no fraudulentos). Sin embargo, la precisión será nula o indefinida porque el modelo nunca predice "fraude", por lo que el número de predicciones positivas es cero, haciendo imposible el cálculo. Esto demuestra por qué la exactitud puede ser una métrica engañosa.

Answer 348

B Esta es la distinción clave. La exactitud te da una visión panorámica de todos los aciertos. La precisión, en cambio, pone la lupa sobre un caso de uso específico: la fiabilidad de las afirmaciones positivas del modelo.

Answer 349

B Se busca una alta precisión cuando el coste de un falso positivo es alto. En las recomendaciones, un falso positivo es una mala recomendación, lo que frustra al usuario. Se prefiere no recomendar nada a recomendar algo que no va a gustar. En el caso del test médico (a), la prioridad sería la exhaustividad (recall) para no dejar a ningún enfermo sin detectar.

Answer 350

C El F1-score combina precisión y recall en una sola cifra. Utiliza la media armónica, que penaliza fuertemente los valores extremos. Esto significa que para obtener un F1-score alto, tanto la precisión como el recall deben ser altos.

Answer 351

C En un problema con clases desbalanceadas (ej. 99% negativos, 1% positivos), un modelo que siempre predice "negativo" tendría un 99% de exactitud, pero sería inútil. El F1-score, en cambio, sería de 0, reflejando correctamente que el modelo no tiene capacidad para identificar la clase positiva.

Answer 352

D Un F1-score cercano a 1 indica un rendimiento sobresaliente. Debido a que es una media armónica, solo puede ser alto si ambas métricas, precisión y exhaustividad, son altas. Un desequilibrio grande entre ellas daría como resultado un F1-score mucho más bajo.

Answer 353

B Mientras que el F1-score da el mismo peso a precisión y recall (β=1), la versión F-beta permite ajustar este balance. Un valor de β > 1 (como en el F2-score) da más importancia al recall, mientras que un valor de β < 1 (como en el F0.5-score) da más importancia a la precisión.

Answer 354

C ¿Por qué esta es la respuesta correcta? Para entenderlo, primero debemos definir los términos clave en el contexto de tu problema (detectar intrusos): Verdadero Positivo (VP): El sistema detecta un intruso y realmente hay un intruso. ¡Bien hecho! Falso Positivo (FP): El sistema detecta un intruso, pero era una falsa alarma (ej. un gato). Esto es molesto, pero no catastrófico. Verdadero Negativo (VN): El sistema no detecta nada y no había ningún intruso. Falso Negativo (FN): El sistema no detecta nada, pero en realidad sí había un intruso. Este es el peor error posible, la situación que se quiere evitar a toda costa. El problema dice que es "vital no pasar por alto ninguna amenaza real". Esto se traduce directamente en minimizar los Falsos Negativos. La métrica que se enfoca en minimizar los falsos negativos es el Recall (también llamado sensibilidad o exhaustividad). El Recall se calcula como: VP / (VP + FN). Como ves, si los Falsos Negativos (FN) son muy bajos, el valor del Recall es muy alto. Ahora, analicemos el F-score. El F-score es una media armónica entre la Precisión y el Recall, diseñada para encontrar un equilibrio entre ambas. La fórmula general incluye un parámetro beta (β): Cuando β = 1 (el F1-score normal), se da la misma importancia a la Precisión y al Recall. Cuando β < 1 (como el F0.5-score), se le da más importancia a la Precisión. Cuando β > 1 (como el F2-score), se le da más importancia al Recall. Dado que tu objetivo principal es maximizar el Recall (para minimizar los falsos negativos), necesitas una métrica que lo priorice. Por eso, un F-score con beta > 1 (como el F2-score) es la elección perfecta, ya que penaliza mucho más al modelo si tiene falsos negativos. ¿Por qué las otras respuestas son incorrectas? a) Un F-score con beta menor que 1 (ej. F0.5-score): Esta opción le daría más peso a la Precisión. La precisión se enfoca en minimizar los falsos positivos (las falsas alarmas). Aunque no quieres tener muchas falsas alarmas, en un sistema de seguridad, es mucho peor no detectar a un intruso real que tener una falsa alarma. b) La exactitud (accuracy) del modelo: La exactitud es simplemente el porcentaje de predicciones correctas sobre el total. Esta métrica es muy engañosa en problemas con datos desbalanceados. Las intrusiones son eventos raros. Un modelo podría tener una exactitud del 99.9% simplemente diciendo "no hay intruso" todo el tiempo, pero sería completamente inútil porque fallaría en detectar el 100% de las amenazas reales. d) La precisión del modelo únicamente: Usar solo la precisión ignora por completo el problema de los falsos negativos. Un modelo podría ser muy preciso (cada vez que dice "intruso", acierta) pero tener un Recall terrible (se le escapan la mayoría de los intrusos). Es una visión incompleta y peligrosa para este caso de uso.

Answer 355

B Una curva ROC (Receiver Operating Characteristic) se utiliza para visualizar el rendimiento de un clasificador binario (por ejemplo, decidir si un correo es spam o no) a medida que variamos el umbral de decisión. Eje Y (TPR - True Positive Rate): También conocido como Sensibilidad o Recall. Mide la proporción de positivos reales que el modelo identificó correctamente. TPR = TP / ( TN+ FP) (Queremos que este valor sea lo más bajo posible, cercano a 0). La curva nos muestra el intercambio (trade-off): para detectar más positivos (subir en el eje Y), generalmente tenemos que aceptar cometer más errores de falsa alarma (movernos a la derecha en el eje X). ¿Por qué las demás son incorrectas? a) Eje X: Precisión (Precision), Eje Y: Exhaustividad (Recall). Por qué es mala: Esta configuración existe, pero se llama Curva de Precisión-Recall (PR Curve), no curva ROC. Cuándo se usa: Se prefiere la curva PR cuando las clases están muy desbalanceadas (por ejemplo, detección de fraude donde el 99.9% de los casos son normales). La curva ROC puede ser demasiado optimista en esos casos, mientras que la PR es más exigente. c) Eje X: Verdaderos Positivos, Eje Y: Falsos Positivos. Por qué es mala: Esta opción habla de conteos absolutos (números brutos), no de tasas o proporciones. El problema: Si usáramos números absolutos, la curva cambiaría dependiendo de cuántos datos tengas en total. Para que la curva ROC sea estándar y comparable, debemos usar tasas (porcentajes de 0 a 1) que normalizan los datos independientemente del tamaño de la muestra. d) Eje X: Exactitud (Accuracy), Eje Y: Puntuación F1 (F1-Score). Por qué es mala: La Accuracy y el F1-Score son métricas puntuales que evalúan el rendimiento global en un solo punto de corte. El concepto: Una curva ROC se construye evaluando el modelo en todos los umbrales posibles. No se suelen graficar la Exactitud contra el F1 porque ambas intentan resumir el rendimiento ("lo bueno que es el modelo") y suelen correlacionarse positivamente; no representan el "costo-beneficio" que muestra la ROC.

Answer 356

B El eje Y representa la Tasa de Verdaderos Positivos (TPR), también llamada sensibilidad o recall, que es la proporción de positivos reales que se identificaron correctamente. El eje X representa la Tasa de Falsos Positivos (FPR), que es la proporción de negativos reales que se clasificaron incorrectamente como positivos.

Answer 357

C Por qué la opción C es la correcta El valor AUC (Área Bajo la Curva ROC) es una de las métricas más importantes para evaluar un modelo de clasificación. Su significado real es una probabilidad: c) La probabilidad de que el modelo clasifique una instancia positiva elegida al azar con una puntuación más alta que una instancia negativa elegida al azar. Imagina que tienes dos grupos de datos: uno con ejemplos positivos (ej: correos que SÍ son spam) y otro con ejemplos negativos (ej: correos que NO son spam). Tu modelo asigna una puntuación de "probabilidad de ser spam" a cada correo. Un AUC de 1.0 (el máximo) significaría que el 100% de las veces, el modelo le da una puntuación más alta a un correo de spam elegido al azar que a un correo legítimo elegido al azar. El modelo es un separador perfecto. Un AUC de 0.5 significaría que el modelo no tiene capacidad para distinguir entre las clases. Es como lanzar una moneda al aire. Hay un 50% de probabilidad de que le dé una puntuación más alta al correo de spam. Un AUC de 0.85 significaría que hay un 85% de probabilidad de que el modelo "ordene" correctamente un par aleatorio de un ejemplo positivo y uno negativo. En esencia, el AUC mide qué tan bueno es el modelo para distinguir entre las dos clases, independientemente del umbral de decisión que se elija. Por qué las otras opciones son incorrectas a) La exactitud (accuracy) del modelo en su mejor umbral de decisión. Esto es incorrecto. La exactitud (accuracy) es una métrica que se calcula en un único y específico umbral de decisión (por ejemplo, "si la probabilidad es > 0.5, clasifícalo como positivo"). El AUC, en cambio, resume el rendimiento del modelo a través de todos los umbrales posibles, lo que lo hace mucho más robusto. b) La velocidad de predicción del modelo. Totalmente incorrecto. El AUC es una medida de la calidad o rendimiento discriminativo del modelo, no tiene nada que ver con la rapidez con la que el hardware puede ejecutarlo para hacer predicciones. d) El punto de la curva donde la precisión y la exhaustividad son iguales. Esto describe el "punto de equilibrio" (break-even point) en una curva diferente, la curva de Precisión-Exhaustividad (Precision-Recall curve). No tiene relación con el área bajo la curva ROC. Son conceptos y métricas distintas que se usan para evaluar aspectos diferentes de un modelo.

Answer 358

B La esquina superior izquierda del gráfico representa un punto donde la Tasa de Verdaderos Positivos es 1 (detecta todos los positivos) y la Tasa de Falsos Positivos es 0 (no comete errores con los negativos). Por lo tanto, cuanto más se acerca la curva a este punto, mejor es el rendimiento del modelo.

Answer 359

B Esta línea se conoce como la "línea de no discriminación". Un modelo cuya curva ROC sigue esta diagonal tiene un AUC de 0.5, lo que indica que su capacidad para distinguir entre clases positiva y negativa es nula; es como lanzar una moneda al aire.

Answer 360

C ¿Por qué "Clasificación" es la respuesta correcta? El problema que se describe es un ejemplo clásico de clasificación. En aprendizaje automático (machine learning), un problema de clasificación consiste en predecir una etiqueta o categoría discreta para un conjunto de datos de entrada. En tu caso: Las etiquetas son predefinidas y discretas: "abandonó" y "no abandonó". Son categorías cerradas, no un valor numérico continuo. El objetivo es asignar una categoría: Quieres que el modelo, al recibir los datos de un nuevo cliente, lo etiquete en una de esas dos clases. Usas datos históricos etiquetados: El hecho de que ya sepas qué clientes abandonaron en el pasado ("datos... ya etiquetado") es la base del aprendizaje supervisado, del cual la clasificación es un pilar fundamental. Piénsalo como si el algoritmo tuviera que "clasificar" a cada cliente en uno de dos "cajones": el de los que se van y el de los que se quedan. ¿Por qué las otras respuestas son incorrectas? a) Regresión: La regresión se utiliza para predecir un valor numérico continuo. Por ejemplo, si quisieras predecir cuánto gastará un cliente el próximo mes o cuántos días tardará en abandonar el servicio. Como aquí solo quieres predecir una de dos categorías (sí/no), no es un problema de regresión. b) Clustering: El clustering (o agrupamiento) es una técnica de aprendizaje no supervisado, lo que significa que se usa cuando los datos no están etiquetados. El objetivo del clustering es encontrar grupos (o "clusters") naturales en los datos basándose en sus similitudes. Si no supieras qué clientes han abandonado y simplemente quisieras agrupar a tus clientes por comportamiento similar, estarías haciendo clustering. Pero como tus datos ya tienen la etiqueta "abandonó"/"no abandonó", este no es el caso. d) Reducción de dimensionalidad: Esta técnica se utiliza para simplificar un conjunto de datos reduciendo el número de variables (o "dimensiones"), eliminando información redundante o poco importante. Podría ser un paso previo en tu proyecto para limpiar los datos antes de entrenar un modelo, pero no es el tipo de problema que estás resolviendo en sí mismo. El objetivo final no es reducir variables, sino predecir si el cliente se irá o no.

Answer 361

B El objetivo es predecir un valor numérico continuo (el precio), lo cual es la definición de un problema de regresión.

Answer 362

C Por qué la C es la respuesta correcta La palabra clave en la pregunta es que "no tienes ninguna etiqueta". Esto significa que es un problema de aprendizaje no supervisado (unsupervised learning). El Clustering (o agrupamiento) es la técnica de aprendizaje no supervisado diseñada específicamente para este fin. Su objetivo es analizar los datos (en este caso, el texto de los artículos) y encontrar grupos naturales o "clústeres" basados en sus similitudes. El algoritmo de clustering agruparía los artículos que usan palabras similares (como "gol", "partido", "jugador") en un clúster (que nosotros luego identificaríamos como "deportes") y los artículos que usan palabras como "congreso", "elección", "presidente" en otro (que identificaríamos como "política"). Por qué las otras respuestas son incorrectas a) Clasificación: Incorrecto. La clasificación es un método de aprendizaje supervisado. Para usarla, necesitarías tener un conjunto de datos ya etiquetado (por ejemplo, 1000 artículos ya marcados como "deportes", "política", etc.). El modelo aprende de esas etiquetas para luego "clasificar" artículos nuevos. Como no tienes etiquetas, no puedes usar este método. b) Regresión: Incorrecto. La regresión también es un método supervisado, pero su objetivo es predecir un valor numérico continuo (como el precio de una casa o la temperatura de mañana), no una categoría o grupo (como "deportes"). d) Uno supervisado: Incorrecto. Esta es una categoría general que describe métodos (como la clasificación y la regresión) que requieren etiquetas para funcionar. El problema establece explícitamente que no tienes etiquetas, por lo que cualquier enfoque "supervisado" está descartado desde el principio.

Answer 363

B Por qué la respuesta B (LinearSVC) es la buena La opción b) LinearSVC (Máquina de Vectores de Soporte Lineal) es la respuesta correcta por tres motivos clave que se alinean perfectamente con la pregunta: Es un algoritmo de clasificación: El problema pide resolver un "problema de clasificación". LinearSVC es un clasificador (SVC = Support Vector Classifier). Su objetivo es encontrar el mejor hiperplano que separe las clases en tus datos etiquetados. Es rápido y eficaz: El nombre "Lineal" es la clave. Los modelos lineales, como LinearSVC, son computacionalmente muy rápidos de entrenar. No tienen que calcular relaciones complejas, lo que los hace ideales para "obtener un primer resultado rápido". Cumple con las guías de Scikit-learn: La famosa "guía para elegir el estimador" (cheat-sheet) de Scikit-learn recomienda específicamente LinearSVC como un excelente punto de partida para problemas de clasificación de texto o cuando el número de muestras es menor a 100,000 (y si el dataset es mayor, se suele probar SGDClassifier). En resumen, LinearSVC es la única opción que es un clasificador rápido y recomendado para este tamaño de datos. Por qué las otras opciones son malas a) K-Means: Es un algoritmo de clustering (agrupamiento). El clustering es una tarea de aprendizaje no supervisado, lo que significa que funciona con datos sin etiquetar para encontrar grupos naturales. La pregunta dice claramente que tienes "datos etiquetados", por lo que K-Means no es la herramienta adecuada para este trabajo. c) PCA (Análisis de Componentes Principales): Es un algoritmo de reducción de dimensionalidad. Es una técnica de pre-procesamiento, no un modelo de clasificación. Se usa antes de la clasificación para reducir el número de características (columnas), pero no puede, por sí solo, predecir una etiqueta de clase. d) Lasso: Es un algoritmo de regresión (específicamente, regresión lineal con regularización L1). La regresión se usa para predecir un valor continuo (como el precio de una casa o una temperatura). El problema pide resolver una clasificación, que consiste en predecir una categoría discreta (como "spam" / "no spam" o "perro" / "gato").

Answer 364

B Si un modelo lineal no es suficiente, el siguiente paso lógico es probar un modelo que pueda capturar relaciones no lineales y fronteras de decisión más complejas. Tanto k-NN como las Máquinas de Vectores de Soporte con kernels (como RBF) son excelentes opciones para esto.

Answer 365

C El principal requisito de K-Means es que debes especificar el número de clústeres de antemano. Algoritmos como Mean-Shift o DBSCAN son capaces de descubrir el número de grupos de forma automática basándose en la densidad y distribución de los datos, lo que los hace ideales cuando k es desconocido.

Answer 366

C Este algoritmo funciona buscando centros esféricos para los grupos. Como no puede trazar una frontera circular, tiende a dividir los datos con una línea recta, fallando completamente en la tarea de separar los dos anillos. Algoritmos como DBSCAN o Spectral Clustering, que se basan en densidad o conectividad, sí pueden resolver este problema.

Answer 367

C A diferencia de K-Means o los métodos jerárquicos que asignan cada punto a un clúster, DBSCAN define los clústeres como áreas de alta densidad de puntos. Los puntos que se encuentran en regiones de baja densidad son etiquetados como ruido, lo que lo hace ideal para la detección de anomalías.

Answer 368

B Mientras que K-Means asume que los clústeres son esféricos (con la misma varianza en todas las direcciones), GMM es más flexible y asume que los clústeres son distribuciones gausianas, lo que le permite adaptarse a formas elípticas con diferentes orientaciones y tamaños.

Answer 369

C ✅ Por qué la C es la buenaC. BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)BIRCH es la respuesta de libro de texto cuando ves las palabras "restricción de memoria" + "conjunto de datos muy grande".¿Cómo funciona? En lugar de guardar cada punto de datos en la memoria, BIRCH construye una estructura de árbol (llamada CF Tree o Clustering Feature Tree).La magia de la memoria: Este árbol no guarda los datos crudos, sino un "resumen" estadístico de los grupos (número de puntos, suma lineal, suma al cuadrado). Comprime la información.Eficiencia: Es capaz de agrupar los datos realizando una sola lectura (single scan) de la base de datos. Lee un bloque de datos, actualiza el árbol, libera memoria y lee el siguiente bloque.Resultado: Es increíblemente eficiente en I/O (entrada/salida) y memoria, diseñado específicamente para cuando el dataset no cabe en la RAM. ❌ Por qué las malas son las malasA. Spectral ClusteringEl problema: Para funcionar, necesita construir una matriz de similitud (o un grafo laplaciano) que compara todos los puntos con todos los puntos ($N \times N$).Por qué falla: Si tienes un millón de datos, la matriz resultante es gigantesca. El coste computacional es cúbico $O(N^3)$ y la memoria necesaria explota con Big Data. Es excelente para formas complejas, pero pésimo para escalabilidad.B. Affinity PropagationEl problema: Funciona enviando "mensajes" entre pares de puntos de datos para encontrar ejemplares representativos.Por qué falla: Tiene una complejidad temporal y de memoria de $O(N^2)$. Al igual que el Spectral Clustering, si duplicas los datos, el consumo de recursos se cuadruplica. No sirve para Big Data.D. DBSCANEl matiz: Esta es la "trampa" o la segunda mejor opción. DBSCAN es muy popular y bastante eficiente ($O(N \log N)$ con indexación espacial).Por qué pierde contra BIRCH: Aunque DBSCAN es bueno, suele requerir cargar gran parte de los datos o índices espaciales en memoria para calcular los vecinos más cercanos. Si la restricción principal es la memoria y el volumen es masivo, BIRCH gana porque comprime los datos activamente mientras los lee. (Nota: A veces se usa BIRCH primero para reducir los datos y luego DBSCAN sobre el resultado).💡 Resumen para el examenPara preguntas de algoritmos de Clustering:Restricción de Memoria / Big Data / Single Pass $\rightarrow$ BIRCH.Formas arbitrarias (lunas, espirales) / Ruido / Sin definir K $\rightarrow$ DBSCAN.K conocido / Simple / Rápido $\rightarrow$ K-Means.Pocos datos / Alta calidad / Grafos $\rightarrow$ Spectral Clustering.

Answer 370

C Al igual que K-Means, este es uno de los algoritmos a los que debes pasarle el parámetro k (el número de clústeres) como entrada. En cambio, algoritmos como DBSCAN, Mean-Shift u OPTICS pueden determinar el número de clústeres de forma automática basándose en las propiedades de los datos.

Answer 371

C El método .fit() es el corazón del proceso de aprendizaje. Durante este paso, el algoritmo analiza los datos y sus correspondientes etiquetas para ajustar sus parámetros internos y "aprender" a asociar unos con otros.

Answer 372

C Después del entrenamiento, el método .predict() es el que se usa para poner el modelo en práctica. Toma nuevos datos (sin etiquetas) y devuelve las etiquetas que el modelo cree que son las correctas basándose en su entrenamiento previo.

Answer 373

B Los clasificadores estándar de Scikit-learn esperan recibir los datos en un formato tabular de (número_de_muestras, número_de_características). Por ello, cada muestra (imagen) debe ser transformada en un vector unidimensional de características.

Answer 374

B Si evaluamos un modelo con los mismos datos que usó para entrenar, los resultados serían engañosamente optimistas. El conjunto de prueba simula una situación del mundo real, permitiéndonos obtener una estimación honesta del rendimiento del modelo ante datos desconocidos.

Answer 375

C SVC son las siglas de Support Vector Classifier. Es un potente y popular algoritmo de aprendizaje supervisado utilizado para tareas de clasificación, que busca encontrar el hiperplano que mejor separa las distintas clases en el espacio de características.

Answer 376

B El PCA es una técnica de reducción de dimensionalidad. En lugar de trabajar con miles de píxeles por imagen, PCA encuentra los componentes (patrones) que mejor resumen la variabilidad en el conjunto de datos de caras. Estos componentes, llamados "eigenfaces", actúan como características mucho más eficientes para el clasificador.

Answer 377

B Trabajar con los cientos de "eigenfaces" en lugar de los miles de píxeles tiene dos ventajas clave: primero, reduce drásticamente el tiempo de cómputo del entrenamiento. Segundo, al usar características más generales, se ayuda al modelo a generalizar mejor a caras nuevas que no ha visto, en lugar de memorizar detalles específicos (ruido) de las imágenes de entrenamiento.

Answer 378

D La matriz de confusión es una herramienta de evaluación fundamental. Las filas suelen representar la identidad real de la persona y las columnas la identidad predicha por el modelo. La diagonal principal muestra los aciertos, mientras que los valores fuera de la diagonal revelan exactamente qué predicciones fueron incorrectas y a quién confundió el modelo.

Answer 379

C Las "eigenfaces" no son caras reales, sino una especie de "ingredientes" o patrones básicos de los que se componen las caras del conjunto de datos. La primera eigenface captura el patrón más dominante, la segunda el siguiente, y así sucesivamente. Cualquier cara del conjunto puede reconstruirse combinando estas eigenfaces.

Answer 380

C Un recall bajo para una clase (en este caso, una persona) significa que el modelo falla en identificar muchas de las instancias de esa clase. Es decir, de todas las fotos que realmente eran de esa persona, el modelo solo fue capaz de identificar correctamente una pequeña proporción, clasificando el resto erróneamente como si fueran otras personas.

Answer 381

C GridSearchCV es una herramienta para la optimización de hiperparámetros. Su función es automatizar el proceso de probar diferentes configuraciones de un modelo (como el valor de C en un SVM o el número de vecinos en k-NN) para encontrar cuál de ellas ofrece el mejor rendimiento.

Answer 382

B A diferencia de los parámetros (que el modelo aprende, como los coeficientes en una regresión), los hiperparámetros son "diales" que nosotros, como desarrolladores, ajustamos para guiar el proceso de aprendizaje. Por ejemplo, el kernel de un SVM o la profundidad_máxima de un árbol de decisión son hiperparámetros.

Answer 383

B 🟢 Por qué la (b) es la respuesta correcta b) Prueba exhaustivamente todas las combinaciones posibles de los valores de hiperparámetros que le proporcionamos. El propio nombre GridSearchCV nos da la pista: "Grid" (Rejilla): Cuando le das a la función una lista de posibles valores para diferentes hiperparámetros (por ejemplo, kernel = ['linear', 'rbf'] y C = [1, 10, 100]), internamente crea una "rejilla" o "parrilla" con todas las combinaciones posibles. (linear, 1) (linear, 10) (linear, 100) (rbf, 1) (rbf, 10) (rbf, 100) "Search" (Búsqueda): Luego, de forma exhaustiva (es decir, una por una, sin saltarse ninguna), prueba cada una de esas combinaciones. "CV" (Cross-Validation): Para decidir qué combinación es la "ganadora", utiliza la validación cruzada (Cross-Validation) con cada una, lo que da una puntuación robusta de su rendimiento. Por lo tanto, la opción (b) describe perfectamente este proceso de búsqueda sistemática y completa. 🔴 Por qué las otras respuestas son incorrectas a) Elige combinaciones de hiperparámetros al azar hasta encontrar una que funcione bien. Incorrecta porque: Esta descripción no corresponde a GridSearchCV, sino a su "primo" llamado RandomizedSearchCV (Búsqueda Aleatoria). GridSearchCV no es aleatorio en absoluto; es sistemático y predecible. c) Utiliza cálculo diferencial para encontrar matemáticamente los mejores hiperparámetros sin necesidad de probarlos. Incorrecta porque: Esto describe cómo funcionan los métodos de optimización basados en gradiente (como los que se usan para entrenar una red neuronal). GridSearchCV no "calcula" la mejor combinación; trata el modelo como una caja negra, prueba una combinación, mira el resultado, prueba la siguiente, y así sucesivamente. d) Solo ajusta un hiperparámetro a la vez, manteniendo los demás fijos. Incorrecta porque: Este sería un método de búsqueda muy pobre (a veces llamado "coordinate descent"). El principal beneficio de GridSearchCV es precisamente que prueba las interacciones entre hiperparámetros (por ejemplo, cómo funciona el kernel='rbf' específicamente con C=100). Probarlos de uno en uno ignoraría estas interacciones cruciales.

Answer 384

A Sin validación cruzada, el rendimiento de una combinación de hiperparámetros podría ser bueno o malo por pura suerte, dependiendo de cómo se dividieron los datos. Al promediar los resultados de varias divisiones (los folds de la validación cruzada), se obtiene una medida mucho más estable y confiable del verdadero rendimiento de esa combinación.

Answer 385

C Esta es una característica muy conveniente. Una vez que GridSearchCV encuentra la mejor configuración, vuelve a entrenar un modelo desde cero usando esa configuración pero esta vez con todos los datos de entrenamiento disponibles. El resultado es un modelo listo para ser usado para predicciones, accesible a través del atributo .best_estimator_.

Answer 386

B Cargar un dataset gigante de una sola vez puede agotar la memoria. Procesarlo en lotes lo hace manejable y la ligera variación entre lotes ayuda al modelo a generalizar mejor.

Answer 387

A Este es el término estándar en Machine Learning para referirse al grupo de 'samples' que se procesan juntos en cada paso del entrenamiento.

Answer 388

C Esta es la razón fundamental. Si el dataset no cabe en la memoria de una sola vez, es imprescindible cargarlo por partes.

Answer 389

D Efectivamente, no hay un tamaño único que sirva para todo. La elección depende del dataset y del modelo, y se suele experimentar con estos valores estándar por optimizaciones de hardware.

Answer 390

B Esta es la API recomendada en TensorFlow para construir flujos de entrada de datos complejos y eficientes, incluyendo la creación de lotes, el prefetching y el cacheo.

Answer 391

A Por qué la A es CORRECTA A. Un error de tipo 'Out Of Memory' (OOM): Para cada paso de entrenamiento, el modelo debe cargar el lote (batch) completo de datos (imágenes, texto, etc.), junto con sus activaciones intermedias y los gradientes calculados, en la memoria de la GPU (VRAM). La VRAM es un recurso físico muy limitado. Si el tamaño del lote es "demasiado grande", la cantidad de memoria necesaria superará la capacidad física de la GPU, provocando un error "Out Of Memory" (OOM) y deteniendo el entrenamiento. Este es, por lejos, el problema más común y el primer límite que se encuentra al aumentar el tamaño del lote. Por qué las otras opciones son INCORRECTAS B. El entrenamiento será extremadamente lento porque cada paso tarda mucho: Esta afirmación es engañosa. Si bien es cierto que cada paso individual tarda más (porque procesa más datos), el número total de pasos por época es mucho menor. (Ej: 1000 imágenes / lote de 10 = 100 pasos. 1000 imágenes / lote de 100 = 10 pasos). Gracias a la paralización de las GPUs, un lote más grande a menudo resulta en un entrenamiento total (por época) más rápido, no más lento. C. El gradiente se volverá demasiado ruidoso e inestable: Esto es exactamente lo opuesto a la realidad. Un lote pequeño produce gradientes ruidosos e inestables (porque se basan en pocos ejemplos). Un lote grande promedia los gradientes de muchos ejemplos, lo que resulta en una estimación mucho más estable y precisa del gradiente real. D. El modelo no aprenderá nada (overfitting): El sobreajuste (overfitting) no es el resultado directo de un lote grande. De hecho, a veces se argumenta que los lotes pequeños actúan como un regularizador (debido al ruido del gradiente, opción C) y pueden ayudar a evitar el sobreajuste, mientras que los lotes muy grandes pueden converger en mínimos "más agudos" que generalizan peor. En cualquier caso, no es el problema más probable ni inmediato.

Answer 392

B Este es el método correcto y directo. Toma un número entero como argumento que define cuántos elementos consecutivos del dataset se agruparán en cada lote.

Answer 393

D Las arquitecturas de las GPUs y CPUs están optimizadas para operar en bloques de datos cuyos tamaños son potencias de 2, lo que permite un procesamiento más eficiente.

Answer 394

FALSO `tf.data` crea un 'pipeline' que carga y procesa los datos de forma perezosa ('lazy loading'), es decir, solo carga los datos que necesita para el siguiente lote, haciéndolo eficiente en memoria.

Answer 395

A ✅ Por qué la A) Aumenta significativamente el tiempo de entrenamiento es la correcta El batch_size (tamaño del lote) define cuántos ejemplos de entrenamiento ve el modelo antes de actualizar sus parámetros (pesos). El proceso completo se ve así: Época (Epoch): Una pasada completa por todo el conjunto de datos de entrenamiento. Lote (Batch): Un pequeño subconjunto de esos datos. Iteración: El procesamiento de un lote, que resulta en una actualización de los pesos del modelo. El problema clave es doble: más iteraciones y pérdida de eficiencia. Imagina que tienes 100.000 fotos para entrenar un modelo: Caso 1 (Lote normal, batch_size=100): El modelo necesita hacer 100.000 / 100 = 1.000 actualizaciones (iteraciones) para completar una época. Caso 2 (Lote muy pequeño, batch_size=1): El modelo necesita hacer 100.000 / 1 = 100.000 actualizaciones (iteraciones) para completar una época. Aunque procesar un solo ejemplo es rápido, la sobrecarga de calcular el gradiente y actualizar los pesos 100.000 veces es inmensamente mayor que hacerlo 1.000 veces. Además, el hardware moderno (como las GPUs) está diseñado para el paralelismo. Es mucho más eficiente procesar 100 ejemplos a la vez (vectorización) que procesar 1 ejemplo, 100 veces seguidas. Usar batch_size=1 desperdicia casi toda la capacidad de la GPU, haciendo que cada una de esas 100.000 iteraciones sea ineficiente. En resumen: Con batch_size=1, tienes que hacer muchísimas más actualizaciones, y cada una de esas actualizaciones es computacionalmente ineficiente. El resultado es un tiempo de entrenamiento por época muchísimo más largo. ❌ Por qué las otras opciones son incorrectas D. Reduce drásticamente el tiempo de entrenamiento total: Esto es exactamente lo contrario. Es un error común pensar "lotes más pequeños = pasos más rápidos", pero se ignora que se necesitan muchísimos más pasos y que se pierde la optimización del hardware. Un lote más grande (que quepa en memoria) casi siempre es más rápido por época. B. El tiempo de entrenamiento es impredecible: El tiempo no es impredecible; es predeciblemente lento. Lo que sí puede ser "impredecible" o "ruidoso" es la convergencia del modelo (cómo aprende), ya que cada actualización se basa en un solo ejemplo y puede fluctuar mucho. Pero el tiempo de cómputo será consistentemente largo. C. No tiene impacto en el tiempo de entrenamiento: Esto es incorrecto. El batch_size es uno de los hiperparámetros que más influye directamente en el tiempo de entrenamiento y el uso de memoria.

Answer 396

D Es un formato simple que almacena tus datos (imágenes, texto, etc.) uno detrás de otro en una estructura binaria eficiente.

Answer 397

C Esta es la razón clave. Leer un solo fichero grande de forma secuencial es mucho más rápido para el sistema de ficheros que abrir y leer miles de ficheros pequeños repartidos por el disco.

Answer 398

D `tf.train.Example` es la estructura principal que representa un ejemplo/registro. Es básicamente un diccionario que mapea nombres de características (strings) a `tf.train.Feature`.

Answer 399

B Este es el tipo correcto. Se utiliza para almacenar cadenas de bytes, que es la forma en que se representa una imagen codificada (JPEG, PNG) o cualquier otro dato binario.

Answer 400

C Esta es la API principal de `tf.data` diseñada específicamente para leer eficientemente los registros de ficheros TFRecord y crear un dataset de TensorFlow a partir de ellos.

Answer 401

C El dataset te da el registro binario en bruto. Necesitas una función de 'parsing' (como `tf.io.parse_single_example`) que sepa cómo interpretar esos bytes y convertirlos de nuevo en tensores (imágenes, etiquetas, etc.).

Answer 402

FALSO Al dividir en múltiples ficheros (p. ej., 100-200 MB por fichero), `tf.data.Dataset` puede leer de varios ficheros a la vez, lo que permite una mezcla mucho más efectiva y una mejor paralelización de la carga de datos.

Answer 403

B Sin funciones de activación (o con una función lineal), una red neuronal, sin importar cuántas capas tenga, se comportaría como un simple modelo lineal, incapaz de aprender relaciones complejas como las que existen en imágenes o texto.

Answer 404

B Una serie de multiplicaciones de matrices (capas) se puede colapsar en una sola multiplicación de matrices. Por lo tanto, toda la red profunda se reduce a un simple modelo lineal incapaz de aprender complejidad.

Answer 405

A Este es el orden correcto. 1) Se calcula la suma ponderada de las entradas. 2) Se le añade el sesgo. 3) A este resultado final se le aplica la función de activación para producir la salida de la neurona.

Answer 406

C ReLU es computacionalmente muy eficiente (devuelve 0 si la entrada es negativa, o la propia entrada si es positiva) y ayuda a mitigar el problema del gradiente desvanecido, lo que permite entrenar redes mucho más profundas.

Answer 407

B Se define como `f(x) = max(0, x)`. Esta simple operación es sorprendentemente poderosa y eficiente.

Answer 408

A La función Sigmoide mapea cualquier valor de entrada a un rango entre 0 y 1, lo cual se puede interpretar directamente como la probabilidad de pertenecer a la clase positiva (por ejemplo, la probabilidad de que la imagen sea un 'perro').

Answer 409

D Softmax toma las salidas de todas las neuronas de la capa y las transforma en una distribución de probabilidad, donde cada salida está entre 0 y 1 y la suma de todas las salidas es exactamente 1. Esto te dice la confianza del modelo para cada clase.

Answer 410

A Si una neurona ReLU llega a un punto en el que su entrada ponderada es siempre negativa, su salida será siempre 0. Como la derivada de 0 es 0, el gradiente no fluye a través de ella y la neurona efectivamente 'muere', sin poder actualizar sus pesos nunca más.

Answer 411

D La salida de la función Sigmoide siempre se encuentra en el intervalo (0, 1), sin llegar a tocar nunca los extremos. Esto la hace ideal para representar probabilidades.

Answer 412

B Esta es la aplicación estándar de la función Sigmoide.¿Por qué? La función Sigmoide tiene una propiedad matemática fundamental: toma cualquier número real (desde $-\infty$ hasta $+\infty$) y lo "aplasta" para que quede siempre dentro del rango de 0 a 1.La lógica: En una clasificación binaria (ej: "¿Es spam o no?", "¿Es un gato o un perro?"), necesitamos que la red nos dé una probabilidad. Si el resultado es $0.95$, la red está muy segura de que es "Sí/Clase 1". Si es $0.03$, es "No/Clase 0". La Sigmoide es perfecta para traducir la "puntuación" bruta de la red en una probabilidad legible. La fórmula es: σ(x) = 1 / (1 + e^(-x)) Por qué las otras respuestas son incorrectas A) Como la principal función de activación en todas las capas ocultas... El problema: Aunque históricamente se usó mucho, hoy en día se evita en capas ocultas de redes profundas (Deep Learning). La razón técnica: Sufre del problema del "Desvanecimiento del Gradiente" (Vanishing Gradient). Cuando los valores de entrada son muy altos o muy bajos, la curva de la Sigmoide se vuelve casi plana (horizontal). Esto significa que su derivada es casi cero. Durante el entrenamiento (Backpropagation), este "cero" se multiplica hacia atrás, haciendo que la red deje de aprender en las primeras capas. Lo moderno: Hoy se usa ReLU (Rectified Linear Unit) o sus variantes (Leaky ReLU, GELU) para las capas ocultas. C) En la capa de salida de un problema de regresión... El problema: Un problema de regresión busca predecir un valor continuo (ej: precio de una casa: 250.000€, temperatura: 24.5°C). La limitación: La Sigmoide nunca puede dar un valor mayor a 1 ni menor a 0. Si intentas predecir el precio de una casa con una Sigmoide, tu red nunca podrá decirte "200.000", se quedará estancada en "0.999". Lo correcto: Para regresión, normalmente se usa una función de activación Lineal (o ninguna) en la salida. D) En la capa de salida de un problema de clasificación multiclase... El contexto: Multiclase significa elegir una opción entre muchas (ej: "¿Es un perro, un gato, un pájaro o un pez?"). El problema: Si usas Sigmoide en cada neurona de salida, las probabilidades no sumarían 100% (podrías tener un 80% de perro y un 70% de gato al mismo tiempo). Esto se usa en clasificación multi-etiqueta, pero no en multi-clase. Lo correcto: Se utiliza la función Softmax. La Softmax toma los valores de todas las clases y los normaliza para que sumen 1, permitiendo a la red decir: "Es 90% perro, 5% gato, 5% pájaro".

Answer 413

B Por qué la opción B es la correcta La opción B) Para valores de entrada muy grandes (positivos o negativos), la derivada de la función se acerca a cero describe perfectamente el problema del gradiente desvanecido (vanishing gradient). Para entenderlo, veamos la función Sigmoide. Esta función tiene una forma de "S" y aplasta cualquier valor de entrada a un rango entre 0 y 1. Ahora, pensemos en cómo aprende una red neuronal: mediante backpropagation. Este algoritmo calcula el gradiente (la derivada) del error con respecto a cada peso de la red, y luego ajusta los pesos en la dirección que reduce el error. Este cálculo se hace hacia atrás, desde la última capa hasta la primera, usando la regla de la cadena, lo que implica multiplicar muchas derivadas juntas. El problema está en la derivada de la función Sigmoide: En el centro (para entradas cercanas a 0), la pendiente es pronunciada y la derivada tiene su valor máximo (0.25). En los extremos (para entradas muy positivas o muy negativas), la función se vuelve casi plana. Esto se llama saturación. En estas zonas planas, la pendiente es casi cero, y por lo tanto, su derivada también es casi cero. Cuando durante el entrenamiento una neurona se satura, su gradiente local será un número muy pequeño (cercano a 0). Al propagar este gradiente hacia atrás, se multiplicará con otros gradientes. Si muchas neuronas en capas sucesivas están saturadas, estaremos multiplicando muchos números pequeños entre sí. El resultado es un gradiente final que es extremadamente pequeño, casi inexistente. Este gradiente "desvanecido" provoca que los pesos de las primeras capas de la red apenas se actualicen, y en la práctica, la red deja de aprender. 🧠💥 Por qué las otras opciones son incorrectas A. La función no tiene derivada, por lo que no se puede calcular el gradiente. Incorrecto. La función Sigmoide es derivable en todos sus puntos. Si no lo fuera, no podría usarse en el descenso de gradiente. C. La función produce valores negativos que anulan el gradiente. Incorrecto. El rango de la función Sigmoide es (0, 1). Nunca produce valores negativos. Otras funciones de activación como la Tangente Hiperbólica (tanh) sí producen valores negativos, pero esa no es la causa del desvanecimiento del gradiente. D. El gradiente es siempre 1, por lo que el aprendizaje nunca converge. Incorrecto. El valor máximo de la derivada (gradiente) de la Sigmoide es 0.25. Nunca llega a ser 1. De hecho, si el gradiente fuera muy grande (mayor que 1) en muchas capas, tendríamos el problema opuesto: el gradiente explosivo (exploding gradient).

Answer 414

A El valor de salida se interpreta como P(clase=positiva | entrada). Un valor de 0.05 significa que hay una probabilidad del 5% de que sea spam (y, por lo tanto, un 95% de probabilidad de que no lo sea).

Answer 415

B Si x = 0, entonces e^(-0) = 1. La expresion se convierte en: 1 / (1 + 1) = 1 / 2 = 0.5 Este es el punto central de la curva El valor 0.5 es muy importante. La función Sigmoide transforma cualquier número real en un valor entre 0 y 1. El punto x = 0 es exactamente el centro de la función, lo que corresponde a una probabilidad del 50% en contextos como la regresión logística. Como puedes ver en el gráfico, la curva cruza el eje vertical (donde x=0) exactamente a la altura de y=0.5.

Answer 416

A Dado que la salida de la sigmoide es siempre positiva, los gradientes que llegan a los pesos de la capa anterior tendrán todos el mismo signo. Esto hace que las actualizaciones de los pesos no sean óptimas, moviéndose en una dirección restringida en cada paso.

Answer 417

D ¿Por qué la opción D (yield) es la correcta? La palabra clave yield es lo que convierte una función normal en una función generadora. Su presencia en el cuerpo de una función cambia por completo su comportamiento. Una función normal usa return para devolver un único valor y finalizar su ejecución para siempre. En cambio, una función con yield: No devuelve un valor, sino un objeto generador. Este objeto es un iterador, lo que significa que puedes pedirle valores uno por uno. Pausa su ejecución. Cuando la función llega a la instrucción yield, "cede" o "produce" el valor especificado y se queda en pausa, conservando todo su estado (variables locales, etc.). Reanuda donde se quedó. La próxima vez que se le pida un valor al generador (normalmente con la función next() o en un bucle for), la ejecución se reanuda justo después del yield donde se pausó. Es como tener una función que puede "recordar" dónde se quedó y continuar desde ese punto más tarde. Ejemplo simple: def contador_simple(): print("Entregando el 1") yield 1 print("La función se reanuda... entregando el 2") yield 2 print("La función se reanuda de nuevo... entregando el 3") yield 3 Creamos el objeto generador (la función aún no se ha ejecutado) mi_generador = contador_simple() Pedimos el primer valor print(f"Valor recibido: {next(mi_generador)}") # Se ejecuta hasta el primer yield # Salida: # Entregando el 1 # Valor recibido: 1 Pedimos el segundo valor print(f"Valor recibido: {next(mi_generador)}") # Se reanuda y ejecuta hasta el segundo yield # Salida: # La función se reanuda... entregando el 2 # Valor recibido: 2 ¿Por qué las otras opciones son incorrectas? A. return: Esta palabra clave se usa en funciones normales para devolver un valor y terminar la función definitivamente. Si se usa en una función generadora, causa que el generador termine y lance una excepción StopIteration. No produce valores de forma secuencial. B. next: Esta no es una palabra clave que se use para definir una función, sino una función incorporada (next()) que se utiliza para consumir o solicitar el siguiente valor de un iterador, como un objeto generador. C. generate: Simplemente, no es una palabra clave en el lenguaje Python. Es un verbo que describe lo que hace un generador, pero no tiene ningún significado sintáctico.

Answer 418

A Esta es la magia del generador. No necesita la lista completa porque 'sabe' cómo generar el siguiente valor basándose en el estado que guardó la última vez que usó `yield`. La analogía del puntero se refiere a este estado guardado.

Answer 419

D Esto es exactamente lo que describes. El bucle `for` usa el 'protocolo de iteración' de Python. Como un generador ya es su propio iterador, `iter(mi_generador)` simplemente devuelve el propio generador, y el bucle empieza a consumir valores llamando a `next()` hasta que se produce una excepción `StopIteration`.

Answer 420

C ¡Esta es la ventaja crucial! `fichero.readlines()` intentaría leer todo el fichero en una lista, lo que probablemente agotaría la memoria. Un generador leería y cedería una línea cada vez, usando una cantidad de memoria mínima y constante.

Answer 421

FALSO Un generador, como cualquier iterador, se 'agota'. Una vez que ha cedido todos sus valores y ha lanzado `StopIteration`, está vacío. Si quieres recorrer los valores de nuevo, tienes que crear una nueva instancia del generador.

Answer 422

C Esta excepción es la señal que usan los iteradores en Python para comunicar que no quedan más elementos. Los bucles `for` la capturan automáticamente para saber cuándo detenerse.

Answer 423

D Este es el punto de partida. Antes de pensar en procesar, hay que poder almacenar y acceder a los datos. La solución pasa por usar sistemas como Google Cloud Storage (GCS), Amazon S3 o HDFS.

Answer 424

B Procesar terabytes de datos de forma secuencial en una única máquina es inviable en la práctica por el tiempo que consumiría. Esto hace que el entrenamiento distribuido no sea una opción, sino una necesidad.

Answer 425

C Parquet almacena los datos por columnas, no por filas. Esto es increíblemente eficiente si tu modelo solo necesita un subconjunto de las columnas del dataset, ya que permite leer solo los datos necesarios, reduciendo drásticamente la cantidad de información a procesar.

Answer 426

D Al igual que un generador produce valores uno a uno, un pipeline de streaming a gran escala extrae, transforma y consume lotes de datos en un flujo continuo. Los datos están 'en movimiento', lo que es extremadamente eficiente en memoria.

Answer 427

B Si tuvieras un solo fichero, todos los workers intentarían leer del mismo sitio, creando un cuello de botella. Al tener muchos fragmentos, cada worker puede leer de fragmentos diferentes simultáneamente. Además, para mezclar, se puede barajar la lista de ficheros, asegurando que cada época el orden de lectura sea diferente y más aleatorio.

Answer 428

A El paradigma cambia por completo. Ya no piensas en `datos = cargar_fichero()`. Piensas en `pipeline = definir_fuente_distribuida().preprocesar().batch()`. El foco se mueve de la gestión de un objeto en memoria a la orquestación de un sistema que procesa datos en movimiento.

Answer 429

C ✅ Opción C: La Respuesta Correcta (bfloat16) C. bfloat16 (Brain Floating Point) Este formato fue diseñado por Google específicamente para las cargas de trabajo de machine learning y es el formato que sus TPUs (Tensor Processing Units) están optimizadas para acelerar. La clave está en entender la diferencia entre rango y precisión en los números de punto flotante. Rango: La capacidad de representar números muy grandes y muy pequeños. Precisión: La capacidad de representar muchos valores intermedios entre dos números. Para el entrenamiento de redes neuronales, se descubrió que tener un rango numérico grande es más importante que tener una alta precisión. Esto es crucial para manejar los gradientes durante el entrenamiento, que pueden volverse extremadamente pequeños o grandes. Aquí es donde bfloat16 brilla. Fíjate en cómo se comparan los bits: float32 (Estándar): 1 bit de signo, 8 bits de exponente (rango), 23 bits de mantisa (precisión). float16 (Estándar): 1 bit de signo, 5 bits de exponente (rango), 10 bits de mantisa (precisión). bfloat16 (Google): 1 bit de signo, 8 bits de exponente (rango), 7 bits de mantisa (precisión). Como puedes ver, bfloat16 sacrifica precisión (tiene menos bits de mantisa que float16), pero mantiene los 8 bits de exponente de float32. Esto le da el mismo rango dinámico que el formato de 32 bits, lo que lo hace mucho más estable para el entrenamiento y evita problemas de desbordamiento (overflow) o subdesbordamiento (underflow). Además, convertir de float32 a bfloat16 es muy rápido: simplemente se truncan los bits de la mantisa, sin necesidad de cálculos complejos. ❌ ¿Por Qué las Otras Opciones son Incorrectas? D. float16 (FP16) Esta es la respuesta que causa la "creencia popular" mencionada en la pregunta. float16 es el formato estándar IEEE de media precisión. Es muy popular y está fuertemente acelerado por las GPUs de NVIDIA (a través de sus Tensor Cores). Sin embargo, su principal debilidad es su pequeño rango (solo 5 bits de exponente), lo que lo hace propenso a inestabilidad numérica en entrenamientos largos y complejos. Google diseñó bfloat16 para superar esta limitación específica. A. float8 (FP8) Este es un formato de 8 bits, no de 16. Aunque los formatos de 8 bits se están volviendo populares para la injerencia (no tanto para el entrenamiento) en hardware más moderno (incluidas las nuevas TPUs y GPUs) para obtener aún más velocidad, la pregunta se refiere específicamente a un formato de 16 bits. B. float32 (FP32) Este es el formato estándar de precisión simple, pero utiliza 32 bits, no 16. Es la línea base de precisión y estabilidad, pero es más lento y consume más memoria. Precisamente, bfloat16 y float16 se crearon para ser alternativas más rápidas y eficientes a float32.

Answer 430

D Durante el entrenamiento, los gradientes pueden variar enormemente. El gran rango de `bfloat16` (heredado de `float32`) maneja estas variaciones sin que los valores se 'rompan', lo que es crucial para la estabilidad.

Answer 431

D No solo es posible, sino que es la forma recomendada de usarlas para obtener el máximo rendimiento. El hardware de las TPUs (las MXU o Unidades de Multiplicación Matricial) está construido para realizar operaciones masivas con `bfloat16` a una velocidad increíble.

Answer 432

C ¡Esta es la forma moderna y correcta! Con esta línea al principio de tu script, Keras se encarga automáticamente de usar `bfloat16` para los cálculos en la TPU y mantener ciertas variables críticas (como los pesos del modelo) en `float32` para mayor estabilidad.

Answer 433

A Este es el resumen ideal. Obtienes dos grandes beneficios (memoria y velocidad) a cambio de una pequeña y manejable pérdida de precisión, pero sin sacrificar la estabilidad que te da el rango de `float32`.

Answer 434

C `float32` es la línea de base o el 'gold standard' para la precisión numérica. Cuando la estabilidad y la reproducibilidad son máximas prioridades, `float32` es la elección, asumiendo su coste en memoria y velocidad.

Answer 435

A Esta es la genialidad de TF32. Internamente, para las multiplicaciones de matrices, usa el rango de un `float32` (lo que le da estabilidad) y una precisión similar a la de `float16`. Esto permite acelerar código escrito en `float32` de forma casi transparente.

Answer 436

B Es una aceleración 'gratuita'. Si tienes una GPU compatible, TF32 está activado por defecto y tu código `float32` se ejecutará mucho más rápido en las operaciones compatibles sin que tengas que hacer nada.

Answer 437

B Para una fidelidad absoluta, necesitas usar la precisión completa (`float32`) y asegurarte de que no haya optimizaciones 'con pérdida' como TF32 alterando los resultados. Esto garantiza que los cálculos se hagan con los 23 bits de mantisa completos.

Answer 438

B Esta es una buena forma de verlo. Google optimizó sus TPUs para `bfloat16` de forma excepcional. NVIDIA, al ser un proveedor de hardware más generalista, ha implementado aceleración para un espectro más amplio de formatos, dándole al usuario más flexibilidad.

Answer 439

D Una época se completa cuando el modelo ha tenido la oportunidad de ver y aprender de cada uno de los ejemplos del dataset de entrenamiento una vez.

Answer 440

B Si tu dataset tiene 1010 ejemplos y tu tamaño de lote es 100, tendrás 10 lotes de 100 y un último lote de 10. `drop_remainder=True` descarta ese último lote de 10 para garantizar que el modelo solo vea lotes de tamaño uniforme (100).

Answer 441

D 'Estocástico' significa aleatorio o aproximado. En lugar de calcular el gradiente 'perfecto' con todos los datos, SGD lo aproxima usando un pequeño lote. Esto es mucho más rápido y, gracias al ruido introducido, a menudo ayuda al modelo a escapar de mínimos locales y a generalizar mejor.

Answer 442

D Si `preproc_fun` es una operación costosa (ej: leer y decodificar imágenes), `.cache()` guarda el resultado. En la segunda, tercera, etc., épocas, el sistema usará los datos ya procesados de la caché en lugar de volver a ejecutar `preproc_fun`, acelerando drásticamente el entrenamiento.

Answer 443

A Conceptos clave: Época (Epoch): Una pasada completa por todo el conjunto de datos de entrenamiento. En este caso, una época significa que el modelo ha visto los 20,000 ejemplos una vez. Batch Size (Tamaño del lote): Número de ejemplos procesados en un solo paso antes de actualizar los parámetros. Aquí, se procesan lotes de 50 ejemplos. Iteración (Paso / Step): Procesamiento de un solo lote. En cada iteración, el modelo ve un lote y actualiza sus parámetros. Pregunta: ¿Cuántos lotes de 50 se necesitan para cubrir los 20,000 ejemplos? Cálculo: Iteraciones por época = Número total de ejemplos / Batch size Iteraciones = 20,000 / 50 = 400 Opciones incorrectas: B. 50: Es el tamaño del lote, no el número de iteraciones. C. 20,000: Es el total de ejemplos, no el número de lotes. D. 1: Solo sería correcto si el batch size fuera igual a 20,000.

Answer 444

D Si repites primero, creas una secuencia infinita de (época 1, época 1, época 1...). Al mezclar después, solo mezclas el orden dentro de cada bloque de época 1, pero la secuencia de épocas no varía. Al mezclar ANTES, te aseguras de que cada vez que `.repeat()` comience un nuevo ciclo, el orden de los datos sea diferente.

Answer 445

D Por que ReLU es una funcion continua? La funcion Rectified Linear Unit (ReLU) se define como: f(x) = max(0, x) Una funcion es continua en un punto si su grafica no tiene "saltos", "agujeros" o "rupturas" en ese punto. Formalmente, una funcion f(x) es continua en x = a si: 1. f(a) existe. 2. El limite de f(x) cuando x se acerca a a existe (lim x->a f(x) existe). 3. El limite es igual al valor de la funcion (lim x->a f(x) = f(a)). Para la funcion ReLU, el unico punto que podria generar dudas es x = 0, ya que la definicion de la funcion cambia alli (0 para x <= 0 y x para x > 0). Valor de la funcion en x = 0: f(0) = max(0, 0) = 0. (Existe) Limite lateral izquierdo (aproximacion desde x < 0): lim x->0- f(x) = lim x->0- 0 = 0. Limite lateral derecho (aproximacion desde x > 0): lim x->0+ f(x) = lim x->0+ x = 0. Dado que los limites laterales son iguales (0), el limite en x = 0 existe y es 0. Ademas, lim x->0 f(x) = 0 = f(0). Como la funcion es continua en x = 0, y tambien es continua para todos los x < 0 (donde f(x) = 0, que es una constante) y para todos los x > 0 (donde f(x) = x, que es una linea recta), concluimos que ReLU es continua en todo su dominio (R). Analisis de las Opciones Incorrectas A. Solo es continua para los numeros positivos: Esto es incorrecto. La funcion es continua para los positivos (f(x) = x) y para los negativos/cero (f(x) = 0). El punto crucial es que la union en x = 0 tambien es continua. B. La continuidad no es relevante para las redes neuronales: Esto es incorrecto. La diferenciabilidad es lo que se requiere para el algoritmo de backpropagation, y si una funcion no es continua, automaticamente tampoco es diferenciable. Aunque ReLU no es diferenciable en x = 0 (es decir, tiene un "pico" y no una pendiente unica), si es continua y es diferenciable en todos los demas puntos, lo que la hace util. C. No, tiene un salto en x = 0, por lo que no es continua: Esto es incorrecto. Si bien la funcion tiene un "pico" o un "quiebre" en x = 0, lo que la hace no diferenciable en ese punto, no tiene un salto. La grafica llega a y = 0 tanto desde el lado positivo como desde el lado negativo, lo que garantiza la continuidad.

Answer 446

D En el punto x=0, la gráfica tiene una 'esquina' o un 'pico'. La pendiente cambia bruscamente de 0 a 1, y en ese punto exacto, la derivada no está definida matemáticamente.

Answer 447

A Matemáticamente, se usa un 'subgradiente'. En la práctica, simplemente se define que en el punto x=0, la derivada será 0 (o a veces 1). Como la probabilidad de que la entrada a una neurona sea exactamente 0.0 es extremadamente baja, esta decisión pragmática no tiene un impacto negativo en el entrenamiento.

Answer 448

C Para funciones convexas que no son derivables en todas partes (como ReLU), el subgradiente es una generalización del gradiente. En el punto x=0 de ReLU, cualquier valor entre 0 y 1 es un subgradiente válido. Por simplicidad, se elige 0 o 1.

Answer 449

C Con pesos y entradas de punto flotante, es estadísticamente muy improbable aterrizar exactamente en cero. E incluso si ocurre, la elección de un subgradiente (0 o 1) permite que el algoritmo continúe sin problemas. El impacto en el resultado final del entrenamiento es nulo.

Answer 450

C Esta es la estrategia estándar. A medida que la red avanza, necesita más "vocabulario" (filtros) para describir las características abstractas que está construyendo a partir de las más simples.

Answer 451

B Estas capas actúan como 'detectores de características primarias'. Aprenden a reconocer los bloques de construcción fundamentales que componen cualquier imagen.

Answer 452

A Una capa profunda puede aprender un filtro que se activa al detectar una combinación de 'curva' y 'línea' (aprendidas antes) que forman un 'ojo'. Otro filtro puede aprender a detectar una 'rueda'. Se necesita un gran número de estos filtros para reconocer todas las posibles partes de objetos complejos.

Answer 453

D ✅ La Respuesta Correcta: D) Esta arquitectura sigue un patrón de "pirámide invertida": a medida que la red se hace más profunda, los mapas de características se vuelven "más delgados" (menos alto y ancho) pero "más profundos" (más filtros). Hay una lógica muy clara para esto: Aumento de Filtros (Profundidad): En las primeras capas, los filtros detectan características simples (líneas, bordes, texturas). A medida que avanzas, la red necesita combinar estas características simples en conceptos más complejos (ojos, ruedas, texto). Para representar todas estas combinaciones complejas, se necesita un número mayor de filtros. Reducción Espacial (Alto y Ancho): A la vez, a la red le importa menos la ubicación exacta de la característica y más su presencia y relación con otras. Al reducir el alto y el ancho, se logra: Eficiencia Computacional: Procesar imágenes de 5x5 es mucho más barato que de 224x224. Invarianza Traslacional: El "dónde" exacto se vuelve menos importante. Campo Receptivo Mayor: Cada píxel en un mapa de 5x5 "resume" una región mucho más grande de la imagen original que un píxel en un mapa de 224x224. Como bien dice la opción D, esta reducción espacial se logra de dos maneras: Capas de Pooling (ej. Max Pooling): Toman una ventana (ej. 2x2) y la reducen a un solo píxel, descartando información pero quedándose con la más relevante. Convoluciones con Stride: Una convolución con un stride (paso) de 2 saltará de dos en dos píxeles, produciendo un mapa de características de la mitad del tamaño. ❌ Por Qué las Otras Opciones Son Incorrectas A. Depende del tipo de función de activación. Esto es incorrecto. Una función de activación (como ReLU, Sigmoid, etc.) opera elemento a elemento. Cambia los valores dentro del mapa de características (ej. convirtiendo negativos a cero), pero nunca cambia las dimensiones (ni el alto, ni el ancho, ni el número de filtros). B. Se mantiene constante para preservar la estructura de la imagen. Esto es lo que se haría en las primeras capas si se usa padding='same', pero no es el objetivo de las capas profundas. El objetivo de las capas profundas es precisamente abstraer la estructura, no preservarla. Mantener la dimensión constante haría que la red fuera computacionalmente masiva e ineficiente. C. También aumenta para no perder información. Esto es lo opuesto a lo que se hace. Aumentar la dimensión espacial se llama upsampling (muestreo hacia arriba) y se usa en arquitecturas diferentes, como las redes generativas (GANs) o las de segmentación (U-Nets), que necesitan construir una imagen, no clasificarla.

Answer 454

D La función Softplus, f(x) = log(1 + exp(x)), crea una curva suave que se comporta casi como ReLU: es casi cero para entradas muy negativas y se parece mucho a la línea y=x para entradas positivas. Esencialmente, 'redondea' la esquina de ReLU.

Answer 455

D Al ser una curva suave, la pendiente (el gradiente) se puede calcular en cualquier punto sin ambigüedad. Esto la hace teóricamente 'más limpia' para un algoritmo que depende completamente de los gradientes, como el Descenso de Gradiente.

Answer 456

A La derivada de `log(1 + exp(x))` es `exp(x) / (1 + exp(x))`, que es la fórmula exacta de la función Sigmoide. Esta elegante conexión matemática es una de las razones por las que Softplus es tan interesante.

Answer 457

B Las operaciones de `logaritmo` y `exponencial` de Softplus son mucho más lentas para una CPU o GPU que la simple operación de `max(0, x)` de ReLU. En redes con millones de neuronas, esta diferencia de velocidad es enorme.

Answer 458

C Para un valor como x=-10, la derivada (Sigmoide) es un número extremadamente pequeño. Esto significa que el flujo de gradiente a través de esa neurona es casi nulo, un efecto muy parecido al de la 'neurona muerta', aunque no sea exactamente cero.

Answer 459

B A diferencia del software tradicional, donde las APIs son más estables, un sistema de ML depende de señales del mundo real. Si estas señales cambian (ej: un proveedor de datos altera su formato), el modelo puede empezar a fallar de maneras sutiles y difíciles de detectar. Esto se conoce como 'erosión de límites'.

Answer 460

D En un modelo de ML, las características no son independientes. Mejorar la predicción de una característica puede empeorar la de otra. Añadir una nueva puede cambiar la importancia de todas las demás. Esto hace que la mejora y el mantenimiento sean muy complejos.

Answer 461

C Por ejemplo, un sistema de recomendación de noticias muestra noticias populares. Los usuarios hacen clic en ellas, lo que las hace más populares, y el sistema las recomienda aún más. El modelo está influyendo en la realidad que intenta predecir, lo que puede llevar a sesgos y a una degradación del rendimiento.

Answer 462

D Muchos sistemas de ML se construyen uniendo librerías de propósito general. El problema es que una gran parte del esfuerzo se va en escribir y mantener este 'pegamento' que extrae, convierte y mueve datos entre las distintas partes, en lugar de en la lógica del modelo en sí. Este código es difícil de probar y mantener.

Answer 463

A Si tu modelo usa como característica (feature) el resultado de otra búsqueda de Google o la salida de otro modelo, y ese otro sistema cambia, tu modelo puede empezar a recibir datos sin sentido. El sistema no se caerá con un error, pero sus predicciones perderán toda su calidad sin que nadie se dé cuenta inmediatamente.

Answer 464

B Ser un ASIC significa que fue construido con un único propósito en mente: realizar las operaciones matemáticas del deep learning (especialmente multiplicaciones de matrices) de la forma más rápida y eficiente posible.

Answer 465

C Al estar diseñadas para una sola tarea, realizan esas operaciones masivas de forma mucho más eficiente (más cálculos por vatio de energía consumida) que el hardware de propósito general, lo que es ideal para entrenar modelos gigantescos.

Answer 466

C Un array sistólico es una red de miles de pequeñas unidades de cómputo (multiplicadores-acumuladores) que procesan datos en una onda sincronizada, similar al bombeo del corazón. Esto permite un rendimiento y eficiencia masivos para las operaciones matriciales.

Answer 467

B Esto se conoce como un 'TPU Pod'. Los chips están diseñados para ser conectados en clústeres gigantes, permitiendo que un solo trabajo de entrenamiento se distribuya entre miles de ellos, una capacidad fundamental para los modelos de lenguaje grandes (LLMs).

Answer 468

D Google ha trabajado para que los tres principales frameworks para la investigación y producción de Deep Learning a gran escala (TensorFlow, PyTorch y JAX) funcionen de forma nativa y eficiente en las TPUs, haciéndolas accesibles a una comunidad mucho más amplia.

Answer 469

D La idea es que, para muchos problemas, un modelo simple entrenado con una cantidad enorme de datos relevantes puede superar a un modelo muy sofisticado entrenado con pocos datos. El volumen y la calidad de los datos 'ganan' a la complejidad algorítmica.

Answer 470

D Este enfoque prioriza la obtención y el uso de una gran cantidad de datos, confiando en que la escala de los datos revelará los patrones necesarios incluso a un modelo más simple. Es muy probable que este enfoque dé mejores resultados y en menos tiempo.

Answer 471

B Un algoritmo publicado en un paper puede ser implementado por cualquiera. Sin embargo, años de datos de interacciones de usuarios, transacciones o sensores son un activo único que un competidor no puede simplemente copiar. Ese activo de datos es la verdadera barrera de entrada.

Answer 472

A El principio asume implícitamente que los datos son de calidad. Añadir millones de ejemplos irrelevantes o con ruido (basura) no ayudará y puede incluso empeorar el modelo. La regla 'basura entra, basura sale' (Garbage In, Garbage Out) sigue siendo fundamental.

Answer 473

D Las primeras tandas de datos suelen proporcionar las mayores ganancias de rendimiento porque permiten al modelo aprender los patrones más importantes. A medida que añades más y más datos, la mejora por cada nuevo millón de ejemplos se hace cada vez más pequeña, aunque siga existiendo.

Answer 474

D Actúa como un acelerador de hardware dedicado que se encarga de los cálculos de la red neuronal, liberando a la CPU principal del dispositivo. Esto permite ejecutar modelos complejos en dispositivos de baja potencia.

Answer 475

C Respuesta Correcta C. Edge TPU: Esta es la respuesta correcta porque el Edge TPU es el pequeño chip (ASIC, por sus siglas en inglés, Application-Specific Integrated Circuit) que Google diseñó específicamente para ejecutar modelos de Machine Learning de TensorFlow Lite en el edge (en dispositivos locales, fuera de la nube). Los dispositivos Coral, como la Coral Dev Board y el Coral USB Accelerator, integran este chip para ofrecer una inferencia de ML rápida y de bajo consumo energético. Respuestas Incorrectas A. TensorFlow Processing Unit (TPU): La TPU (Tensor Processing Unit) es un chip ASIC diseñado por Google, pero está optimizado para la computación a gran escala en centros de datos (la nube) y para el entrenamiento y la inferencia masiva de modelos complejos. La TPU es la contraparte de nube del chip, mientras que el Edge TPU es la versión para dispositivos pequeños y de bajo consumo (el edge). B. Coral Processing Chip (CPC): Este término no es una designación oficial o reconocida por Google para su hardware de ML. Es un distractor inventado. El nombre oficial del chip es Edge TPU. D. Graphics Processing Unit (GPU): La GPU es un tipo de procesador que se utiliza a menudo para el entrenamiento y la inferencia de Machine Learning debido a su arquitectura paralela. Sin embargo, no es el chip ASIC específico y patentado por Google que se encuentra dentro de los dispositivos Coral. Los dispositivos Coral utilizan el Edge TPU para una eficiencia superior a la que se lograría con una GPU estándar en ese factor de forma y consumo.

Answer 476

A Esto ofrece tres grandes ventajas: baja latencia (respuestas instantáneas), mayor privacidad (los datos sensibles, como el vídeo de una cámara, no salen del dispositivo) y menor consumo de ancho de banda y energía.

Answer 477

A Al forzar a los pesos y activaciones del modelo (que son números de alta precisión) a representarse con un conjunto muy limitado de valores enteros, se pierde información. Esta pérdida de resolución puede hacer que el modelo se comporte peor que su versión original.

Answer 478

D PTQ es un paso rápido que se hace al final, a menudo con una pérdida de precisión. QAT es un proceso más lento donde el modelo 'aprende a vivir' con las limitaciones de la baja precisión, ajustando sus pesos durante el entrenamiento para compensar la futura pérdida de resolución.

Answer 479

B AQT no es un concepto totalmente nuevo, sino una implementación robusta y 'precisa' de QAT. Su objetivo es facilitar a los desarrolladores la tarea de entrenar modelos que mantengan una alta precisión incluso cuando se cuantizan a formatos de muy pocos bits.

Answer 480

C Durante el entrenamiento, el modelo 've' cómo sus pesos y activaciones se verán en el futuro formato de baja precisión. El cálculo del error y la actualización de los gradientes tienen en cuenta esta limitación, forzando al modelo a encontrar soluciones que funcionen bien a pesar de la pérdida de resolución.

Answer 481

C Este es el 'santo grial': obtener los enormes beneficios de rendimiento de la aritmética de baja precisión sin tener que pagar el precio de una degradación notable en la calidad de las predicciones del modelo. Es buscar lo mejor de ambos mundos.

Answer 482

B ¿Qué es el Perceptrón? El Perceptrón fue introducido por Frank Rosenblatt en 1957 y se considera el algoritmo de red neuronal más simple que existe. Su propósito fundamental es: Clasificador Binario: Aprender a distinguir entre dos clases (por ejemplo, 0 o 1, "sí" o "no"). Lineal: Realiza la clasificación trazando una única línea (o hiperplano en dimensiones superiores) que separa los datos de las dos clases. Esto significa que solo puede resolver problemas que son linealmente separables. En esencia, un Perceptrón toma múltiples entradas, las multiplica por pesos, suma los resultados (incluyendo un sesgo o bias) y luego aplica una función de activación (a menudo una función escalón o step function) para decidir la clase de salida (0 o 1). Análisis de las Opciones Incorrectas A. Un método para agrupar datos similares en clústeres (clustering). Incorrecto. El clustering (como K-Means) es un algoritmo de aprendizaje no supervisado que agrupa datos sin etiquetas preexistentes. El Perceptrón es un clasificador de aprendizaje supervisado (requiere datos etiquetados). C. Una técnica para reducir la dimensionalidad de los datos, como el PCA. Incorrecto. La reducción de dimensionalidad (como el Análisis de Componentes Principales o PCA) es un proceso utilizado para reducir el número de características de entrada. El Perceptrón es una herramienta para la clasificación de datos, no para la simplificación de características. D. Un algoritmo para encontrar el camino más corto en un grafo. Incorrecto. Algoritmos como Dijkstra o A* se utilizan para encontrar el camino más corto en estructuras de datos conocidas como grafos. Esto no tiene relación con la función del Perceptrón, que es la clasificación en Machine Learning.

Answer 483

C Cada entrada tiene un peso asociado. Un peso grande (positivo o negativo) significa que esa entrada es muy influyente en la decisión. Un peso cercano a cero significa que la entrada es poco relevante. El aprendizaje consiste en ajustar estos pesos.

Answer 484

B Por qué la opción B es la correcta El algoritmo de aprendizaje del Perceptrón se basa en la idea de "aprender del error". Su funcionamiento es bastante directo: Inicialización: Los pesos y el sesgo se inicializan con valores pequeños, a menudo ceros o números aleatorios cercanos a cero. Predicción: Para cada ejemplo de entrenamiento, el Perceptrón calcula una salida (una predicción). Comparación y Ajuste: Aquí está el punto clave. El algoritmo compara la predicción con el valor real que debería haber obtenido. Si la predicción es correcta, el Perceptrón no hace nada. Considera que su configuración actual es adecuada para ese ejemplo y pasa al siguiente. Si la predicción es incorrecta, y solo en este caso, el Perceptron ajusta sus pesos y su sesgo. El objetivo de este ajuste es mover la "línea de decisión" del Perceptrón para que la próxima vez que vea ese mismo ejemplo (o uno similar), sea más probable que lo clasifique correctamente. Por lo tanto, el ajuste de los pesos y el sesgo es un proceso reactivo que ocurre únicamente cuando se comete un error. Esta es la esencia de su mecanismo de aprendizaje. Por qué las otras opciones son incorrectas A. Solo al principio del entrenamiento, para inicializar los valores. Esto es incorrecto. Al principio solo se inicializan los pesos y el sesgo, es decir, se les da un punto de partida. El aprendizaje real (el ajuste) ocurre después de esta inicialización, a medida que el modelo procesa los datos. Si solo se ajustaran al principio, el modelo nunca aprendería de los datos de entrenamiento. C. Solo al final de cada época, después de ver todos los datos. Esto describe un tipo de aprendizaje llamado "aprendizaje por lotes" (batch learning), que es diferente al aprendizaje del Perceptrón estándar. El Perceptrón original actualiza sus pesos "en línea" (online learning), es decir, ejemplo por ejemplo, tan pronto como detecta un error. No espera a ver todos los datos de una época para hacer los ajustes. D. Después de cada predicción, sin importar si fue correcta o no. Esto es incorrecto y sería ineficiente. Si el Perceptrón ajustara los pesos incluso después de una predicción correcta, estaría "corrigiendo" algo que ya funciona. Esto podría deshacer el aprendizaje previo y hacer que el modelo nunca converja hacia una solución estable. El principio es "si no está roto, no lo arregles".

Answer 485

B Un Perceptrón funciona dibujando una única línea recta (o un plano en más dimensiones) para separar dos grupos de puntos. Si los grupos no se pueden separar con una sola línea (como en el famoso problema XOR), el Perceptrón es incapaz de encontrar una solución.

Answer 486

B La función escalón implementa un umbral de decisión de todo o nada. Si la suma ponderada de las entradas supera este umbral, la salida es 1 ('disparo'). Si no lo supera, la salida es 0 ('inactiva'). Es un modelo simplificado del potencial de acción de una neurona.

Answer 487

D al agrupar rangos de valores en 'buckets' o contenedores, se trata una variable continua como si fuera categórica.

Answer 488

D Usamos las características (ej: metros cuadrados de una casa) para entrenar al modelo a predecir la etiqueta (ej: precio de la casa).

Answer 489

A El modelo ha 'memorizado' los datos de entrenamiento, incluyendo su ruido, en lugar de aprender el patrón general.

Answer 490

A El aprendizaje supervisado aprende de ejemplos con respuestas correctas (etiquetas), mientras que el no supervisado busca patrones en datos sin esas respuestas.

Answer 491

C Se usa para evaluar el modelo durante el entrenamiento con diferentes configuraciones (hiperparámetros) sin 'contaminar' el conjunto de prueba.

Answer 492

C Estamos asignando cada correo a una de dos categorías discretas y predefinidas.

Answer 493

A Cuantifica qué tan 'equivocado' está el modelo en sus predicciones, y el objetivo del entrenamiento es minimizar este valor.

Answer 494

C El objetivo es predecir un valor numérico continuo (el precio), lo cual es la definición de una tarea de regresión.

Answer 495

A La red 'aprende' ajustando estos pesos para dar más o menos importancia a ciertas entradas y así mejorar la precisión de sus predicciones.

Answer 496

D El optimizador es el algoritmo que implementa la estrategia para modificar los pesos del modelo basándose en el error (pérdida) calculado.

Answer 497

C El conjunto de validación está diseñado precisamente para esto: comparar el rendimiento de diferentes modelos o configuraciones y elegir el ganador.

Answer 498

D El rendimiento en el conjunto de testeo es la métrica final y más honesta sobre cómo se comportará tu modelo con datos nuevos y desconocidos.

Answer 499

C Una gran diferencia de rendimiento entre los datos de entrenamiento (que 'memoriza') y los de validación (que no conoce) es el síntoma clásico del sobreajuste.

Answer 500

C `y_train` contiene las respuestas correctas que el modelo usará para aprender. Es la 'etiqueta' o 'label'.

Answer 501

D Por qué la opción D es la correcta D. Convertir la matriz 2D de la imagen (28x28 píxeles) en un vector 1D (784 píxeles). Formato de Entrada: Las imágenes del dataset MNIST son matrices de 28x28 píxeles. Piensa en ellas como una cuadrícula o una pequeña hoja de cálculo con 28 filas y 28 columnas. Requisito de la Siguiente Capa: La capa que sigue, tf.keras.layers.Dense, también conocida como capa "totalmente conectada", necesita que su entrada sea un vector plano (una única fila larga de números). No puede trabajar directamente con una matriz 2D. La Función de Flatten: La capa Flatten actúa como un adaptador. Toma la matriz de 28x28 y la "aplana" o "desenrolla", colocando cada fila una detrás de la otra para crear un único vector largo. El número total de píxeles no cambia: 28 * 28 = 784. Imagina que la imagen es una alfombra pequeña y cuadrada. La capa Dense necesita que se la entregues como un pasillo largo y estrecho. Flatten es la acción de desenrollar la alfombra. Por qué las otras opciones son incorrectas A. Seleccionar los píxeles más importantes de la imagen. Flatten no selecciona ni descarta ninguna información. Simplemente reorganiza todos los píxeles existentes. Las capas que seleccionan características importantes son otras, como las capas de convolución o de pooling. B. Aumentar el tamaño de las imágenes para que el modelo aprenda mejor. Esta capa no altera la cantidad de datos; una matriz de 28x28 y un vector de 784 contienen exactamente la misma cantidad de información. Aumentar el tamaño de las imágenes es una técnica de aumento de datos (data augmentation) que se realiza con otras herramientas. C. Reducir el número de colores de la imagen a blanco y negro. El dataset MNIST ya viene en escala de grises. Además, Flatten no tiene ninguna función relacionada con el color; es una operación puramente estructural que cambia la forma (shape) del tensor de datos.

Answer 502

A Cada neurona en la capa de salida representará la probabilidad de que la imagen corresponda a uno de los dígitos. Necesitamos una neurona por cada clase.

Answer 503

D Si la red produce valores como [-2.1, 5.8, 0.5, ...], softmax los transforma en probabilidades (ej: [0.01, 0.90, 0.02, ...]), indicando que la imagen tiene un 90% de probabilidad de ser el segundo dígito.

Answer 504

D Esta es la imagen que contiene tu entorno personalizado con tu código y las librerías que necesita para funcionar.

Answer 505

B El ejecutor actúa como el 'jefe de planta', gestionando las entradas y salidas para que tu contenedor pueda hacer su trabajo.

Answer 506

C 🟢 Por qué la C es la correcta: container image uri En un pipeline de Machine Learning moderno (como los que se usan en Kubeflow, Vertex AI, o TFX), cada paso del pipeline (ej. "preparar datos", "entrenar modelo", "evaluar modelo") se ejecuta como un contenedor (generalmente Docker). ¿Qué es la container image? Es la "caja" queTú, como ingeniero de ML, creas. Contiene tu código específico (tus scripts de Python), tus dependencias (como TensorFlow, scikit-learn, pandas) y todo lo necesario para que ese paso funcione. ¿Por qué tienes que gestionarla? La plataforma (Kubeflow, Vertex AI, etc.) no tiene idea de cómo es tu código de entrenamiento o qué librerías usas. Tu trabajo es: Escribir el script (ej. train.py). Crear un Dockerfile que instale Python, tus librerías y copie tu script. Construir esa imagen de Docker. Subirla a un registro de contenedores (como Google Artifact Registry, GCR, o Docker Hub). El URI: La container image uri es la "dirección" de esa imagen en el registro (ej. gcr.io/mi-proyecto/mi-imagen-de-entrenamiento:latest). Tienes que especificar explícitamente esta URI en la definición de tu pipeline para que la plataforma sepa qué imagen debe descargar y ejecutar para ese paso. En resumen: La container image contiene tu lógica, por lo tanto, tú la creas y tú proporcionas su URI. 🔴 Por qué las otras son incorrectas A. La executor image uri ¿Qué es? El "ejecutor" es un componente de la plataforma del pipeline. Es una imagen de contenedor genérica que sabe cómo "envolver" y ejecutar tu contenedor (container image). ¿Quién la gestiona? La plataforma (Google, Amazon, etc.) la proporciona y gestiona. Su trabajo es arrancar tu contenedor, pasarle los artefactos de entrada (como el dataset), recoger los de salida (como el modelo entrenado) y registrar los metadatos. ¿Por qué es incorrecta? Tú casi nunca tienes que especificar o modificar esta imagen. Usas la que la plataforma te da por defecto. Solo la modificarías en escenarios muy avanzados de personalización de la propia plataforma, no en el día a día de crear pipelines de ML. B. Ninguna, la plataforma las elige automáticamente ¿Por qué es incorrecta? Esto es parcialmente cierto para la executor image uri, pero es completamente falso para la container image uri. La plataforma no puede "elegir automáticamente" o adivinar dónde está el código personalizado que tú has escrito para entrenar tu modelo. D. Ambas, siempre tienes que crear las dos ¿Por qué es incorrecta? Como se explicó en el punto A, tú no gestionas ni creas la executor image uri. Tu responsabilidad se centra casi exclusivamente en la container image uri que contiene tu código. Analogía para entenderlo mejor Imagina que el pipeline es un restaurante de comida rápida muy automatizado (la plataforma). El executor image: Es el brazo robótico genérico que tiene el restaurante. Está diseñado para coger una caja de ingredientes, cocinarla y ponerla en una bandeja. El restaurante te proporciona este robot, tú no lo construyes. El container image: Es la caja sellada con tus ingredientes y tu receta únicos (tu código y librerías). Tu trabajo: Tú tienes que (1) preparar esa caja con tu receta (container image) y (2) darle al robot la "dirección" de dónde encontrar esa caja (container image uri) para que pueda cocinarla. Tú solo te encargas de la receta (C), no del robot (A).

Answer 507

A Esta es su función más fundamental. Sin él, Python no ve el directorio como un paquete.

Answer 508

B El punto `.` indica una importación relativa desde el mismo directorio, exponiendo la función directamente en el nivel del paquete `modelos`.

Answer 509

B Como `mi_proyecto` no es reconocido como un paquete (porque le falta `__init__.py`), Python no puede encontrar el módulo `mi_script` dentro de él.

Answer 510

C Se empieza con características simples (píxeles, bordes) y se obliga a la red a combinarlas en conceptos complejos (orejas, hocico) hasta llegar a la raza.

Answer 511

D Se mantiene el 'ancho de banda' de la información para permitir que la red aprenda relaciones complejas sin crear un cuello de botella prematuro.

Answer 512

A Esta es una base sólida y un punto de partida muy común. Es intuitivo, funciona bien en muchos problemas y es fácil de razonar.

Answer 513

D El encoder 'lee' y 'entiende' la entrada para crear una representación numérica que encapsula su significado.

Answer 514

A El vector de contexto es la única información que tiene el decoder sobre la secuencia de entrada. Es su 'guía' o 'memoria'.

Answer 515

A Por qué la opción A es la correctaA. Porque permite que la longitud de la frase de entrada y la de salida sean diferentes.Esta es la ventaja fundamental y la razón por la que se inventó esta arquitectura (también conocida como Sequence-to-Sequence o Seq2Seq).Red Neuronal Simple (ej. RNN simple): Una RNN simple tiende a mapear una entrada a una salida de manera sincronizada. Por ejemplo, $entrada_1 \to salida_1$, $entrada_2 \to salida_2$. Esto funciona para tareas como etiquetar partes del discurso (cada palabra de entrada recibe una etiqueta de salida). Pero en la traducción, esto es imposible.Problema de Traducción: Las frases casi nunca tienen la misma longitud en diferentes idiomas."It is raining" (3 palabras) se traduce como "Llueve" (1 palabra)."I am hungry" (3 palabras) se traduce como "Tengo hambre" (2 palabras).Solución Encoder-Decoder:El Encoder (codificador) lee la frase de entrada completa (ej. "It is raining") y la comprime en un vector de números (un "vector de contexto" o "pensamiento") que representa el significado de toda la frase.El Decoder (decodificador) toma ese vector de significado y comienza a generar la frase de salida palabra por palabra (ej. "Llueve"), parando cuando decide que la frase está completa.Esta arquitectura de dos pasos desacopla la entrada de la salida, permitiendo que un encoder lea 3 palabras y un decoder genere 1 palabra (o viceversa).Por qué las otras opciones son incorrectasB. Porque utiliza menos memoria que otras redes.Incorrecto: Es todo lo contrario. Los modelos de traducción (especialmente los basados en Transformers, que son una evolución del encoder-decoder) son de los modelos más grandes y que más memoria consumen en el mundo del deep learning.C. Porque solo funciona con texto y está especializada en idiomas.Incorrecto: La arquitectura encoder-decoder es un concepto general. Se usa en muchas otras tareas, como la generación de subtítulos para imágenes (el encoder es una red de visión que "lee" la imagen y el decoder es una RNN que escribe el texto) o el reconocimiento de voz (el encoder "lee" el audio y el decoder "escribe" el texto).D. Porque es mucho más rápida que otras redes.Incorrecto: No es necesariamente más rápida. El proceso (especialmente el del decoder, que genera una palabra a la vez) puede ser bastante lento durante la inferencia (traducción real). Se elige por su capacidad para resolver el problema, no por su velocidad.

Answer 516

A Las CNN son expertas en 'entender' imágenes y extraer sus características. Su salida puede ser aplanada para formar el vector de contexto.

Answer 517

C La velocidad es la razón fundamental. Las operaciones matriciales que sustentan el deep learning serían inviables en Python puro.

Answer 518

C `compile()` prepara el 'grafo de computación' y define las herramientas (optimizador, pérdida) que el backend de C++ usará durante el entrenamiento.

Answer 519

B La belleza de estos frameworks es que te abstraen de la complejidad del hardware y del código de bajo nivel. Tú te centras en la lógica del modelo en Python.

Answer 520

C Artifact Registry actúa como un repositorio central y seguro para los 'entregables' de software, como las imágenes de contenedor.

Answer 521

C El Dockerfile es el 'plano' o la 'receta' que contiene todas las instrucciones para construir el entorno de tu aplicación.

Answer 522

C Para que otros servicios en la nube puedan acceder a tu imagen, primero debe estar en un registro centralizado como Artifact Registry.

Answer 523

B `%%` indica que es una 'cell magic', por lo que se aplica a toda la celda. `timeit` es el comando para medir el tiempo de forma precisa.

Answer 524

D Este comando le dice a Jupyter que 'incruste' los resultados gráficos estáticos directamente en la salida de la celda.

Answer 525

D Esa es su definición. Son comandos que no son Python puro pero que el entorno del notebook entiende y ejecuta.

Answer 526

C Esta es la principal ventaja de los checkpoints para la tolerancia a fallos. Minimizas la pérdida de trabajo.

Answer 527

D Esta estrategia te protege del sobreajuste (overfitting), guardando el modelo en su punto óptimo, incluso si después empezó a empeorar.

Answer 528

B Los pesos son la esencia de lo que el modelo ha aprendido. Sin ellos, el modelo estaría como recién inicializado.

Answer 529

B Este es el efecto clave. Un error 10 veces más grande no contribuye 10 veces más al total, sino 100 veces más (10 al cuadrado).

Answer 530

B El RMSE te da una idea de la magnitud del error típico de tu modelo en las mismas unidades que la variable objetivo.

Answer 531

C Al minimizar el RMSE durante el entrenamiento, el modelo aprenderá que cometer un error garrafal es extremadamente 'caro' y ajustará sus pesos para evitarlos.

Answer 532

D La programación funcional se centra en transformar datos para crear nuevos datos, en lugar de modificar los originales, y en usar funciones como bloques de construcción fundamentales.

Answer 533

C map()` es una función de orden superior que aplica una función de transformación a cada elemento de un iterable, produciendo uno nuevo. Es el enfoque funcional por excelencia.

Answer 534

B Por qué la opción B es la correcta B. Porque tiene un 'efecto secundario' (side effect): modifica el estado del sistema fuera de su propio ámbito. Para que una función sea considerada 'pura', debe cumplir dos reglas estrictas: Ser determinista: Dados los mismos argumentos de entrada, siempre debe devolver el mismo resultado. No tener efectos secundarios: La función no puede modificar nada fuera de su propio ámbito local. Un "efecto secundario" (side effect) es cualquier acción que la función realiza y que afecta al mundo exterior, por ejemplo: Modificar una variable global. Imprimir un mensaje en la consola. Llamar a una API de red. O, como en este caso, escribir en un archivo del disco duro. La función actualizar_log() viola la segunda regla. Al escribir en un archivo, está modificando el estado del sistema de archivos, que está completamente fuera de la función. Esto la convierte en una función 'impura'. Por qué las otras opciones son incorrectas A. Porque no devuelve ningún valor numérico. Incorrecto: La pureza de una función no tiene nada que ver con el tipo de dato que devuelve. Una función pura puede devolver un string, un booleano, una lista, o incluso nada (void/None), siempre y cuando cumpla las dos reglas. C. Porque los archivos de texto no son compatibles con la programación funcional. Incorrecto: Esto no tiene sentido. La programación funcional (el paradigma que usa funciones puras) puede interactuar perfectamente con archivos. Simplemente, las funciones que realizan esas operaciones de I/O (entrada/salida) se consideran 'impuras' y se suelen aislar del resto de la lógica pura del programa. D. Porque el nombre de la función es demasiado largo. Incorrecto: Las reglas de estilo o la longitud del nombre de una función son completamente irrelevantes para su comportamiento o su pureza.

Answer 535

B Este término significa que las funciones no son especiales y pueden ser tratadas como cualquier otro tipo de dato (enteros, strings, listas...).

Answer 536

C Busca el módulo por su nombre en el entorno y lo ejecuta, lo que lo hace muy robusto.

Answer 537

D ✅ La Respuesta Correcta: D) Esta respuesta es correcta porque describe perfectamente la cadena de eventos: "si está activado" (El paso clave): Cuando "activas" tu entorno virtual (ej. con source Documentos/proyecto/venv/bin/activate), tu terminal (shell) modifica su variable PATH. Específicamente, pone la carpeta bin de tu entorno virtual al principio de la lista. El comando python ...: Ahora, cuando escribes python (sin importar desde qué carpeta), la terminal busca en el PATH, encuentra la versión de python de tu entorno virtual primero y la ejecuta. Ya no está ejecutando el Python "global" de tu sistema. El flag -m pip: El flag -m le dice a ese ejecutable de Python: "Quiero que busques un módulo (package) llamado pip en tus carpetas de módulos y lo ejecutes como un script". El "path" de búsqueda de Python: El Python de tu entorno virtual está configurado para buscar módulos solo dentro de la carpeta lib/site-packages de ese entorno. Ahí es donde vive el pip que instalaste para ese proyecto. En resumen: No importa que estés en Descargas. Al activar el entorno, python apunta al intérprete correcto, y -m pip le dice a ese intérprete que use su propia versión de pip. Es la forma más robusta de llamar a pip y asegura que siempre usas el del entorno activo. ❌ Por Qué las Otras Opciones Son Incorrectas A. No funcionaría, siempre debes estar en la misma carpeta que el ejecutable de pip. Esto es falso. El propósito de la variable PATH del sistema operativo es precisamente permitirte ejecutar comandos (como python, git, ls, etc.) desde cualquier carpeta, sin tener que navegar a la carpeta exacta donde viven sus archivos ejecutables. B. Porque pip install es un comando universal del sistema operativo. Esto es incorrecto. pip no es un comando del sistema operativo (como cd en Linux/macOS o dir en Windows). Es un programa separado, un gestor de paquetes de Python. Tiene que ser instalado y encontrado a través del PATH, y es específico de una instalación de Python. C. Porque pip siempre se instala en la carpeta de 'Descargas'. Esto es completamente falso. La carpeta de Descargas es solo el directorio de trabajo actual (desde dónde estás ejecutando el comando). No tiene nada que ver con dónde están instalados los programas. pip se instala junto con su versión de Python correspondiente (en la carpeta bin o Scripts del entorno).

Answer 538

A Esto usa el intérprete de Python activo para ejecutar el módulo `venv` y crear un entorno, asegurando la consistencia.

Answer 539

C Un paso equivale a procesar un lote y realizar una actualización de gradiente. Son conceptos intercambiables en este contexto.

Answer 540

C Se necesitan 100 lotes de 500 muestras cada uno para procesar las 50.000 muestras totales (50.000 / 500 = 100).

Answer 541

C Si los lotes son más pequeños, necesitarás dar más pasos (procesar más lotes) para completar una pasada por todo el dataset.

Answer 542

D Toma números cualesquiera (positivos, negativos) y los transforma en probabilidades (valores de 0 a 1 que suman 1).

Answer 543

D El modelo asigna una probabilidad a cada clase y la más alta (0.65 para 'deportes') es la predicción final.

Answer 544

B Propósito de la función softmax Convierte un vector de números reales (logits) en una distribución de probabilidad. Una distribución de probabilidad debe cumplir: Todas las probabilidades ≥ 0 (no negativos). La suma total = 1.0. Propiedad clave Es monótona: preserva el orden de los logits. El logit más alto → probabilidad más alta. El logit más bajo → probabilidad más baja. Ejemplo de entrada (logits) [2.0, -1.0, 0.0] Posición 0 → logit más alto (2.0) Posición 2 → logit medio (0.0) Posición 1 → logit más bajo (-1.0) Orden esperado de salida: Posición 0 > Posición 2 > Posición 1 ✅ Opción correcta: (B) [0.87, 0.04, 0.09] ¿Negativos? → No, todas positivas. ¿Suma = 1.0? → Sí, 0.87 + 0.04 + 0.09 = 1.0. ¿Preserva el orden? → Sí: 0.87 (pos. 0) → logit más alto (2.0) 0.09 (pos. 2) → logit medio (0.0) 0.04 (pos. 1) → logit más bajo (-1.0) Orden: 0.87 > 0.09 > 0.04 → coincide con lo esperado. ❌ Opciones incorrectas A) [1.0, 0.0, 0.0] Softmax nunca da ceros exactos (solo si logit = -∞). Esto es “hard‑max”, no softmax. C) [0.5, -0.2, 0.7] Contiene un valor negativo (-0.2). Rompe la regla de ≥ 0. D) [2.0, 0.0, 1.0] Suma = 3.0, no 1.0. Rompe la regla de normalización.

Answer 545

A El Recall se centra en encontrar a todos los positivos que de verdad existen en los datos.

Answer 546

C Para entender esto, desglosemos los términos del denominador: TP (True Positives - Verdaderos Positivos): Son los casos que eran realmente positivos y que el modelo predijo correctamente como positivos. FN (False Negatives - Falsos Negativos): Son los casos que eran realmente positivos, pero que el modelo predijo incorrectamente como negativos (es decir, el modelo los "pasó por alto"). Si sumas ambos (TP + FN), estás sumando (Los positivos que el modelo encontró) + (Los positivos que el modelo pasó por alto). El resultado es, por definición, todos los casos positivos que realmente existían en los datos. Por eso, la fórmula del Recall (Sensibilidad) responde a la pregunta: "De todos los positivos que realmente había, ¿qué porcentaje fuimos capaces de encontrar?" Por qué las otras opciones son incorrectas A. El número total de datos en el dataset: Esto sería TP + FN + FP + TN. B. El número total de predicciones positivas que hizo el modelo: Esto es TP + FP (el denominador de la Precisión). D. El número total de predicciones incorrectas: Esto sería FP + FN.

Answer 547

A Quieres maximizar el Recall para asegurarte de 'capturar' el mayor número posible de fraudes reales, incluso si eso significa que algunas transacciones legítimas sean marcadas para revisión (Falsos Positivos).

Answer 548

D Esta es una decisión de arquitectura fundamental que define la estructura de la red.

Answer 549

C El entrenamiento es un proceso de optimización que ajusta los pesos de las conexiones para minimizar el error global, haciendo que las neuronas se especialicen.

Answer 550

D El comportamiento de la neurona es una consecuencia de la optimización global. Se ha 'dado cuenta' de que especializarse en 'ojos' contribuye a tomar la decisión correcta.

Answer 551

B La primera capa trabaja directamente con los píxeles brutos, por lo que aprende las características más fundamentales y de bajo nivel.

Answer 552

C Cada nueva capa crea una abstracción sobre la anterior. La combinación de 'ojos', 'nariz' y 'boca' forma una 'cara'.

Answer 553

A 'Jerárquica' se refiere a esta estructura de niveles, donde cada nivel construye sobre la complejidad del anterior, desde lo simple a lo abstracto.

Answer 554

A Es el 'manual de instrucciones' o los metadatos del paquete, que permite su distribución e instalación.

Answer 555

C Esto crea una separación clara de intereses: el código de la aplicación por un lado, y la configuración del paquete (`setup.py`), los tests y la documentación por otro.

Answer 556

C `setup.py` es el script de construcción estándar para los paquetes de Python, y `pip install .` lo busca por defecto en el directorio actual.

Answer 557

D Este es el comportamiento ideal. La pérdida mide el error, y si desciende, significa que el modelo está mejorando sus predicciones.

Answer 558

A Cuanto más bajo el punto en el eje Y, menor es la pérdida y, por tanto, mejor era el rendimiento del modelo en ese momento.

Answer 559

D Una tasa de aprendizaje muy alta puede hacer que el modelo 'se pase de frenada' en sus correcciones, y el error aumente en lugar de disminuir. Es una señal de alarma.

Answer 560

B Esta conexión total o 'fully-connected' es lo que le da el nombre de densa.

Answer 561

D Cada una de las 4 neuronas de la capa densa recibe una conexión de las 8 neuronas anteriores. Por lo tanto, 4 x 8 = 32 conexiones.

Answer 562

B Recoge la salida de cada neurona anterior, la multiplica por el peso de su conexión específica, y suma todo para obtener su propia entrada.

Answer 563

C Vertex AI coge esa imagen, la despliega en una máquina virtual gestionada por Google y la ejecuta.

Answer 564

C Tu trabajo es empaquetar tu aplicación en un contenedor y subirlo a un registro. Vertex AI se encarga del resto.

Answer 565

A Esta es la ventaja fundamental de la contenedorización. El mismo entorno, las mismas versiones de librerías, en todas partes.

Answer 566

C Esta combinación de 'memorización + generalización' es la idea central y la principal fortaleza de esta arquitectura.

Answer 567

A La parte 'Wide' es excelente para aprender de memoria estas interacciones frecuentes y directas entre características.

Answer 568

D La parte 'Deep' busca patrones ocultos que no son obvios a simple vista, explorando combinaciones complejas de características.

Answer 569

C Primero define la capa (`layers.Dense(8)`) y después la 'llama' (`(x)`) para conectarla al flujo de datos.

Answer 570

B Esta sintaxis de 'llamada' es cómo se construye el grafo de capas, conectando la salida de una con la entrada de la siguiente.

Answer 571

D `x` es el tensor que sale de la primera capa Densa y que 'fluye' hacia la segunda capa Densa.

Answer 572

C Para entenderlo, miremos la fórmula de la Precisión: Precision = TP / ( TP + FP ) El denominador ($TP + FP$): Representa el total de veces que el modelo dijo "esto es positivo" (tanto si acertó como si falló).El numerador ($TP$): Son las veces que, dentro de esas predicciones, realmente tenía razón.Por lo tanto, la Precisión mide la confianza o pureza de tus predicciones positivas. Es la respuesta a la pregunta: "Cuando mi modelo da la alarma, ¿debería creerle o suele ser una falsa alarma?".¿Por qué las demás son incorrectas?Aquí es donde suele haber confusión, porque todas parecen sonar bien, pero matemáticamente describen cosas muy distintas:A. De todos los positivos que había en la realidad, ¿qué fracción fuimos capaces de identificar?Métrica real: Exhaustividad (Recall) o Sensibilidad.La diferencia: Aquí el foco no está en si el modelo miente mucho (falsos positivos), sino en si se le escapan cosas (falsos negativos). Su fórmula usa en el denominador los positivos reales ($TP + FN$), no las predicciones.B. ¿Qué porcentaje del total de predicciones fueron correctas?Métrica real: Exactitud (Accuracy).La diferencia: Esta métrica mete en el mismo saco los aciertos positivos y los aciertos negativos y los divide por el total de datos. Es una visión global, no específica de la clase positiva.D. ¿Qué porcentaje de los casos negativos fueron identificados correctamente?Métrica real: Especificidad (Specificity).La diferencia: Es el "Recall de los negativos". Mide la capacidad del modelo para decir que "no" cuando realmente es "no".Resumen "Truco" para no fallarPara distinguir Precisión (C) de Recall (A), piensa en esto:Precisión (Opción C): Mira hacia tus predicciones. ¿Cuántas balas dieron en el blanco de todas las que disparaste? (Penaliza disparar a lo loco / Falsos Positivos).Recall (Opción A): Mira hacia la realidad. De todos los objetivos que había en el campo, ¿a cuántos les diste? (Penaliza quedarse corto / Falsos Negativos).

Answer 573

D El denominador representa a todos los positivos reales: los que encontramos (TP) y los que se nos escaparon (FN).

Answer 574

D En este caso, un modelo inútil que siempre prediga 'negativo' tendría un 99% de Accuracy, dándonos una falsa sensación de buen rendimiento.

Answer 575

A La Accuracy da una visión general del rendimiento del modelo sobre el conjunto de todos los datos.

Answer 576

D El denominador de la Accuracy es la suma de todos los posibles resultados, es decir, el tamaño total del conjunto de datos evaluado.

Answer 577

D Un modelo simple que siempre prediga 'negativo' tendría un 99% de Accuracy, pero sería inútil porque nunca detectaría la clase minoritaria.

Answer 578

D El Recall mide la capacidad del modelo para 'recuperar' o 'capturar' todos los casos positivos que existen.

Answer 579

D Maximizar el Recall implica minimizar el denominador, y como TP es fijo, esto significa minimizar los Falsos Negativos (FN), que es el objetivo.

Answer 580

C El total de positivos reales era 80 (TP) + 20 (FN) = 100. El modelo encontró 80 de ellos. Por tanto, el Recall es 80/100 = 0.80.

Answer 581

B El denominador de la Precision agrupa todos los casos que el modelo ETIQUETÓ como positivos, tanto los aciertos (TP) como los errores (FP).

Answer 582

C Maximizar la Precision significa minimizar el número de Falsos Positivos (FP). Cuando el modelo recomiende algo, será muy probable que acierte, mejorando la experiencia del usuario.

Answer 583

B Por qué la B es la respuesta correcta La pregunta te da la fórmula exacta que debes usar: Precision = TP / (TP + FP). ¿Qué es la Precisión? Es una métrica que responde a la pregunta: "De todas las veces que el modelo predijo 'Positivo', ¿cuántas veces acertó?". TP (True Positives / Verdaderos Positivos) = 50 FP (False Positivos / Falsos Positivos) = 10 Simplemente tienes que sustituir los valores en la fórmula: Fórmula: Precision = TP / (TP + FP) Sustitución: Precision = 50 / (50 + 10) Cálculo: Precision = 50 / 60 Resultado: 0.8333... (que se redondea a 0.833) El dato FN=5 (Falsos Negativos) es un distractor. Se incluye en la pregunta para comprobar si sabes qué valores necesita la fórmula de Precisión. No se utiliza para este cálculo. Por qué las otras respuestas son incorrectas A) 5.0 (50 / 10): Incorrecto. Esta calculando TP / FP. Esta no es la fórmula de Precisión (ni ninguna métrica estándar común). C) 0.769 (50 / 65): Incorrecto. El denominador 65 proviene de sumar 50 (TP) + 10 (FP) + 5 (FN). La fórmula TP / (TP + FP + FN) no es Precisión, es otra métrica llamada Jaccard Index o Intersection over Union (IoU). D) 0.909 (50 / 55): Incorrecto. El denominador 55 proviene de sumar 50 (TP) + 5 (FN). La fórmula TP / (TP + FN) es la métrica de Recall (Sensibilidad), no de Precisión. El Recall responde a una pregunta diferente: "De todos los positivos que realmente existían, ¿cuántos encontró el modelo?".

Answer 584

B Por qué B es correcta: La curva ROC traza el TPR (sensibilidad) en el eje Y frente al FPR (1 − especificidad) en el eje X para todos los posibles umbrales de decisión. Por qué A no es correcta: Esa descripción corresponde más bien a la curva Precision–Recall, no a la ROC. Por qué C no es correcta: La curva no muestra directamente distribuciones de predicciones, sino tasas de acierto/fallo a distintos umbrales. Por qué D no es correcta: Un histograma de probabilidades es otra visualización (de densidades), no la curva ROC.

Answer 585

B Por qué B es correcta: Un AUC de 1.0 significa que para cualquier par ejemplo positivo/negativo, el modelo asigna una probabilidad más alta al positivo, por lo que separa perfectamente ambas clases. Por qué A no es correcta: Un acierto perfecto con positivas pero fallo sistemático con negativas daría un AUC impredecible, pero no 1.0. Por qué C no es correcta: Un modelo aleatorio tiene AUC≈0.5, no 1.0. Por qué D no es correcta: La precisión global al 100 % implica que no hay falsos positivos ni falsos negativos, lo cual coincide con un AUC de 1.0, pero la definición de AUC no mide directamente “precisión” sino capacidad de separación.

Answer 586

C Por qué C es correcta: El vértice superior izquierdo representa TPR alto (cerca de 1) y FPR bajo (cerca de 0), que es el ideal: muchas detecciones verdaderas y pocos falsos positivos. Por qué A y D no son correctas: Ambas invierten las tasas; allí habría muchos falsos positivos o pocas verdaderas detecciones. Por qué B no es correcta: Eso correspondería a un punto cercano al origen (0, 0), no al vértice superior izquierdo.

Answer 587

D Por qué D es correcta: Cuando las ROC se cruzan, el AUC global puede no reflejar la mejor performance en el rango de interés; en cambio, definir un umbral que corresponda a un FPR aceptable y comparar la TPR en ese punto es más útil para tu caso de uso. Por qué A no es correcta: El tiempo de entrenamiento no evalúa la calidad del clasificador. Por qué B no es correcta: La AUC global puede esconder diferencias locales importantes donde una curva supera a la otra. Por qué C no es correcta: El número de puntos depende de la granularidad de umbrales evaluados, no de la calidad del modelo.

Answer 588

C Por qué C es falsa: Una curva cerca del eje X (es decir FPR muy bajo pero también TPR bajo) no indica buen rendimiento; lo ideal es acercarse al punto (0,1), no al eje X. Por qué A no es falsa: Un clasificador aleatorio efectivamente tiene TPR≈FPR en todos los umbrales, trazando la diagonal. Por qué B no es falsa: La ROC mide tasas relativas (TPR, FPR) y no se ve afectada por la proporción de clases. Por qué D no es falsa: Esa es la definición misma: sensibilidad (TPR) vs. 1 − especificidad (FPR).

Answer 589

B Por qué la opción B es la correcta: La curva ROC se utiliza para comparar visualmente la capacidad de discriminación de un modelo clasificatorio binario, mostrando cómo varía la tasa de verdaderos positivos y falsos positivos según el umbral. Por qué las otras son incorrectas: A) No tiene nada que ver con redes neuronales ni con su arquitectura. C) La precisión media no se calcula con la curva ROC. D) No está relacionada con el coste computacional.

Answer 590

C Por qué la opción C es la correcta: El eje Y de la curva ROC corresponde a la tasa de verdaderos positivos o sensibilidad (recall), que mide la proporción de positivos correctamente identificados. Por qué las otras son incorrectas: A) La tasa de falsos negativos no aparece en la ROC. B) La precisión no se representa en la curva ROC. D) La tasa de verdaderos negativos tampoco se utiliza en la ROC.

Answer 591

C Por qué la opción C es la correcta: AUC=1 significa que el modelo tiene una capacidad perfecta para distinguir entre clases (modelo ideal). Por qué las otras son incorrectas: A) Un modelo aleatorio tendría AUC cerca de 0.5. B) Si nunca acierta, el AUC será 0 o cerca. D) Es perfectamente interpretable y muy deseado.

Answer 592

C Por qué la opción C es la correcta: La diagonal indica que el modelo no discrimina mejor que el azar, es decir, sus predicciones no son útiles (AUC=0.5). Por qué las otras son incorrectas: A) Predecir una sola clase sería una esquina (no la diagonal). B) Peor que aleatorio estaría por debajo de la diagonal. D) El modelo perfecto es el borde superior izquierdo, no la diagonal.

Answer 593

A Por qué la opción A es la correcta: El vértice superior izquierdo representa máxima sensibilidad (recall) y mínima tasa de falso positivo (modelo muy bueno). Por qué las otras son incorrectas: B) Es el extremo contrario en la curva. C) Clasificar todo como negativo no llega a ese vértice. D) Si está ahí, no se necesita otro modelo.

Answer 594

B La curva ROC es una representación gráfica que ilustra cómo se comporta un modelo de clasificación al variar el umbral de decisión.[1][2] En el eje Y se representa la Tasa de Verdaderos Positivos (Sensibilidad) y en el eje X la Tasa de Falsos Positivos (1 - Especificidad).[3][4][5][6] Esto permite evaluar el rendimiento del modelo en todo el espectro de umbrales posibles.[2] Por qué las otras no lo son: La opción (a) es incorrecta porque la precisión se calcula para un umbral específico, mientras que la curva ROC evalúa el modelo en todos los umbrales.[2] La opción (c) es incorrecta porque, si bien la curva se construye a partir de los verdaderos positivos, falsos positivos, etc., su propósito no es simplemente contar, sino ofrecer una visión global del rendimiento.[7] La opción (d) se refiere al análisis de importancia de características (feature importance), que es una técnica diferente para interpretar modelos.

Answer 595

C La línea diagonal representa un clasificador que no es mejor que el azar.[1] Para cualquier punto en esta línea, la tasa de verdaderos positivos es igual a la tasa de falsos positivos, lo que indica que el modelo no tiene una capacidad real para distinguir entre las clases.[3] Por qué las otras no lo son: Un modelo perfecto (a) se representaría con una curva que alcanza la esquina superior izquierda (0,1), donde la tasa de verdaderos positivos es 1 y la de falsos positivos es 0.[1] Un modelo que clasifica todo como negativo (b) se situaría en el punto (0,0). Un modelo que invierte las predicciones (d) tendría una curva por debajo de la línea diagonal, con un AUC (Área Bajo la Curva) inferior a 0.5.[2]

Answer 596

B El AUC es una medida escalar que resume el rendimiento del modelo en todos los umbrales.[1] Un AUC de 1.0 representa un clasificador perfecto, mientras que un AUC de 0.5 indica un rendimiento aleatorio.[1] De manera más formal, el AUC se puede interpretar como la probabilidad de que el modelo clasifique correctamente una instancia positiva por encima de una negativa. Por qué las otras no lo son: La velocidad de predicción (a) no está relacionada con la curva ROC o el AUC. El umbral óptimo (c) puede ser seleccionado a partir de la curva ROC (por ejemplo, el punto más cercano a la esquina superior izquierda), pero el AUC en sí mismo no es el umbral.[5][9] El número de verdaderos positivos (d) es una métrica que varía con el umbral y se utiliza para construir la curva, pero el AUC es una medida agregada de rendimiento.

Answer 597

C Una de las grandes ventajas de la curva ROC y el AUC es su insensibilidad al desequilibrio de clases.[1] Métricas como la precisión (accuracy) pueden ser engañosas en conjuntos de datos desbalanceados. Por ejemplo, si el 99% de las instancias son de la clase "A", un modelo que siempre predice "A" tendrá una precisión del 99%, pero será inútil. El AUC, sin embargo, proporciona una evaluación más robusta del rendimiento en estos casos.[1] Por qué las otras no lo son: Si bien son útiles en conjuntos de datos balanceados (a), su ventaja es más pronunciada en los desbalanceados. Si los costes son iguales (b), otras métricas como la precisión pueden ser suficientes, aunque el ROC sigue siendo informativo. La curva ROC es particularmente valiosa cuando los costes son desiguales y se necesita encontrar un umbral que equilibre este coste. La curva ROC y el AUC se pueden usar para evaluar cualquier modelo de clasificación que produzca puntuaciones o probabilidades, no solo árboles de decisión (d).[3]

Answer 598

C El objetivo de un buen clasificador es maximizar la tasa de verdaderos positivos (eje Y) mientras se minimiza la tasa de falsos positivos (eje X).[10] Gráficamente, esto corresponde a una curva que se acerca lo más posible a la esquina superior izquierda del gráfico (punto (0,1)).[9] Un área bajo la curva (AUC) mayor también indica un mejor rendimiento general del modelo.[9] Por qué las otras no lo son: La suavidad de la curva (a) depende del número de umbrales evaluados y no es un indicador directo de un mejor rendimiento. Estar más cerca de la línea diagonal (b) indica un rendimiento peor, más cercano al azar.[1] Si bien una intersección más alta en el eje Y (d) es buena (alta sensibilidad), no considera la tasa de falsos positivos. Un modelo puede tener una alta sensibilidad a costa de muchos falsos positivos, lo que no es ideal. La curva ROC evalúa este balance.

Answer 599

C La curva ROC muestra el balance entre la Tasa de Verdaderos Positivos y la Tasa de Falsos Positivos para cada umbral de decisión, ofreciendo una visión completa del rendimiento del modelo.

Answer 600

B Por qué la Opción B es la CORRECTA B. Eje Y: Tasa de Verdaderos Positivos (TPR) / Eje X: Tasa de Falsos Positivos (FPR) Una curva ROC (Receiver Operating Characteristic) es una herramienta fundamental para evaluar el rendimiento de un clasificador binario. Su propósito es visualizar el compromiso (trade-off) entre capturar correctamente los casos positivos y cometer errores de falsa alarma a medida que variamos el umbral de decisión. Eje Y (Vertical) $\rightarrow$ Tasa de Verdaderos Positivos (TPR): También conocida como Sensibilidad o Recall. Nos dice: "De todos los casos que realmente son positivos, ¿qué porcentaje detectó el modelo?". Eje X (Horizontal) $\rightarrow$ Tasa de Falsos Positivos (FPR): Se define como $1 - \text{Especificidad}$. Nos dice: "De todos los casos que realmente son negativos, ¿qué porcentaje el modelo clasificó incorrectamente como positivos?". El objetivo ideal en una curva ROC es que la línea suba rápidamente hacia la esquina superior izquierda (donde la TPR es 1 y la FPR es 0), lo que significaría que detectamos todos los positivos sin cometer errores falsos. Por qué las otras opciones son INCORRECTAS A. Eje Y: Precisión (Precision) / Eje X: Exhaustividad (Recall) Esta opción describe una Curva Precision-Recall (PR Curve), no una curva ROC. Aunque ambas curvas miden el rendimiento, son distintas. La curva PR se utiliza preferentemente cuando las clases están muy desbalanceadas (por ejemplo, detectar fraude, donde hay muy pocos casos positivos frente a millones de negativos). En una curva ROC, los ejes deben ser TPR vs FPR. C. Eje Y: Número de predicciones correctas / Eje X: Número de predicciones incorrectas Las curvas ROC trabajan con Tasas (porcentajes/proporciones), no con números absolutos. Si usáramos números absolutos (conteos brutos), la curva dependería del tamaño del dataset y no se podría comparar el rendimiento entre diferentes conjuntos de datos. Al dividir por el total de positivos y negativos (normalizar), obtenemos tasas (entre 0 y 1) que son independientes del volumen total de datos. D. Eje Y: Tasa de Falsos Negativos (FNR) / Eje X: Tasa de Verdaderos Negativos (TNR)Esta opción utiliza las métricas "complementarias" a las de la curva ROC estándar, pero están invertidas o no son el estándar de visualización.El Eje X de la ROC se deriva de la TNR (ya que $FPR = 1 - TNR$), pero no grafica la TNR directamente.Graficar FNR vs TNR resultaría en una curva que va en la dirección opuesta y no es la convención establecida en la ciencia de datos. esumen Visual Para que no se te olvide, piensa en la curva ROC como una balanza entre el beneficio (en el eje vertical, encontrar lo que buscas) y el costo (en el eje horizontal, dar falsas alarmas).

Answer 601

B Un AUC más alto significa que hay una mayor probabilidad de que el modelo asigne una puntuación de predicción más alta a una instancia positiva elegida al azar que a una negativa elegida al azar.

Answer 602

B Esta línea (y=x) representa un modelo sin capacidad de discriminación, donde la Tasa de Verdaderos Positivos es igual a la Tasa de Falsos Positivos. No es mejor que el azar.

Answer 603

B El punto (0,1) representa el clasificador ideal (100% TPR, 0% FPR). Por lo tanto, los puntos cercanos a esta esquina representan umbrales de clasificación muy efectivos.

Answer 604

B Por qué B es correcta: El descenso de gradiente ajusta los parámetros del modelo para reducir (minimizar) la función de pérdida, mejorando así la precisión. Por qué las otras no lo son: A) Es el objetivo contrario. C) Aunque usamos derivadas, el objetivo no es solo calcularlas sino usarlas para bajar la pérdida. D) El tamaño del lote es un parámetro de entrenamiento, no el objetivo del algoritmo.

Answer 605

C Por qué C es correcta: La pendiente indica cuánto cambia la pérdida si modificas ligeramente el parámetro; es la derivada. Por qué las otras no lo son: A) La velocidad depende de la pendiente, pero no es la pendiente en sí. B) El valor de la pérdida es la altura de la colina, no su inclinación. D) La tasa de aprendizaje es un factor externo que escala la pendiente, no la pendiente misma.

Answer 606

C Por qué C es correcta: Un paso demasiado grande puede saltar la zona de mínimo y provocar oscilaciones. Por qué las otras no lo son: A) A veces sí, pero si es excesivo produce inestabilidad. B) Un paso muy pequeño estanca, no uno grande. D) No hay garantía; un paso alto puede evitar la convergencia.

Answer 607

B Por qué B es correcta: Si la derivada es negativa, subir el parámetro (moverse en sentido positivo) reduce la pérdida. Por qué las otras no lo son: A) Al contrario: gradiente positivo → bajar el parámetro. C) En el mínimo, el gradiente es cero, no positivo. D) El signo define la dirección del paso de actualización.

Answer 608

C Por qué C es correcta: η escala el tamaño del paso que damos en la dirección del gradiente. Por qué las otras no lo son: A) El gradiente aparece en la fracción dL/dθ, no es η. B) θ_old es el valor anterior, no η. D) La derivada segunda sería d²L/dθ², no η.

Answer 609

B El descenso de gradiente se usa para encontrar los valores (parámetros) que minimizan la función de error o coste de un modelo, ajustándolo para que prediga mejor. Las demás no son correctas porque el descenso de gradiente no mejora la velocidad del hardware, no sirve directamente para visualizar datos ni se limita a pronósticos meteorológicos.

Answer 610

C “Gradiente” es la derivada o pendiente de la función de coste evaluada en los parámetros actuales; indica hacia dónde y cuánto cambiar los parámetros para reducir el error. A no es correcto porque el gradiente es un cálculo intermedio. B no es correcto; el gradiente no es “el error”, ¡es la dirección de máximo cambio! D tampoco, porque no está relacionado con la cantidad de datos.

Answer 611

B La tasa de aprendizaje determina lo grande que es cada paso que tomamos al actualizar los parámetros en la dirección opuesta al gradiente. A, C y D no son correctas; la tasa de aprendizaje no afecta a los datos, ni es la diferencia (error), ni depende del número de parámetros.

Answer 612

B La analogía más utilizada es la de una canica o pelota que va descendiendo por la pendiente de un valle hasta llegar al punto más bajo, que sería el óptimo o mínimo de la función de coste. A, C y D no ilustran el proceso de manera adecuada.

Answer 613

B La fórmula correcta es θ = θ – α × ∂J/∂θ (donde α es la tasa de aprendizaje y ∂J/∂θ es la derivada de la función de coste respecto a θ—lo que indica el gradiente). A omite la dirección (y podría ir al revés). C y D no representan cómo se hace la actualización en descenso de gradiente. Estas preguntas repasan para qué sirve el algoritmo, cómo se interpreta la pendiente, la importancia de la tasa de aprendizaje, una analogía clave (“la canica en el valle”) y la fórmula esencial, ayudando a crear bases sólidas y visualizables en tu aprendizaje.

Answer 614

B Esta analogía es perfecta para entender el descenso de gradiente.[1] En el aprendizaje automático, la "montaña rusa" representa la función de coste, que mide el error de nuestro modelo.[2] Nuestro objetivo es encontrar el "punto más bajo", que es el mínimo de esa función de coste, donde el error es el más bajo posible. El "descenso de gradiente" es el algoritmo que nos ayuda a hacer esto.[1][3][4] Lo hace calculando la "inclinación" (el gradiente) en un punto y luego dando un pequeño paso en la dirección opuesta para "bajar la montaña" y reducir el error.[5][6][7] ¿Por qué las otras no son correctas? a) Avanzar en la dirección de la máxima inclinación hacia arriba...: Esto sería lo contrario a lo que buscamos. En lugar de minimizar el error, lo estaríamos maximizando. Este proceso se conoce como "ascenso de gradiente".[6] c) Quedarte quieto...: En el machine learning, esto equivaldría a no entrenar el modelo, por lo que los parámetros no se ajustarían y el error no disminuiría. d) Dar saltos grandes y aleatorios...: Esta estrategia es ineficiente y no garantiza encontrar el punto más bajo. Podrías saltar una y otra vez sin acercarte nunca al mínimo.

Answer 615

B La tasa de aprendizaje, también conocida como learning rate, es un hiperparámetro crucial en el descenso de gradiente.[3][7] Controla el tamaño de los ajustes que se realizan en los parámetros del modelo en cada iteración.[1][7] Una tasa de aprendizaje adecuada ayuda al algoritmo a converger hacia el mínimo de manera eficiente. ¿Por qué las otras no son correctas? a) La velocidad a la que el modelo...: La velocidad de procesamiento de datos depende de factores como la capacidad computacional, no de la tasa de aprendizaje. c) El número total de veces que el algoritmo se ejecuta...: El número de ejecuciones se conoce como "épocas" o "iteraciones" y es un hiperparámetro diferente.[3][8] d) La cantidad de datos que se utilizan...: La cantidad de datos es el tamaño del conjunto de entrenamiento, no la tasa de aprendizaje.

Answer 616

B Si la tasa de aprendizaje es excesivamente alta, los "pasos" que da el algoritmo para encontrar el mínimo pueden ser tan grandes que "salten" por encima del punto más bajo y terminen en un lugar donde el error es aún mayor.[1][3] Esto provoca que la función de coste diverja (aumente) en lugar de converger (disminuir). ¿Por qué las otras no son correctas? a) La tasa de aprendizaje es demasiado pequeña: Una tasa de aprendizaje muy baja haría que el entrenamiento fuera muy lento, pero la función de coste seguiría disminuyendo, aunque a un ritmo muy pausado.[1][3] c) El modelo tiene demasiados parámetros: Aunque esto puede llevar a problemas de sobreajuste, no es la causa directa de que la función de coste aumente durante el entrenamiento. d) El conjunto de datos es demasiado pequeño: Un conjunto de datos pequeño puede hacer que el modelo no generalice bien, pero no es la razón por la que la función de coste aumentaría en cada paso del descenso de gradiente.

Answer 617

B El objetivo fundamental del descenso de gradiente es optimizar el modelo.[2][3][4] Esto se logra ajustando iterativamente los parámetros del modelo (como los pesos y los sesgos) para minimizar una función de coste o pérdida, que mide la diferencia entre las predicciones del modelo y los valores reales.[3][7] ¿Por qué las otras no son correctas? a) Seleccionar las características más importantes...: Existen técnicas específicas para la selección de características, pero esa no es la función principal del descenso de gradiente. c) Dividir el conjunto de datos...: La división de datos es un paso crucial en el flujo de trabajo del machine learning, pero se realiza antes del entrenamiento del modelo. d) Visualizar los datos...: Para la visualización de datos se utilizan otras técnicas como el Análisis de Componentes Principales (PCA) o t-SNE.

Answer 618

C En la analogía de la canica, el fondo del bol representa el punto más bajo que la canica puede alcanzar desde su punto de partida.[5] En el descenso de gradiente, este punto corresponde a un mínimo de la función de coste, que es el objetivo que el algoritmo intenta encontrar.[3] Si el "bol" tiene una forma simple (convexa), la canica encontrará el único fondo, que es el mínimo global. Si el "bol" tiene varias hondonadas, la canica podría quedarse atascada en una de ellas, lo que representaría un mínimo local.[3][5][9] ¿Por qué las otras no son correctas? a) El punto de partida aleatorio del algoritmo: El punto de partida sería el lugar donde sueltas la canica inicialmente, no donde se detiene. b) La tasa de aprendizaje: La tasa de aprendizaje sería análoga a la "velocidad" o al "tamaño de los saltos" que da la canica al rodar, pero no a su destino final. d) El gradiente de la función de coste: El gradiente es la "inclinación" del bol en un punto determinado, que le dice a la canica en qué dirección rodar, pero no es el punto final en sí.

Answer 619

B Explicación: B (correcta): El descenso de gradiente es como un guía que te ayuda a bajar por una montaña hasta el punto más bajo, ajustando poco a poco las "coordenadas" (o parámetros) de tu modelo de machine learning. En palabras simples, busca el lugar donde el error (la función de costo) es lo más pequeño posible, cambiando los valores paso a paso. A: Aunque usa derivadas para saber hacia dónde ir, no es un método para calcularlas, sino que las usa como herramienta. C: No tiene nada que ver con gráficos o visualización; es un proceso matemático para mejorar el modelo. D: No es un modelo en sí mismo (como una regresión), sino una técnica para entrenar modelos ajustando sus números internos.

Answer 620

D Explicación: D (correcta): La canica bajando la colina hasta el fondo es como el descenso de gradiente buscando el punto más bajo de la función de costo. "Convergencia" significa que, poco a poco, llega a ese mínimo donde el error es pequeño. La analogía muestra el objetivo final: ¡llegar abajo! A: El tamaño del paso (learning rate) sería cuánto avanza la canica en cada movimiento, pero la analogía se enfoca en el proceso completo de bajar, no solo en el tamaño de los pasos. B: La colina es como la función de costo (el "mapa" que seguimos), pero la acción de rodar representa el proceso de encontrar el mínimo, no la colina en sí. C: El gradiente es como la pendiente que le dice a la canica hacia dónde ir, pero la imagen completa de la canica llegando abajo es la convergencia.

Answer 621

B Por qué la opción B es la correcta La opción B) Controla el tamaño de los ajustes que se hacen a los parámetros en cada paso es la definición precisa del learning rate o tasa de aprendizaje. Piénsalo como si estuvieras bajando una montaña con los ojos vendados (el objetivo es llegar al punto más bajo, que es el mínimo de la función de costo). El descenso de gradiente es el método que usas para decidir en qué dirección dar tu próximo paso (te indica la dirección de máxima pendiente hacia abajo). El learning rate es el tamaño de ese paso. Un learning rate grande (un paso grande): Bajas más rápido, pero corres el riesgo de pasarte del punto más bajo y no encontrarlo nunca, o incluso empezar a subir por el otro lado de la montaña. Un learning rate pequeño (un paso pequeño): Te aseguras de no pasarte del punto más bajo y es más probable que lo encuentres, pero tardarás mucho más tiempo (más iteraciones) en llegar. Por lo tanto, el learning rate es un parámetro crucial que controla la magnitud del ajuste que se aplica a los pesos del modelo en cada iteración para minimizar el error. Por qué las otras opciones son incorrectas A) Determina cuántos datos se usan en cada iteración. Incorrecto. Esto se conoce como "batch size" o tamaño del lote. Es el que define si usas todos los datos (Batch Gradient Descent), un solo dato (Stochastic Gradient Descent) o un grupo de datos (Mini-batch Gradient Descent) en cada actualización de los parámetros. No tiene que ver con el tamaño del ajuste. C) Define el número total de iteraciones que el algoritmo realizará. Incorrecto. El número total de iteraciones se conoce como "epochs" (épocas) si hablamos de cuántas veces el algoritmo ve el conjunto de datos completo, o simplemente "número de iteraciones/pasos". Es un valor que se fija de antemano o se determina mediante criterios de parada (como cuando el error deja de mejorar), pero no es el learning rate. D) Especifica la función de costo que se debe minimizar. Incorrecto. La función de costo (o "loss function") es la fórmula matemática que mide qué tan mal lo está haciendo el modelo; es la "montaña" que intentamos descender. Ejemplos son el Error Cuadrático Medio (MSE) o la Entropía Cruzada. El learning rate es una herramienta para minimizar esta función, no la función en sí misma.

Answer 622

A Explicación: A (correcta): Aquí $ \theta $ es el parámetro (como un peso en tu modelo), $ \alpha $ es el learning rate (tamaño del paso), y $ \nabla J(\theta) $ es la pendiente que te dice hacia dónde ir. Restas porque quieres bajar la colina, no subirla. Es como decir: "doy un pasito en la dirección contraria a la subida para llegar al mínimo". B: Si sumas, subirías la colina (aumentarías el error), y eso es lo opuesto a lo que queremos. C: Esto no usa el valor anterior de $ \theta $, así que no es un ajuste paso a paso, sino algo raro que no funciona así. D: Dividir por $ \alpha $ no tiene sentido aquí; cambiaría todo el cálculo y no te llevaría al mínimo correctamente.

Answer 623

B Explicación: B (correcta): El descenso de gradiente estándar mira todos los datos cada vez para calcular la pendiente, pero si tienes millones de datos, ¡eso toma mucho tiempo! El estocástico (SGD) usa solo un pedacito de datos a la vez, como una muestra, para ir más rápido, aunque sea un poco más "desordenado". A: Que la función sea convexa (como una taza sin trampas) no decide si usas uno u otro; ambos funcionan ahí. C: Es verdad que SGD puede "saltarse" mínimos locales por su ruido, pero no es la razón principal para usarlo; la razón es ahorrar tiempo con datos grandes. D: Si tienes pocos parámetros, el estándar suele ser más fácil y estable, no necesitas SGD.

Answer 624

B Esta es la esencia del descenso de gradiente. 'Siente' la pendiente (el gradiente) en tu posición actual y avanza en la dirección de máximo descenso para acercarte progresivamente al punto más bajo (mínimo).

Answer 625

B Si los pasos son demasiado grandes, puedes pasarte del mínimo. En el siguiente paso, intentas corregir, pero vuelves a dar un paso tan grande que te pasas de nuevo, provocando que el algoritmo diverja o no converja.

Answer 626

B Esta es exactamente la función. El 'error' es la función de coste (la montaña rusa) y los 'parámetros' son tu posición. El descenso de gradiente ajusta tu posición para encontrar el punto de mínimo error.

Answer 627

A El gradiente es un vector que apunta en la dirección de mayor incremento de la función. Al movernos en la dirección contraria (negativa), nos aseguramos de estar 'bajando la cuesta'.

Answer 628

D Si los pasos (determinados por la tasa de aprendizaje) son minúsculos, el algoritmo avanzará hacia el mínimo, pero lo hará de forma extremadamente lenta, necesitando muchas iteraciones para ver un cambio significativo.

Answer 629

C Esta es la definición precisa de sobreajuste. El modelo pierde su capacidad de generalizar a situaciones no vistas durante el entrenamiento.

Answer 630

B Al eliminar entradas (features) irrelevantes o redundantes, reducimos la complejidad del espacio de hipótesis que el modelo debe explorar.

Answer 631

D La regularización añade un término a la función de coste que penaliza los pesos grandes, forzando al modelo a ser más simple y, por lo tanto, a generalizar mejor.

Answer 632

B A veces, un modelo sobreajusta porque intenta compensar la falta de una pieza clave de información abusando de las características que sí tiene. Añadir esa pieza clave (una característica muy buena) puede simplificar la solución que encuentra el modelo.

Answer 633

B Esta es la ventaja principal de BigQuery ML: la integración nativa con el entorno de BigQuery para entrenar modelos in-situ usando el lenguaje que el analista ya conoce.

Answer 634

B Uno de los mayores atractivos de AutoML es que abstrae y automatiza pasos complejos como la transformación y combinación de características.

Answer 635

C BigQuery ML proporciona al usuario un control más granular para elegir de una lista más amplia de algoritmos conocidos.

Answer 636

B Este es el punto ideal para AutoML. Permite a los equipos obtener un modelo funcional y de alto rendimiento sin necesidad de un conocimiento profundo en la selección y ajuste de modelos.

Answer 637

B Esto significa que un valor de '10' es el doble que '5', y la diferencia entre '8' y '9' es la misma que entre '1' y '2'. El número en sí mismo porta información cuantitativa real.

Answer 638

A Aquí, el número tiene un significado claro y medible. 10 años es el doble de experiencia que 5 años, y la diferencia entre 2 y 3 años es un año constante de experiencia.

Answer 639

C El modelo tratará estos números como si tuvieran una relación lineal y equidistante. Podría asumir que 'Gama Alta' (3) es tres veces 'Gama Baja' (1), lo cual es una suposición incorrecta y arbitraria que introduce un sesgo.

Answer 640

D Este es el objetivo clave. Si un modelo simple no puede predecir mejor que el azar, es posible que tus datos no contengan la información necesaria. Cualquier modelo complejo que construyas después deberá superar esta línea base para justificar su complejidad.

Answer 641

B Este es el paso más crucial y debe ser el primero. Asegura que tu evaluación final del modelo se haga sobre datos que este nunca ha visto, evitando el 'data leakage' (fuga de datos) y dándote una medida honesta de su capacidad de generalización.

Answer 642

D Es una conclusión demasiado drástica. La mayoría de los datasets del mundo real tienen problemas. Este es un problema de calidad de datos que debe ser investigado y corregido (por ejemplo, eliminando la fila o imputando un valor razonable).

Answer 643

A Si simplemente predijeras la clase mayoritaria ('no comprar') para todos los clientes, acertarías el 60% de las veces. Tu modelo, con un 65%, apenas está aportando valor sobre esta regla tan tonta. Esto indica que tus características actuales tienen poco poder predictivo.

Answer 644

A Un modelo que siempre prediga 'No Fraude' tendrá un 98% de accuracy, pero será completamente inútil porque nunca detecta el fraude. Saber esto desde el principio te obliga a elegir métricas de evaluación adecuadas que se centren en la clase minoritaria.

Answer 645

A Esta es la razón fundamental. El modelo no puede hacer `(0.5 * 'Ana García') + 2`. Necesita que la información esté representada en un formato numérico con el que pueda operar.

Answer 646

A Esto se conoce como la 'maldición de la dimensionalidad'. La mayoría de estas columnas serían ceros para cada cliente, creando un dataset muy 'escaso' (sparse) que es ineficiente y difícil de entrenar.

Answer 647

C No nos interesa el nombre en sí, sino lo que el nombre *implica*. Actuamos como detectives para extraer esas propiedades y convertirlas en números.

Answer 648

C Podrías crear una columna llamada 'popularidad_nombre' donde, para cada persona, el valor sea cuántas veces aparece su nombre. Así, 'Juan' podría tener un valor de 500 y 'Filemón' un valor de 1. Esto es un número con una magnitud significativa.

Answer 649

C El título es una mina de oro. Implica género, estado civil, estatus social y, a veces, profesión. Podrías convertirlo a números (ej. Mr=1, Miss=2, Dr=3) y sería una de las características más predictivas.

Answer 650

C El objetivo de la ingeniería de características es reemplazar una columna inútil (para el modelo) por varias columnas numéricas y útiles. Una vez extraída su información, la columna original ya no es necesaria para el entrenamiento.

Answer 651

C Esta es una variable categórica. Representa una cualidad o categoría y no tiene un valor numérico inherente. No se puede decir que 'Rojo' es mayor que 'Azul'.

Answer 652

A Esta es la definición clave. 'Bajo', 'Medio', 'Alto' (ordinal) tiene un orden claro. 'España', 'Francia', 'Italia' (nominal) no tiene un orden inherente.

Answer 653

D Como la variable es ordinal, usar una codificación numérica simple (Label Encoding) preserva la relación de orden. El modelo puede entender que 2 es más que 1, y que 1 es más que 0.

Answer 654

B El modelo aprenderá que la diferencia entre Valencia y Barcelona es la misma que entre Barcelona y Madrid. Impones una relación de orden y magnitud que no existe en la realidad, introduciendo un sesgo muy fuerte.

Answer 655

B Esta técnica crea una nueva columna para cada categoría. Para un cliente que usa 'Coche', la fila sería [1, 0, 0]. Esto le dice al modelo a qué categoría pertenece sin imponer ninguna relación de orden entre ellas. Es la forma estándar de tratar variables nominales.

Answer 656

B El modelo ve números y asume que tienen una magnitud y un orden. Tratará el ID como una cantidad medible, introduciendo un patrón completamente falso que contamina y empeora las predicciones. Un ID es solo una etiqueta, como un nombre.

Answer 657

D OHE crea un 'interruptor' para cada categoría posible. Enciende (1) el que corresponde y apaga (0) los demás. Así, el modelo sabe a qué categoría pertenece sin asumir ningún orden ni magnitud entre ellas.

Answer 658

A La cardinalidad de una característica es el número de categorías únicas que contiene. Una característica con 70.000 IDs únicos es un ejemplo clásico de alta cardinalidad, y es una señal de alerta para no usar OHE.

Answer 659

D Porque el nuevo ID no estaba en el 'vocabulario' que el modelo aprendió durante el entrenamiento.

Answer 660

A Con pocos datos, el modelo puede confundir el 'ruido' (casualidades) con una señal real. Con muchos ejemplos, los patrones verdaderos se repiten y destacan, permitiendo al modelo aprender reglas que sí funcionan con datos nuevos.

Answer 661

A En tu dataset, probablemente solo tienes 1 paciente con la enfermedad (el 1% de 100). Es imposible que un modelo aprenda las complejas señales de una enfermedad a partir de un único ejemplo. Necesitas suficientes ejemplos de *cada categoría*, especialmente de la minoritaria.

Answer 662

B Con tan pocos datos, es fácil para el modelo 'hacer trampa' y simplemente memorizar las respuestas de cada uno de los 50 ejemplos. No aprendió las reglas subyacentes, por lo que es inútil cuando se enfrenta a datos que no ha memorizado.

Answer 663

B Cuanto más complejo es el problema (más variables, más interacciones, más variabilidad), más ejemplos necesita el modelo para entender todas las sutilezas y no confundirse con el ruido. Una ciudad grande es un problema mucho más complejo que un pueblo pequeño.

Answer 664

B La aumentación de datos crea ejemplos sintéticos pero realistas. Para un modelo, una foto de un gato ligeramente rotada es un ejemplo ¡nuevo! Esto enseña al modelo a ser robusto ante estas pequeñas variaciones, lo que mejora drásticamente su capacidad de generalización.

Answer 665

B Esta es la esencia de los 'word embeddings'. El vector de 'gato' estará cerca del de 'felino', pero lejos del de 'lápiz'. Esto permite al modelo entender relaciones semánticas.

Answer 666

C Sin normalizar, un cambio de 100 puntos en el examen es numéricamente mucho más grande que un cambio de 10 años en la edad. La normalización pone a todas las características en una 'escala justa' para que el modelo pueda ponderar su importancia real.

Answer 667

B La discretización ayuda al modelo a capturar estas relaciones no lineales. El modelo puede aprender una importancia específica para el grupo '18-25' y otra completamente diferente para el grupo '26-40', algo que a un modelo lineal simple le costaría mucho.

Answer 668

A La operación conceptualmente está haciendo: 'Toma Madrid, quítale su cualidad de ser español y añádele la cualidad de ser francés'. El resultado es la capital de Francia.

Answer 669

B Esta es la razón fundamental. Un modelo es una función matemática. Necesita números para operar. No puede calcular `(precio_base * 0.8) + 'Malasaña'`. Es como intentar sumar un número y una foto.

Answer 670

A No usamos el texto crudo, sino que lo usamos como materia prima para crear características numéricas con significado. El sentimiento, la presencia de palabras como 'excelente' o 'problema', etc., son señales numéricas que un modelo sí puede usar.

Answer 671

A El Recall se calcula como el número de Verdaderos Positivos (TP) dividido por la suma de Verdaderos Positivos (TP) y Falsos Negativos (FN).

Answer 672

A El Recall responde a la pregunta: De todos los que realmente eran positivos, ¿cuántos fuimos capaces de identificar correctamente?

Answer 673

C El objetivo del Recall es minimizar los Falsos Negativos. Si el Recall es alto, significa que el modelo es muy bueno encontrando casi todos los casos positivos reales.

Answer 674

D La fórmula del Recall -> TP / (TP+FN) se centra en los Verdaderos Positivos y los Falsos Negativos, ignorando los Falsos Positivos.

Answer 675

B Este es el ejemplo clásico. El coste de un Falso Negativo (un correo importante que no se detecta como 'no spam' y se pierde) es muy alto. Por tanto, queremos encontrar todos los 'no spam' posibles, maximizando el Recall para la clase 'no spam'.

Answer 676

D Si el coste de un Falso Negativo es alto, queremos minimizar esos errores. Eso es precisamente lo que hace un modelo con alto Recall: encuentra la mayor cantidad posible de clientes que realmente van a abandonar.

Answer 677

B El objetivo es clasificar cada transacción en una de dos clases definidas: 'Fraude' o 'No Fraude'.

Answer 678

D Aunque algunos modelos de clasificación emiten una probabilidad, su objetivo final es asignar una clase. La regresión se enfoca en predecir un valor en una escala continua.

Answer 679

B Este es el término técnico para describir un conjunto de datos donde una clase es mucho más frecuente que la otra.

Answer 680

B El caso era realmente positivo (fraude), pero el modelo dio una predicción negativa (no fraude). Este es el error más costoso.

Answer 681

B . El Recall mide la capacidad del modelo para encontrar TODOS los casos positivos (fraudes) reales. Maximizarlo es el objetivo cuando el coste de un Falso Negativo es muy alto.

Answer 682

B Este modelo tendría un Recall de 0 para la clase 'Fraude', fallando en su propósito principal a pesar de tener un Accuracy aparentemente excelente.

Answer 683

B El Recall se calcula como TP / (TP + FN). Si el denominador crece debido a muchos FN, el resultado de la división (el Recall) disminuye.

Answer 684

B Un Recall bajo significa que hay muchos Falsos Negativos. En este caso, muchos clientes que abandonan están siendo clasificados incorrectamente como 'no abandonan'.

Answer 685

C Correcto, esta opción no tiene sentido. El objetivo es siempre reducir el número de Falsos Negativos, no aumentarlo. El modelo ya está cometiendo demasiados de estos errores.

Answer 686

B Si el modelo predice siempre 'no fraude', acertará en el 99% de los casos (TN), pero fallará en el 1% (FN). El resultado: 99% de Accuracy pero 0% de Recall.

Answer 687

D El objetivo de reentrenar es que el modelo aprenda de nueva información que refleje la realidad actual. Sin nueva información, no hay nuevo aprendizaje.

Answer 688

C 'Drift' (deriva) se refiere a este cambio en la distribución de los datos o en la relación entre las variables, que hace que el modelo original se vuelva obsoleto.

Answer 689

D La crisis cambió las reglas del juego. El modelo necesita aprender estas nuevas reglas a partir de datos recientes que incluyan el nuevo contexto económico.

Answer 690

C Monitorizar el rendimiento del modelo en producción es crucial. Si vemos que empieza a fallar más (baja el Recall, por ejemplo), es una clara señal de 'model drift' y una llamada a reentrenar.

Answer 691

B Es fundamental comparar ambos modelos en igualdad de condiciones (A/B testing o evaluación offline) para confirmar que la nueva versión es realmente superior antes de desplegarla.

Answer 692

C Es un campo entero dedicado a entrenar un solo modelo para que aprenda a predecir varias cosas a la vez.

Answer 693

B 'Regresión' porque las salidas son valores numéricos continuos, y 'Multi-output' porque hay más de una salida a predecir.

Answer 694

D Si no hay una relación entre las variables objetivo, no hay conocimiento que transferir entre las tareas, por lo que la principal ventaja del enfoque multi-output desaparece. La simplicidad de dos modelos gana.

Answer 695

D Esta es la razón fundamental. El modelo puede aprender que ciertas características que bajan el precio también acortan el tiempo de venta, usando una tarea para informar a la otra.

Answer 696

B Mientras que algunos modelos más simples no lo soportan, muchos de los algoritmos más potentes y de uso común están preparados para esta tarea.

Answer 697

A Esta técnica transforma los datos para que tengan una media de 0 y una desviación estándar de 1, lo cual es fundamental para muchos algoritmos.

Answer 698

C La desviación estándar mide la dispersión de los datos respecto a la media, y es el componente clave para escalar en esta técnica.

Answer 699

C Al dividir la diferencia respecto a la media por la desviación estándar, se expresa cada punto de dato en términos de 'cuántas desviaciones estándar' se aleja de la media.

Answer 700

D Este es precisamente el resultado y el objetivo de la estandarización: centrar los datos en una media de 0 y darles una dispersión unitaria.

Answer 701

B Aplicando la fórmula (x - media) / desv. estándar: (40 - 30) / 5 = 10 / 5 = 2. El valor está a 2 desviaciones estándar por encima de la media.

Answer 702

A Este es el núcleo de la discretización: agrupar un rango infinito de valores en un número manejable de 'cajas' o 'bins'.

Answer 703

C La cardinalidad es el número de valores únicos. Al agrupar, pasamos de potencialmente infinitos valores únicos a un número reducido de categorías.

Answer 704

D Este método divide el rango total de la variable en un número determinado de sub-rangos, y cada uno tiene exactamente el mismo ancho (en este caso, 10 grados).

Answer 705

B Algunos modelos lineales tienen dificultades con las relaciones no lineales. Al discretizar, el modelo puede aprender pesos diferentes para cada 'bin', aproximando así una curva.

Answer 706

C Cada bin debe tener 8/4 = 2 observaciones. El primer bin tiene {1, 2}, el segundo {4, 5}, y el tercero {20, 22}. Por tanto, '20' cae aquí.

Answer 707

D Esto significa que el modelo ha 'memorizado' los datos de entrenamiento, incluyendo el ruido, y es incapaz de generalizar su aprendizaje a datos que no ha visto antes.

Answer 708

C Un modelo con demasiada flexibilidad (ej. un árbol de decisión muy profundo o una red neuronal con muchas capas) puede empezar a aprender el ruido de los datos en lugar de la señal subyacente.

Answer 709

A La regularización penaliza la complejidad del modelo, forzándolo a aprender patrones más simples y robustos, lo que mejora su capacidad de generalización.

Answer 710

A El punto donde la curva de validación empieza a subir es el momento en que el modelo deja de generalizar y empieza a memorizar el ruido de los datos de entrenamiento.

Answer 711

D Al dividir los datos en múltiples pliegues (folds) y entrenar/evaluar el modelo varias veces, se obtiene una estimación mucho más estable y fiable del rendimiento real del modelo, reduciendo el riesgo de sobreajuste a un conjunto de validación particular.

Answer 712

D Word2vec convierte cada palabra de su vocabulario en un vector de números (embedding) donde la posición en un espacio multidimensional representa su significado contextual.

Answer 713

B El vector que va de 'Hombre' a 'Rey' es similar al que va de 'Mujer' a 'Reina'. Esta es la magia de Word2vec: las relaciones entre palabras se convierten en relaciones geométricas entre vectores.

Answer 714

C Como las palabras 'perro' y 'cachorro' se usan en contextos muy similares, el modelo aprenderá a situar sus vectores en una región muy próxima dentro del espacio vectorial.

Answer 715

D Los modelos de clasificación de texto, análisis de sentimiento, etc., no pueden procesar texto crudo. Estos vectores convierten el texto en una entrada numérica de alta calidad que estos modelos pueden utilizar.

Answer 716

B Esta es la esencia de un Árbol de Decisión. Cada 'nodo' del árbol es una pregunta que divide los datos, llevándote por un camino hasta una 'hoja' que contiene la predicción final.

Answer 717

A Los nodos hoja son los nodos terminales del árbol. Representan las etiquetas de clase y son el resultado de seguir un camino de decisiones.

Answer 718

D Elige la característica y el punto de corte que mejor separe las clases. Para ello, utiliza métricas como la Ganancia de Información (Information Gain) o la Impureza de Gini, que miden cuán mezcladas o puras quedan las clases después de la división.

Answer 719

A Se les considera modelos de 'caja blanca' (white-box) porque podemos ver y entender fácilmente el conjunto de reglas que ha aprendido. Podemos literalmente dibujar el árbol y seguir el camino de decisión.

Answer 720

D La poda consiste en 'recortar' ramas del árbol que no aportan mucho poder de generalización y que probablemente solo están modelando el ruido de los datos de entrenamiento. Esto simplifica el modelo y combate el sobreajuste.

Answer 721

B Esta es la definición central del EDA. Se trata de una investigación inicial para descubrir patrones, detectar anomalías y probar hipótesis a través de resúmenes estadísticos y gráficos.

Answer 722

C ¿Por qué la C es la "buena"? C. Histograma El objetivo: Quieres ver la distribución (la forma) de datos numéricos que son continuos (como la altura, el peso, el salario o la temperatura). Cómo funciona: El histograma toma esa variable continua y la divide en "intervalos" o "cubos" (bins). Luego, cuenta cuántos datos caen en cada intervalo. El resultado visual: Barras verticales pegadas unas a otras (sin espacios). Esto te permite ver al instante si los datos siguen una curva de campana (distribución normal), si están sesgados hacia un lado, o si hay valores atípicos. ¿Por qué las demás son las "malas"? A. Gráfico de barras El error común: Se parece visualmente al histograma, pero conceptualmente es lo opuesto. Uso: Se usa para variables categóricas (etiquetas de texto, como "País", "Color", "Marca"). Diferencia visual: En el gráfico de barras, las barras están separadas por un espacio, indicando que las categorías no tienen continuidad entre sí (ej: no hay nada entre "Manzana" y "Pera"). B. Gráfico de dispersión (Scatter plot) El error: Este gráfico necesita obligatoriamente dos variables (un eje X y un eje Y) para mostrar la relación entre ellas (correlación). Uso: Ver si "a mayor altura, mayor peso". Como tu pregunta dice "una única variable", este gráfico no sirve. D. Gráfico de líneas El error: Este gráfico implica una secuencia u orden específico. Uso: Se usa casi exclusivamente para series temporales (evolución a lo largo del tiempo). Conectar puntos de una distribución aleatoria con una línea no tendría sentido lógico.

Answer 723

D La mediana (el valor que se encuentra en el medio de los datos ordenados) no se ve afectada por los valores extremos, lo que la convierte en la medida más robusta y representativa para datos sesgados.

Answer 724

B Cada punto en el gráfico representa una observación, y su posición en los ejes X e Y muestra los valores de las dos variables, permitiendo ver si hay una relación entre ellas.

Answer 725

C Esta es la definición correcta. Un outlier es un punto de datos que se desvía marcadamente de la tendencia general del resto de los datos.

Answer 726

A El valor está cerca de -1, lo que indica una relación *fuerte*. El signo negativo indica que cuando una variable aumenta, la otra tiende a disminuir. Esto es una relación lineal negativa.

Answer 727

B La imputación consiste en rellenar los huecos (valores faltantes) con valores plausibles, como la media, la mediana o la moda de la columna.

Answer 728

D Esta es precisamente la información que un diagrama de caja está diseñado para mostrar, ofreciendo una vista rápida de la dispersión, la centralidad y los posibles valores atípicos.

Answer 729

C Esta es la distinción fundamental. 'Uni-' significa uno, y 'bi-' significa dos. El análisis univariado explora las características de una variable, y el bivariado explora cómo dos variables se comportan juntas.

Answer 730

D Un gráfico de violín muestra la densidad de probabilidad de los datos en diferentes valores (como un histograma rotado y suavizado) y a menudo incluye un marcador para la mediana y un recuadro para el rango intercuartílico, como un diagrama de caja.

Answer 731

B Esta es la práctica estándar para verificar si el modelo puede generalizar su aprendizaje a nuevos datos, evitando el sobreajuste (overfitting).

Answer 732

C Calcula un valor hash de 64 bits, lo que permite que una misma fila siempre reciba el mismo número, haciendo la división repetible.

Answer 733

C Al dividir el hash entre 10, se obtienen restos del 0 al 9. Esta condición selecciona los que tienen un resto de 0 a 7 (8 de 10 posibilidades).

Answer 734

D Esto garantiza que una fila específica siempre pertenecerá al mismo conjunto (entrenamiento o validación) cada vez que se ejecute la consulta.

Answer 735

C `RAND()` genera un número aleatorio nuevo para cada fila en cada ejecución, lo que impide reproducir los experimentos de forma exacta.

Answer 736

A La función de módulo (MOD) devuelve el resto de una división entera. Al dividir entre 2, el resto solo puede ser 0 (si es par) o 1 (si es impar).

Answer 737

A Esta es la condición complementaria. Si el entrenamiento cogió los restos 0, 1, 2, 3, 4, 5, 6 y 7, esta condición coge los restos 8 y 9 (2 de 10 posibilidades, es decir, el 20%).

Answer 738

A La esencia de usar un hash aquí es que la misma entrada (los datos de la fila) siempre produce la misma salida (el número hash).

Answer 739

A Dado que el hash de una fila es constante, el resultado de `MOD(hash, 10)` también lo es. Por lo tanto, o es `< 8` o es `>= 8`, no puede cumplir ambas condiciones a la vez.

Answer 740

A La cláusula `DATA_SPLIT_METHOD` junto con `DATA_SPLIT_COL` o `DATA_SPLIT_EVAL_FRACTION` permite a BigQuery ML gestionar la división automáticamente.

Answer 741

A Esta es la definición clave. Se busca la 'sabiduría colectiva' de múltiples modelos para mejorar el rendimiento general.

Answer 742

D Esta es la descripción precisa. Cada modelo aprende del mismo conjunto de datos por su cuenta, antes de que sus predicciones se combinen.

Answer 743

A En la 'Votación Suave', la clase con la probabilidad promedio más alta (0.55 en este caso) es la ganadora.

Answer 744

D Si un modelo se sobreajusta y hace una predicción extraña basada en ruido, los otros modelos, que probablemente no cometieron ese mismo error, pueden 'corregirlo' con sus votos.

Answer 745

B Esa es la definición literal de un método de ensamble: un grupo de modelos que colaboran para resolver un problema.

Answer 746

B Un modelo que está muy seguro de su predicción (probabilidad alta) tiene más peso en el promedio final que un modelo que duda (probabilidad cercana a 0.5).

Answer 747

D Esta es la mecánica correcta: se promedian las probabilidades para cada clase a través de todos los modelos, y la clase con el promedio más alto gana.

Answer 748

C Al promediar las decisiones, se suavizan las predicciones extremas y se compensan los errores o debilidades de los modelos individuales.

Answer 749

B La 'Votación Suave' necesita las probabilidades para poder promediarlas y ver qué clase tiene la confianza promedio más alta.

Answer 750

A La 'Votación Dura' funciona por mayoría simple: la clase con más votos (2 para 'A' contra 1 para 'B') es la ganadora.

Answer 751

C Logistic Regression

Answer 752

B BigQuery ML allows the creation of REMOTE MODELs that act as a reference to models hosted on Vertex AI. By creating a Cloud Resource Connection, a user can securely link BigQuery to Vertex AI services. This enables SQL practitioners to invoke powerful generative models directly within a BigQuery query using functions like ML.GENERATE_TEXT, streamlining the entire workflow without leaving the BigQuery environment.

Answer 753

C An OBJECT TABLE is the standard way to create a structured reference in BigQuery to unstructured data, like images, stored in Google Cloud Storage. Once referenced, you can use the ML.GENERATE_TEXT function with a remote multimodal model (e.g., Gemini Pro Vision) to pass the image data to the model and generate text-based results, such as descriptions or analyses, directly in a SQL query.

Answer 754

C The VECTOR_SEARCH function is specifically optimized for performing efficient similarity searches on vector embeddings. It takes a base table with embeddings and a query table (or a single query embedding) and returns the nearest neighbors based on a specified distance metric like COSINE or EUCLIDEAN. This is the standard and most efficient method for finding similar items based on their vector representations within BigQuery.

Answer 755

C The service account associated with the BigQuery Cloud Resource Connection acts on behalf of BigQuery when it calls external services. To access and run models on Vertex AI, this service account requires the Vertex AI User (roles/aiplatform.user) role. This role grants the necessary permissions to make predictions and interact with Vertex AI resources, such as foundation models. Without it, the connection will fail when trying to invoke the remote model.

Answer 756

B The ML.GENERATE_EMBEDDING function returns all the columns from the input table query and adds a new STRUCT column (by default named ml_generate_embedding_result) that contains the generated embedding vector along with status information about the operation. To simplify the output, you can set the flatten_json_output option to TRUE, which unnests the struct into separate columns, including ml_generate_embedding_result (the embedding itself) and ml_generate_embedding_status. The function does not modify the source table but produces a new result set.

Answer 757

C A User-Defined Function (UDF) is the ideal solution for encapsulating complex, custom, and reusable logic directly within BigQuery. It allows the engineer to define the feature engineering calculation once and then easily apply it in multiple queries, just like any other built-in function. This approach is more efficient, maintainable, and less error-prone than writing a large, complex formula directly in the main query or moving data outside of BigQuery.

Answer 758

B The OPTIONS clause is a fundamental part of the CREATE MODEL statement in BigQuery ML. It is used to configure the model's training process. Specifically, the model_type parameter sets the learning algorithm (e.g., 'LOGISTIC_REG' or 'BOOSTED_TREE_CLASSIFIER'), and the input_label_cols parameter is an array that specifies which column(s) should be treated as the target variable for prediction.

Answer 759

C Log loss and ROC AUC (Area Under the Receiver Operating Characteristic Curve) are excellent metrics for evaluating the quality of predicted probabilities from a classification model. Log loss penalizes models for being overconfident and wrong, directly measuring the accuracy of the probabilities themselves. ROC AUC measures the model's ability to discriminate between the positive and negative classes across all possible classification thresholds. Metrics like Precision, Recall, and Accuracy depend on a single, chosen threshold and do not evaluate the full spectrum of probability outputs.

Answer 760

D The ML.WEIGHTS function is used to inspect the underlying weights or coefficients of a trained linear or logistic regression model in BigQuery ML. The output shows the learned value for each feature, which helps in understanding how the model makes its predictions (e.g., whether a feature has a positive or negative influence on the outcome)

Answer 761

B The standard function for performing batch inference in BigQuery ML is ML.PREDICT. It takes two primary arguments: the MODEL to use for prediction and the input data, which can be specified as a TABLE or a subquery. This function returns the original input columns along with new columns containing the prediction results, such as the predicted label and the probabilities for each class.

Answer 762

C The score indicates the direction of the sentiment, where values closer to 1.0 are positive, values closer to -1.0 are negative, and values around 0 are neutral. The magnitude, on the other hand, measures the "amount" or intensity of the emotion expressed, regardless of whether it's positive or negative. A longer text with strong emotional language will have a higher magnitude than a short, neutral text

Answer 763

D The analyzeEntitySentiment endpoint is specifically designed for this scenario. While a standard analyzeSentiment call provides a single score for the entire text, analyzeEntitySentiment identifies specific entities (like "pizza" and "service") and determines the sentiment expressed towards each one separately. This allows you to distinguish that the customer had a positive sentiment about the food and a negative sentiment about the service within the same review.

Answer 764

C The lemma is the base or dictionary form of a word. For instance, the words "running," "ran," and "runs" all share the lemma "run". This is a crucial feature for text analysis as it allows for the aggregation and tracking of word concepts without being diluted by different grammatical forms (like tense or plurality).

Answer 765

B The salience score is a number within the range of [0, 1] that represents the prominence or relevance of an entity to the overall document. An entity that is central to the main topic of the text will receive a higher salience score than an entity that is mentioned only peripherally.

Answer 766

C The Natural Language API is designed to process text directly from Google Cloud Storage. To do this, the request's JSON payload must be structured correctly. Instead of using the content field to hold the text, you must replace it with the gcsContentUri key and provide the full URI of the object in Cloud Storage as its value

Answer 767

C The temperature parameter controls the degree of randomness in the model's response. A lower temperature (approaching 0.0) makes the model more deterministic, meaning it will consistently choose the highest probability tokens, which is ideal for tasks requiring factual and consistent answers. Higher temperatures encourage more diverse and creative results.

Answer 768

B When a model doesn't understand the desired output format from a simple instruction (a zero-shot prompt), the most effective way to guide it is with few-shot prompting. By providing a few examples of the task (an input review and its corresponding output label), the model learns the pattern and understands that the goal is to classify sentiment rather than summarize the text.

Answer 769

C The "Freeform" mode in Vertex AI Studio leverages the multimodal capabilities of Gemini models. This means it can natively understand and process a combination of different data types in a single prompt, including text, images, and videos, to generate a text-based response

Answer 770

B The Vertex AI Studio interface provides a structured way to design prompts that use examples. Instead of mixing examples with the final query in a single text block, users can use the separate Examples section to provide clear input and output pairs. This helps the model better understand the task and desired response format, which is the core of one-shot and few-shot prompting.

Answer 771

B The "Chat" interface in Vertex AI Studio includes a field for System instructions (also referred to as context). This field is the correct place to define the model's persona, rules, or any other context that should be considered consistently across the entire conversation. This ensures the model adheres to the defined constraints without needing to be reminded in every message.

Answer 772

B For large datasets, the most efficient and standard method is to create a CSV index file. This file acts as a manifest, pointing Vertex AI to the location of each image file in Cloud Storage and providing its associated label. Vertex AI then uses this CSV to import and organize the entire dataset in a single operation.

Answer 773

C The AutoML training process abstracts away complex configurations. The main way a user controls the training job's extent and cost is by setting a budget based on node hours. A higher budget in node hours allows the service to search for a better model for a longer time, potentially leading to higher accuracy

Answer 774

B For online predictions via the REST API, the image itself must be embedded in the JSON request. The standard method for this is to convert the image file into a base64-encoded string and place that string within the content key inside the instances array

Answer 775

B While a model can be trained with fewer images for a demonstration, the documentation explicitly notes that for a production model, a user should aim for at least 100 images per label to ensure the model has enough data to learn effectively and achieve high accuracy.

Answer 776

C A Managed Dataset in Vertex AI is a crucial, persistent resource. It serves as a bridge between your source data, which can reside in places like Cloud Storage or BigQuery, and the Vertex AI training services. It stores the metadata, labels, and pointers to the data, allowing you to easily use the same curated and labeled dataset to train multiple models or perform further analysis without re-importing the data each time

Answer 777

B The standard syntax for training a model in BigQuery ML is the CREATE OR REPLACE MODEL statement. This command allows you to define the model's name, specify its type (like 'logistic_reg') in the OPTIONS clause, and provide the training data via a SELECT query, all within a single SQL statement.

Answer 778

B The IF(totals.transactions IS NULL, 0, 1) expression correctly handles the logic. It checks if the totals.transactions field is NULL (meaning no transaction occurred) and assigns a 0 in that case. If it's not NULL (meaning at least one transaction occurred), it assigns a 1. This effectively creates the binary target label needed for the classification model.

Answer 779

C The ML.EVALUATE function is the standard way to assess a trained model's performance in BigQuery ML. When called on a model, it automatically computes a variety of evaluation metrics based on how the model performed against its internal evaluation dataset, returning them as a query result

Answer 780

C The ML.PREDICT function is designed to be nested within a standard SQL query. It performs inference on the specified data, and the results (the predictions) can then be immediately used by outer SQL clauses like SELECT, GROUP BY, and ORDER BY for further analysis, such as summing predicted purchases by country or user

Answer 781

C For tables sharded by date, like the Google Analytics sample data, the _TABLE_SUFFIX pseudo-column represents the date suffix of the table name (e.g., '20170631'). A common and effective strategy is to use a WHERE _TABLE_SUFFIX BETWEEN 'start_date' AND 'end_date' clause to select a specific date range for training, and a different, later date range for prediction or evaluation

Answer 782

B In the AutoML workflow, Vertex AI handles the complex model architecture choices. The user's primary responsibility is to guide the training process by defining the problem. This includes specifying which column the model should learn to predict (the Target column) and removing columns that contain unique identifiers or are otherwise not useful for prediction, as these can negatively impact the model's performance.

Answer 783

C The confidence threshold is the level of certainty the model must have to classify an instance as positive. Increasing the threshold means the model will only flag cases it is very confident about, which increases precision (reducing false positives). The trade-off is that it will likely miss more actual positive cases that fall below this high threshold, thus decreasing recall.

Answer 784

C A confusion matrix gives a detailed breakdown of model performance on a class-by-class basis. It shows the number of true positives, true negatives, false positives, and false negatives, which helps you understand not just how accurate the model is overall, but also where it gets "confused" between different labels

Answer 785

C Feature importance values indicate how much each feature contributed to the model's predictions. A practitioner can use this insight to perform feature engineering, such as removing features with very low importance or combining highly important features to potentially create a more powerful signal, thus improving model performance in the next training cycle

Answer 786

B In machine learning, the task of predicting a continuous value (like a price, temperature, or in this case, an exact credit score) is called regression. Classification, on the other hand, is used when the goal is to predict a distinct category or class (e.g., whether a loan will be "repaid" or "defaulted")

Answer 787

B Vertex AI provides pre-built containers for common ML frameworks like TensorFlow, PyTorch, and Scikit-learn. The most straightforward method for running a script without a custom Dockerfile is to create a CustomJob (or CustomTrainingJob) and point to one of these pre-built containers. You only need to provide your script, and Vertex AI handles the execution environment. Option A runs the script but not as a scalable, managed training job. Option D is for when a pre-built container is not sufficient.

Answer 788

C When a Vertex AI training job runs, it sets several environment variables. The AIP_MODEL_DIR variable provides a Cloud Storage URI that the training service expects to find the model artifacts in upon completion. Saving the model to this specific location is the standard convention that allows the platform to automatically pick it up for registration in the Vertex AI Model Registry.

Answer 789

C The hardware for a custom job is configured via the worker_pool_specs parameter when the job is defined and submitted (e.g., through the SDK or gcloud). This specification is a list of dictionaries where you define the machine type, the number of replicas (nodes), and the type and count of accelerators (like GPUs) for each worker pool in the training cluster.

Answer 790

C Vertex AI Experiments is a managed service for ML experiment tracking. It allows you to log key information from each training job—such as hyperparameters, evaluation metrics (e.g., accuracy, loss), and output artifacts—into a centralized location. This makes it easy to compare the performance of different model versions, organize your work, and reproduce results.

Answer 791

C The Vertex AI Model Registry is the central repository for managing your trained models. By uploading the model artifact from Cloud Storage to the registry, you create a versioned Model resource. This managed resource can then be easily deployed to an endpoint, evaluated, and tracked, providing a streamlined MLOps workflow. Deploying directly from a Cloud Storage bucket (Option B) bypasses the management and versioning benefits of the registry.

Answer 792

B The correct method is TabularDataset.create(). This class method is specifically designed to create a new managed tabular dataset resource in Vertex AI. It requires a display_name for the dataset and a data source, which in this case is provided via the gcs_source parameter pointing to the file in Google Cloud Storage.

Answer 793

B To create a client object for an existing Vertex AI resource, you instantiate its corresponding class with the dataset_name parameter set to the full resource identifier. This creates a local Python object that acts as a reference to the remote managed dataset, allowing you to interact with it (e.g., launch a training job) without creating a new one.

Answer 794

A Vertex AI is tightly integrated with other Google Cloud services. For tabular datasets, the two primary, natively supported sources are files (like CSV) stored in Google Cloud Storage (GCS) and tables or views from BigQuery. Data from other sources must first be moved into either GCS or BigQuery.

Answer 795

B A managed dataset acts as a centralized and governed pointer to your data. By creating this resource, you establish a single source of truth that can be easily shared, versioned, and reused across different experiments and training jobs (especially for AutoML). It decouples the data management from the model training, which is a key MLOps principle.

Answer 796

A While the underlying API call is asynchronous, the high-level Vertex AI Python SDK methods like TabularDataset.create() are designed for ease of use and are typically blocking by default. The SDK call will not return control to your script until the underlying long-running operation (like data import) has finished successfully or failed. This simplifies scripting by removing the need for manual polling loops.

Answer 797

B The Sequential API is excellent for simple, linear stacks of layers. However, the Keras Functional API is designed for flexibility and is the go-to choice when you need to create complex models. Its ability to handle multiple inputs and outputs, shared layers, and directed acyclic graphs (DAGs) of layers is its main advantage over the Sequential model.

Answer 798

C The core principle of the Functional API is that layers are callable objects. You create a graph of layers by passing the output tensor from one layer as the input argument to the next layer. The syntax looks like this: output_tensor = MyLayer()(input_tensor).

Answer 799

C A Keras Functional model is explicitly defined by its entry and exit points. When you create the Model instance, you must tell it where the data flows in and where the predictions flow out. This is done by passing the initial input tensor (or a list of them) to the inputs argument and the final output tensor (or a list of them) to the outputs argument.

Answer 800

A The standard way to combine multiple processing branches in the Functional API is with a merge layer. The most common of these is tf.keras.layers.Concatenate, which takes a list of tensors and joins them along a specified axis, creating a single, larger tensor that can then be passed to subsequent layers for further processing.

Answer 801

B Unlike the Sequential API where the input shape can be defined on the first layer, the Functional API requires you to explicitly create a symbolic Input tensor. This tensor, created using tf.keras.layers.Input(shape=...), serves as the starting point of your model graph. All subsequent layers are connected to this initial input.

Answer 802

A The %%bigquery cell magic is a convenient feature provided by the google-cloud-bigquery Python library for use in notebooks. It allows you to write standard SQL directly in a cell and have the results automatically loaded into a specified pandas DataFrame, streamlining the process of pulling data from BigQuery for analysis.

Answer 803

C The .isnull() method returns a DataFrame of the same shape with boolean values indicating if a value is null. Chaining .sum() on top of this aggregates these booleans column-wise (since True is treated as 1 and False as 0), giving you the total count of missing values for each column. This is a fundamental first step in data cleaning and EDA.

Answer 804

C A histogram is the standard visualization for examining the distribution of a single numerical variable. It groups the data into bins and displays the frequency of observations in each bin, which helps in identifying the data's central tendency, spread, and shape (e.g., whether it is skewed or normally distributed).

Answer 805

B A correlation heatmap displays the correlation matrix as a color-coded grid. It is an extremely effective tool for quickly identifying which pairs of numerical variables have a strong positive correlation (tend to increase together) or a strong negative correlation (one tends to increase as the other decreases). This helps in understanding relationships and in selecting features for a machine learning model.

Answer 806

B A scatter plot is the ideal visualization for examining the relationship between two continuous variables. Each point on the plot represents an observation, with its position determined by its values on the x-axis (e.g., age) and y-axis (e.g., income). This allows you to visually inspect for patterns, trends (positive, negative, or no correlation), and outliers.

Answer 807

C The key advantage of using Keras preprocessing layers is that they become part of the model's computational graph. When you save the model, the preprocessing logic (e.g., the learned vocabulary from a StringLookup or the mean/variance from a Normalization layer) is saved with it. This ensures that raw data fed to the model for prediction will automatically undergo the exact same transformations that were applied to the training data, thus minimizing training-serving skew.

Answer 808

C Stateful preprocessing layers need to learn internal parameters from the data. For example, the Normalization layer needs to compute the mean and variance, and the StringLookup layer needs to build its vocabulary of unique strings. The .adapt() method is used to perform this fitting process by showing the layer a sample of the training data. This must be done before the layer can correctly transform data during model training or inference.

Answer 809

D One-hot encoding a high-cardinality feature would create a very wide and sparse input vector, which is inefficient. The standard and most effective approach is to first map the string identifiers to integer indices using StringLookup and then feed these indices into an Embedding layer. The Embedding layer learns a dense, lower-dimensional vector representation for each category, which is much more efficient and often leads to better model performance.

Answer 810

B The tf.keras.layers.Concatenate layer is the standard choice for combining multiple feature vectors. It takes a list of input tensors and joins them together along a specified axis to create a single, wider tensor. This combined tensor can then be fed into the main body of your deep learning model for further processing.

Answer 811

D The tf.keras.layers.Discretization layer (also known as binning) is specifically designed for this purpose. It takes a continuous numerical input and maps it to an integer index based on which bin or interval the value falls into. This is a common feature engineering technique to help a model learn non-linear relationships from numerical data.

Answer 812

B Cloud Dataprep is a serverless, intelligent data service specifically designed for data preparation. Its primary function is to allow users to visually inspect data, identify quality issues (like missing values or inconsistencies), and build a series of transformation steps (a "recipe") to clean and standardize the data before it's used in ML models or analytics.

Answer 813

D A recipe is the core component of a Dataprep workflow. As a user applies cleaning steps (like deleting columns, filling missing values, or splitting text), each action is added to the recipe. This sequence of steps can then be saved and applied to the full dataset by running a job, ensuring that the transformations are repeatable and consistent.

Answer 814

C While Dataprep provides the user-friendly interface for defining transformations, it leverages the power of Dataflow as its execution engine for running jobs at scale. Dataflow is a fully managed service for stream and batch data processing that automatically provisions and manages resources, allowing the Dataprep recipe to be applied efficiently to terabytes of data.

Answer 815

B Data profiling is the process of examining and creating a summary of a dataset. When data is loaded, Dataprep automatically profiles it, providing instant visual feedback on data types, distributions (histograms), and the prevalence of missing or mismatched values. This initial profile is crucial for quickly identifying data quality issues that need to be addressed.

Answer 816

D All listed options are valid strategies for handling data quality issues, and the best choice depends on the specific context. You could change the data type if the column is meant to be mixed (A). More commonly, you would replace the invalid strings with a consistent value (B). If the column is deemed not useful or is mostly corrupted, deleting it might be the best option (C). Dataprep's interface supports all of these actions.

Answer 817

C A key advantage of the Keras Functional API is the ability to create shared layers. You can instantiate a layer (like Embedding or Dense) a single time and then use it on multiple inputs by calling it like a function. This creates a shared weight representation that is updated based on the gradients from all paths it's used in, which is a powerful technique for learning from related inputs.

Answer 818

B The Keras Functional API natively supports multi-output models. To train such a model, you typically provide a separate loss function for each output by passing a list or dictionary to the loss argument of model.compile(). Correspondingly, when you call model.fit(), you provide the ground truth data as a list or dictionary that matches the structure of the outputs and losses.

Answer 819

B The model.summary() method is an essential utility for inspecting and debugging your model's architecture. It provides a concise, text-based table that shows each layer in order, its output shape, and the number of trainable and non-trainable parameters, which is invaluable for verifying connections and model complexity.

Answer 820

B The Sequential model is strictly for linear stacks of layers where the output of one layer feeds directly and exclusively into the next. A residual connection is a non-linear topology because data from an earlier part of the model "skips" over intermediate layers to be combined with data from a later layer. The Functional API is designed to build these arbitrary graphs of layers and can easily handle such connections.

Answer 821

B In the Functional API, you first define the graph of layers by connecting them together. The final step is to create a usable model object from this graph. This is done by instantiating the tf.keras.Model class and telling it where the graph starts (inputs) and where it ends (outputs). This creates a complete, trainable, and savable model from the layers you've defined.

Answer 822

B Linear regression is a foundational regression algorithm. Its goal is to model the relationship between independent variables (features) and a dependent, continuous variable (the target or label). It does this by finding the optimal parameters (weights and a bias) for a line (or hyperplane in higher dimensions) that best fits the data.

Answer 823

C Mean Squared Error (MSE) is the standard loss function for linear regression. It calculates the difference between the model's prediction and the true value for each data point, squares that difference, and then finds the average of all these squared differences. Squaring the errors penalizes larger errors more heavily and ensures the loss value is always positive.

Answer 824

B Gradient descent is the core optimization algorithm used to train many machine learning models, including linear regression. It works by calculating the gradient (slope) of the loss function with respect to the model's parameters (weights and bias). It then takes a "step" in the opposite direction of the gradient to find a new set of parameters that result in a lower loss. This process is repeated until the loss is minimized.

Answer 825

B The slope (m) in a linear regression equation represents the rate of change. It quantifies how much the dependent variable (price) is expected to change when the independent variable (square_footage) increases by exactly one unit. The b term (the y-intercept) represents the predicted price when the square footage is zero.

Answer 826

B The learning rate is a hyperparameter that controls the step size at each iteration of gradient descent. If the learning rate is too large, the updates to the model's weights can be so drastic that they "jump" over the point of minimum loss. This can cause the loss to oscillate or even increase, preventing the algorithm from converging to a good solution.

Answer 827

C Vertex AI Model Monitoring is designed to maintain the performance and reliability of models in production. Its core function is to detect deviations between the data seen during training and the data being sent for live predictions. It specifically tracks for feature drift (changes in input data distributions) and training-serving skew (discrepancies between training and serving environments), alerting users when these issues arise.

Answer 828

C Training-serving skew refers to a situation where a model's performance differs significantly between the training/evaluation phase and the live production environment. This is often caused by inconsistencies in data preprocessing, feature engineering, or the data generation process itself. It's a common issue that model monitoring helps to identify.

Answer 829

C Drift is a relative concept; you can only know if something has "drifted" by comparing it to a starting point. In Vertex AI Model Monitoring, the original training data serves as that stable baseline. The service calculates the statistical properties (like mean, variance, and distribution) of the training data and continuously compares the incoming prediction requests against this baseline to see if they are statistically different.

Answer 830

B For each feature you choose to monitor, you must set a threshold. This threshold represents the maximum allowable statistical distance (e.g., L-infinity distance) between the baseline (training) distribution and the live (serving) distribution. If the measured drift for a feature exceeds this user-defined threshold, the monitoring service will log the deviation and can trigger an alert.

Answer 831

D Feature drift specifically refers to a change in the input data's distribution (user_age in this case). Prediction drift refers to a change in the model's output distribution (prediction_score). It is possible for input features to drift without immediately impacting the model's overall output, especially if the model is robust to such changes or if the drifting feature has low importance. This scenario describes feature drift without a corresponding prediction drift.

Answer 832

C The TRANSFORM clause is a powerful feature in BigQuery ML. Any transformations you define within it are saved as part of the model artifact. When you later call ML.PREDICT, the model automatically applies these same transformations to the raw input data before making a prediction. This guarantees consistency between training and serving and is the recommended way to prevent training-serving skew.

Answer 833

D The ML.FEATURE_CROSS function is designed to create interaction features from categorical inputs. It combines the input features into a single new categorical feature that captures the joint effect of the original features, which can significantly improve the predictive power of linear models.

Answer 834

B The UNNEST operator is a standard SQL function in BigQuery that takes an ARRAY and returns a table with a separate row for each element in that array. This is the fundamental operation for "flattening" repeated or nested data structures so they can be used effectively in queries and for model training.

Answer 835

B The ML.POLYNOMIAL_EXPAND function takes a numerical feature and creates new features corresponding to that feature raised to a power up to a specified degree. For example, POLYNOMIAL_EXPAND(STRUCT(engine_speed), 2) would produce the original feature and the feature squared (engine_speed²). This allows linear models like logistic or linear regression to fit non-linear, polynomial relationships.

Answer 836

C Term Frequency-Inverse Document Frequency (TF-IDF) is a standard technique for weighting the importance of terms in a document corpus. It increases the weight for terms that appear frequently in a given document but are rare across all documents. BigQuery ML provides the ML.TF_IDF function to compute these scores directly in SQL, which is a powerful step for text feature engineering.

Answer 837

B The standard syntax for training a model in BigQuery ML is the CREATE OR REPLACE MODEL statement. This command allows you to define the model's name, specify its type (like 'logistic_reg') in the OPTIONS clause, and provide the training data via a SELECT query, all within a single SQL statement.

Answer 838

B The IF(totals.transactions IS NULL, 0, 1) expression correctly handles the logic. It checks if the totals.transactions field is NULL (meaning no transaction occurred) and assigns a 0 in that case. If it's not NULL (meaning at least one transaction occurred), it assigns a 1. This effectively creates the binary target label needed for the classification model

Answer 839

C The ml.EVALUATE function is the standard way to assess a trained model's performance in BigQuery ML. When called on a model, it automatically computes a variety of evaluation metrics, such as

Answer 840

C The ml.PREDICT function is designed to be nested within a standard SQL query. It performs inference on the specified data, and the results (the predictions) can then be immediately used by outer SQL clauses like SELECT, GROUP BY, and ORDER BY for further analysis, such as summing predicted purchases by country or user.

Answer 841

C For tables sharded by date, like the Google Analytics sample data, the _TABLE_SUFFIX pseudo-column represents the date suffix of the table name. A common and effective strategy is to use a WHERE _TABLE_SUFFIX BETWEEN 'start_date' AND 'end_date' clause to select a specific date range for training, and a different, later date range for prediction or evaluation.

Answer 842

D The Vertex AI hyperparameter tuning service starts each trial by running your training code and passing the hyperparameter values as command-line arguments. Your script must be equipped to parse these arguments (for example, with Python's argparse library) and use them to configure your model and optimizer for that specific trial.

Answer 843

B y D Explanation: B) RUN pip install cloudml-hypertune: The cloudml-hypertune library is required within your training script to report the results of a trial back to the Vertex AI service. Your container needs to have this library installed. D) ENTRYPOINT ["python", "-m", "trainer.task"]: The ENTRYPOINT command configures the container to run your training script when it starts. This is how Vertex AI initiates the training trial inside the container.

Answer 844

B The standard method to communicate a trial's result to the tuning service is by instantiating a HyperTune object from the cloudml-hypertune library. You then call its report_hyperparameter_tuning_metric method, passing a unique hyperparameter_metric_tag and the final metric_value you want the service to optimize.

Answer 845

B y D Explanation: B) Set "Metric to optimize" to val_loss: This field in the UI must exactly match the hyperparameter_metric_tag you defined in your training code. D) Set "Goal" to Minimize: Since the objective is to find the lowest possible validation loss, the goal for the optimization algorithm must be set to Minimize. If you wanted to optimize for accuracy, you would select Maximize.

Answer 846

A Increasing the number of parallel trials reduces the total time the job takes to complete. However, it can make the tuning process less effective. Advanced tuning strategies, like the default Bayesian optimization, use the results from completed trials to make more intelligent decisions about which hyperparameter values to try next. If many trials run in parallel, they are chosen without the benefit of knowing the outcomes of other trials that are still running, which can lead to a less efficient search

Answer 847

B The main goal of BigQuery ML is to democratize machine learning by allowing professionals who are proficient in SQL to build models within the BigQuery environment. This eliminates the complex and time-consuming step of exporting data to a different platform for model training, thereby increasing development speed

Answer 848

C When using the CREATE MODEL statement in BigQuery ML, the model's configuration is defined within an OPTIONS clause. You must specify the model_type (e.g., 'linear_reg') and provide the name of the label column as a list in input_label_cols

Answer 849

D The ML.EVALUATE function is used to evaluate a model's performance by comparing its predictions against actual data. For regression models, its output includes several key metrics, including the r2_score , mean absolute error, and mean squared error.

Answer 850

B When you use the ML.PREDICT function, BigQuery ML automatically names the output column containing the prediction by prepending predicted_ to the name of the original label column. Therefore, if the label column is is_fraud, the prediction column will be predicted_is_fraud

Answer 851

C The ML.GLOBAL_EXPLAIN function is used to understand which features are most important in general for the model. To use this function, it is mandatory that the model was originally trained or retrained with the ENABLE_GLOBAL_EXPLAIN=TRUE option set in the CREATE MODEL statement.

Answer 852

B Vertex AI Workbench is highlighted as a good option for those who prioritize control and customizability. It is described as being great for complex projects and ideal for data scientists moving to the cloud from a local environment like a laptop or workstation.

Answer 853

C A key objective when moving to scaled training is to learn how to organize the training code into a Python package. This makes the code more modular, reusable, and easier to deploy as a training job on the Vertex AI Training Service

Answer 854

B The instructions explicitly state that the "AI Platform Training & Prediction API" must be searched for and enabled to proceed with the training lab

Answer 855

C The documentation states that Vertex AI Workbench Instances come with a pre-installed suite of deep learning packages, and it specifically names support for the TensorFlow and PyTorch frameworks.

Answer 856

B The procedure involves running a !git clone command within the first cell of a new notebook to pull the training-data-analyst repository from GitHub into the Workbench instance's local file system.

Answer 857

C The tf.data API is specifically designed to create and manage data input pipelines. It provides tools to read data from various sources like memory or disk, and then efficiently transform and prepare it for training a model

Answer 858

B y C Explanation: B) .shuffle(): This method is used to randomize the order of the dataset's elements. This is a crucial step to prevent the model from learning spurious patterns based on the original order of the data and to improve generalization. C) .batch(): This method groups a specified number of consecutive elements from the dataset into batches. Training on batches instead of single examples is more computationally efficient and helps stabilize the gradient updates. The lab objectives explicitly mention learning to build pipelines with these features

Answer 859

B y C The learning objectives clearly state that the lab will cover how to use tf.data to read data directly from memory and how to load a dataset when it resides on disk

Answer 860

B Stochastic gradient descent (and its common variant, mini-batch gradient descent) involves updating the model's parameters using only a small subset (a batch) of the data at each step. The tf.data API is ideal for this, as its .batch() method makes it easy and efficient to supply the training loop with a new batch of data for each iteration.

Answer 861

B A primary advantage of tf.data is performance. It can create highly efficient pipelines that prefetch and preprocess data on the CPU while the GPU is busy with the previous batch's calculations. This prevents the GPU from being idle ("starved" for data), leading to much faster overall training times. This concept is central to writing "production input pipelines"

Answer 862

C Without a non-linear activation function, a neural network, no matter how many layers it has, would behave like a single-layer linear model. Non-linearity is essential for the network to be able to learn and approximate the complex, non-linear relationships found in most real-world data.

Answer 863

C Recall measures the model's ability to find all the actual positive samples. It is calculated as True Positives / (True Positives + False Negatives). By maximizing recall, the business minimizes "false negatives"—fraudulent transactions that the model incorrectly labels as non-fraudulent.

Answer 864

B Overfitting occurs when a model learns the training data too well, including its noise and random fluctuations, instead of the underlying general pattern. This results in excellent performance on the data it has seen before (the training set) but a failure to generalize to new data (the validation or test set).

Answer 865

C Regularization techniques add a penalty term to the loss function based on the magnitude of the model's weights. This discourages the model from assigning excessively large weights to features, which is a common cause of overfitting. The penalty term helps create a simpler model that generalizes better to new data.

Answer 866

B An epoch represents one full cycle where the learning algorithm has processed every example in the training dataset once. Training a model typically involves running for multiple epochs to allow the model's weights to converge to an optimal state.

Answer 867

B Define ML como la capacidad de aprender sin programar reglas explícitas.

Answer 868

B ML se usa cuando no es viable codificar reglas fijas o se requiere autoajuste.

Answer 869

C En software tradicional combinamos reglas, datos y cómputo para obtener resultados.

Answer 870

B En ML, un modelo entrenado procesa datos nuevos para generar predicciones.

Answer 871

B ML combina métodos estadísticos optimizados y neuronas artificiales.

Answer 872

B 𝑏 es el término independiente o sesgo (intercepto).

Answer 873

A Convencionalmente, 𝑋 son las características y 𝑌 es la variable objetivo.

Answer 874

B El ajuste por mínimos cuadrados estima parámetros minimizando errores.

Answer 875

C 𝑅 varía entre −1 y 1, indicando correlación inversa o directa.

Answer 876

C Valores cercanos a 1 indican correlación positiva fuerte.

Answer 877

A Valores cercanos a −1 indican correlación negativa fuerte.

Answer 878

B Valores cercanos a 0 sugieren ausencia de correlación lineal.

Answer 879

B Se recolectan datos, se separan, se entrena, se valida y se usa el modelo.

Answer 880

A, B y D ML combina matemáticas, cómputo numérico y un proceso iterativo; no es simple “probar a ver si funciona”.

Answer 881

B ML no es programación tradicional basada en reglas fijas.

Answer 882

B Regresión y clasificación son tareas supervisadas clásicas.

Answer 883

A, B y C D no es una aplicación de ML; las otras son usos comunes de ML.

Answer 884

A La regresión lineal se usa típicamente para estimar precios.

Answer 885

B Un modelo científico usa matemáticas para explicar y predecir.

Answer 886

A, B y D La fuerza es atractiva, proporcional a las masas e inversamente proporcional al cuadrado de la distancia.

Answer 887

B El método científico itera entre hipótesis, experimentos y análisis.

Answer 888

A, B y D Astrología no es una ciencia empírica; las otras sí aplican el método científico.

Answer 889

B La ciencia de datos aplica el método científico sobre datos para extraer valor.

Answer 890

B Son volumen, velocidad, variedad, veracidad y valor.

Answer 891

A, B y C Big Data incluye volumen, métodos y cultura “data-driven”.

Answer 892

B “Data-driven” significa decisiones informadas por datos y análisis.

Answer 893

A, B y C Ingeniería de datos, BI/analítica, ML y DL forman parte del ecosistema.

Answer 894

B La cita refleja la brecha entre discurso y práctica real.

Answer 895

D ML se aplica en múltiples industrias, incluyendo seguridad, agricultura y educación.

Answer 896

B Álgebra lineal trata matrices, vectores y transformaciones lineales.

Answer 897

B 𝑅2 es el espacio de vectores de dos dimensiones.

Answer 898

A, B y C Representación, geometría y transformaciones son claves; no sustituye los datos.

Answer 899

A Las GPU aceleran multiplicaciones de matrices y vectores.

Answer 900

C La transposición intercambia filas por columnas.

Answer 901

B La suma/resta requiere dimensiones idénticas.

Answer 902

B Multiplicación escalar aplica el mismo factor a cada elemento.

Answer 903

A Las dimensiones internas deben coincidir y el resultado es 𝑚×𝑝 .

Answer 904

B Multiplicar por la identidad devuelve la misma matriz (dimensiones compatibles).

Answer 905

B Verificar dimensiones previene errores de multiplicación.

Answer 906

A, B y C Son aplicaciones típicas; D no es un caso de ML.

Answer 907

A Las SVM se han usado ampliamente para OCR.

Answer 908

C Jupyter Notebook proporciona cuadernos interactivos ideales para explorar datos, documentar y ejecutar código paso a paso.

Answer 909

A NumPy ofrece arrays eficientes y operaciones vectorizadas esenciales para el cálculo numérico en ML.

Answer 910

A Matplotlib es la librería base de visualización en Python, usada para gráficos 2D y exploración de datos.

Answer 911

A Scikit-learn ofrece una amplia colección de algoritmos de ML, utilidades de preprocesado y pipelines.

Answer 912

C Usar scikit-learn 1.0+ garantiza acceso a funcionalidades y documentación actuales.

Answer 913

C La convención en Python es consultar el atributo version del módulo, por ejemplo: print(sklearn.version).

Answer 914

B git pull sincroniza tu copia local con la versión remota más reciente.

Answer 915

A Descargar archivos concretos reduce el riesgo de resolver conflictos y asegura que usas la última versión de cada recurso.

Answer 916

A Muchas herramientas de ML están orientadas a entornos tipo Unix, como Linux y macOS.

Answer 917

A WSL 2 proporciona un kernel Linux real integrado en Windows, facilitando flujos de ML compatibles con Linux.

Answer 918

B Los entornos virtuales garantizan que cada proyecto tenga sus propias versiones de librerías sin interferencias.

Answer 919

A Google Colab permite ejecutar notebooks en la nube con librerías de ML preinstaladas.

Answer 920

A Vertex AI Workbench ofrece notebooks gestionados integrados con el ecosistema de Google Cloud para ML.

Answer 921

A Es buena práctica actualizar el sistema e instalar librerías necesarias (NumPy, Matplotlib, scikit-learn, Jupyter).

Answer 922

A git pull sincroniza tu entorno local con el remoto, evitando inconsistencias y conflictos por versiones antiguas.

Answer 923

B En aprendizaje supervisado se parte de ejemplos X con etiquetas Y anotadas y se aprende una función para predecir Y a partir de X.

Answer 924

A El modelo busca patrones en los datos y, con resultados conocidos, aprende reglas que mejoran sus predicciones.

Answer 925

B El entrenamiento busca los parámetros que minimizan el coste (error) del modelo respecto a los datos.

Answer 926

B La predicción de demanda es una tarea supervisada con etiquetas históricas de demanda.

Answer 927

A La regresión lineal simple ajusta una línea recta con pendiente m y sesgo b.

Answer 928

A Se estiman los parámetros θ (por ejemplo, m y b) que mejor relacionan X con Y.

Answer 929

B La regresión multivariable modela Y como combinación lineal de varias características.

Answer 930

B X recoge m ejemplos con n características; θ contiene un peso por característica.

Answer 931

B La superficie útil es una característica relevante para predecir el precio.

Answer 932

B m es el número de ejemplos; n, el número de características por ejemplo.

Answer 933

B x0 = 1 permite que θ0 actúe como intercepto en la hipótesis lineal.

Answer 934

C La temperatura varía en un continuo y admite valores reales.

Answer 935

B El número de compras es una cuenta (cardinal) de enteros.

Answer 936

A Los niveles educativos tienen un orden intrínseco.

Answer 937

B Las marcas no tienen orden; son categorías nominales.

Answer 938

C La presencia de piscina es una variable sí/no (binaria).

Answer 939

B Las variables categóricas pueden codificarse como one-hot o con orden si procede.

Answer 940

B Útil vs. construida afecta la relación con el precio y debe definirse.

Answer 941

B Transformaciones y términos polinómicos permiten ajustar relaciones no lineales.

Answer 942

B La solución cerrada existe, pero la inversión de matrices puede fallar o ser costosa.

Answer 943

B El coste agrega la discrepancia (residuos) entre predicciones y valores reales.

Answer 944

B La meta del entrenamiento es reducir el error del modelo minimizando el coste.

Answer 945

B Se parte de θ inicial y se actualiza iterativamente minimizando el coste hasta converger.

Answer 946

B El gradiente indica la dirección de máxima disminución del coste, como la pendiente más pronunciada.

Answer 947

B Las actualizaciones de todos los componentes de θ se aplican a la vez por estabilidad y corrección.

Answer 948

B Un umbral pequeño como epsilon menor que 10^-3 indica que los cambios son despreciables.

Answer 949

B Un α grande puede provocar saltos que impiden la convergencia.

Answer 950

B Un α pequeño ralentiza el entrenamiento y puede requerir muchas iteraciones.

Answer 951

C Probar α en una escala logarítmica (factor ~3) cubre órdenes de magnitud eficientemente.

Answer 952

B Monitorizar el coste permite detectar divergencia o lentitud y ajustar α.

Answer 953

B El entrenamiento puede atascarse en mínimos locales o puntos subóptimos.

Answer 954

B Múltiples inicializaciones, momentum y α adaptable ayudan a escapar de valles subóptimos y estabilizar.

Answer 955

C X contiene las características de los m ejemplos en n columnas.

Answer 956

B θ define la hipótesis del modelo y permite realizar predicciones en datos no vistos.

Answer 957

A La clasificación de frutos asigna etiquetas de clase a partir de características.

Answer 958

B Se selecciona α antes de iniciar y puede ajustarse durante el entrenamiento.

Answer 959

B La escala y unidad del objetivo influyen en el aprendizaje y la interpretación.

Answer 960

C Las categorías sin orden natural suelen codificarse con vectores one-hot.

Answer 961

B Distancia y servicios requieren cálculos adicionales y agregaciones más complejas.

Answer 962

B J(θ) cuantifica el desempeño del modelo y es el objetivo a minimizar.

Answer 963

B Si cada característica tiene un rango distinto, el descenso de gradiente avanza de forma desbalanceada y le cuesta encontrar la mejor dirección.

Answer 964

B Al llevar las características a escalas comparables (por ejemplo, media ≈ 0), cada peso se ajusta con una magnitud de paso similar.

Answer 965

B El z-score transforma x a (x − media) / desviación típica, logrando media ≈ 0 y varianza estandarizada.

Answer 966

A x0 es el término constante que permite el intercepto; normalizarlo rompería su función.

Answer 967

A Normalizar X estabiliza el entrenamiento y mantener Y en su escala conserva la interpretación de los errores y predicciones.

Answer 968

B Se normaliza antes de elegir la tasa de aprendizaje, inicializar θ y comenzar las iteraciones.

Answer 969

B Con alta varianza, el modelo ajusta demasiado al conjunto visto y empeora al predecir casos nuevos.

Answer 970

B Con alta desviación, el modelo es demasiado simple o mal especificado y no captura la relación de los datos.

Answer 971

C Aumentar la capacidad informativa (datos y features) puede mejorar el ajuste del modelo básico.

Answer 972

B Reducir complejidad o penalizar pesos con regularización mejora la generalización.

Answer 973

B Una regla práctica es contar con suficiente m respecto a n para mejorar la generalización y la estimación.

Answer 974

B Se penalizan magnitudes de los pesos para desalentar valores extremos y mejorar generalización.

Answer 975

C θ0 no se regulariza para no sesgar el nivel base de la predicción.

Answer 976

B Penalizaciones excesivas encogen los pesos en exceso, aumentando la desviación (bias).

Answer 977

A Si la penalización es débil, el modelo puede ajustarse demasiado al entrenamiento.

Answer 978

B El gradiente incluye el término de regularización para cada θj (excepto θ0) en cada actualización.

Answer 979

B Lambda (y otros como la tasa de aprendizaje) se establecen previamente y no se aprenden directamente de los datos.

Answer 980

B La selección de hiperparámetros se hace en el subset de validación para evitar sesgos.

Answer 981

B La evaluación en datos no vistos estima el rendimiento real del modelo.

Answer 982

B Son ratios orientativos que equilibran entrenamiento, selección de hiperparámetros y evaluación final.

Answer 983

B Con pocos datos o clases desbalanceadas, las particiones pueden no ser representativas.

Answer 984

B CV permite reutilizar los datos de entrenamiento para estimar el desempeño promediando sobre pliegues.

Answer 985

B En cada iteración se rota el pliegue de validación, promediando los resultados al final.

Answer 986

B La selección se hace con validación; el test se reserva para la evaluación final una sola vez.

Answer 987

B Normalizar X estabiliza el descenso; se exploran lambdas y se elige con base en coste de validación.

Answer 988

B La distribución real puede diferir del entrenamiento por cantidad de datos, variables disponibles o ruido.

Answer 989

C La clasificación asigna ejemplos a clases previamente definidas usando datos etiquetados.

Answer 990

C Hay dos clases mutuamente excluyentes: spam y no spam.

Answer 991

B La fiabilidad del emisor, asunto y contenido son señales útiles para clasificación de spam.

Answer 992

B Divide el espacio de características mediante reglas hasta llegar a hojas con predicciones.

Answer 993

C Desde el nodo raíz se parte para dividir recursivamente el dataset.

Answer 994

B Es la operación de particionar los datos en un nodo usando una característica.

Answer 995

B En una hoja ya no se divide más y se asigna una clase (o valor).

Answer 996

B Gini es una medida de impureza usada en splits binarios.

Answer 997

C Mide cuánto reduce la incertidumbre un split.

Answer 998

C Los árboles manejan ambos tipos con poca preparación de datos.

Answer 999

C Priorizan atributos con mayor poder de separación al dividir.

Answer 1000

B Las divisiones por umbrales generan regiones ortogonales y pueden sobreajustar.

Answer 1001

B Son inestables ante cambios leves, lo que aumenta la varianza del modelo.

Answer 1002

C Evita crear ramas poco representativas.

Answer 1003

B Valores bajos permiten que la clase minoritaria aparezca en hojas específicas.

Answer 1004

B Frena el crecimiento excesivo del árbol, reduciendo complejidad.

Answer 1005

B Aleatorizar atributos por nodo aumenta diversidad y reduce varianza.

Answer 1006

B Se simplifica el árbol empezando por hojas y comprobando la pérdida de precisión.

Answer 1007

A En relaciones lineales, la regresión lineal/logística suele ser más precisa.

Answer 1008

B Bagging reduce varianza combinando modelos entrenados en muestras bootstrap.

Answer 1009

B Diversifica árboles usando bagging y selección aleatoria de atributos por nodo.

Answer 1010

B Focaliza el aprendizaje en errores previos para mejorar el clasificador fuerte.

Answer 1011

B La validación guía el tamaño del árbol y el test estima generalización.

Answer 1012

B Usa una función logística para convertir la combinación lineal en probabilidad de clase.

Answer 1013

B Se entrena un clasificador binario por clase y se comparan salidas.

Answer 1014

B Se comparan los valores lineales por modelo y se toma el mayor.

Answer 1015

B La sigmoide mapea a [0,1] y permite optimización por gradiente.

Answer 1016

B El término activo depende del valor de la etiqueta para penalizar predicciones incorrectas.

Answer 1017

B La regularización controla la complejidad y reduce sobreajuste.

Answer 1018

B Se usa validación para seleccionar hiperparámetros antes de evaluar en test.

Answer 1019

B SVM busca el hiperplano con mayor margen para separar clases.

Answer 1020

B SVM es práctica cuando hay pocas características y un número moderado de ejemplos.

Answer 1021

B Los kernels generan características basadas en similitud para lograr separabilidad lineal en F.

Answer 1022

B Sirven como centros para medir similitud y construir las nuevas características.

Answer 1023

D Se citan lineal, gaussiano, polinómico, string, chi-cuadrado e intersección de histogramas.

Answer 1024

B sigma controla cómo decae la similitud con la distancia al landmark.

Answer 1025

B Se advierte “Nota: no normalizar” en el contexto del kernel gaussiano.

Answer 1026

B Se usan etiquetas -1 y 1 para definir la separación y el margen.

Answer 1027

B Se toma C como el inverso de la regularización lambda.

Answer 1028

B Se afirma que C controla el sesgo-varianza: mayor C → mayor desviación (bias), menor sobreajuste (varianza).

Answer 1029

B Un sigma^2 grande suaviza el modelo (más bias) y reduce el riesgo de sobreajuste.

Answer 1030

B La selección de hiperparámetros se hace con validación y el test se reserva para evaluación final.

Answer 1031

B La evaluación calcula métricas de rendimiento del modelo, mientras que la validación valora si el modelo funciona bien para el caso de uso real (como evitar sobreajuste).

Answer 1032

C Las métricas evalúan aspectos diferentes (precisión, sensibilidad, error, etc.), por lo que deben combinarse para una visión completa.

Answer 1033

B r mide la intensidad y dirección de la relación lineal entre variables (valores entre -1 y 1).

Answer 1034

C R² refleja la proporción de la varianza en Y explicada por las características X.

Answer 1035

B El error cuadrático medio (MSE) eleva los errores al cuadrado, amplificando el impacto de los más grandes.

Answer 1036

B RMSE está en la misma escala que la variable objetivo, facilitando la lectura directa del error medio.

Answer 1037

B La sensibilidad indica cuántos verdaderos positivos se detectan correctamente.

Answer 1038

C La especificidad mide cómo de bien identifica el modelo los negativos correctos.

Answer 1039

B En diagnósticos médicos, puede que interese más minimizar falsos negativos (sensibilidad) o falsos positivos (especificidad), según el impacto.

Answer 1040

A La matriz muestra los aciertos y errores por clase, identificando si el modelo confunde etiquetas.

Answer 1041

B F1-score balancea la precisión y el recall, ofreciendo una medida robusta del rendimiento clasificador.

Answer 1042

B La curva ROC muestra el rendimiento para distintos umbrales de decisión, útil para elegir el punto óptimo.

Answer 1043

C El AUC mide qué tan bien el modelo separa clases; un AUC cercano a 1 indica excelente rendimiento.

Answer 1044

B Las RRNN están inspiradas en el cerebro humano, imitando la conexión entre neuronas.

Answer 1045

B El backpropagation ajusta los pesos usando el gradiente del error, capa por capa.

Answer 1046

C La función de activación determina si una neurona “dispara” o no, según la suma ponderada de sus entradas.

Answer 1047

B Es el modelo más básico de RRNN, diseñado para tareas de clasificación lineal.

Answer 1048

B El aprendizaje no supervisado no cuenta con etiquetas o resultados previos para guiar el modelo.

Answer 1049

C La agrupación (clustering) detecta patrones en los datos sin etiquetado previo.

Answer 1050

C El centroide representa el promedio de todas las muestras asignadas a un clúster.

Answer 1051

C Se identifica el “codo” de la curva coste/nº de clústeres, donde añadir más clústeres ya no mejora mucho el modelo.

Answer 1052

B Múltiples inicializaciones permiten comparar modelos y elegir el más óptimo.

Answer 1053

C Al no tener una métrica de precisión, se usa el coste como medida comparativa entre modelos.

Answer 1054

C Se aprovechan los datos con etiquetas para guiar el entrenamiento sobre los no etiquetados, equilibrando supervisión y libertad.

Answer 1055

B Cuando etiquetar todos los datos es difícil (por tiempo, coste o acceso), este enfoque maximiza el valor de la información limitada

Answer 1056

C Las anomalías se detectan como desviaciones significativas frente a la distribución típica de los datos normales.

Answer 1057

C Se usa la distribución gaussiana para representar el comportamiento normal, donde se comparan probabilidades para detectar lo anómalo.

Answer 1058

C E representa el corte probabilístico bajo el cual los ejemplos se consideran fuera de lo normal.

Answer 1059

C Identifican patrones en preferencias para sugerir contenido a usuarios con gustos afines.

Answer 1060

D R marca con 1 los contenidos valorados, y con 0 los que aún no tienen valoración por parte del usuario.

Answer 1061

B Se utiliza un modelo de regresión que combina características del contenido y del usuario para estimar puntuaciones.

Answer 1062

C El genotipo define las características internas (como los parámetros), mientras que el fenotipo representa el comportamiento observado.

Answer 1063

B La mutación permite explorar nuevas combinaciones que podrían mejorar el rendimiento en generaciones futuras.

Answer 1064

C La ingeniería de características se encarga de convertir datos en bruto en variables significativas para el modelo.

Answer 1065

B Es clave asegurar que los datos usados ahora puedan mantenerse actualizados y disponibles en producción.

Answer 1066

C Se parte de una hipótesis que se prueba con experimentos, para luego confirmar o refutar y seguir ajustando.

Answer 1067

C El PCA reduce el número de variables conservando la mayor cantidad posible de información relevante.

Answer 1068

C Los outliers pueden alterar métricas y funciones de coste, por lo que deben analizarse cuidadosamente.

Answer 1069

B La matriz de covarianza revela cómo varían juntas las características del dataset, base para extraer componentes principales.

Answer 1070

C El mini-batch combina la eficiencia del batch con la agilidad del entrenamiento estocástico, optimizando el rendimiento.

Answer 1071

C El descenso por gradiente ajusta los parámetros minimizando una función de coste.

Answer 1072

C Características irrelevantes generan ruido, dificultan el entrenamiento y pueden empeorar el rendimiento.

Answer 1073

C Al combinar varios modelos se puede reducir la varianza y lograr mejores predicciones.

Answer 1074

C Bagging genera subconjuntos de datos con reemplazo para entrenar múltiples modelos.

Answer 1075

B Random Forest introduce aleatoriedad en las características, aumentando la diversidad del ensamblaje.

Answer 1076

C Stacking entrena un “meta-modelo” para combinar las salidas de varios modelos base.

Answer 1077

B RMSE evalúa el error en la misma escala que Y, así que cuanto más bajo, mejor desempeño.

Answer 1078

B F1-score es la media armónica entre precision y recall, útil cuando hay desbalance de clases.

Answer 1079

C La curva ROC permite analizar el rendimiento del modelo independientemente del umbral de decisión.

Answer 1080

B El área bajo la curva (AUC) mide la capacidad del modelo de separar clases.

Answer 1081

D Cuando hay underfitting, se sugiere aumentar capacidad o información del modelo.

Answer 1082

C Analizar errores ayuda a descubrir limitaciones del modelo y posibles mejoras en las features.

Answer 1083

C El coeficiente de determinación R² refleja la capacidad explicativa del modelo.

Answer 1084

C En salud, es más crítico detectar todos los positivos, incluso si hay más falsos positivos.

Answer 1085

1- clasificacion = SUPERVISADO 2- clusterizacion = NO SUPERVISADO

Intro AI + Machine learning Flashcards

(1208 cards)