Intro AI + Machine learning Flashcards

(1208 cards)

1
Q

You are tasked with analyzing a large dataset of unlabeled customer feedback text. Your goal is to discover underlying patterns and group similar feedback entries to identify common themes or issues without any predefined categories. Which machine learning approach and a suitable type of unsupervised learning would you most likely employ?

A. Supervised learning, using a classification model.
B. Unsupervised learning, specifically a regression problem.
C. Unsupervised learning, using clustering to identify patterns.
D. Supervised learning, using a linear regression model.

A

C

Unsupervised learning is used when data is unlabeled and the objective is to find underlying patterns or structures. Clustering is a major type of unsupervised learning that groups data points with similar characteristics, such as using customer demographics to determine customer segmentation. Since the customer feedback is unlabeled and the goal is to group them based on similarity, unsupervised learning with clustering is the appropriate approach. Classification and regression are types of supervised learning, which require labeled data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

An application developer needs to deploy a new stateless, event-driven microservice that must scale automatically and efficiently, from zero instances when not in use, and only incur costs for the compute resources consumed during execution. Which Google Cloud computing service is best suited for these requirements?

A. Compute Engine
B. Google Kubernetes Engine (GKE)
C. App Engine
D. Cloud Run

A

D

Cloud Run is described as a “fully managed compute platform that enables you to run requests or event-driven stateless workloads without having to worry about servers”. It “automatically scales up and down from zero” and “charges only for the resources you use, so you never pay for over-

provisioned resources,” making it ideal for the specified requirements. Compute Engine is an Infrastructure as a Service (IaaS) offering providing maximum flexibility but requires more server management. GKE runs containerized applications and offers fine-grained control, but Cloud Run is specifically highlighted for its serverless, auto-scaling from zero, and cost-efficient nature for stateless workloads. App Engine is a fully managed Platform as a Service (PaaS) focused on application logic, but Cloud Run is more specifically tailored for event-driven stateless workloads with zero-scaling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

You are working on a machine learning project within BigQuery ML to predict whether a customer will make a purchase in the future (a binary outcome: Yes/No). After preparing your data, which SQL command would you use to initiate the training of your machine learning model for this problem, and which model type would be appropriate given the nature of the prediction?

A. ML.EVALUATE, using a linear regression model

B. ML.PREDICT, using a k-means clustering model

C. CREATE MODEL, using a linear regression model

D. CREATE MODEL, using a logistic regression model

A

D

To create and train an ML model in BigQuery ML, the CREATE MODEL command is used. Predicting “whether a customer will make a purchase in the future” is a classification problem, as it predicts a categorical outcome (will buy/will not buy). For classification problems, a logistic regression model is appropriate. ML.EVALUATE is used to assess model performance, and ML.PREDICT is used to generate predictions after a model has been trained. K-means clustering is for unsupervised learning, and linear regression is for regression problems (predicting a numeric variable)

✅ Por qué la Opción D es la correcta
La opción D. CREATE MODEL, using a logistic regression model es la respuesta correcta porque acierta en los dos puntos clave:

Comando SQL: Para iniciar el entrenamiento de un modelo nuevo en BigQuery ML, el comando que se utiliza es $CREATE MODEL$. Este comando le indica a BigQuery que debe crear y entrenar un modelo con los datos que le proporciones.

Tipo de Modelo: El problema consiste en predecir un resultado binario (Sí/No). Este tipo de problema se conoce como clasificación binaria. La regresión logística (logistic regression) es un modelo de machine learning diseñado específicamente para problemas de clasificación binaria, ya que predice la probabilidad de que un resultado pertenezca a una de las dos categorías.

En resumen, usas $CREATE MODEL$ para empezar el entrenamiento y eliges regresión logística porque es el modelo correcto para predecir “Sí” o “No”.

❌ Por qué las otras opciones son incorrectas
Opción A: $ML.EVALUATE$, usando un modelo de regresión lineal.

Comando incorrecto: $ML.EVALUATE$ no se usa para entrenar un modelo, sino para evaluar el rendimiento de un modelo que ya ha sido entrenado.

Modelo incorrecto: La regresión lineal se usa para predecir valores numéricos continuos (ej: predecir el precio de una casa), no para clasificar en categorías como “Sí” o “No”.

Opción B: $ML.PREDICT$, usando un modelo de k-means clustering.

Comando incorrecto: $ML.PREDICT$ se usa para hacer predicciones con un modelo ya entrenado, no para entrenarlo desde cero.

Modelo incorrecto: K-means es un modelo de agrupamiento no supervisado (clustering). Se usa para encontrar grupos naturales en los datos, pero no para predecir una etiqueta específica como “compra” o “no compra” a partir de datos históricos etiquetados.

Opción C: $CREATE MODEL$, usando un modelo de regresión lineal.

Comando correcto: El comando $CREATE MODEL$ es correcto para iniciar el entrenamiento.

Modelo incorrecto: Sin embargo, la regresión lineal es el tipo de modelo equivocado para este problema, como ya se explicó. No sirve para una predicción de tipo Sí/No.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Google’s approach to Artificial Intelligence (AI) is guided by three core principles for responsible AI. Which of the following statements accurately reflects one of these principles?

A. AI development should solely prioritize financial gain for the company, as this is the primary driver of innovation.

B. AI systems should be deployed without extensive testing to accelerate market entry and gain a competitive advantage.

C. Google strives to make tools that empower others to harness AI for individual and collective benefit.

D. AI should be used to solve any problem, regardless of potential ethical complexities or societal impact.

A

C

One of Google’s three AI principles for responsible AI is “Collaborative progress, together,” which states that Google makes tools that empower others to harness AI for individual and collective benefit. The other options contradict Google’s stated principles of responsible development and deployment, which emphasize ethical considerations, fairness, accountability, safety, and transparency throughout the AI lifecycle. Google understands that AI poses evolving complexities and risks and pursues AI responsibly

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

A large enterprise needs to store massive amounts of structured data (petabyte-scale) from various operational systems. This data will primarily be used for complex analytical queries involving aggregations and requires SQL access. Which Google Cloud storage service is the most suitable for this specific use case?

A. Cloud Storage
B. Firestore
C. Bigtable
D. BigQuery

A

D

BigQuery is Google’s data warehouse solution, designed to “analyze petabyte-scale datasets”. It is specifically highlighted for “analytical workloads that require SQL commands” and is used when “entire datasets need to be read,” often requiring “complex queries, for example, aggregations”. Cloud Storage is typically used for unstructured data like documents, images, and audio files. Firestore is a transactional, NoSQL, document-oriented database suitable for transactional workloads without SQL. Bigtable provides a scalable NoSQL solution for analytical workloads, best for real-time, high-throughput applications requiring millisecond latency, but for SQL access and complex aggregations on petabyte-scale structured data, BigQuery is the optimal choice

✅ Respuesta Correcta
D. BigQuery

Explicación: BigQuery es el almacén de datos (data warehouse) sin servidor de Google Cloud, diseñado específicamente para este caso de uso. Cumple con todos los requisitos:

Escala Masiva: Está construido para manejar datos a escala de petabytes.

Consultas Analíticas Complejas: Su principal fortaleza es ejecutar rápidamente consultas complejas que involucran agregaciones (SUM, AVG, COUNT) y uniones (JOIN) sobre enormes conjuntos de datos. 📊

Acceso SQL: Utiliza una interfaz SQL estándar, lo que facilita su uso para análisis de datos.

❌ Respuestas Incorrectas
A. Cloud Storage

Explicación: Es un servicio de almacenamiento de objetos, ideal para guardar grandes cantidades de archivos no estructurados (imágenes, videos, copias de seguridad). No es una base de datos y no se puede consultar directamente con SQL. 🗄️

B. Firestore

Explicación: Es una base de datos NoSQL diseñada para aplicaciones (móviles y web). Es excelente para consultas rápidas y pequeñas, como recuperar el perfil de un usuario, pero no para realizar análisis complejos sobre todo el conjunto de datos.

C. Bigtable

Explicación: Es una base de datos NoSQL de alto rendimiento, ideal para grandes cargas de trabajo de lectura y escritura con baja latencia, como datos de IoT o series temporales. No utiliza SQL y no está optimizada para las consultas analíticas complejas que requiere este caso.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

What is the main benefit of decoupling compute and storage in Google Cloud infrastructure?

A. It improves local data access speed.

B. It reduces the number of servers needed.

C. It allows compute and storage to scale independently.

D. It ensures compute and storage are always used together.

A

C

In cloud computing, decoupling compute and storage means they can scale separately based on demand, which increases flexibility and efficiency.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Which of the following are valid supervised learning tasks?

A. Classifying emails as spam or not spam

B. Predicting housing prices

C. Segmenting customers based on behavior

D. Forecasting future product sales

A

A, B y D

El aprendizaje supervisado (supervised learning) se refiere a cualquier tarea de machine learning en la que un modelo aprende a partir de un conjunto de datos que ya contiene las “respuestas correctas” o etiquetas. Piensa en ello como aprender con un profesor que te muestra ejemplos y te dice la solución para que puedas aprender el patrón.

Hay dos tipos principales:

Clasificación: La etiqueta es una categoría (ej: “spam”, “perro”, “fraude”).

Regresión: La etiqueta es un número continuo (ej: 250.000 €, 32°, 1.5M$).

Tareas Supervisadas Válidas ✅
A. Clasificar emails como spam o no spam

Este es un problema clásico de clasificación. El modelo aprende de miles de correos electrónicos que ya han sido etiquetados por humanos como spam o no spam para poder clasificar correos nuevos.

B. Predecir los precios de las viviendas

Este es un problema de regresión. El modelo aprende de un conjunto de datos de casas donde se conocen sus características (metros cuadrados, número de habitaciones, etc.) y su precio final de venta (la etiqueta numérica).

D. Pronosticar las ventas futuras de productos

Este también es un problema de regresión (específicamente, una previsión de series temporales). El modelo utiliza datos históricos de ventas (las ventas de cada día o mes pasado son las etiquetas) para predecir las cifras de ventas en el futuro.

Tarea No Supervisada ❌
C. Segmentar clientes según su comportamiento

Esta tarea es un ejemplo de aprendizaje no supervisado, concretamente clustering. Aquí, no tienes etiquetas predefinidas. El objetivo es que el algoritmo descubra por sí mismo los grupos o segmentos naturales que existen en los datos. No le enseñas cuáles son los segmentos, sino que le pides que los encuentre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Which Google Cloud product enables the creation of ML models using only SQL commands?

A. AutoML
B. Vertex AI Studio
C. BigQuery ML
D. TensorFlow

A

C

BigQuery ML allows users to create and run machine learning models using standard SQL syntax, simplifying the ML workflow without code.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Which tools or products are part of the AI and machine learning layer in the Google Cloud data-to-AI workflow?

A. BigQuery
B. Vertex AI
C. AutoML
D. Cloud Storage

A

B y C

Vertex AI and AutoML are part of the machine learning layer. BigQuery is primarily an analytics tool, and Cloud Storage belongs to the storage layer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Which machine learning algorithm is most appropriate for predicting whether a customer will make a future purchase (binary classification)?

A. Linear regression
B. K-means clustering
C. Logistic regression
D. Principal component analysis

A

C

Logistic regression is used for classification problems, especially binary ones like predicting whether a user will or won’t buy.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Which of the following is NOT a layer in the AI/ML framework on Google Cloud?

A. AI foundations
B. AI development
C. AI solutions
D. Deep learning

A

D

The three layers in the Google Cloud AI/ML framework are AI foundations, AI development, and AI solutions. Deep learning is a subset of machine learning, not a framework layer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Which Google Cloud storage class is best for data that needs to be accessed less than once a year?

A. Standard storage
B. Nearline storage
C. Coldline storage
D. Archive storage

A

D

Archive storage is designed for data that is accessed less than once a year, offering the lowest cost but higher access fees and minimum storage duration.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Which of the following are examples of unsupervised learning tasks? (Select all that apply)

A. Clustering
B. Regression
C. Association
D. Classification

A

A y C

Clustering and association are unsupervised learning tasks, as they find patterns in unlabeled data. Regression and classification are supervised learning tasks.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

What is the main advantage of using TPUs (Tensor Processing Units) for machine learning workloads on Google Cloud?

A. They are general-purpose processors
B. They are optimized for matrix multiplication and ML tasks
C. They are cheaper than CPUs for all workloads
D. They are only used for storage management

A

B

TPUs are custom hardware designed specifically for machine learning, especially for operations like matrix multiplication, making them faster and more efficient for ML workloads.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Which SQL command is used to create a machine learning model in BigQuery ML?

A. ML.EVALUATE
B. CREATE MODEL
C. ML.PREDICT
D. CREATE CLASSIFICATION

A

B

The CREATE MODEL SQL command is used in BigQuery ML to define and train a new machine learning model within the BigQuery environment.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

A retail company wants to analyze its customer purchase history to group customers into distinct segments like “high-value,” “frequent but low-spend,” and “at-risk of churn.” The company does not have these segments predefined and wants the model to discover these groupings from the data itself.
Which machine learning approach and specific task are most appropriate for this business problem?

A. Supervised Learning, Regression
B. Unsupervised Learning, Clustering
C. Supervised Learning, Classification
D. Unsupervised Learning, Dimensionality Reduction

A

B

The key is that the segments are not “predefined.” The model needs to discover the underlying patterns and group the data. This is the definition of Unsupervised Learning. The specific task of grouping data points into sets is Clustering. Regression is for predicting continuous values, classification is for predicting predefined categories, and dimensionality reduction is for reducing the number of features, not for creating customer segments.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

According to the material, a core architectural principle of Google Cloud’s data platform is the separation of two key components, allowing them to scale independently based on demand. This is a major advantage over traditional, on-premises systems.
What are these two decoupled components?

A. Networking and Security
B. Machine Learning and Data Analytics
C. Compute and Storage
D. SQL and NoSQL databases

A

C

The slides (e.g., slide 48, 118) repeatedly emphasize that a fundamental advantage of Google Cloud’s infrastructure is that compute and storage are decoupled. This allows a user to, for example, store petabytes of data in BigQuery (storage) and only pay for the processing power (compute) when they run a query, scaling each resource independently as needed.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

A data analyst is using BigQuery ML to build a model that predicts whether a website visitor will make a purchase in the future. After preparing the data, they are ready to train the model using SQL.
Which BigQuery ML command should they use to initiate the model training process?

A. ML.PREDICT
B. ML.EVALUATE
C. CREATE MODEL
D. TRAIN MODEL

A

C

¿Por qué ‘CREATE MODEL’ es la respuesta correcta?
El comando CREATE MODEL (o CREATE OR REPLACE MODEL) es la instrucción específica en el lenguaje SQL de BigQuery que se usa para iniciar el proceso de creación y entrenamiento de un modelo de machine learning.

Cuando ejecutas esta consulta, le estás diciendo a BigQuery:

Crea un nuevo objeto de modelo en tu conjunto de datos.

Entrénalo usando los datos que le proporcionas en la subconsulta AS SELECT ….

Configúralo con las opciones que especificas en la cláusula OPTIONS(…), como el tipo de modelo (regresión logística, k-means, etc.), el objetivo, y otros hiperparámetros.

En resumen, CREATE MODEL es el comando que comienza todo el proceso de entrenamiento desde cero. ⚙️

¿Por qué las otras opciones son incorrectas?
Las otras opciones son funciones que se utilizan después de que el modelo ya ha sido entrenado.

A. ML.PREDICT: Esta función se usa para hacer predicciones con un modelo que ya existe y está entrenado. Le das nuevos datos y el modelo te devuelve el resultado predicho. Es el paso para usar el modelo, no para crearlo.

B. ML.EVALUATE: Esta función se usa para evaluar el rendimiento de un modelo ya entrenado. Te proporciona métricas como la precisión (accuracy), la pérdida (loss) o el AUC, para que sepas qué tan bueno es tu modelo. Es el paso para validar el modelo, no para entrenarlo.

D. TRAIN MODEL: Aunque conceptualmente “train model” (entrenar modelo) es lo que quieres hacer, no es un comando SQL válido en BigQuery ML. Es una distracción común porque describe la acción, pero no es la sintaxis correcta. La sintaxis correcta para iniciar el entrenamiento es CREATE MODEL.

El flujo de trabajo típico en BigQuery ML es:

CREATE MODEL para entrenar el modelo.

ML.EVALUATE para comprobar su rendimiento.

ML.PREDICT para usarlo y hacer predicciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

The Data-to-AI workflow on Google Cloud consists of several stages. Products like Pub/Sub and Dataflow are used for the initial stage, while BigQuery and Looker are used for a later stage.
To which stage of the workflow do Vertex AI, AutoML, and Model Garden primarily belong?

A. Ingestion and process
B. Storage
C. Analytics
D. AI / machine learning

A

D

As outlined in the workflow diagrams (slides 56-61), Vertex AI is Google’s unified platform for machine learning development. AutoML (a tool within Vertex AI) and Model Garden are specifically for building, training, and managing ML models. This places them squarely in the final AI / machine learning stage of the workflow, which consumes data from the previous stages to create predictive or generative outputs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Google has developed custom Application-Specific Integrated Circuits (ASICs) to accelerate ML workloads, making them significantly faster and more energy-efficient than general-purpose hardware for certain tasks.
Which Google hardware innovation is a domain-specific architecture tailored to accelerate the tensor and matrix operations fundamental to deep learning models?

A. DPU (Data Processing Unit)
B. GPU (Graphics Processing Unit)
C. CPU (Central Processing Unit)
D. TPU (Tensor Processing Unit)

A

D

The Tensor Processing Unit (TPU) is Google’s custom-developed ASIC designed specifically to accelerate the workloads of ML frameworks like TensorFlow (as mentioned on slide 46). While GPUs are also used for ML, TPUs are a Google-specific innovation purpose-built for the matrix multiplication (tensor operations) that are at the core of neural networks.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

What is the primary difference between supervised and unsupervised learning?

A) Supervised learning uses labeled data, while unsupervised learning does not.

B) Supervised learning is used for regression tasks, while unsupervised learning is for classification.

C) Supervised learning requires more computational power than unsupervised learning.

D) Unsupervised learning is always used for predictive modeling.

A

A

Supervised learning involves training on labeled data, where inputs are paired with correct outputs, such as in classification or regression. Unsupervised learning, conversely, works with unlabeled data to identify patterns, like clustering, without predefined outputs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Which of the following Google Cloud services is specifically designed for accelerating machine learning workloads?

A) Compute Engine

B) Cloud Storage

C) Tensor Processing Units (TPUs)

D) BigQuery

A

C

TPUs are custom AI accelerators optimized for speeding up machine learning model training and inference, distinguishing them from general compute services like Compute Engine or data storage solutions like Cloud Storage.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

In the data-to-AI workflow on Google Cloud, what is the role of Pub/Sub?

A) It is used for storing large datasets.

B) It provides real-time messaging for ingesting streaming data.

C) It is a managed relational database service.

D) It is used for running batch processing jobs.

A

B

Pub/Sub facilitates real-time messaging, enabling the ingestion of streaming data into the data pipeline, which is essential for real-time data processing in the data-to-AI workflow.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Which SQL command is used to create a machine learning model in BigQuery ML?

A) CREATE TABLE

B) SELECT

C) CREATE MODEL

D) INSERT INTO

A

C

The CREATE MODEL command in BigQuery ML is used to define and train a machine learning model, specifying parameters like model type and input data, which is a key step in model development.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Which of the following is NOT one of Google's principles for responsible AI? A) Be bold, but responsible B) Avoid creating or reinforcing unfair bias C) Be accountable to people D) Maximize profit above all else
D Google's AI Principles focus on ethical considerations like social benefit, avoiding bias, and accountability, but maximizing profit is not listed, highlighting the emphasis on responsible development over financial gain.
26
What are the three layers of the AI/ML framework on Google Cloud? A. Foundation models, large language models, and application models B. ML development, ML applications, and ML use cases C. AI foundations, AI development, and AI solutions D. AI, ML, and deep learning
C AI foundations, AI development, and AI solutions Las Tres Capas de IA en Google Cloud Google organiza su stack de IA en una pirámide, donde cada capa superior se basa en la inferior, ofreciendo niveles crecientes de abstracción. 1. AI Foundations (Cimientos de IA) 🏛️ Esta es la capa base de la pirámide. Proporciona la infraestructura de hardware y software fundamental optimizada para cargas de trabajo de IA. Componentes: Incluye el hardware de alto rendimiento como las Tensor Processing Units (TPUs) y las GPUs, que son esenciales para entrenar modelos grandes de manera eficiente. 2. AI Development (Desarrollo de IA) 🛠️ Esta es la capa intermedia, dirigida a desarrolladores y científicos de datos. Ofrece una plataforma unificada para construir, entrenar, desplegar y gestionar modelos de machine learning personalizados. Componente principal: El producto estrella aquí es Vertex AI, que integra todo el ciclo de vida del ML, desde la preparación de datos hasta la predicción y el monitoreo (MLOps). 3. AI Solutions (Soluciones de IA) ✨ Esta es la capa superior. Consiste en soluciones pre-construidas y listas para usar que resuelven problemas de negocio específicos. Están diseñadas para ser implementadas rápidamente, a menudo sin necesidad de tener un profundo conocimiento en machine learning. Ejemplos: Contact Center AI (para mejorar los centros de llamadas), Document AI (para extraer datos de documentos) o Discovery AI (para búsquedas avanzadas). Opciones Incorrectas A. Foundation models, large language models, and application models: Estos son tipos de modelos, no las capas del framework de Google Cloud. B. ML development, ML applications, and ML use cases: Los conceptos son similares, pero no es la terminología oficial que usa Google para describir las capas de su plataforma. D. AI, ML, and deep learning: Estos son campos de estudio dentro de la informática, no capas de una plataforma en la nube.
27
Which of the following is one of Google’s AI principles for responsible AI? A. Google makes tools that empower others to harness AI for individual and collective benefit B. Financial benefit should be the only consideration of AI C. Privacy design should not be a concern of AI D. AI should be used to solve any problem regardless of the ethical principles
A Google makes tools that empower others to harness AI for individual and collective benefit
27
Which Google hardware innovation tailors architecture to meet the computation needs on a domain, such as the matrix multiplication in machine learning? A. CPUs (central processing units) B. GPUs (graphic processing units) C. TPUs (tensor processing units) D. DPUs (data processing units)
C TPUs (tensor processing units)
28
On Cloud Storage, which data storage class is best for storing data that needs to be accessed less than once a year? A. Standard storage B. Nearline storage C. Coldline storage D. Archive storage
D Archive storage
29
If you have unstructured data, like images, text, and/or audio, which storage option on Google Cloud would you choose? A. Bigtable B. Cloud SQL C. Spanner D. Cloud Storage
D Cloud Storage
30
Vertex AI, AutoML, and Generative AI Studio align to which stage of the data-to-AI workflow? A. Ingestion and process B. Storage C. Analytics D. Machine learning
D Machine learning
31
You want to use machine learning to discover the underlying pattern and group a collection of unlabeled photos into different sets. Which should you use? A. Unsupervised learning, cluster analysis B. Supervised learning, linear regression C. Supervised learning, logistic regression D. Unsupervised learning, dimensionality reduction
A Unsupervised learning, cluster analysis ✅ Opción Correcta A. Aprendizaje no supervisado, análisis de clústeres (Unsupervised learning, cluster analysis) Esta opción es la única que se alinea perfectamente con los requisitos del problema. ¿Por qué "Aprendizaje no supervisado"? El detalle clave es que la colección de fotos es "no etiquetada" (unlabeled). Esto significa que no tienes respuestas correctas predefinidas para entrenar un modelo. El aprendizaje no supervisado es el enfoque que se utiliza para encontrar patrones y estructuras ocultas en datos sin etiquetar. ¿Por qué "Análisis de clústeres"? El objetivo es "agrupar" (group) las fotos en diferentes conjuntos basándose en sus similitudes. Esta es precisamente la definición de análisis de clústeres (o clustering): agrupar automáticamente los datos en grupos (clústeres) donde los elementos dentro de un mismo grupo son más similares entre sí que con los de otros grupos. ❌ Opciones Incorrectas B y C. Aprendizaje supervisado (Supervised learning) Ambas opciones son incorrectas porque proponen usar aprendizaje supervisado. ¿Por qué no son correctas? El aprendizaje supervisado (tanto la regresión lineal como la logística) requiere datos etiquetados para el entrenamiento. Por ejemplo, para entrenar un modelo que identifique gatos, necesitarías miles de fotos con la etiqueta "gato". Como el problema indica que las fotos no están etiquetadas, estos métodos no se pueden aplicar. D. Aprendizaje no supervisado, reducción de dimensionalidad (Unsupervised learning, dimensionality reduction) Aunque utiliza el paradigma correcto (aprendizaje no supervisado), no es la técnica adecuada para el objetivo final. ¿Por qué no es correcta? La reducción de dimensionalidad (como el PCA) es una técnica no supervisada que se utiliza para reducir el número de variables en un conjunto de datos, simplificándolo. Si bien puede ser un paso útil antes de realizar un análisis de clústeres (para que funcione mejor), su propósito principal no es agrupar los datos, sino simplificarlos. La tarea específica de agrupar es el clustering.
32
Which SQL command would you use to create an ML model in BigQuery ML? A. ML.EVALUATE B. CREATE CLASSIFICATION C. CREATE MODEL D. ML.PREDICT
C CREATE MODEL
33
A video production company wants to use machine learning to categorize event footage but does not want to train its own ML model. Which option can help you get started? A. BigQuery ML B. Pre-trained APIs C. AutoML D. Custom training
B ✅ B. APIs Pre-entrenadas (Pre-trained APIs) Esta es la opción correcta porque cumple con el requisito principal: no querer entrenar un modelo propio. Las APIs pre-entrenadas de Google son modelos de machine learning ya listos para usar, que Google ha entrenado con enormes cantidades de datos. Para este caso, la empresa usaría la API de Video Intelligence. Cómo funciona: La empresa envía sus vídeos a la API. El modelo pre-entrenado de Google analiza el contenido. La API devuelve etiquetas y categorías que describen lo que aparece en el vídeo (p. ej., "boda", "evento deportivo", "conferencia"). Es la forma más rápida y sencilla de obtener resultados de ML sin ninguna experiencia en entrenamiento. 📲 ❌ Opciones Incorrectas A. BigQuery ML: Esta herramienta se usa para crear y entrenar modelos de ML sobre datos que ya están en BigQuery (generalmente datos tabulares, no vídeos). Requiere entrenamiento. C. AutoML: Aunque AutoML automatiza el proceso, su objetivo es entrenar un modelo personalizado con los datos que tú le proporcionas. La empresa tendría que subir sus propios vídeos etiquetados para que AutoML cree un modelo nuevo, lo cual viola el requisito de "no entrenar". D. Entrenamiento personalizado (Custom training): Esta es la opción más compleja. Implica escribir el código del modelo desde cero y gestionar todo el proceso de entrenamiento. Es exactamente lo que la empresa quiere evitar.
34
Your company has a massive amount of data, and you want to train your own machine learning model to see what insights ML can provide. Due to resource constraints, you require a codeless solution. Which option is best? A. BigQuery ML B. Pre-trained APIs C. AutoML D. Custom training
C AutoML
35
You work for a global hotel chain that has recently loaded some guest data into BigQuery. You have experience writing SQL and want to leverage machine learning to help predict guest trends for the next few months. Which option is best? A. BigQuery ML B. Pre-trained APIs C. AutoML D. Custom training
A BigQuery ML
36
Which code-based solution offered with Vertex AI gives data scientists full control over the development environment and process? A. AutoML B. Custom training C. AI Platform D. AI Solutions
B Custom training
37
tf.keras is a high-level TensorFlow library that has been commonly used to build ML models. Which of the following lets you create a neural network with multiple layers? A. tf.keras.Run B. tf.keras.Sequential C. model.compile D. model.fit
B tf.keras.Sequential ✅ Opción Correcta B. tf.keras.Sequential 🧱 Esta es la forma más sencilla y común de crear un modelo en Keras. Piensa en ello como un contenedor vacío al que le vas añadiendo capas (tf.keras.layers) en secuencia, una después de la otra, para construir tu red neuronal. Ejemplo conceptual model = tf.keras.Sequential([ tf.keras.layers.Dense(128, activation='relu'), # Primera capa tf.keras.layers.Dense(64, activation='relu'), # Segunda capa tf.keras.layers.Dense(10, activation='softmax') # Capa de salida ]) ❌ Opciones Incorrectas A. tf.keras.Run Esta función o clase no existe en la librería tf.keras. Es simplemente un distractor. C. model.compile ⚙️ Esta función se usa después de haber creado el modelo. Su propósito no es construir la red, sino configurarla para el entrenamiento. Aquí es donde defines el optimizador (cómo aprende el modelo), la función de pérdida (cómo se mide el error) y las métricas de evaluación. D. model.fit 🏋️ Esta función se usa después de crear y compilar el modelo. Su propósito es entrenar el modelo utilizando tus datos. Le pasas los datos de entrenamiento y le dices cuántas veces debe "estudiarlos" (epochs).
38
Which of the following can you do with the Natural Language API? A. Analyze sentiment and identify subjects of text. B. Generate a caption for a YouTube video. C. Classify pictures. D. Complete new areas of an existing image.
A La API de Natural Language es una herramienta diseñada específicamente para analizar y comprender texto. Sus dos funciones más importantes y utilizadas son: Análisis de sentimiento: Determina si un bloque de texto tiene una connotación emocional positiva, negativa o neutra. Identificación de entidades (sujetos): Extrae y clasifica personas, lugares, organizaciones y otros "sujetos" mencionados en el texto. Esta opción describe perfectamente las capacidades centrales del servicio. ❌ Opciones Incorrectas B. Generar subtítulos para un vídeo de YouTube. Esto es incorrecto. Para convertir el audio de un vídeo en texto (subtítulos), se necesita la API Speech-to-Text. La API de Natural Language analiza texto que ya existe, no lo crea a partir de audio. C. Clasificar imágenes. Esto es incorrecto. Para analizar y clasificar el contenido de una imagen (identificar objetos, caras, etc.), se utiliza la API Vision AI. La API de Natural Language solo trabaja con texto, no con píxeles. D. Completar nuevas áreas de una imagen existente. Esto es incorrecto. Esta tarea, conocida como inpainting o relleno generativo, es una función de modelos de Inteligencia Artificial generativa para imágenes, como Imagen en Vertex AI. No tiene nada que ver con el análisis de lenguaje natural.
39
Select the correct machine learning workflow. A. Data preparation, model evaluation, model training B. Model training, data preparation, model serving C. Model serving, data preparation, model development D. Data preparation, model development, model serving
D Data preparation, model development, model serving
40
Which stage of the machine learning workflow includes data upload and feature engineering? A. Model training B. Data preparation C. Model serving
B Respuesta Correcta B. Data preparation (Preparación de Datos): Esta es la etapa inicial y crucial de cualquier flujo de trabajo de Machine Learning. Incluye todas las tareas necesarias para limpiar, transformar y organizar los datos brutos antes de alimentar el modelo. Las actividades clave en esta etapa son: Carga/Ingesta de datos (Data Upload/Ingestion): Obtener los datos de su fuente de origen y cargarlos en el entorno de trabajo. Ingeniería de características (Feature Engineering): El proceso de seleccionar, transformar y crear nuevas variables (características o features) a partir de los datos sin procesar para mejorar el rendimiento del modelo. Esto es fundamental para el éxito del modelo. Respuestas Incorrectas A. Model training (Entrenamiento del Modelo): Esta etapa ocurre después de la preparación de los datos. El entrenamiento consiste en alimentar el modelo con los datos preparados (las características y las etiquetas) y ajustar sus pesos internos para que aprenda a mapear las entradas a las salidas deseadas. C. Model serving (Servicio del Modelo): Esta es la etapa final, que ocurre después de que el modelo ha sido entrenado, validado y desplegado. El servicio implica poner el modelo en producción para que pueda recibir nuevas entradas de datos y generar predicciones en tiempo real o por lotes. Es la fase de uso del modelo.
41
Which stage of the machine learning workflow includes model training and evaluation? A. Model development B. Data preparation C. Model serving D. Problem framing
A Por qué la opción A es la correcta La opción A) Model development (Desarrollo del modelo) es la fase central del proceso donde se crea y perfecciona el modelo. Este es el corazón del trabajo de un científico de datos e incluye un ciclo iterativo de: Entrenamiento (Training): Se elige un algoritmo (como una red neuronal, un árbol de decisión, etc.) y se le alimenta con los datos preparados para que "aprenda" los patrones que contienen. Aquí es donde se ajustan los parámetros internos del modelo. Evaluación (Evaluation): Una vez entrenado, el modelo se prueba con un conjunto de datos que no ha visto antes (el conjunto de validación o test) para medir su rendimiento y precisión. Este ciclo de entrenar y evaluar se repite, a menudo ajustando hiperparámetros (como el learning rate que vimos antes), hasta que el modelo cumple con los criterios de calidad deseados. Por lo tanto, ambas actividades son componentes esenciales de la fase de desarrollo. 👨‍💻🔬 Por qué las otras opciones son incorrectas B) Data preparation (Preparación de datos): Incorrecto. Esta es una fase previa al desarrollo del modelo. Consiste en tomar los datos brutos y limpiarlos, transformarlos, normalizarlos y estructurarlos de manera que el algoritmo pueda entenderlos. Es como preparar los ingredientes antes de empezar a cocinar. No puedes entrenar un modelo con datos desordenados o incompletos. C) Model serving (Puesta en producción del modelo): Incorrecto. Esta es una fase posterior al desarrollo. Una vez que tienes un modelo entrenado y evaluado que te satisface, el "model serving" o despliegue es el proceso de integrarlo en una aplicación real para que pueda hacer predicciones con datos nuevos y en tiempo real. Es como poner el coche que has construido en la carretera para que la gente lo use. D) Problem framing (Definición del problema): Incorrecto. Esta es la primera fase de todo el flujo de trabajo, incluso antes de la preparación de los datos. Aquí es donde se define el objetivo de negocio. ¿Qué problema queremos resolver? ¿Qué métrica definirá el éxito? ¿Es un problema de clasificación o de regresión? Se trata de entender el "porqué" antes de empezar a trabajar en el "cómo".
42
A hospital uses the machine learning technology of Google to help pre-diagnose cancer by feeding historical patient medical data to the model. The goal is to identify as many potential cases as possible. Which metric should the model focus on? A. Recall B. Precision C. Feature importance D. Confusion matrix
A PPor qué la respuesta A (Recall) es la buena El objetivo principal es "identificar tantos casos potenciales como sea posible". En un contexto médico de pre-diagnóstico de cáncer, esto significa que el peor error posible es un Falso Negativo (FN). Un Falso Negativo ocurre cuando el modelo dice que un paciente está sano, pero en realidad sí tiene cáncer. Este es el peor escenario, ya que esa persona no recibirá tratamiento a tiempo. El Recall (también conocido como Sensibilidad o Tasa de Verdaderos Positivos) es la métrica que mide exactamente este problema. Su fórmula es: RECALL = VERDADEROS POSITIVOS / ( VERADEROS POSITIVOS + FALSOS NEGATIVOS) En español simple, el Recall responde a la pregunta: "De todas las personas que realmente tienen cáncer, ¿a cuántas logramos identificar?". Al maximizar el Recall, estás forzando al modelo a minimizar los Falsos Negativos. El modelo se vuelve muy "sensible" y prefiere pecar de precavido. Está bien si genera algunos Falsos Positivos (pacientes sanos marcados como "potencial caso", que luego se descartarán con más pruebas), siempre y cuando no se le escape ningún caso real. Por qué las otras opciones son malas B. Precision (Precisión): Esta métrica mide lo opuesto. Responde a la pregunta: "De todos los pacientes que el modelo dijo que tenían cáncer, ¿cuántos acertó?". Optimizar la precisión significa minimizar los Falsos Positivos (FP). En este escenario, el modelo sería muy "cauteloso", y solo marcaría un caso si estuviera segurísimo. Esto provocaría que muchos casos dudosos se quedaran sin marcar, aumentando los Falsos Negativos, lo cual es inaceptable. C. Feature importance (Importancia de las características): Esto no es una métrica de rendimiento del modelo. Es una técnica de explicabilidad (IA Explicable o XAI) que te dice qué factores (ej. "edad", "genes", "peso") usó el modelo para tomar su decisión. Es útil para validar el modelo, pero no mide si está cumpliendo su objetivo. D. Confusion matrix (Matriz de confusión): La matriz de confusión no es una métrica única en la que te puedas "enfocar". Es una herramienta (una tabla) que visualiza el rendimiento y se usa como base para calcular las métricas como el Recall, la Precision y la Accuracy. No puedes "optimizar la matriz de confusión" directamente; optimizas una de las métricas que se derivan de ella.
43
A farm uses the machine learning technology of Google to detect defective apples in their crop, like those with irregular sizes or scratches. The goal is to identify only the apples that are actually bad so that no good apples are wasted. Which metric should the model focus on? A. Recall B. Precision C. Feature importance D. Confusion matrix
B Precision El objetivo principal es "que no se desperdicien manzanas buenas". Esto significa que el error que se debe evitar a toda costa es clasificar una manzana buena como defectuosa. En terminología de machine learning, esto es un Falso Positivo. Positivo: La manzana es "defectuosa". Negativo: La manzana es "buena". Falso Positivo: El modelo dice que la manzana es "defectuosa", pero en realidad era "buena". (🍎→🗑️= 낭비/desperdicio). La métrica que se enfoca en minimizar los Falsos Positivos es la precisión. ✅ Opción Correcta B. Precision (Precisión) ¿Qué mide?: De todas las manzanas que el modelo predijo como defectuosas, ¿qué porcentaje realmente lo eran? Fórmula: Precisión = Verdaderos Positivos / (Verdaderos Positivos + Falsos Positivos) ¿Por qué es correcta?: Un modelo con alta precisión es muy fiable cuando identifica una manzana como defectuosa. Si la precisión es del 99%, significa que el 99% de las manzanas que el sistema aparta son realmente malas, y solo el 1% son buenas (minimizando el desperdicio). Esto se alinea perfectamente con el objetivo del negocio. ❌ Opciones Incorrectas A. Recall (Exhaustividad o Sensibilidad) ¿Qué mide?: De todas las manzanas que eran realmente defectuosas, ¿qué porcentaje encontró el modelo? ¿Por qué no es correcta?: Un modelo con alto recall se asegura de encontrar la mayor cantidad posible de manzanas malas. Sin embargo, para lograrlo, podría volverse menos estricto y, como consecuencia, clasificar erróneamente muchas manzanas buenas como malas (aumentando los Falsos Positivos). Esto llevaría a desperdiciar manzanas buenas, que es exactamente lo que se quiere evitar. C. Feature importance (Importancia de características) ¿Qué es?: Esta no es una métrica de rendimiento del modelo. Indica qué características de la manzana (como color, tamaño o forma) son más importantes para el modelo al tomar una decisión. Es útil para entender el modelo, pero no para medir si cumple el objetivo de negocio. D. Confusion matrix (Matriz de confusión) ¿Qué es?: La matriz de confusión es una tabla que muestra el rendimiento completo del modelo (Verdaderos Positivos, Falsos Positivos, etc.). Es la herramienta que se usa para calcular métricas como la precisión y el recall, pero no es la métrica específica en la que el modelo debe enfocarse. La pregunta pide la métrica, no la herramienta para visualizarla.
44
Which of the following provides a toolkit to automate, monitor, and govern machine learning systems by orchestrating the workflow in a serverless manner? A. Responsible AI B. Explainable AI C. Vertex AI Pipelines D. Vertex AI Feature Store
C Vertex AI Pipelines
45
When you build an ML pipeline on Vertex AI to automate the ML workflow, what are the components you can use? A. You can include both prebuilt components (by Google) and custom components into the pipeline. B. You can only rely on custom components. C. You can only use prebuilt components. D. You can only use the prebuilt pipeline template without the flexibility to customize it.
A You can include both prebuilt components (by Google) and custom components into the pipeline.
46
How does generative AI generate new content? A. It learns from a massive amount of existing content and can then be used to solve general problems or be further tuned to solve specific problems. B. The training leads to a foundation model that cannot be further tuned with a new dataset. C. It’s programmed based on predetermined algorithms that cannot be altered. D. It’s a random process.
A It learns from a massive amount of existing content and can then be used to solve general problems or be further tuned to solve specific problems.
47
What is Vertex AI Studio? A. A tool that lets you quickly test and customize generative AI models so you can leverage their capabilities in your applications. B. A type of artificial intelligence that writes emails for you. C. A machine learning model that is trained on text only. D. A technology that lets you code programming languages without learning them.
A A tool that lets you quickly test and customize generative AI models so you can leverage their capabilities in your applications.
48
Which of the following is a type of prompt that allows a large language model to perform a task with only a small number of examples? A. Zero-shot prompt B. One-shot prompt C. Few-shot prompt D. Unsupervised prompt
C Few-shot prompt
49
Which of the following is the best way to generate more creative or unexpected content by adjusting the model parameters in Generative AI Studio? A. Set the temperature to a low value. B. Set the temperature to a high value. C. Set the top K to 1. D. Set the top P to 25%.
B Set the temperature to a high value.
50
What are the two categories of AI solutions provided by Google Cloud? A. Vertical solutions, which focus on specific industries, and horizontal solutions, which solve problems across industries. B. Contact Center AI and Document AI. C. Vertex AI and generative AI. D. Prebuilt solutions and custom solutions.
A Vertical solutions, which focus on specific industries, and horizontal solutions, which solve problems across industries.
51
You run a call center that handles customer questions from multiple channels, such as email, phone calls, and chat. You want to improve customer satisfaction and agent efficiency by using AI to automate routine requests, help agents with complex tasks and discover insights. Which AI solution on Google Cloud should you choose? A. Document AI B. Discovery AI C. Healthcare AI D. Contact Center AI
D Contact Center AI
52
What is a prompt? A. A prompt is the natural language request or instruction to guide a model to generate a desired output. B. A prompt is used to explain how a large language model generates text. C. A prompt is used to fine tune a large language model. D. A prompt is used to evaluate a generative AI model.
A A prompt is the natural language request or instruction to guide a model to generate a desired output.
53
¿Cuál es el algoritmo subyacente que utiliza Boosted ML en BigQuery? a) Modelos Lineales b) Redes Neuronales c) Gradient Boosted Trees d) K-Means Clustering
C
54
Si necesitas predecir si un cliente abandonará o no un servicio (una clasificación binaria), ¿qué MODEL_TYPE deberías usar? a) BOOSTED_TREE_REGRESSOR b) LINEAR_REG c) BOOSTED_TREE_CLASSIFIER d) GRADIENT_BOOSTING
C Claro, aquí tienes la explicación. La respuesta correcta es la c) BOOSTED_TREE_CLASSIFIER. Por qué la opción c) es la correcta Un BOOSTED_TREE_CLASSIFIER es la elección adecuada porque tu objetivo es una clasificación binaria. Esto significa que quieres predecir una de dos posibles categorías: el cliente abandona (churn) o no abandona. Classifier (Clasificador): El propio nombre lo indica. Este tipo de modelo está diseñado específicamente para asignar una etiqueta o categoría a cada dato. En este caso, las etiquetas son "abandona" y "no abandona". Boosted Tree (Árbol Potenciado): Es un método de aprendizaje automático muy potente que combina múltiples árboles de decisión débiles para crear un modelo predictivo fuerte y preciso. Es especialmente eficaz para datos tabulares, como suelen ser los datos de clientes. En resumen, un BOOSTED_TREE_CLASSIFIER está diseñado exactamente para el problema que se plantea: clasificar entre dos o más categorías. Por qué las otras opciones son incorrectas a) BOOSTED_TREE_REGRESSOR: Esta opción es incorrecta porque un regresor (REGRESSOR) se utiliza para predecir un valor numérico continuo, no una categoría. Por ejemplo, lo usarías si quisieras predecir cuánto gastará un cliente el próximo mes o cuántos días tardará en abandonar. No sirve para predecir la pregunta de "sí o no" que implica el abandono. b) LINEAR_REG: Al igual que el anterior, LINEAR_REG es un modelo de regresión (en este caso, regresión lineal). Su función es encontrar una relación lineal para predecir un número continuo. Intentar usarlo para una clasificación binaria es conceptualmente incorrecto y daría resultados poco fiables. Para usar un modelo lineal en clasificación, necesitarías una LOGISTIC_REGRESSION (Regresión Logística), que sí está adaptada para problemas de clasificación. d) GRADIENT_BOOSTING: Esta opción es demasiado genérica y ambigua. Gradient Boosting es la técnica subyacente que utilizan tanto BOOSTED_TREE_CLASSIFIER como BOOSTED_TREE_REGRESSOR. Es el "cómo" se entrena el modelo, no el tipo de modelo específico para una tarea. Aunque la técnica es correcta, no especifica si se va a aplicar a un problema de clasificación o de regresión, por lo que BOOSTED_TREE_CLASSIFIER es una respuesta mucho más precisa y completa.
55
¿Cómo funciona fundamentalmente el algoritmo de Boosted Trees? a) Crea un único árbol de decisión muy profundo para capturar todas las relaciones. b) Construye varios árboles en paralelo y promedia sus resultados. c) Construye árboles en secuencia, donde cada nuevo árbol intenta corregir los errores del anterior. d) Agrupa los datos en clusters antes de aplicar un modelo de regresión.
C
56
En el ejemplo práctico, el parámetro max_iterations = 50 significa que el modelo... a) Tendrá una profundidad máxima de 50 niveles. b) Usará 50 variables de entrada. c) Construirá un máximo de 50 árboles de decisión. d) Tardará 50 segundos en entrenar.
C
57
¿Cuál de las siguientes es una desventaja principal de los modelos Boosted? a) Son menos precisos que los modelos lineales. b) No pueden manejar datos categóricos. c) Su entrenamiento es más lento y pueden sobreajustarse si se configuran mal. d) Son muy fáciles de interpretar.
C
58
¿Para qué se utiliza la función ML.FEATURE_IMPORTANCE después de entrenar un modelo? a) Para evaluar la precisión del modelo. b) Para hacer nuevas predicciones en datos no vistos. c) Para entender qué variables de entrada son más influyentes en las predicciones del modelo. d) Para exportar el modelo a otro entorno.
C
59
¿Qué es Boosted ML en BigQuery ML?
Es el uso del algoritmo Gradient Boosted Trees para tareas de clasificación y regresión.
60
¿Qué comando SQL se usa para crear un modelo de clasificación con Boosted Trees?
CREATE MODEL ... OPTIONS(MODEL_TYPE='BOOSTED_TREE_CLASSIFIER')
61
En BigQuery ML, ¿qué comando SQL se utiliza para crear un modelo de regresión? A) CREATE MODEL ... OPTIONS(model_type='regression') B) CREATE MODEL ... OPTIONS(model_type='linear_reg') C) CREATE MODEL ... OPTIONS(model_type='logistic_reg') D) CREATE MODEL ... OPTIONS(model_type='tree_reg')
B En BigQuery ML, la regresión lineal es el algoritmo estándar para predecir un valor numérico continuo (como el precio de una casa, la temperatura o las ventas futuras). El parámetro específico que espera Google Cloud para este tipo de modelo es exactamente 'linear_reg'. Por qué las otras son incorrectas: A) model_type=’regression’: Aunque "regression" es el nombre general del concepto estadístico, no es el nombre del parámetro técnico en BigQuery. SQL requiere nombres específicos para los modelos, y regression a secas daría un error de sintaxis. C) model_type=’logistic_reg’: Este comando existe, pero se utiliza para Regresión Logística. A pesar de llevar "regresión" en el nombre, se usa para problemas de clasificación (predecir categorías como "Sí/No", "Spam/No Spam"), no para predecir valores numéricos continuos. D) model_type=’tree_reg’: Este comando no existe como tal en la sintaxis estándar de BigQuery ML. Si quisieras usar modelos basados en árboles para una regresión, tendrías que usar opciones como 'boosted_tree_regressor' o 'random_forest_regressor'. Ejemplo de cómo se vería el código completo: CREATE OR REPLACE MODEL `mi_proyecto.mi_dataset.modelo_ventas` OPTIONS(model_type='linear_reg') AS SELECT label, -- La columna que quieres predecir feature1, feature2 FROM `mi_proyecto.mi_dataset.datos_entrenamiento` Punto clave para el examen: * Si el objetivo es predecir un número: linear_reg. Si el objetivo es predecir una categoría: logistic_reg.
62
En los modelos basados en árboles de decisión (por ejemplo, XGBoost o Random Forest), ¿para qué sirve el parámetro max_tree_depth? A) Define el número máximo de árboles que el modelo puede construir. B) Limita cuántas ramas puede generar un nodo en cada división. C) Establece la profundidad máxima (niveles) que puede alcanzar un árbol, controlando su complejidad. D) Indica el número mínimo de muestras necesarias para realizar una división.
C
63
En los modelos de boosting (por ejemplo, XGBoost o LightGBM), ¿qué controla el parámetro learning_rate (también llamado eta o tasa de aprendizaje)? A) La cantidad de árboles que se entrenan en el modelo. B) El tamaño del paso con el que cada árbol corrige los errores de los anteriores. C) La profundidad máxima que puede alcanzar cada árbol. D) La proporción de datos usada en cada iteración del entrenamiento.
B
64
¿En qué escenarios es especialmente recomendable usar Boosted ML?
Cuando se requiere alta precisión en datos tabulares, los modelos lineales son insuficientes y el conjunto de datos es de tamaño mediano.
65
Menciona una ventaja clave de los modelos Boosted.
Alta precisión en las predicciones y su capacidad para manejar bien datos faltantes y mixtos (numéricos y categóricos).
66
Menciona una desventaja clave de los modelos Boosted.
El entrenamiento es más lento que en modelos más simples y son menos interpretables que un modelo lineal.
67
¿Qué función de BigQuery ML se usa para evaluar el rendimiento de un modelo ya entrenado?
ML.EVALUATE
68
¿Qué función se usa para hacer predicciones con un modelo ya entrenado?
ML.PREDICT
69
¿Cuál es el objetivo principal del modelo que se está creando con model_type='linear_reg'? a) Clasificar datos en dos o más categorías. b) Agrupar datos similares en clusters. c) Predecir un valor numérico continuo (como un precio o una temperatura). d) Encontrar anomalías en los datos.
C
70
¿Qué indica el parámetro input_label_cols=['precio']? a) Que la columna 'precio' debe ser ignorada durante el entrenamiento. b) Que 'precio' es la columna que el modelo intentará predecir. c) Que solo se usará la columna 'precio' para entrenar el modelo. d) Que el modelo se llamará 'precio'.
B
71
La combinación de data_split_method='RANDOM' y data_split_eval_fraction=0.2 resulta en que... a) El 20% de los datos se usa para entrenar y el 80% para evaluar. b) El 20% de los datos se selecciona aleatoriamente para evaluación y el resto para entrenamiento. c) El 20% de los datos más recientes se usa para evaluación. d) Se crean 0.2 modelos diferentes de forma aleatoria.
B
72
¿Qué sucederá si ya existe un modelo llamado mi_modelo en mi_dataset cuando se ejecuta este código? CREATE OR REPLACE MODEL `mi_dataset.mi_modelo` OPTIONS( model_type='LOGISTIC_REG', labels=['columna_objetivo'] ) AS SELECT caracteristica_1, caracteristica_2, columna_objetivo FROM `mi_dataset.tabla_de_origen`; a) La consulta fallará con un error de "objeto ya existente". b) Se creará un nuevo modelo con un sufijo numérico (ej: mi_modelo_1). c) El modelo existente será eliminado y reemplazado por el nuevo. d) Se le pedirá al usuario que confirme la sobreescritura.
C
73
¿Qué parte de la consulta define de dónde provienen los datos para entrenar el modelo? a) OPTIONS(...) b) CREATE OR REPLACE MODEL ... c) input_label_cols=['precio'] d) AS SELECT * FROM \mi_dataset.mi_tabla``
D
74
¿Para qué sirve la cláusula CREATE OR REPLACE MODEL en BigQuery ML? A) Permite crear un nuevo modelo o reemplazar uno existente con el mismo nombre. Si el modelo ya existe, lo sobrescribe con la nueva definición y entrenamiento. B) Permite crear un modelo incremental que se entrena a partir de los pesos del modelo existente, conservando su histórico y añadiendo los nuevos datos. C) Sirve para modificar parcialmente la arquitectura de un modelo ya creado (por ejemplo, cambiar hiperparámetros o el tipo de algoritmo) sin necesidad de volver a entrenarlo desde cero. D) Se utiliza únicamente en validación cruzada para reemplazar automáticamente los modelos generados en cada fold sin necesidad de especificar nombres diferentes.
A
75
En BigQuery ML, ¿qué tipo de problema resuelve un modelo creado con model_type='linear_reg'? A) Resuelve problemas de predicción de variables continuas (regresión), como estimar precios o temperaturas, mediante una función lineal de los predictores. B) Resuelve problemas de clasificación binaria, asignando una probabilidad a cada clase y aplicando un umbral para decidir la categoría. C) Resuelve problemas de clustering, agrupando los datos en función de la similitud de sus variables. D) Resuelve problemas de regresión polinómica, donde la relación entre variables independientes y dependientes se ajusta a una función no lineal.
A
76
¿Qué es la "etiqueta" de un modelo y cómo se especifica en este código?
Es la columna que se quiere predecir. Se especifica con input_label_cols=['nombre_columna'], en este caso, ['precio'].
77
¿Por qué es una buena práctica dividir los datos en un conjunto de entrenamiento y uno de evaluación?
Para evaluar el rendimiento del modelo en datos que no ha "visto" durante el entrenamiento, lo que da una medida más realista de su precisión y ayuda a detectar el sobreajuste (overfitting).
78
En el siguiente código, se define el parámetro data_split_eval_fraction=0.2. ¿Qué porcentaje de los datos se utiliza para entrenar el modelo? a) 20% b) 50% c) 80% d) 100%
C
79
Al crear un modelo en BigQuery ML con la sentencia CREATE MODEL, ¿qué especifica la cláusula AS SELECT ...?
Significa que el modelo se entrenará utilizando todas las columnas (*) de la tabla especificada (mi_dataset.mi_tabla) como datos de entrada.
80
¿Cuál es el objetivo principal de hacer que un proceso de entrenamiento de modelos sea "repetible"? a) Hacer que el modelo entrene más rápido. b) Garantizar que se obtienen exactamente los mismos resultados cada vez que se ejecuta el código. c) Asegurar que el modelo siempre tenga una precisión superior al 90%. d) Utilizar menos recursos computacionales.
B
81
¿En cuál de los siguientes escenarios es MÁS crucial la repetibilidad? a) Durante una exploración inicial y rápida de los datos. b) Cuando se está comparando el rendimiento de un modelo Boosted Tree contra un Linear Regression. c) Cuando se quiere que el modelo se adapte a nuevos datos cada día. d) Cuando se usa validación cruzada (cross-validation).
B
82
Si no haces tu proceso repetible al comparar dos modelos, ¿cuál es el principal riesgo? a) La consulta SQL fallará. b) Los modelos tardarán más en entrenar. c) La comparación no será justa, ya que los modelos podrían haber sido entrenados con divisiones de datos ligeramente diferentes. d) No podrás usar la función ML.PREDICT.
C
83
¿cuál es una situación en la que NO hacer el proceso repetible es aceptable? a) Al documentar los resultados para un artículo científico. b) Al poner un modelo en un entorno de producción que requiere auditorías. c) Cuando se utiliza validación cruzada, ya que la técnica en sí misma implica crear múltiples divisiones de datos. d) Al depurar un error inesperado en el rendimiento del modelo.
C
84
¿Por qué la repetibilidad es importante para la depuración (debugging) y las pruebas? a) Porque los errores de código solo aparecen en ejecuciones repetibles. b) Porque si los resultados cambian, permite saber con certeza que el cambio se debe a una modificación en el código y no al azar en la división de datos. c) Porque los procesos repetibles usan menos memoria. d) Porque simplifica la sintaxis de la consulta SQL.
B b) Permite aislar la causa de los cambios (Respuesta Correcta) ✅ Esta es la razón principal. La repetibilidad funciona como un control científico. Al asegurarte de que un proceso produce exactamente el mismo resultado si no cambias nada, estableces una línea base fiable. Para la depuración (Debugging): Si encuentras un error, necesitas poder reproducirlo de manera consistente para entender qué lo causa. Si el error aparece y desaparece al azar, es casi imposible de arreglar. La repetibilidad garantiza que el error se manifieste cada vez que ejecutes el código bajo las mismas condiciones. Para las pruebas (Testing): Cuando modificas tu código para arreglar un error o añadir una nueva función, necesitas saber con certeza que cualquier cambio en el resultado se debe a tu modificación y no a otro factor, como una división aleatoria de datos de entrenamiento y prueba que ha sido diferente esta vez. En resumen, la repetibilidad elimina el azar y te permite aislar el impacto de tus cambios en el código. a) Porque los errores de código solo aparecen en ejecuciones repetibles (Incorrecta) ❌ Esto es falso. De hecho, algunos de los errores más difíciles de depurar (conocidos como Heisenbugs) son aquellos que aparecen de forma intermitente y no son fáciles de repetir, como las condiciones de carrera (race conditions) en programas paralelos. c) Porque los procesos repetibles usan menos memoria (Incorrecta) ❌ No existe una relación directa entre la repetibilidad de un proceso y la cantidad de memoria que consume. Un proceso puede ser perfectamente repetible y consumir mucha memoria, o ser no repetible y consumir poca. Son conceptos independientes. d) Porque simplifica la sintaxis de la consulta SQL (Incorrecta) ❌ La repetibilidad es un concepto sobre el comportamiento de la ejecución del código, no sobre la sintaxis del lenguaje. La complejidad de una consulta SQL no tiene nada que ver con si su ejecución producirá siempre el mismo resultado. Resumen Clave La repetibilidad es crucial porque elimina la aleatoriedad, permitiéndote confiar en que los resultados de tus pruebas cambian únicamente cuando tú cambias el código. Esto es esencial para depurar errores de forma fiable y validar que tus soluciones funcionan correctamente.
85
En Machine Learning, ¿qué significa hacer un proceso "repetible"?
Significa asegurar que se obtengan exactamente los mismos resultados del modelo si se vuelve a ejecutar el mismo código.
86
¿Por qué es importante la repetibilidad al comparar dos modelos diferentes?
Para garantizar una comparación justa. Ambos modelos deben entrenar y ser evaluados con los mismos conjuntos de datos.
87
Nombra dos contextos profesionales donde la repetibilidad es fundamental.
1. Entornos de producción y auditoría (para consistencia y trazabilidad). 2. Documentación científica o técnica (para que otros puedan replicar tus resultados).
88
¿Cómo afecta la falta de repetibilidad a la depuración de un modelo?
Dificulta saber si una variación en el resultado se debe a un cambio en el código o simplemente al azar en la división de los datos.
89
¿Es siempre un error no tener un proceso repetible?
No. En algunos casos es aceptable, como en la exploración inicial de datos o al usar validación cruzada.
90
¿Qué es la validación cruzada (cross-validation) y por qué se considera una excepción a la regla de la repetibilidad en Machine Learning? A) Es una técnica de validación en la que se entrena y evalúa un modelo sobre diferentes particiones del conjunto de datos. Es una excepción a la repetibilidad porque cada partición puede producir ligeras variaciones en los resultados, aunque el procedimiento sea sistemático. B) Es un método de aumentar artificialmente los datos mediante transformaciones. Es una excepción a la repetibilidad porque introduce ruido aleatorio en los datos. C) Es un mecanismo para entrenar modelos en paralelo en diferentes GPUs. Es una excepción a la repetibilidad porque el hardware puede dar resultados distintos. D) Es una técnica que garantiza que los resultados sean exactamente los mismos en cada ejecución. Por eso no es una excepción a la repetibilidad.
A
91
A video production company wants to use machine learning to categorize event footage but does not want to train its own ML model. Which Google Cloud AI development option can help them get started? A. BigQuery ML B. Pre-trained APIs C. AutoML D. Custom training
B Análisis de la Solución Correcta (B) ✅ Las APIs preentrenadas de Google Cloud, como la API de Video Intelligence, son modelos de Machine Learning que Google ya ha construido y entrenado con una cantidad masiva de datos. Están listos para usar "out-of-the-box". ¿Cómo funciona? La empresa de vídeo simplemente envía sus archivos de metraje a la API. ¿Qué recibe a cambio? La API analiza el vídeo y devuelve información estructurada, como etiquetas de objetos y actividades ("coche", "boda", "deportes"), detección de cambios de escena, transcripción de audio, etc. ¿Requiere entrenamiento? No. Todo el trabajo de entrenamiento ya lo ha hecho Google. Es la solución perfecta para obtener capacidades de ML potentes sin necesidad de tener datos de entrenamiento ni experiencia en ML. 🧠 Por qué las otras opciones son incorrectas ❌ A) BigQuery ML: El error: BigQuery ML permite a los usuarios crear y entrenar modelos de ML utilizando consultas SQL sobre los datos que ya tienen en BigQuery. Aunque simplifica el proceso, sigue siendo una forma de entrenamiento de modelos, que es lo que la empresa quiere evitar. C) AutoML: El error: AutoML es una herramienta fantástica para entrenar modelos personalizados con tus propios datos, pero de forma automatizada. Aún necesitarías proporcionar un conjunto de datos etiquetado (por ejemplo, cientos de vídeos ya categorizados) para que AutoML aprenda de ellos y cree un nuevo modelo. Esto es, por definición, un proceso de entrenamiento. D) Custom training (Entrenamiento personalizado): El error: Esta es la opción más opuesta a lo que se pide. Implica escribir el código del modelo desde cero (usando TensorFlow, PyTorch, etc.) y gestionar todo el ciclo de vida del entrenamiento. Requiere un alto nivel de experiencia y es exactamente el proceso que la empresa no quiere realizar.
92
Your company has a massive amount of data, and you want to train your own machine learning model to see what insights ML can provide. Due to resource constraints, you require a codeless solution. Which Google Cloud AI development option is best? A. BigQuery ML B. Pre-trained APIs C. AutoML D. Custom training
C AutoML is described as a "no-code solution that helps you build your own machine learning models on Vertex AI through a point-and-click interface". It is suitable for users with small to medium training data sizes and low machine learning/coding expertise, allowing them to train custom models with their own data with minimal coding. While BigQuery ML allows building models using SQL queries, it's not a point-and-click "codeless" solution in the same sense as AutoML. Pre-trained APIs do not involve training your own model, and Custom training is a code-based solution.
93
Which of the following is NOT a benefit of Vertex AI as a unified platform? A. It is seamless, providing a smooth user experience from data preparation to model production. B. It is scalable, with MLOps helping to monitor and manage ML production and automatically adjust computing power. C. It allows tuning of hyperparameters with pre-trained APIs and AutoML for custom models. D. It is speedy, producing models that have significantly fewer lines of code compared to competitors.
C ✅ C. Es la afirmación INCORRECTA Esta opción es la respuesta correcta porque mezcla y describe incorrectamente las funcionalidades de Vertex AI. Analicemos por qué es falsa: "Permite ajustar los hiperparámetros con API preentrenadas...": Esto es incorrecto. Las API preentrenadas (como Cloud Vision API o Natural Language API) son modelos de "caja negra" listos para usar. No puedes acceder a sus hiperparámetros ni ajustarlos. "...y AutoML para modelos personalizados": Esto también es incorrecto. AutoML y los modelos personalizados son dos enfoques diferentes para crear un modelo. Usas AutoML para que Google cree un modelo por ti automáticamente, o construyes un modelo personalizado (por ejemplo, con TensorFlow/PyTorch) cuando necesitas un control total. No usas AutoML "para" un modelo personalizado. La declaración confunde conceptos fundamentales, por lo que no es un beneficio real de la plataforma. ❌ A, B y D son Beneficios REALES de Vertex AI Estas opciones describen ventajas clave de la plataforma y, por lo tanto, son respuestas incorrectas a la pregunta. A. Es integrado (seamless): Verdadero. Vertex AI unifica todo el ciclo de vida del aprendizaje automático, desde la preparación de datos (con Feature Store) y el entrenamiento hasta el despliegue y la monitorización (con Pipelines y Model Monitoring) en una única interfaz. B. Es escalable: Verdadero. Es una plataforma en la nube diseñada para escalar. Las herramientas de MLOps te ayudan a gestionar la producción a gran escala, y la infraestructura subyacente ajusta la potencia de cómputo según sea necesario. D. Es rápido (speedy): Verdadero. Con herramientas como AutoML o el SDK de Vertex AI, puedes crear y desplegar modelos con muchas menos líneas de código en comparación con la creación de todo el flujo de trabajo desde cero, lo que acelera significativamente el desarrollo.
94
Which of the following analyses can the Natural Language API perform on text? (Select all that apply) A. Entity analysis to identify subjects like people, places, and organizations. B. Sentiment analysis to detect emotions like positive, negative, or neutral. C. Syntax analysis to extract linguistic information and relationships between words. D. Image recognition to identify content in static pictures. E. Category analysis to classify text based on topics or keywords.
A, B, C y E The Natural Language API offers four main types of analysis: * Entity analysis identifies subjects like proper nouns (person, place, organization) and common nouns (goods). * Sentiment analysis identifies emotions (positive, negative, neutral) at both document and entity levels. * Syntax analysis extracts linguistic information and relationships between words. * Category analysis classifies text based on topics or keywords. Image recognition (D) is performed by the Vision API, which is a different pre-trained API for images and video, not the Natural Language API.
95
When using Custom training on Google Cloud, which of the following statements about setting up your ML environment and tools are true? (Select all that apply) A. You must always use a custom container to define the exact machine type and disks. B. Pre-built containers come with pre-installed platforms like Python, TensorFlow, and PyTorch. C. Vertex AI Workbench is a Jupyter notebook environment supporting the entire data science workflow. D. ML libraries like TensorFlow, scikit-learn, and PyTorch can be leveraged to avoid coding from scratch. E. tf.keras.Sequential is primarily used to compile a model by specifying loss functions and optimizers.
B, C y D ✅ Respuestas Correctas B. Los contenedores precompilados (Pre-built containers) vienen con plataformas preinstaladas como Python, TensorFlow y PyTorch. Explicación: Esta afirmación es correcta. Google Cloud ofrece contenedores Docker ya listos y optimizados que incluyen las versiones más comunes de los frameworks de Machine Learning (como TensorFlow, PyTorch, Scikit-learn), junto con sus dependencias (como Python, CUDA para GPUs, etc.). Usar estos contenedores te ahorra el trabajo de tener que crear y mantener tu propio entorno desde cero, acelerando enormemente el proceso de desarrollo. C. Vertex AI Workbench es un entorno de notebooks Jupyter que soporta todo el flujo de trabajo de la ciencia de datos. Explicación: Esto es correcto. Vertex AI Workbench es el entorno de desarrollo gestionado de Google Cloud basado en JupyterLab. Está diseñado para cubrir todo el ciclo de vida del ML: desde la exploración y preparación de datos (integrándose con BigQuery y Cloud Storage), pasando por la experimentación y el entrenamiento de modelos, hasta la implementación y el monitoreo de los mismos. Es la herramienta principal para el desarrollo interactivo en la plataforma. D. Se pueden aprovechar librerías de ML como TensorFlow, scikit-learn y PyTorch para evitar programar desde cero. Explicación: Esta afirmación es correcta y fundamental. El propósito de estas librerías de alto nivel es precisamente abstraer la complejidad matemática subyacente. En lugar de tener que programar a mano algoritmos como la retropropagación (backpropagation) o las operaciones de las redes neuronales, puedes usar las capas, optimizadores y funciones que estas librerías ya te ofrecen. Esto te permite construir modelos complejos de manera mucho más rápida y con menos errores. ❌ Respuestas Incorrectas A. Siempre debes usar un contenedor personalizado (custom container) para definir el tipo de máquina y los discos exactos. Explicación: Esto es incorrecto por dos motivos principales: "Siempre" es falso: No es obligatorio usar contenedores personalizados. Como se menciona en la opción B, puedes (y a menudo es recomendable) usar los contenedores precompilados que Google Cloud provee. El contenedor no define el hardware: Un contenedor Docker define el entorno de software (librerías, dependencias, código). El hardware (el tipo de máquina, la cantidad de CPUs/GPUs, el tamaño del disco) se especifica por separado en la configuración del trabajo de entrenamiento (CustomJob) en Vertex AI, no dentro del propio contenedor. E. tf.keras.Sequential se usa principalmente para compilar un modelo especificando las funciones de pérdida y los optimizadores. Explicación: Esto es incorrecto. La afirmación confunde dos pasos distintos del proceso de Keras: tf.keras.Sequential: Se utiliza para definir la arquitectura del modelo, es decir, para apilar las capas una tras otra en un orden secuencial (por ejemplo, una capa de entrada, seguida de una capa densa, seguida de una capa de salida). model.compile(): Es el método que se utiliza para configurar el proceso de entrenamiento del modelo una vez que su arquitectura ya ha sido definida. Es aquí donde se especifican el optimizador (ej. 'adam'), la función de pérdida (ej. 'binary_crossentropy') y las métricas a monitorear (ej. ['accuracy']).
96
Which Google Cloud tool is best suited for a business user with no ML experience and no access to training data, who wants to analyze customer reviews? A) Vertex AI with custom training B) BigQuery ML C) AutoML D) Pre-trained APIs
D Pre-trained APIs are ideal for users with limited ML expertise and no training data. They offer ready-to-use models for tasks like sentiment analysis and entity recognition.
97
Which two ML development options on Google Cloud do not allow hyperparameter tuning? (Select two) A) Pre-trained APIs B) BigQuery ML C) AutoML D) Custom training
A y C Both pre-trained APIs and AutoML do not allow manual tuning of hyperparameters. BigQuery ML and Custom training provide more control, including hyperparameter tuning.
98
A data analyst with SQL experience wants to build ML models directly on existing tabular data in BigQuery. What is the best approach? A) AutoML B) BigQuery ML C) Pre-trained APIs D) TensorFlow with custom training
B BigQuery ML is designed for SQL users working with tabular data. It enables ML model creation using standard SQL queries.
99
Which of the following are key benefits of using Vertex AI for end-to-end ML workflows? (Select all that apply) A) Seamless integration B) Manual hyperparameter tuning only C) Scalable infrastructure D) Unified interface for predictive and generative AI
A, C y D Por qué A, C y D son correctas A) Seamless integration (Integración fluida) Esta opción es correcta. Uno de los mayores beneficios de Vertex AI es que funciona como un "pegamento" que une todas las herramientas y servicios que necesitas para un proyecto de Machine Learning (ML) en Google Cloud. Se integra de forma nativa con servicios como BigQuery (para datos), Cloud Storage (para almacenamiento) y otros. Esto evita que tengas que construir conexiones complejas manualmente, haciendo que todo el flujo de trabajo, desde la preparación de los datos hasta el despliegue del modelo, sea mucho más sencillo y rápido. 🚀 C) Scalable infrastructure (Infraestructura escalable) Esta opción es correcta. Vertex AI está construido sobre la infraestructura global de Google, lo que significa que puedes escalar tus proyectos según tus necesidades. Puedes pasar de entrenar un modelo pequeño en tu portátil a entrenar un modelo gigantesco con terabytes de datos usando cientos de máquinas, todo sin tener que preocuparte por comprar o gestionar el hardware. La plataforma se encarga de asignar los recursos necesarios automáticamente, ya sea para entrenamiento o para servir predicciones a millones de usuarios. 🌍 D) Unified interface for predictive and generative AI (Interfaz unificada para IA predictiva y generativa) Esta opción es correcta. Este es un diferenciador clave de Vertex AI. No solo te permite crear modelos de ML "clásicos" o predictivos (como predecir ventas o clasificar imágenes), sino que también integra herramientas de IA generativa (como los modelos de lenguaje que potencian a los chatbots o la generación de imágenes). Tener todo en una misma plataforma simplifica enormemente el desarrollo, ya que los equipos no necesitan aprender y usar herramientas diferentes para cada tipo de IA. Es como tener una navaja suiza para la inteligencia artificial. 🤖 Por qué B es incorrecta B) Manual hyperparameter tuning only (Solo ajuste manual de hiperparámetros) Esta opción es incorrecta porque describe una limitación, no un beneficio. De hecho, Vertex AI ofrece una potente herramienta de ajuste de hiperparámetros automatizado (Vertex AI Vizier). Ajuste manual: Requiere que un experto pruebe combinaciones de parámetros una por una, lo cual es lento, tedioso y a menudo no encuentra la mejor configuración. Ajuste automatizado: Vertex AI usa algoritmos inteligentes para buscar de forma eficiente las mejores combinaciones de hiperparámetros, ahorrando tiempo y, por lo general, logrando mejores resultados para el modelo. Por lo tanto, la afirmación "solo manual" es falsa y lo contrario a uno de los beneficios reales de la plataforma.
100
Which feature of AutoML is enabled by neural architecture search and transfer learning? A) Real-time prediction API endpoints B) Auto-selection of model types and parameters C) SQL-based training pipelines D) Manual configuration of TensorFlow layers
B Neural architecture search and transfer learning are used in AutoML to automatically choose and tune optimal model architectures based on training data.
101
Which Google Cloud AI development option allows you to build machine learning models without writing any code, using a point-and-click interface? A. Pre-trained APIs B. BigQuery ML C. AutoML D. Custom Training
C ✅ Por qué la opción C (AutoML) es la correcta AutoML es la suite de productos de Google Cloud diseñada específicamente para cumplir con este requisito. Su propósito principal es democratizar el acceso al machine learning, permitiendo a los usuarios crear modelos personalizados de alta calidad con un mínimo esfuerzo técnico. Sin escribir código: AutoML ofrece una interfaz gráfica de usuario (GUI) completa. El proceso consiste en subir tus datos (por ejemplo, un archivo CSV o imágenes), hacer clic para seleccionar qué quieres predecir y pulsar un botón para entrenar el modelo. Interfaz "point-and-click": Todo el flujo de trabajo, desde la ingesta de datos hasta la evaluación y el despliegue del modelo, se gestiona a través de menús y botones visuales. Construye modelos personalizados: A diferencia de las APIs pre-entrenadas, AutoML entrena un modelo nuevo y único, optimizado específicamente para los datos y el caso de uso que tú le proporcionas. Analogía: Usar AutoML es como usar una cafetera súper automática moderna. Tú solo pones los granos de café (tus datos) y el agua, seleccionas "Espresso" (tu objetivo) y pulsas un botón. La máquina se encarga de todo el proceso complejo (moler, prensar, calentar, etc.) para darte un resultado de alta calidad. ❌ Por qué las otras opciones son incorrectas A) Pre-trained APIs (APIs preentrenadas): Con estas APIs (como Cloud Vision o Natural Language API), no construyes un modelo, simplemente usas un modelo ya construido por Google. Además, para usarlas, necesitas escribir código para hacer las llamadas a la API. B) BigQuery ML: Esta opción te permite construir modelos, pero requiere escribir código SQL. Es una potente herramienta para analistas de datos que conocen SQL, pero no cumple el requisito de "sin escribir código". Es una solución "low-code" (bajo en código), no "no-code" (sin código). D) Custom Training (Entrenamiento personalizado): Esta es la opción con más código de todas. Está diseñada para científicos de datos e ingenieros de machine learning que quieren tener control total y escriben sus propios modelos desde cero usando frameworks como TensorFlow o PyTorch.
102
Which of the following statements about Pre-trained APIs on Google Cloud are correct? (Select all that apply.) A. They require you to provide your own training data. B. They can be used for tasks such as image recognition and sentiment analysis. C. They are ideal for users with little ML expertise. D. They allow full hyperparameter tuning.
B y C Pre-trained APIs offer ready-to-use models for common tasks (like image and text analysis) and are designed for users with little or no ML expertise. They do not require training data or allow hyperparameter tuning
103
A data analyst wants to use SQL to create and execute machine learning models on tabular data already stored in BigQuery. Which Google Cloud tool should they use? A. Pre-trained APIs B. AutoML C. BigQuery ML D. Custom Training
C BigQuery ML allows users to build and execute ML models directly using SQL queries on data stored in BigQuery.
104
Which two Google Cloud ML development options require the highest level of coding and ML expertise? (Select two.) A. Pre-trained APIs B. BigQuery ML C. AutoML D. Custom Training
B y D BigQuery ML requires SQL skills and understanding of ML concepts, while Custom Training requires advanced coding and ML expertise for full control over the pipeline. Pre-trained APIs and AutoML are designed for users with less technical background.
105
What is the main advantage of using transfer learning in AutoML? A. It allows models to be trained from scratch with large datasets. B. It enables the use of pre-trained models to solve new problems with less data and computation. C. It provides advanced hyperparameter tuning. D. It ensures only tabular data can be used.
B Transfer learning leverages existing pre-trained models, allowing users to achieve high accuracy on new tasks with smaller datasets and reduced computational requirements
106
Which of the following is NOT a development option for building AI projects on Google Cloud? A. Pre-trained APIs B. BigQuery ML C. AutoML on Vertex AI D. TensorFlow Lite
D TensorFlow Lite is a framework for deploying ML models on mobile and edge devices, not a development option for building AI projects on Google Cloud in the context of the certification. The other options are explicitly mentioned as AI development options.
107
What is a key advantage of using pre-trained APIs for AI development? A. They allow for fully customizable models. B. They require no training data. C. They are best for handling large amounts of tabular data. D. They require high ML expertise.
B Pre-trained APIs use existing ML models provided by Google, so no training data is needed, making them ideal for quick solutions without model training, such as text analysis or image recognition.
108
Which type of data does BigQuery ML primarily support? A. Tabular data B. Image data C. Text data D. Video data
A BigQuery ML is designed for building ML models using SQL queries on structured, tabular data within BigQuery, suitable for data engineers working with structured datasets.
109
What is a key feature of AutoML on Vertex AI? A. It requires extensive coding for model development. B. It automates the ML development pipeline using the user’s training data. C. It only supports pre-trained models. D. It is limited to tabular data only.
B AutoML on Vertex AI automates the entire ML process, from data preparation to model serving, using the user’s data, and supports multiple data types, minimizing coding needs.
110
What is required for custom training on Vertex AI? A. Minimal ML expertise B. No training data C. Significant ML expertise and coding skills D. Only SQL knowledge
C Custom training on Vertex AI involves a code-based approach requiring significant ML expertise and coding skills, typically using Python and TensorFlow, for highly customized solutions.
111
Which of the following sequences correctly represents the three main stages of the Machine Learning (ML) workflow with Vertex AI? A. Data preparation, Model evaluation, Model training B. Model training, Data preparation, Model serving C. Model serving, Data preparation, Model development D. Data preparation, Model development, Model serving
D The three main stages of the ML workflow with Vertex AI are Data preparation, Model development, and Model serving. Data preparation includes data uploading and feature engineering. Model development covers model training and evaluation. Model serving encompasses model deployment and monitoring
112
A machine learning engineer wants to automate an end-to-end ML workflow on Google Cloud to achieve continuous integration, training, and delivery. Which Google Cloud service is the backbone for this automation, and what types of components can be used to build the pipeline? A. Vertex AI Feature Store; only pre-built components. B. Vertex AI Workbench; only custom components. C. Vertex AI Pipelines; both pre-built and custom components. D. AutoML; pre-built templates without customization.
C Vertex AI Pipelines is the toolkit that automates, monitors, and governs machine learning systems by orchestrating the workflow in a serverless manner, enabling continuous integration, training, and delivery (CI, CT, CD). When building an ML pipeline on Vertex AI, you can include both pre-built components provided by Google and custom components that you develop yourself.
113
A hospital uses machine learning technology to help pre-diagnose cancer by feeding historical patient medical data to the model. The primary goal is to identify as many potential cancer cases as possible, even if it means some healthy patients are mistakenly flagged (false positives). Which evaluation metric should the model prioritize to achieve this goal? A. Precision B. Recall C. Feature importance D. True Negative Rate
B B. Recall (También conocido como Exhaustividad o Sensibilidad) El Recall mide la capacidad de un modelo para encontrar todos los casos positivos relevantes dentro de un conjunto de datos. La fórmula es: Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos) Vamos a traducir esto al problema del hospital: Verdadero Positivo (VP): El modelo predice "cáncer" y el paciente realmente tiene cáncer. ¡Un acierto! Falso Negativo (FN): El modelo predice "sano" pero el paciente realmente tiene cáncer. ¡Este es el peor error posible! Un paciente con cáncer no sería diagnosticado a tiempo, lo que podría tener consecuencias fatales. El objetivo principal del hospital es "identificar tantos casos potenciales de cáncer como sea posible". Esto significa que quieren minimizar los Falsos Negativos a toda costa. Quieren asegurarse de que si una persona tiene cáncer, el modelo la identifique. Al priorizar el Recall, el hospital se asegura de que el modelo sea extremadamente bueno encontrando a los pacientes que sí tienen la enfermedad. La propia pregunta indica que están dispuestos a aceptar un mayor número de "falsos positivos" (pacientes sanos marcados como enfermos) como consecuencia. Un falso positivo genera ansiedad y pruebas adicionales, pero un falso negativo puede costar una vida. En resumen: Maximizar el Recall es sinónimo de minimizar los casos de cáncer no detectados, lo cual es exactamente el objetivo del hospital. Explicación de las Respuestas Incorrectas A. Precisión (Precision) La Precisión mide, de todas las veces que el modelo predijo "cáncer", cuántas veces acertó. La fórmula es: Verdaderos Positivos / ( Verdaderos Positivos + Falsos Positivos ) also Positivo (FP): El modelo predice "cáncer" pero el paciente está sano. Si el hospital priorizara la precisión, el objetivo sería asegurarse de que cada vez que el modelo da una alarma de "cáncer", esta sea correcta. Esto reduciría el número de pacientes sanos que son sometidos a pruebas innecesarias. Sin embargo, para ser muy preciso, un modelo puede volverse demasiado "cauteloso" y solo marcar los casos más obvios, dejando pasar casos más dudosos que podrían ser cáncer (aumentando los Falsos Negativos). Esto va en contra del objetivo principal. C. Importancia de las Características (Feature Importance) Esto no es una métrica de evaluación del rendimiento del modelo en sí misma. La importancia de las características es una técnica de análisis que nos dice qué variables de entrada (ej: edad, tipo de sangre, marcadores genéticos) está utilizando el modelo para tomar sus decisiones. Es muy útil para entender y depurar el modelo, pero no mide directamente si está cumpliendo su objetivo de detectar a los enfermos. D. Tasa de Verdaderos Negativos (True Negative Rate o Especificidad) La Tasa de Verdaderos Negativos (también conocida como Especificidad) mide la capacidad del modelo para identificar correctamente a los pacientes sanos. La fórmula es: Verdaderos Negativos / ( Verdaderos Negativos + Falsos Positivos ) Verdadero Negativo (VN): El modelo predice "sano" y el paciente realmente está sano. Priorizar esta métrica significaría que el hospital quiere ser excelente identificando a las personas que no tienen cáncer. Aunque esto es bueno, no es el objetivo principal. El objetivo principal es encontrar a los que sí lo tienen. Un modelo podría tener una tasa de verdaderos negativos altísima simplemente clasificando a casi todo el mundo como "sano", lo que provocaría que se pasaran por alto muchos casos de cáncer reales (un Recall muy bajo). Conclusión Final En diagnósticos médicos donde no detectar una enfermedad grave (un Falso Negativo) tiene un coste humano altísimo, la métrica a priorizar es casi siempre el Recall (Sensibilidad). Es preferible tener una red de seguridad que peque de exceso de celo (más Falsos Positivos) a una que deje escapar casos críticos.
114
Which of the following are benefits of using Vertex AI Feature Store in the ML workflow? (Select all that apply) A. Features are shareable for training and serving, maintaining consistency across an organization. B. Features are reusable, which helps to save time and reduces duplicated efforts. C. It automates model training and evaluation without requiring coding skills. D. Features are scalable, automatically providing low-latency serving. E. It is built on an easy-to-navigate user interface, making features easy to use.
A, B y D Un Feature Store es un repositorio centralizado que te permite gestionar, compartir y servir características (features) de Machine Learning de manera consistente. Beneficios Correctos ✅ A. Las características se pueden compartir para el entrenamiento y el servicio, manteniendo la consistencia en toda la organización. Este es uno de los beneficios más importantes. El Feature Store sirve los mismos valores de características tanto para el entrenamiento de modelos (en lotes) como para la inferencia en tiempo real (online serving). Esto evita el sesgo de entrenamiento-servicio (training-serving skew), un problema común donde las discrepancias en el preprocesamiento de datos entre el entrenamiento y la producción degradan el rendimiento del modelo. B. Las características son reutilizables, lo que ayuda a ahorrar tiempo y reduce la duplicación de esfuerzos. Una vez que un equipo de ingeniería de datos crea una característica útil (por ejemplo, "promedio de compras del cliente en los últimos 30 días"), esta se almacena en el Feature Store. A partir de ese momento, cualquier otro equipo o modelo en la organización puede reutilizarla sin tener que volver a calcularla desde cero. 🔄 D. Las características son escalables, proporcionando automáticamente un servicio de baja latencia. El componente de servicio en línea (online serving) de Vertex AI Feature Store está diseñado para ser altamente escalable y ofrecer una latencia muy baja (del orden de milisegundos). Esto es crucial para aplicaciones en tiempo real que necesitan obtener características rápidamente para hacer una predicción instantánea. Opciones Incorrectas ❌ C. Automatiza el entrenamiento y la evaluación de modelos sin necesidad de conocimientos de codificación. Esto describe la funcionalidad de Vertex AI AutoML, no del Feature Store. El Feature Store se enfoca en la gestión de las características, que son la entrada para el entrenamiento, pero no realiza el entrenamiento del modelo en sí. E. Está construido sobre una interfaz de usuario fácil de navegar, lo que facilita el uso de las características. Si bien Vertex AI tiene una interfaz de usuario, los beneficios principales del Feature Store radican en su funcionalidad programática (APIs), la consistencia que garantiza y su rendimiento. Una "interfaz fácil" es una característica secundaria y subjetiva, no un beneficio fundamental en el flujo de trabajo de ML en comparación con la prevención del sesgo o la reutilización.
115
In the context of neural networks, which of the following are examples of hyperparameters that are decided by a human before training, as opposed to parameters which are learned by the machine during training? A. Weights and Biases B. Cost functions and Backpropagation C. Neurons and layers, Activation functions, Learning rate, and Epochs D. Gradient descent and Predicted output (ŷ)
C Para entender por qué, primero hay que diferenciar claramente entre parámetros e hiperparámetros en el contexto del machine learning. Parámetros: Son valores internos del modelo que la máquina aprende por sí misma durante el entrenamiento. Son el resultado del proceso de aprendizaje. El ejemplo más claro son los pesos y sesgos de una red neuronal. Hiperparámetros: Son las configuraciones externas del modelo que un humano decide antes de empezar el entrenamiento. Definen la arquitectura de la red y cómo se llevará a cabo el aprendizaje. Imagina que estás horneando un pastel 🎂: Los hiperparámetros son la receta que tú eliges: la temperatura del horno, el tiempo de cocción, cuántas capas tendrá el pastel, etc. Los parámetros son los cambios químicos que ocurren dentro de la masa mientras se hornea para que sepa bien. Tú no los controlas directamente, son el resultado de seguir la receta. ✅ Por qué la opción C es la correcta Todos los elementos de esta lista son "ajustes de la receta" que el ingeniero o científico de datos debe decidir antes de entrenar el modelo: Neuronas y capas: Es el diseño arquitectónico de la red. ¿Será profunda o ancha? El humano lo decide. Funciones de activación: El humano elige qué función (ReLU, Sigmoid, etc.) se usará en las neuronas para introducir no linealidad. Tasa de aprendizaje (Learning rate): Es quizás el hiperparámetro más famoso. El humano decide el tamaño de los "pasos" que dará el modelo para ajustar sus pesos y corregir errores. Épocas (Epochs): El humano decide cuántas veces el modelo verá el conjunto de datos completo durante el entrenamiento. ❌ Por qué las otras opciones son incorrectas A. Pesos y Sesgos: Estos son el ejemplo perfecto de parámetros. Son los valores que la red ajusta y aprende durante el entrenamiento para minimizar el error. No son decididos por un humano. B. Funciones de coste y Retropropagación: Estos son componentes fundamentales del proceso de entrenamiento, no configuraciones ajustables. La retropropagación (Backpropagation) es el algoritmo que la red usa para aprender, y la función de coste es la métrica que usa para saber cómo de mal lo está haciendo. Aunque el humano elige la función de coste, se considera una parte de la definición del problema más que un hiperparámetro ajustable. D. Descenso de gradiente y Salida predicha (ŷ): El descenso de gradiente es el algoritmo de optimización que se usa para minimizar el error (el proceso de aprendizaje en sí). La salida predicha (ŷ) es el resultado que produce el modelo para una entrada dada; no es ni un parámetro ni un hiperparámetro.
116
Which of the following best describes the three main stages of the ML workflow in Google Cloud? A) Data ingestion, model evaluation, model deployment B) Data preparation, model development, model serving C) Data engineering, AutoML training, inference D) ETL, model testing, model publishing
B The three main stages are: data preparation (e.g., uploading data and feature engineering), model development (e.g., training and evaluation), and model serving (e.g., deployment and monitoring).
117
Which of the following are advantages of using Vertex AI Feature Store? (Select two) A) Features are reusable across training and serving B) Supports streaming data only C) Enables low-latency predictions D) Only supports tabular data
A y C Un Feature Store es un servicio centralizado para almacenar, gestionar y servir características (features) de Machine Learning, resolviendo problemas comunes en el ciclo de vida de los modelos. Ventajas Correctas ✅ A) Las características son reutilizables en el entrenamiento y en el servicio (serving). Este es el beneficio principal. Creas una característica una sola vez (por ejemplo, "total gastado por un cliente en los últimos 7 días") y la almacenas. Luego, esa misma característica puede ser consumida tanto por el pipeline de entrenamiento (para entrenar el modelo) como por el punto final de predicción en tiempo real. Esto garantiza la consistencia y evita el sesgo de entrenamiento-servicio (training-serving skew). 🔄 C) Permite predicciones de baja latencia. Para hacer una predicción en tiempo real, un modelo necesita los valores más actuales de sus características de forma casi instantánea. El Feature Store ofrece un servicio online optimizado para entregar estas características con una latencia muy baja (en milisegundos). Esto es crucial para que las aplicaciones puedan obtener predicciones rápidas. ⚡ Opciones Incorrectas ❌ B) Solo admite datos en streaming. Esto es falso. Vertex AI Feature Store está diseñado para ingerir datos tanto en lotes (batch), desde fuentes como BigQuery o Cloud Storage, como en streaming a través de su API. D) Solo admite datos tabulares. Esto es incorrecto. Aunque la fuente de datos suele ser tabular, las características almacenadas pueden tener tipos de datos más complejos, como embeddings (que son arrays o vectores de números), además de los tipos de datos escalares tradicionales.
118
In a model for detecting fraudulent transactions, minimizing false negatives is crucial. Which metric should you prioritize? A) Accuracy B) Precision C) Recall D) F1 Score
C In fraud detection, it’s important to catch as many actual frauds as possible. High recall ensures that fewer fraudulent transactions are missed (i.e., fewer false negatives).
119
Which of the following tools can be used to automate and orchestrate ML workflows in Vertex AI? (Select all that apply) A) Vertex AI Pipelines B) BigQuery ML C) TensorFlow Extended (TFX) D) Cloud Build Pipelines
A y C Vertex AI Pipelines is the core automation toolkit and supports integration with Kubeflow Pipelines and TensorFlow Extended (TFX). BigQuery ML is for SQL-based modeling, and Cloud Build Pipelines is not designed for ML workflow orchestration.
120
What is the primary reason activation functions are used in neural networks? A) To speed up training B) To ensure the model performs regression C) To convert linear models into non-linear ones D) To calculate the loss function
C Las funciones de activación son el componente que otorga a las redes neuronales su capacidad para aprender relaciones complejas. ¿Por qué es la respuesta correcta? La razón principal para usar funciones de activación es para convertir un modelo lineal en uno no lineal. Sin una función de activación, cada capa de una red neuronal simplemente realizaría una operación lineal: salida = pesos * entradas + sesgo. Si apilas muchas de estas capas lineales, el resultado final sigue siendo una simple función lineal. Un modelo así solo podría aprender relaciones muy básicas, como una línea recta. La función de activación introduce una transformación no lineal a la salida de cada neurona. Es este "quiebre" de la linealidad lo que permite a la red en su conjunto aproximar funciones increíblemente complejas y aprender patrones intrincados, como reconocer imágenes, entender el lenguaje o predecir mercados. En resumen, las funciones de activación son las que le dan a las redes neuronales su poder y flexibilidad. ¿Por qué las otras opciones son incorrectas? A) Para acelerar el entrenamiento: Aunque algunas funciones de activación (como ReLU) pueden ayudar a que el entrenamiento sea más rápido y eficiente en comparación con otras, esta no es su razón de ser principal. Su propósito fundamental es la no linealidad, no la velocidad. B) Para asegurar que el modelo realice regresión: El tipo de tarea (regresión o clasificación) se define principalmente por la función de activación de la capa de salida y la función de pérdida, no por las funciones de activación en las capas ocultas. D) Para calcular la función de pérdida: La función de pérdida es un componente separado que se calcula después de que la red ha producido una salida. Mide qué tan equivocado está el modelo, mientras que las funciones de activación son parte del proceso para generar esa salida.
121
Which of the following correctly represents the main stages of the machine learning workflow on Google Cloud? A) Model training, Data preparation, Model serving B) Data preparation, Model development, Model serving C) Model serving, Data preparation, Model evaluation D) Data preparation, Model evaluation, Model training
B The standard workflow consists of preparing the data, developing the model (training and evaluation), and then serving the model (deployment and monitoring).
122
During which stage of the ML workflow do you perform feature engineering and data upload? A) Model development B) Data preparation C) Model serving D) Model evaluation
B Feature engineering and data upload are part of the data preparation stage, where you prepare raw data for model training.
123
Which metric should a hospital focus on if the goal is to identify as many potential cancer cases as possible using ML? A) Precision B) Recall C) Feature importance D) Confusion matrix
B Recall measures the ability of a model to identify all relevant cases (true positives). In medical diagnosis, missing a positive case is critical, so maximizing recall is preferred.
124
Select all correct statements about Vertex AI Pipelines components. (Multiple answers possible) A) You can use both prebuilt and custom components in a pipeline. B) Only custom components are allowed. C) Only prebuilt components are allowed. D) You can customize prebuilt components to fit your workflow.
A y D Vertex AI Pipelines allows you to combine prebuilt and custom components, and prebuilt components can be customized to suit specific workflow needs.
125
What is the main benefit of using Vertex AI Feature Store? A) It provides a toolkit to automate ML workflows. B) It manages and serves features from a central repository for consistency and reusability. C) It visualizes the precision-recall curve. D) It automatically selects hyperparameters for you.
B Vertex AI Feature Store centralizes feature management, making features shareable, reusable, and scalable across ML projects.
126
What are the three main stages of the machine learning workflow as described in the Google Cloud AI development process? A) Data Collection, Model Training, Model Evaluation B) Data Preparation, Model Development, Model Serving C) Feature Engineering, Hyperparameter Tuning, Model Deployment D) Data Ingestion, Model Building, Model Monitoring
B The document emphasizes that the machine learning workflow on Google Cloud consists of three main stages: Data Preparation (uploading and preparing data), Model Development (training and evaluating the model), and Model Serving (deploying the model for predictions). This structure is central to the AI development process described.
127
Which of the following is a no-code solution provided by Google Cloud for building machine learning models? A) Vertex AI Workbench B) AutoML C) Colab D) TensorFlow
B ✅ La Solución Correcta: AutoML (B) AutoML (Automated Machine Learning) es la solución de Google Cloud diseñada específicamente para permitir a los usuarios crear modelos de machine learning de alta calidad sin necesidad de escribir código. El proceso con AutoML es puramente visual a través de una interfaz gráfica: Subes tus datos (imágenes, texto, tablas, etc.). Seleccionas la variable que quieres predecir. Haces clic en "Entrenar modelo". La plataforma se encarga automáticamente de todo el proceso complejo por debajo: la selección del mejor algoritmo, el ajuste de hiperparámetros y la ingeniería de características. Es la definición perfecta de una herramienta "no-code" para machine learning. 🤖 ❌ Por Qué las Otras Opciones son Incorrectas Las otras opciones son herramientas que, por el contrario, requieren escribir código. A) Vertex AI Workbench: Es un entorno de desarrollo basado en Jupyter Notebooks. Es un lugar para que los científicos de datos escriban, ejecuten y depuren su código de machine learning, principalmente en Python. C) Colab: Similar a Workbench, es un entorno de notebooks gratuito de Google para escribir y ejecutar código. No es una herramienta "no-code". D) TensorFlow: No es una solución, sino una biblioteca de programación (library) de código abierto. Es el "motor" que los desarrolladores usan escribiendo código para construir modelos de machine learning desde cero.
128
In the context of machine learning, what does the recall metric measure? A) The proportion of true positive predictions among all positive predictions. B) The proportion of true positive predictions among all actual positive instances. C) The proportion of true negative predictions among all negative predictions. D) The proportion of true negative predictions among all actual negative instances.
B Recall, also known as sensitivity, measures the ability of a model to identify all relevant instances. It is calculated as the number of true positives divided by the sum of true positives and false negatives, a critical metric for scenarios where missing positive cases is significant, such as medical diagnostics.
129
What is the primary purpose of MLOps in the context of machine learning projects? A) To automate the deployment of machine learning models. B) To manage and monitor the performance of machine learning models in production. C) To automate the entire machine learning workflow from data preparation to model serving. D) All of the above.
D MLOps, as described in the document, integrates machine learning development with operations to manage models in production. It includes automating the entire workflow, deploying models, and continuously monitoring their performance, addressing challenges like evolving data and code.
130
What is the main function of the Vertex AI Feature Store? A) To store and manage features for training and serving machine learning models. B) To automate the training of machine learning models. C) To deploy machine learning models for real-time predictions. D) To visualize and analyze machine learning model performance.
A The Vertex AI Feature Store is designed to manage and serve features, which are measurable properties of data used in machine learning models. It supports both training and serving phases by providing scalable and low-latency access, making it essential for managing feature lifecycles in ML projects.
131
Imagine you are in banking and you are creating an ML model for detecting if transactions are fraudulent or not. Is this classification or regression and why? A. Regression, categorical label B. Regression, continuous label C. Classification, categorical label D. Classification, continuous label
C
132
Is this dataset a good candidate for linear regression and/or linear classification? y ↑ 10 | . . . . . . . . . (Clase A) 9 | . . . . . . . . . 8 | . . . . . . . . 7 | . . . . . . . 6 | . . . . . 5 | * * * * * * * * (Clase B) 4 | * * * * * * * * 3 | * * * * * * * 2 | * * * * * * 1 | * * * * 0 +--------------------------------→ x 0 1 2 3 4 5 6 7 A. Linear classification B. Both C. None of the above
B
133
Why is it important to add regularization to logistic regression? A. Helps stops weights being driven to +/- infinity. B. Helps logits stay away from asymptotes which can halt training C. Transforms outputs into a calibrated probability estimate D. Both A & B E. Both A & C
D ✅ Explicación de A y B (Por qué son correctas)Ambas opciones describen dos caras del mismo problema: la separación perfecta.A. Ayuda a evitar que los pesos (weights) se disparen a +/- infinito.Imagina que tus datos de dos clases (positivos y negativos) se pueden separar perfectamente con una línea.La regresión logística quiere encontrar la línea que mejor separa los datos.Para estar "más segura" de su predicción, intentará que la probabilidad para los puntos positivos sea lo más cercana a 1 posible, y para los negativos lo más cercana a 0.La única forma de que la función sigmoide $\sigma(z)$ devuelva un 1 perfecto es si su entrada (el logit, $z = w \cdot x + b$) es $+\infty$. Y para que devuelva 0, el logit debe ser $-\infty$.Para hacer que el logit $z$ sea infinito, el algoritmo intentará hacer que los pesos (weights, $w$) sean infinitamente grandes.La regularización (como L1 o L2) añade una penalización al tamaño de los pesos. Le dice al modelo: "Oye, sepáralos bien, pero mantén los pesos lo más pequeños posible". Esta penalización actúa como un "ancla" que evita que los pesos se disparen al infinito.B. Ayuda a que los logits se mantengan alejados de las asíntotas, lo que puede detener el entrenamiento.Esta es la consecuencia directa de A.Las "asíntotas" de la función sigmoide son las partes planas en la parte superior (cerca de 1) e inferior (cerca de 0).El entrenamiento (como el Descenso de Gradiente) funciona calculando la pendiente (el gradiente) de la curva para saber cómo ajustar los pesos.1En las zonas planas (asíntotas), la pendiente es casi cero.Si los pesos se vuelven enormes (como en A), los logits $z$ también lo hacen, y las predicciones caen en estas zonas planas.Cuando el gradiente es cero, el modelo no recibe ninguna señal sobre cómo mejorar. Las actualizaciones de los pesos se vuelven minúsculas y el entrenamiento se detiene (se congela).Al aplicar la regularización (A), se evita que los pesos crezcan, lo que mantiene a los logits (B) fuera de estas "zonas muertas" y permite que el entrenamiento continúe.2En resumen: A es el problema fundamental (pesos infinitos) y B es el síntoma que mata el entrenamiento (gradientes que se desvanecen). La regularización soluciona A, lo que a su vez soluciona B.❌ Por Qué la C es IncorrectaC. Transforma las salidas en una estimación de probabilidad calibrada.La regresión logística ya produce salidas que se interpretan como probabilidades (valores entre 0 y 1).3La "calibración" (que un 80% de confianza signifique que 8 de cada 10 veces acierta) es una propiedad deseable, pero no es la razón principal por la que se necesita la regularización.Si bien la regularización puede mejorar la calibración al evitar que el modelo se vuelva "demasiado confiado" (prediciendo 0.9999 todo el tiempo), su propósito fundamental es resolver la inestabilidad numérica y de entrenamiento descrita en A y B.
134
Which of these is important when performing logistic regression? A. Adding regularization B. Choosing a tuned threshold C. Checking for bias D. All of the above
D
135
Which of the following best describes Generative AI and the types of content it can generate? A. It's a type of AI that only generates text and code based on predetermined algorithms that cannot be altered. B. It learns from existing content to generate new content, which can be multimodal, including text, code, images, speech, video, and 3D. C. It's an AI innovation primarily used for optimizing truck routes and automating marketing campaigns, limited to text output. D. It's a random process that creates content without any prior training or learning.
B Generative AI is a type of artificial intelligence that generates content for you. It learns from a massive amount of existing content, such as text, image, and video, in a process called training, which results in a "foundation model". The generated content can be multi-modal, including text, code, images, speech, video, and even 3D. The process of generating content is not random, nor is it based on unalterable predetermined algorithms
136
Regarding Foundation Models in Generative AI, which statements are true? (Select all that apply) A. A foundation model is usually a large model characterized by a significant number of parameters, massive training data, and high computational power requirements. B. They can only be used directly to solve general problems and cannot be further trained for specific needs. C. Google's Gemini is a foundation model capable of handling multimodal data. D. Fine-tuning a foundation model involves training it with new, often smaller, datasets to solve specific problems
A, C y D A foundation model is typically large, defined by a significant number of parameters, massive training data, and high computational power needs. While foundation models can be used directly to solve general problems like content extraction and document summarization, they can also be further trained with new datasets in a specific field to solve particular problems, which is known as fine-tuning. Gemini is explicitly mentioned as Google's most recent foundation model, capable of handling multimodal data.
137
You are using Vertex AI Studio to interact with a Generative AI model. Which of the following components are part of the anatomy of a prompt, and what is the primary purpose of Vertex AI Studio in this context? A. A prompt requires only an Input, and Vertex AI Studio is primarily a code-only environment for model deployment. B. A prompt can include Input (required), Context (optional), and Examples (optional). Vertex AI Studio provides an intuitive interface for rapidly testing, prototyping, tuning, and deploying Gen AI models. C. A prompt consists of Temperature and Top K settings. Vertex AI Studio focuses on monitoring deployed models. D. A prompt is solely a request for a desired output. Vertex AI Studio is a model library for searching open-source models.
B The anatomy of a prompt includes one or more of the following components: Input (required), Context (optional), and Examples (optional). Vertex AI Studio serves as an intuitive interface for developers to access foundational models and build generative AI applications in a low-code or no-code environment. It enables rapid testing and prototyping, tuning and customizing models with your own data, augmenting them with real-world information, and efficiently deploying models in production environments.
138
When aiming to generate more "creative" or unexpected content from a Generative AI model in Vertex AI Studio, what is the recommended adjustment for the model parameters? A. Set the temperature to a low value. B. Set the Top K value to 1. C. Set the temperature to a high value. D. Set the Top P value to 0.
C The temperature setting controls the degree of randomness in the response. A high temperature setting extends the range of possible words to include those that have low possibility and are more unusual. This setting is recommended if you want to generate more "creative" or unexpected content, such as an advertisement slogan. Conversely, a low temperature setting narrows the range to high-possibility words, leading to more "typical" answers
139
Your company runs a call center and wants to leverage AI to improve customer satisfaction and operational efficiency by automating routine requests, assisting human agents, and deriving caller insights. Which Google Cloud AI solution is best suited for this purpose? A. Document AI. B. Healthcare Data Engine. C. Contact Center AI (CCAI). D. Vertex AI Search for Retail.
C Contact Center AI (CCAI) is Google’s solution specifically designed to apply AI in contact centers with the goal of increasing customer satisfaction and operational efficiency. It can help automate simple interactions via a virtual agent, assist human agents, and unlock caller insights. Document AI is for extracting information from documents, Healthcare Data Engine is for generating healthcare insights, and Vertex AI Search for Retail provides search and recommendations for retailers.
140
What is the purpose of Vertex AI Studio in the context of generative AI development? A. It allows no-code prompt design and model tuning using foundation models B. It is used exclusively for training predictive models using tabular data C. It only supports image-based models like Imagen D. It is an internal tool limited to Google engineers
A Vertex AI Studio is the end-to-end development interface for generative AI on Google Cloud. It supports no-code and low-code workflows for prompt design, model tuning, and access to models like Gemini.
141
Which of the following model parameters can help increase creative or unexpected output from a generative AI model? (Select all that apply) A. Increase temperature B. Set top P to a higher value C. Use top K = 1 D. Lower the temperature
A y B Higher temperature introduces more randomness in output. Increasing top P widens the selection range of potential tokens, allowing for more diverse results. Setting top K = 1 or lowering temperature reduces creativity and focuses on most probable tokens.
142
What best describes the few-shot prompting technique? A. A model receives no examples, just instructions B. The model is trained with large datasets before deployment C. A model receives a few examples to guide its response behavior D. A prompt is manually engineered using token-level tuning
C ¿Qué es "Few-Shot Prompting"? Imagina que quieres enseñarle a un niño un juego nuevo. En lugar de solo darle las instrucciones (el reglamento), juegas un par de rondas de ejemplo con él para que vea cómo funciona. El "Few-Shot Prompting" es exactamente eso, pero para una inteligencia artificial. Dentro de la propia instrucción (el "prompt"), incluyes unos pocos ejemplos completos de la tarea que quieres que realice. Esto ayuda al modelo a entender el patrón, el formato y el tipo de respuesta que esperas. Ejemplo simple de Few-Shot Prompting: Clasifica el sentimiento del texto. Texto: "Me encantó la película, es fantástica." Sentimiento: Positivo Texto: "El servicio fue terriblemente lento." Sentimiento: Negativo Texto: "Hoy es martes." Sentimiento: Neutro Texto: "Qué producto tan increíble, lo compraría de nuevo." Sentimiento: El modelo ve los tres ejemplos ("few shots") y entiende que debe responder "Positivo". Análisis de las Opciones C) Un modelo recibe unos pocos ejemplos... (Correcta) ✅ Esta opción describe perfectamente la técnica: le das al modelo una pequeña cantidad de ejemplos (shots) para guiarlo y mostrarle el comportamiento deseado. A) Un modelo recibe ningún ejemplo, solo instrucciones (Incorrecta) ❌ Esto describe una técnica diferente llamada "Zero-Shot Prompting". En este caso, solo le das la instrucción directa sin ningún ejemplo, confiando en que el modelo ya sabe cómo realizar la tarea. Por ejemplo: Clasifica el siguiente texto como positivo o negativo: "Qué producto tan increíble". B) El modelo es entrenado con grandes conjuntos de datos antes de su despliegue (Incorrecta) ❌ Esto describe el pre-entrenamiento de un modelo fundacional (como GPT o Gemini). Es el proceso inicial donde el modelo aprende sobre el lenguaje a partir de cantidades masivas de datos de internet. El "prompting" es la técnica que usas para interactuar con el modelo después de que ya ha sido pre-entrenado. D) Un prompt es diseñado manualmente usando ajuste a nivel de token (Incorrecta) ❌ Esto describe una técnica mucho más avanzada y compleja, a veces llamada "prompt tuning" o "soft prompting", donde en lugar de usar palabras, se optimizan vectores numéricos (tokens) para guiar al modelo. El "Few-Shot Prompting" estándar se hace con ejemplos en lenguaje natural, no con este tipo de ajuste de bajo nivel.
143
Which Google-trained model is multimodal and can handle inputs like text, image, and video? A. Imagen B. Gemma C. Codey D. Gemini
D Gemini is Google’s multimodal foundation model capable of processing and generating across text, image, and video modalities.
144
Why might you prefer parameter-efficient tuning over traditional fine-tuning for LLMs? A. It requires full access to the model weights B. It allows tuning with minimal training data and lower computational cost C. It can only be used with Imagen and Codey models D. It permanently alters the base foundation model
B Parameter-efficient tuning (like adapter tuning or reinforcement learning with human feedback) adjusts only a small subset of model parameters, making it faster and cheaper while preserving the base model intact.
145
Which statement best describes how generative AI models generate new content? A. They learn from a massive amount of existing content and can be further tuned for specific problems. B. They are programmed with fixed algorithms that cannot be changed. C. They generate content randomly without any prior learning. D. They only use rule-based logic to produce content.
A Generative AI models are trained on large datasets and learn patterns from them, allowing them to generate new content. They can also be fine-tuned for domain-specific tasks.
146
What is the primary purpose of Vertex AI Studio in Google Cloud? A. To write emails automatically for users B. To quickly test and customize generative AI models for integration into applications C. To store datasets for machine learning D. To translate programming languages
B Vertex AI Studio is designed to help users test, customize, and deploy generative AI models efficiently in their applications.
147
Which of the following are best practices for designing prompts for generative AI models? (Select all that apply) A. Be concise and specific B. Ask multiple unrelated tasks in a single prompt C. Include relevant examples D. Provide clear instructions
A, C y D Effective prompts should be concise, specific, and include examples or instructions to guide the model. Asking multiple unrelated tasks in one prompt can reduce response quality.
148
Which tuning method allows you to improve a generative AI model’s performance using a modest amount of labeled data without updating all model parameters? A. Full fine-tuning B. Parameter-efficient tuning (e.g., adapter tuning) C. Zero-shot prompting D. Data augmentation
B Parameter-efficient tuning, such as adapter tuning, updates only a subset of model parameters, making it efficient for scenarios with limited data and resources.
149
Google Cloud offers which two main categories of AI solutions? A. Prebuilt and custom solutions B. Vertical solutions (industry-specific) and horizontal solutions (cross-industry) C. Data storage and data processing D. Cloud and on-premises solutions
B Google Cloud distinguishes between vertical solutions, which are tailored for specific industries, and horizontal solutions, which address common needs across industries.
150
What is the primary purpose of Generative AI? A) To classify data into predefined categories. B) To predict future trends based on historical data. C) To generate new content such as text, images, or code. D) To optimize processes for efficiency.
C Generative AI is specifically designed to create new content based on patterns learned from existing data, distinguishing it from other AI types focused on classification, prediction, or optimization.
151
What is the main difference between a pre-trained model and a fine-tuned model in the context of Generative AI? A) Pre-trained models are used for specific tasks, while fine-tuned models are used for general purposes. B) Pre-trained models are trained on small datasets, while fine-tuned models are trained on large datasets. C) Pre-trained models are general-purpose models trained on large datasets, while fine-tuned models are specialized models trained on smaller, domain-specific datasets. D) Pre-trained models require less computational power, while fine-tuned models require more.
C Pre-trained models are initially trained on vast datasets for general tasks, while fine-tuned models adapt these to specific domains, enhancing performance for targeted applications like finance or healthcare.
152
Which of the following is NOT one of Google's foundation models ? A) Gemini B) Codey C) Imagen D) Vertex
D ✅ La Respuesta Correcta: Vertex (D) La opción Vertex (cuyo nombre completo es Vertex AI) es la correcta porque no es un modelo fundamental, sino una plataforma. Piensa en la siguiente analogía: Vertex AI es el taller o el estudio de un artista. Es el lugar que contiene todas las herramientas, la infraestructura y los servicios para trabajar. Gemini, Codey e Imagen son las herramientas especializadas que se usan dentro de ese taller (los pinceles, los cinceles, el software, etc.). Vertex AI es la plataforma unificada de Google Cloud para el ciclo de vida del machine learning (MLOps). Es el servicio que utilizas para acceder, entrenar, ajustar y desplegar los modelos fundamentales, pero no es un modelo en sí mismo. 🛠️ ❌ Por Qué las Otras Opciones Son Incorrectas Las otras tres opciones sí son modelos fundamentales (Foundation Models) de Google: A) Gemini: Es la familia de modelos multimodales más avanzada de Google, capaz de entender y procesar texto, código, imágenes, audio y video. 🧠 B) Codey: Es una familia de modelos de lenguaje grandes (LLMs) especializada y optimizada para tareas relacionadas con el código de programación (generar, completar y explicar código). 💻 C) Imagen: Es un modelo de difusión de texto a imagen, diseñado para generar imágenes fotorrealistas y de alta calidad a partir de descripciones en lenguaje natural. 🎨
153
What are the three components of a prompt in Generative AI? A) Input, Output, and Context B) Input, Context, and Examples C) Context, Examples, and Parameters D) Input, Parameters, and Output
B A prompt includes the input (request), context (guiding information), and examples (demonstrating desired outputs), enabling effective interaction with the model.
154
What is the correct order of steps in the Generative AI workflow on Google Cloud? A) Input prompt, Model customization, Responsible AI checks, Processing by foundation models, Results grounding, Final response B) Input prompt, Responsible AI and safety checks, Processing by foundation models, Model customization, Results grounding, Final response C) Responsible AI and safety checks, Input prompt, Processing by foundation models, Model customization, Results grounding, Final response D) Input prompt, Processing by foundation models, Responsible AI and safety checks, Model customization, Results grounding, Final response
B The workflow begins with the input prompt, followed by safety checks, model processing, optional customization, grounding to prevent hallucinations, and final response delivery.
155
A data science team is tasked with building a machine learning model to predict the future spending amount of customers based on their historical purchase data. Which type of machine learning problem is this, and which common ML model type would be most appropriate? A. Unsupervised learning, Classification model (e.g., Logistic Regression) B. Supervised learning, Regression model (e.g., Linear Regression) C. Unsupervised learning, Clustering model (e.g., k-means clustering) D. Supervised learning, Classification model (e.g., Decision Tree Classifier)
B Predicting a future spending amount involves forecasting a numeric variable, which defines it as a regression problem. Since the team has historical purchase data with actual spending amounts, this is considered labeled data, falling under supervised learning. A linear regression model is commonly used to solve regression problems.
156
A company wants to deploy a new application that processes event-driven stateless workloads and requires automatic scaling from zero, where they only pay for the exact resources used. Which Google Cloud compute service is best suited for this requirement? A. Compute Engine B. Google Kubernetes Engine (GKE) C. App Engine D. Cloud Run
D Cloud Run is a fully managed compute platform specifically designed for request or event-driven stateless workloads. It excels at abstracting all infrastructure management, automatically scales up and down from zero (meaning no cost when idle), and charges only for the resources consumed, making it highly efficient for such use cases. While other options like Compute Engine, GKE, and App Engine offer compute capabilities, they do not inherently provide the "scale to zero" and "pay-per-use" model as optimally for stateless, event-driven applications as Cloud Run.
157
Google announced seven AI Principles in June 2018 to guide its work in AI development and business decisions. Which of the following is NOT one of Google's stated AI principles? A. AI should be built and tested for safety. B. AI should avoid creating or reinforcing unfair bias. C. AI should prioritize maximum profit and market share. D. AI should be accountable to people.
C Google's AI principles integrate responsible AI and include concrete standards such as: "AI should be built and tested for safety", "AI should avoid creating or reinforcing unfair bias", and "AI should be accountable to people". The option "AI should prioritize maximum profit and market share" is not one of Google's seven announced AI principles. The principles emphasize broader ethical considerations like social benefit, fairness, and transparency over purely commercial objectives.
158
A data scientist needs to build a custom machine learning model using their own training data, but they want to minimize the amount of coding required for model development, training, and deployment. Which Google Cloud AI development option is best suited for this scenario? A. Pre-trained APIs B. BigQuery ML C. AutoML on Vertex AI D. Custom training
C AutoML on Vertex AI is described as a no-code solution that enables users to build their own custom machine learning models through a point-and-click interface on Vertex AI. It automates significant parts of the ML pipeline, allowing data scientists to focus on solving business problems with minimal coding. Pre-trained APIs are ready-made and don't require training data or custom model building. BigQuery ML involves SQL coding. Custom training requires manual coding and provides the highest level of control, which is contrary to minimizing coding.
159
The Machine Learning (ML) workflow on Google Cloud with Vertex AI typically includes three main stages. Which option correctly lists these stages and a key characteristic of the overall workflow? A. Data Ingestion, Model Tuning, and Model Deployment; the process is linear. B. Data Preparation, Model Development, and Model Serving; the process is iterative. C. Feature Engineering, Model Training, and Model Monitoring; the process is one-time. D. Data Analysis, Model Validation, and Prediction Service; the process is sequential and fixed.
B The three main stages of the ML workflow with Vertex AI are Data Preparation, Model Development, and Model Serving. Data preparation involves uploading and feature engineering. Model development includes training and evaluation. Model serving covers deployment and monitoring. A crucial characteristic highlighted in the sources is that the ML workflow is iterative, not linear, allowing for continuous adjustments and improvements throughout the process, for example, returning to data preparation if monitoring reveals issues.
160
Which of the following statements best describes AutoML on Google Cloud? A) It requires users to write extensive Python code for model training. B) It enables no-code model development through a graphical interface. C) It is only available for unstructured data like images and audio. D) It is a tool exclusively used for hyperparameter tuning.
B AutoML on Google Cloud enables no-code ML model development through a UI, allowing users to focus on business problems rather than code or infrastructure.
161
Which of the following are principles of responsible AI as defined by Google? (Select all that apply) A) AI should always replace human decision-making. B) AI should be built and tested for safety. C) AI should avoid reinforcing unfair bias. D) AI should be accountable to people.
B, C y D Google’s Responsible AI principles include building AI systems that are safe, fair, and accountable. Replacing human decision-making is not a principle.
162
What is a key benefit of using BigQuery ML? A) It allows ML model training using drag-and-drop UI. B) It supports image recognition using pre-trained models. C) It enables ML model training using SQL syntax directly on BigQuery datasets. D) It automatically builds custom neural networks without user input.
C BigQuery ML lets you build and train ML models directly within BigQuery using SQL, ideal for users familiar with SQL and working with tabular data.
163
Which of the following are supported ML model types in BigQuery ML? (Select all that apply) A) Linear regression B) Logistic regression C) k-means clustering D) Support Vector Machines (SVMs)
A, B y C BigQuery ML supports models such as linear and logistic regression, k-means clustering, and others, but not SVMs.
164
What is the main use case of a Tensor Processing Unit (TPU)? A) Hosting web applications at scale B) Managing relational databases C) Accelerating machine learning workloads D) Monitoring cloud network traffic
C TPUs are specialized hardware developed by Google for high-efficiency acceleration of ML workloads, especially deep learning.
165
Which Google Cloud product allows you to build and train machine learning models using only SQL commands, without writing code? A. Vertex AI B. BigQuery ML C. AutoML Tables D. Cloud Functions
B BigQuery ML enables users to create and execute machine learning models in BigQuery using standard SQL queries, making it ideal for those who prefer a no-code or low-code approach
166
Which of the following tools is recommended for automating, monitoring, and governing machine learning pipelines on Google Cloud? A. Vertex AI Pipelines B. Cloud Composer C. Dataflow D. Cloud Scheduler
A Vertex AI Pipelines orchestrates ML workflows, automates processes, and supports monitoring and governance, making it the preferred tool for MLOps on Google Cloud
167
When evaluating a binary classification model, which metrics are most useful to assess its performance? (Select all that apply) A. Precision B. Recall C. Mean Squared Error D. ROC AUC
A, B y D Precision and recall are standard metrics for classification problems, measuring the correctness of positive predictions and the ability to identify all positives, respectively. ROC AUC evaluates the trade-off between true positive and false positive rates. Mean Squared Error is used for regression, not classification
168
Which principle is NOT part of Google’s Responsible AI guidelines? A. AI should be socially beneficial B. AI should avoid creating or reinforcing unfair bias C. AI should maximize profit above all else D. AI should be accountable to people
C Google’s Responsible AI principles include being socially beneficial, avoiding unfair bias, and accountability. Maximizing profit is not a listed principle
169
You want to build a custom ML model with your own tabular data, but you have minimal coding experience. Which Google Cloud service is best suited for you? A. Pre-trained APIs B. BigQuery ML C. AutoML D. Custom Training on Vertex AI Workbench
C AutoML provides a no-code solution to build custom ML models using a graphical interface, making it suitable for users with limited coding experience Esta es la opción correcta porque está diseñada específicamente para usuarios con poca o ninguna experiencia en programación que quieren crear modelos personalizados de alta calidad. 👩‍💻 Para datos tabulares, usarías AutoML Tables. El proceso es muy sencillo: Subes tu conjunto de datos (por ejemplo, un archivo CSV). Seleccionas la columna que quieres predecir. Haces clic en "Entrenar". AutoML se encarga de todo lo demás automáticamente: ingeniería de características, selección del mejor tipo de modelo, ajuste de hiperparámetros y evaluación. Es la forma más rápida y sencilla de crear un modelo personalizado sin necesidad de escribir código. ❌ Opciones Incorrectas A. APIs Pre-entrenadas (Pre-trained APIs): Estas APIs usan modelos ya entrenados por Google para tareas genéricas (como analizar texto o imágenes). No te permiten crear un modelo personalizado con tus propios datos tabulares. B. BigQuery ML: Es una muy buena opción "low-code" (de bajo código), pero requiere que escribas consultas en SQL para entrenar el modelo. Para alguien con experiencia mínima en código, la interfaz gráfica de AutoML es aún más sencilla. D. Entrenamiento personalizado en Vertex AI Workbench (Custom Training): Esta opción es para expertos. Requiere que escribas tu propio código de modelo desde cero usando lenguajes como Python y librerías como TensorFlow o PyTorch. Es lo opuesto a tener una experiencia mínima en programación.
170
What is the primary purpose of the Google Cloud AI and ML platform? a) To provide cloud storage solutions b) To enable users to build, train, and deploy machine learning models c) To facilitate data visualization d) To offer pre-built applications for specific industries
B The Google Cloud AI and ML platform is designed to support the entire machine learning workflow, from data preparation to model deployment, providing tools like Vertex AI, AutoML, and BigQuery ML.
171
Which of the following is NOT a key principle of Google's commitment to responsible AI? a) Social benefit b) Avoiding bias c) Maximizing profit d) Scientific excellence
C Google's seven principles of responsible AI include social benefit, avoiding bias, safety, accountability, privacy, scientific excellence, and appropriate use. Maximizing profit is not explicitly mentioned as a principle.
172
What does the term "generative AI" refer to in the context of machine learning? a) AI that predicts future events b) AI that creates new content based on patterns learned from data c) AI that classifies data into predefined categories d) AI that optimizes business processes
B Generative AI refers to models that generate new content, such as text, images, or music, by learning patterns from existing data. It is a subset of AI focused on content creation.
173
Which Google Cloud tool allows users to build machine learning models without writing code? a) BigQuery ML b) AutoML c) Vertex AI Workbench d) TensorFlow
B AutoML is a suite of machine learning products on Google Cloud that enables users to build custom models without writing code, leveraging technologies like transfer learning and neural architecture search.
174
What are the three main stages of the machine learning workflow on Vertex AI? a) Data collection, model training, model deployment b) Data preparation, model development, model serving c) Feature engineering, model evaluation, model monitoring d) Data ingestion, model tuning, model scaling
B Vertex AI organiza el flujo de trabajo de aprendizaje automático en un ciclo de vida completo y gestionado. Las tres etapas principales de este ciclo son las que mejor describen el proceso de principio a fin dentro de la plataforma. b) Preparación de datos, desarrollo del modelo y servicio del modelo. (✅ Opción Correcta) Esta es la respuesta correcta porque representa las tres fases lógicas y de alto nivel del ciclo de vida de MLOps en Vertex AI: Preparación de datos (Data preparation): Esta es la primera etapa fundamental. Incluye todo lo necesario para que tus datos estén listos para el entrenamiento, como la ingesta, limpieza, preprocesamiento e ingeniería de características. Herramientas de Vertex AI como Feature Store y la integración con BigQuery y Dataflow son clave aquí. Desarrollo del modelo (Model development): Una vez que los datos están listos, esta es la fase central donde se crea el modelo. Abarca la experimentación, el entrenamiento del modelo, la evaluación de su rendimiento y el ajuste de hiperparámetros para optimizarlo. Aquí es donde usas Vertex AI Training y Experiments. Servicio del modelo (Model serving): Después de entrenar y validar un modelo, el objetivo final es ponerlo en producción. Esta etapa incluye el despliegue del modelo en un endpoint para que pueda recibir datos y devolver predicciones en tiempo real o por lotes. También implica el monitoreo continuo del modelo para asegurar su rendimiento. Estas tres etapas cubren todo el viaje, desde los datos brutos hasta un modelo productivo y supervisado. 👍 ¿Por qué las otras opciones son incorrectas? Las otras opciones son incorrectas porque listan sub-tareas específicas que pertenecen a las etapas principales, en lugar de describir las etapas completas. a) Recopilación de datos, entrenamiento del modelo, despliegue del modelo. Esta opción es incorrecta porque la "recopilación de datos" suele ser un paso previo al flujo de trabajo en Vertex AI. La plataforma generalmente asume que los datos ya han sido recopilados y están en un lugar como Google Cloud Storage o BigQuery. "Preparación de datos" es un término más preciso para la primera etapa dentro de la plataforma. c) Ingeniería de características, evaluación del modelo, monitoreo del modelo. Esta opción es demasiado granular. La "ingeniería de características" es parte de la preparación de datos. La "evaluación del modelo" es parte del desarrollo del modelo. Y el "monitoreo" es parte del servicio del modelo. Son componentes, no las etapas principales. d) Ingesta de datos, ajuste del modelo, escalado del modelo. Al igual que la opción c), esta lista describe actividades específicas. La "ingesta de datos" es parte de la preparación de datos, el "ajuste del modelo" es parte del desarrollo, y el "escalado" es una consideración técnica del servicio del modelo.
175
Which of the following are recommended best practices for data preparation and storage on Vertex AI? (Select two) A) Store tabular data in BigQuery. B) Store image, video, audio, and unstructured data in block storage. C) Use Vertex AI Feature Store with unstructured data. D) Avoid storing data in block storage.
A y D ✅ A) Almacenar datos tabulares en BigQuery. Esta es una práctica fundamental en el ecosistema de Google Cloud. ¿Por qué?: BigQuery es el almacén de datos (data warehouse) sin servidor de Google, altamente optimizado para datos estructurados y tabulares. Vertex AI tiene una integración nativa y de alto rendimiento con BigQuery. Esto te permite crear conjuntos de datos de Vertex AI directamente desde tablas de BigQuery, entrenar modelos con AutoML o código personalizado, y servir predicciones de manera extremadamente eficiente. Es la opción preferida para cualquier dato con formato de tabla. 📊 ✅ D) Evitar almacenar datos en almacenamiento en bloque (block storage). Esta también es una práctica recomendada para los conjuntos de datos principales de Machine Learning. ¿Por qué?: El almacenamiento en bloque (como los Persistent Disks de Compute Engine) funciona como un disco duro virtual conectado a una sola máquina. No es ideal para ML porque: No es fácilmente accesible por múltiples nodos de entrenamiento en paralelo. No es escalable ni rentable para grandes volúmenes de datos. El servicio recomendado para almacenar los datos de entrenamiento es el almacenamiento de objetos (object storage), es decir, Cloud Storage (GCS). GCS es escalable, económico y está diseñado para ser accedido masivamente en paralelo por los trabajos de entrenamiento distribuido de Vertex AI. ☁️ ❌ B) Almacenar datos de imagen, video, audio y no estructurados en almacenamiento en bloque. Esta opción es incorrecta precisamente por la razón explicada en el punto D. ¿Por qué?: El lugar correcto para almacenar grandes archivos binarios y datos no estructurados como imágenes, videos o audios es Cloud Storage (GCS), que es un servicio de almacenamiento de objetos. Usar almacenamiento en bloque sería ineficiente, caro y crearía cuellos de botella durante el entrenamiento. ❌ C) Usar Vertex AI Feature Store con datos no estructurados. Esta opción es incorrecta porque malinterpreta el propósito de un Feature Store. ¿Qué es un Feature Store?: Es un repositorio para almacenar, servir y gestionar características (features) de Machine Learning, que son datos procesados y estructurados, listos para ser consumidos por un modelo. ¿Por qué es incorrecto?: No almacenas datos brutos y no estructurados (como un archivo de imagen JPG) en un Feature Store. Lo que haces es procesar esa imagen para extraer características (por ejemplo, un vector de incrustación o embedding generado por una red neuronal) y son esas características (el vector) las que almacenas en el Feature Store. El Feature Store trabaja con los resultados del procesamiento, no con los datos crudos.
176
When should a Machine Learning Engineer primarily consider using the Vertex Training service for model training on Vertex AI? A) For very small datasets that can be fully loaded into a Workbench Notebooks instance's memory. B) When the training process needs to be productionized, carried out on a schedule, or involves distributed training. C) Only when using custom Python dependencies that cannot be installed in Workbench Notebooks. D) Exclusively for model evaluation and understanding, not for actual training.
B For "large datasets, distributed training, or scheduled training, use the Vertex training service". The Vertex Training service is also recommended "to productionize training even on small datasets if the training is carried out on a schedule or in response to the arrival of additional data". For small datasets, training within Workbench Notebooks may be sufficient
177
A Machine Learning Engineer observes that their model's performance in production is degrading, and they suspect data issues. Which best practices for model monitoring should they follow on Vertex AI? (Select all that apply) A) Implement skew detection by providing a pointer to the original training data used for the model. B) If access to the original training data is unavailable, enable drift detection to track how inputs change over time. C) Disregard changes in statistical properties of inputs over time, as they rarely have a significant impact on prediction accuracy. D) Fine-tune alert thresholds for monitoring metrics based on the specific use case, user's domain expertise, and initial model monitoring metrics.
A, B y D ✅ Opción A: Correcta Implementar la detección de skew (desviación) proporcionando una referencia a los datos de entrenamiento originales del modelo. Explicación: Esta es una de las prácticas más importantes en el monitoreo de modelos. ¿Qué es el Skew? El training-serving skew (desviación entre entrenamiento y producción) ocurre cuando los datos que tu modelo recibe en producción son estadísticamente diferentes de los datos con los que fue entrenado. Por ejemplo, si entrenaste un modelo para predecir precios de casas con datos de 2020, pero ahora en 2025 lo usas con datos de un mercado inmobiliario completamente diferente. ¿Por qué es importante? Un modelo funciona bien cuando los datos que ve son similares a los que "estudió". Si los datos de producción se desvían mucho de los de entrenamiento, el rendimiento del modelo inevitablemente se degradará. Vertex AI te permite especificar tu dataset de entrenamiento como línea base para que pueda comparar continuamente los datos nuevos con los originales y alertarte si detecta diferencias significativas. ✅ Opción B: Correcta Si el acceso a los datos de entrenamiento originales no está disponible, habilitar la detección de drift (deriva) para rastrear cómo cambian las entradas a lo largo del tiempo. Explicación: Esta es una alternativa excelente cuando la opción A no es posible. ¿Qué es el Drift? El data drift (deriva de datos) se refiere al cambio en las propiedades estadísticas de los datos de entrada a lo largo del tiempo. En lugar de comparar los datos actuales con los de entrenamiento, se comparan los datos recientes (p. ej., de la última hora) con los de un período anterior (p. ej., del día anterior). ¿Por qué es útil? A veces, no tienes acceso a los datos de entrenamiento originales por razones de privacidad, tamaño o porque simplemente se perdieron. La detección de drift te permite identificar si las características de tus datos de entrada están cambiando con el tiempo, lo cual es una causa muy común de la degradación del rendimiento. Vertex AI permite configurar trabajos de monitoreo para detectar drift sin necesidad de los datos de entrenamiento, ofreciendo una forma flexible de mantener la salud del modelo. ✅ Opción D: Correcta Ajustar los umbrales de alerta para las métricas de monitoreo basándose en el caso de uso específico, la experiencia del usuario en el dominio y las métricas iniciales de monitoreo del modelo. Explicación: El monitoreo no es una solución "talla única"; necesita personalización. ¿Qué son los umbrales? Son los límites que tú defines. Si la desviación (skew o drift) de una característica supera este límite, Vertex AI genera una alerta. ¿Por qué ajustarlos? Los umbrales por defecto pueden ser demasiado sensibles (generando falsas alarmas) o muy poco sensibles (no detectando problemas reales). Un experto en el dominio (p. ej., un analista financiero para un modelo de fraude) sabe qué nivel de cambio es normal y cuál es preocupante. Por ejemplo, una pequeña variación en la edad promedio de los usuarios puede ser normal, pero un cambio drástico en la distribución de países podría ser una señal de un ataque o un problema en la recolección de datos. Vertex AI te da control total para configurar estos umbrales por cada característica, lo que hace que las alertas sean mucho más significativas y procesables. ❌ Opción C: Incorrecta Ignorar los cambios en las propiedades estadísticas de las entradas a lo largo del tiempo, ya que rara vez tienen un impacto significativo en la precisión de la predicción. Explicación: Esta afirmación es fundamentalmente errónea y va en contra de todo el propósito del monitoreo de modelos. La premisa central del Machine Learning es que un modelo aprenderá patrones de los datos de entrenamiento y los aplicará a datos nuevos que sigan una distribución similar. Cuando las propiedades estadísticas de los datos de entrada cambian (es decir, cuando hay skew o drift), esta premisa se rompe. Ignorar estos cambios es la receta perfecta para que un modelo falle silenciosamente en producción, tomando decisiones incorrectas y causando un impacto negativo en el negocio. El objetivo del monitoreo es precisamente detectar estos cambios para poder actuar (p. ej., reentrenando el modelo).
178
What are the core characteristics and key benefits of using Vertex AI Pipelines in an ML workflow? (Select all that apply) A) A pipeline is composed of modular components and provides automation and orchestration for ML workflows. B) They are primarily designed for manual oversight of individual ML steps, reducing the need for automated processes. C) Vertex AI Pipelines automate the entire process of training and deploying machine learning models through a defined sequence of steps. D) They are exclusively used for visualizing experiment metrics, such as loss and accuracy, over time.
A y C A pipeline is characterized by being "composed of modular pieces, components" and offering "automation and orchestration". A primary benefit is that "Pipelines automate the training and deployment of models". Visualizing experiment metrics (loss, accuracy) is a function of Vertex AI TensorBoard, not Vertex AI Pipelines.
179
You are managing an ML project on Vertex AI and need to understand the underlying reasons for differences in performance or accuracy across several pipeline runs or model versions. Which best practice should you leverage to gain this insight? A) Store all prepared data in block storage, as it guarantees the fastest access times for reproducibility. B) Utilize artifact lineage, which describes all the factors that contributed to an artifact, such as training data, hyperparameters, and code. C) Store pipeline definitions and training code exclusively within Workbench Notebooks, avoiding external version control systems. D) Use Vertex AI TensorBoard to track all model artifacts and their versions comprehensively.
B "Artifact lineage describes all the factors that resulted in an artifact," including "The training, test, and evaluation data used to create the model," "The hyperparameters used during model training," and "The code that was used to train the model". By using artifact lineage, you can "understand differences in performance or accuracy over several pipeline runs". Storing data in block storage is generally advised against. Using a Git repository for pipeline definitions and training code is a best practice for version control. Vertex AI TensorBoard is used for visualizing experiment metrics and graphs, not for tracking all model artifacts and their comprehensive lineage.
180
What is the recommended practice for storing structured tabular data when preparing for model training in Vertex AI? A) Store data in block storage B) Store data in BigQuery C) Store data in local Notebooks instance D) Store data in Google Sheets
B BigQuery is recommended for storing and processing structured tabular data to ensure scalability and integration with Vertex AI workflows.
181
Which of the following are best practices when deploying ML models using Vertex AI? (Select all that apply) A) Enable automatic scaling B) Specify performance requirements C) Always use GPUs for deployment D) Plan inputs to the model
A, B y D ✅ Prácticas Recomendadas (Respuestas Correctas) A) Habilitar el escalado automático (Enable automatic scaling) Esta es una buena práctica fundamental por eficiencia y fiabilidad. Los modelos de machine learning en producción a menudo reciben una cantidad de tráfico muy variable. ¿Por qué es bueno? El escalado automático permite a Vertex AI ajustar dinámicamente los recursos (las máquinas o "nodos" que ejecutan tu modelo) según la demanda en tiempo real. Si hay poco tráfico, reduce el número de nodos para que no pagues por recursos que no estás usando. Si hay un pico de tráfico, añade más nodos automáticamente para que tu servicio no se sature y siga respondiendo rápido a los usuarios. Analogía: Es como un supermercado que abre más cajas cuando hay mucha gente en la cola y cierra algunas cuando la tienda está vacía. Es la forma más inteligente y económica de gestionar los recursos. B) Especificar los requisitos de rendimiento (Specify performance requirements) Esto es crucial para que Vertex AI sepa qué tipo de servicio esperas ofrecer. No es lo mismo un modelo interno que se usa una vez por hora que una aplicación de cara al cliente que recibe miles de peticiones por segundo. ¿Por qué es bueno? Al desplegar el modelo, puedes indicar métricas como la latencia máxima que estás dispuesto a tolerar (el tiempo de respuesta) o el número de consultas por segundo (QPS) que esperas. El resultado: Basándose en estos requisitos, Vertex AI puede tomar decisiones informadas sobre qué tipo de máquina (CPU, memoria) y cuántas réplicas iniciales desplegar para cumplir tus objetivos desde el principio, optimizando la relación entre coste y rendimiento. D) Planificar las entradas al modelo (Plan inputs to the model) Un modelo de ML es muy estricto con el formato de los datos que recibe. Espera los datos exactamente de la misma forma en que fue entrenado. ¿Por qué es bueno? La planificación de las entradas implica asegurarse de que cualquier dato que envíes al modelo para una predicción (por ejemplo, una imagen subida por un usuario o un texto) se preprocese para que coincida con el formato que el modelo espera (tamaño, tipo de dato, normalización, etc.). Sin esto, el modelo fallará. Por ejemplo, si un modelo de visión artificial fue entrenado con imágenes de 224x224 píxeles en blanco y negro, y le envías una imagen en color de 1080x720, te dará un error. Planificar las entradas es garantizar que esta transformación se haga siempre antes de llamar al modelo. ❌ Práctica No Recomendada (Respuesta Incorrecta) C) Usar siempre GPUs para el despliegue (Always use GPUs for deployment) La palabra clave aquí es "siempre", y en tecnología, las soluciones universales casi nunca son la mejor opción. ¿Por qué es malo? Las GPUs (Unidades de Procesamiento Gráfico) son aceleradores muy potentes, ideales para cálculos paralelos masivos. Son fantásticas para entrenar modelos grandes y para la inferencia (predicción) de modelos muy complejos, como los de visión artificial o grandes modelos de lenguaje. Sin embargo, son significativamente más caras que las CPUs. La realidad: Muchos modelos de ML (como regresiones logísticas, árboles de decisión, XGBoost, o redes neuronales pequeñas) funcionan de manera muy eficiente y con una latencia muy baja en CPUs, que son mucho más baratas. Forzar el uso de una GPU para estos modelos sería un desperdicio de dinero 💸. La verdadera buena práctica: Es elegir el hardware (CPU o un tipo específico de GPU/TPU) que mejor se adapte a las necesidades de tu modelo específico y a tus objetivos de latencia y coste. Se trata de optimizar, no de usar siempre lo más potente.
182
What is a key reason to use Vertex AI Feature Store when working with structured data? A) To automatically deploy the model B) To train models without labeled data C) To reuse and manage features efficiently D) To store unstructured video data
C Feature Store centralizes feature storage, allowing reusability across models and simplifying version control and consistency.
183
Which tools can be used within Vertex AI Workbench Notebooks to understand and interpret model predictions? (Select all that apply) A) What-If Tool (WIT) B) Language Interpretability Tool (LIT) C) TensorBoard D) Dataflow
A y B WIT and LIT are specialized tools within Notebooks for understanding model behavior. TensorBoard is used more for visualization of training metrics, and Dataflow is for data processing.
184
What is the primary benefit of using Vertex AI Pipelines in ML workflows? A) It guarantees the highest accuracy in models B) It performs hyperparameter tuning automatically C) It automates and orchestrates ML workflows D) It manages datasets for you
C Vertex AI Pipelines helps streamline the ML lifecycle by connecting modular components for data prep, training, evaluation, and deployment.
185
What is the recommended first step when preparing data for machine learning development on Vertex AI? A. Create a new feature using your Cloud Storage bucket. B. Search Vertex AI Feature Store to see if a feature already exists. C. Fetch raw data from your data lake. D. Join feature values and new feature values.
B ¿Por qué la B es la "buena"? En el desarrollo moderno de Machine Learning (MLOps), la eficiencia y la reutilización son claves. Vertex AI Feature Store actúa como un repositorio centralizado de características (features) que ya han sido procesadas, limpiadas y validadas por otros equipos o ingenieros de datos. Evitar la duplicidad: El primer paso lógico siempre debe ser "mirar la despensa antes de ir al supermercado". Si otro equipo ya creó una característica (por ejemplo, "promedio de gasto mensual del usuario") y la guardó en el Feature Store, no tiene sentido que tú escribas código para calcularla de nuevo desde cero. Consistencia: Usar características existentes garantiza que todos los modelos usen la misma definición de los datos, evitando el sesgo entre entrenamiento y predicción (training-serving skew). Velocidad: Te permite empezar a entrenar mucho más rápido porque te saltas la ingeniería de datos inicial. En resumen: La regla de oro es reutilizar antes de crear. Por eso, verificar el inventario (Feature Store) es siempre el paso número uno. ¿Por qué las demás son las "malas"? Las otras opciones no son necesariamente "erróneas" en todo el proceso, pero no son el primer paso: A. Create a new feature using your Cloud Storage bucket (Crear una nueva característica usando tu bucket de Cloud Storage): Esto es lo que haces solo si el paso B falla (es decir, si buscaste en el Feature Store y no encontraste lo que necesitabas). Si empiezas por aquí, corres el riesgo de crear una característica duplicada que ya existía, desperdiciando tiempo y recursos. C. Fetch raw data from your data lake (Obtener datos sin procesar de tu lago de datos): Al igual que la opción A, esto es un paso posterior. Ir al data lake implica que vas a tener que limpiar y procesar los datos tú mismo. Solo debes hacer esto si confirmas que nadie más lo ha hecho antes y que la característica no está disponible en el Feature Store. D. Join feature values and new feature values (Unir valores de características y nuevos valores): Esta es una operación técnica de manipulación de datos que ocurre mucho más adelante. No puedes unir (hacer un join de) valores si primero no has identificado qué características existen o cuáles necesitas crear.
186
Which of the following is a best practice for using Workbench Notebooks in Vertex AI? A. Use a single notebook instance for the entire team. B. Use notebooks only for production code. C. Create a new notebook instance for each team member. D. Avoid using Vertex SDK for Python in notebooks.
C It is recommended to create a separate notebook instance for each team member to facilitate individual development, experimentation, and collaboration.
187
What tool should you use to visualize experiments in Vertex AI? A. BigQuery B. Dataflow C. TensorBoard D. Workbench Notebooks
C TensorBoard es la herramienta de visualización diseñada específicamente para el machine learning. Vertex AI, la plataforma de MLOps de Google Cloud, se integra de forma nativa con una versión gestionada llamada Vertex AI TensorBoard. Propósito específico: Su función principal es rastrear y visualizar las métricas y los resultados de los experimentos de machine learning. Esto incluye visualizar métricas como la pérdida (loss) o la precisión (accuracy) a lo largo del tiempo, comparar el rendimiento de diferentes ejecuciones de un modelo, ver histogramas de pesos y sesgos, y analizar gráficos de modelos. Integración nativa: Cuando ejecutas trabajos de entrenamiento o pipelines en Vertex AI, puedes configurarlos para que envíen sus métricas directamente a una instancia de Vertex AI TensorBoard. Esto te da un lugar centralizado y persistente para analizar y comparar todos tus experimentos sin esfuerzo adicional. En resumen, TensorBoard es la herramienta estándar y más adecuada para esta tarea dentro del ecosistema de Vertex AI. Las respuestas incorrectas y por qué lo son: A. BigQuery BigQuery es un almacén de datos (data warehouse) sin servidor. Su función es almacenar y analizar grandes volúmenes de datos mediante consultas SQL. Aunque teóricamente podrías enviar los logs de tus métricas a una tabla de BigQuery y luego usar otra herramienta (como Looker Studio) para visualizarlos, este no es su propósito principal. Sería un proceso manual y mucho menos eficiente que usar TensorBoard, que está diseñado para esta tarea. B. Dataflow Dataflow es un servicio para procesar datos en streaming o por lotes (ETL). Se utiliza para transformar y mover datos, no para visualizarlos. Puedes usarlo en una fase previa para preparar los datos antes del entrenamiento, pero no tiene ninguna funcionalidad para visualizar las métricas de un experimento de machine learning. Es la herramienta equivocada para este trabajo. D. Workbench Notebooks Workbench Notebooks es el entorno de JupyterLab gestionado de Vertex AI. Dentro de un notebook, puedes escribir código para entrenar modelos y, por supuesto, usar librerías como Matplotlib o Seaborn para crear gráficos y visualizaciones. Sin embargo, esto tiene dos limitaciones: Es para análisis ad-hoc: Las visualizaciones viven dentro de esa sesión del notebook. No es una solución centralizada ni persistente para comparar múltiples experimentos que se ejecutan de forma independiente (por ejemplo, como trabajos programados). No es la herramienta final: A menudo, el código que escribes en un notebook es el que envía las métricas a TensorBoard para una visualización y seguimiento más robustos. Por lo tanto, aunque puedes visualizar en un notebook, la herramienta principal de Vertex AI para visualizar y comparar experimentos es TensorBoard.
188
For preprocessing tabular data, which service is recommended in the best practices? A. Dataflow B. BigQuery C. Vertex AI Pipelines D. Cloud Storage
B BigQuery is recommended for processing and transforming tabular data due to its powerful SQL capabilities and integration with BigQuery ML for machine learning tasks.
189
What is a key aspect of model monitoring in Vertex AI? A. Manually checking model performance daily. B. Using skew detection. C. Ignoring drift in statistical properties. D. Not tracking model inputs.
B Skew detection is a crucial best practice in model monitoring to ensure that the model's performance remains consistent and to detect any deviations that might affect prediction accuracy.
190
where should you store tabular data and unstructured data (like images and videos) respectively? A.Cloud Storage for tabular data, and BigQuery for unstructured data. B.Cloud Storage for both. C.BigQuery for both. D.BigQuery for tabular data, and Cloud Storage for unstructured data. tip: Think about the nature of the data and which Google Cloud service is optimized for querying structured versus storing unstructured files.
D
191
What is the primary benefit of using Vertex AI's hyperparameter tuning feature? A.To automatically find the optimal hyperparameter configuration to maximize model accuracy. B.To manually adjust hyperparameters for each training run. C.To deploy the model to a production environment. D.To visualize the model's architecture. tip: This feature helps in optimizing the model's performance without manual intervention.
A
192
For a project using tabular data in BigQuery and leveraging the TensorFlow ecosystem, which combination of tools is recommended for data preprocessing? A.Dataflow for tabular data and BigQuery for unstructured data. B.Only Dataflow for all preprocessing tasks. C.Only BigQuery for all preprocessing tasks. D.BigQuery for tabular data and TensorFlow Extended for TensorFlow-based models. tip: Consider the specialized tools for handling large-scale data and for integrating with a specific ML framework.
D ¿Por qué la opción D es la correcta? D. BigQuery for tabular data and TensorFlow Extended for TensorFlow-based models. (BigQuery para datos tabulares y TensorFlow Extended para modelos basados en TensorFlow). Esta opción propone usar cada herramienta para lo que está específicamente diseñada, creando un flujo de trabajo (pipeline) de Machine Learning eficiente y robusto. BigQuery para datos tabulares 🧠: Fortaleza principal: BigQuery es un almacén de datos (data warehouse) masivamente escalable, optimizado para consultas SQL sobre datos estructurados (tabulares). Uso ideal: Es perfecto para las primeras etapas del preprocesamiento: filtrar datos, unir tablas, realizar agregaciones, y hacer transformaciones iniciales que se pueden expresar fácilmente en SQL. Puedes manejar terabytes de datos de forma muy rápida y rentable directamente donde residen. TensorFlow Extended (TFX) para modelos de TensorFlow ⚙️: Fortaleza principal: TFX es un ecosistema diseñado para crear pipelines de ML de producción con TensorFlow. Su componente Transform es crucial para el preprocesamiento. Uso ideal: Se encarga de las transformaciones que son específicas del modelo y que deben ser consistentes entre el entrenamiento y la inferencia (cuando el modelo hace predicciones). Por ejemplo: Normalización: Escalar valores numéricos (ej. a un rango de 0 a 1). Creación de vocabularios: Convertir texto a identificadores numéricos. One-hot encoding: Convertir variables categóricas. Ventaja clave: TFX evita un problema muy común llamado sesgo de entrenamiento-servicio (training-serving skew). Esto ocurre cuando los datos se procesan de manera diferente durante el entrenamiento y durante la predicción, lo que degrada el rendimiento del modelo. TFX genera un grafo de preprocesamiento que se guarda y se reutiliza de forma idéntica en ambas fases, garantizando la consistencia. En resumen, la opción D propone un flujo lógico: primero, usa el poder de BigQuery para el trabajo pesado de preparación de datos a gran escala, y luego, usa TFX para el preprocesamiento fino y específico del modelo, asegurando que sea replicable y robusto. ¿Por qué las otras opciones son incorrectas? ❌ A. Dataflow para datos tabulares y BigQuery para datos no estructurados. Esta opción invierte los roles de las herramientas. BigQuery no está diseñado para datos no estructurados (como imágenes o audio). Su fuerte son los datos tabulares. Por otro lado, aunque Dataflow puede procesar datos tabulares, es mucho menos eficiente que BigQuery para realizar operaciones tipo SQL. Dataflow brilla más en el procesamiento de flujos de datos (streaming) o transformaciones complejas que no se pueden hacer con SQL. ❌ B. Solo Dataflow para todas las tareas de preprocesamiento. Esto sería ineficiente y costoso. Implicaría extraer todos los datos de BigQuery (que ya es un motor de procesamiento potentísimo) para procesarlos en Dataflow. Se estarían ignorando las capacidades de BigQuery para realizar el filtrado y las agregaciones iniciales de manera mucho más rápida y barata. ❌ C. Solo BigQuery para todas las tareas de preprocesamiento. Esta opción es tentadora pero incompleta y arriesgada. Se pueden hacer muchas transformaciones en BigQuery, pero es muy difícil gestionar las transformaciones que dependen de estadísticas calculadas sobre los datos de entrenamiento (como la media y la desviación estándar para la normalización). Intentar aplicar estas mismas estadísticas de forma consistente a los nuevos datos en el momento de la predicción solo con SQL es complejo y una fuente común del sesgo de entrenamiento-servicio. TFX está diseñado específicamente para solucionar este problema.
193
What is the term for the phenomenon when the statistical properties of the input data for a production model change over time, potentially leading to less accurate predictions? A.Overfitting B.Drift C.Underfitting D.Skew
B La respuesta correcta: B. Drift (Deriva) El Drift (también conocido como deriva de datos o deriva del modelo) es exactamente el fenómeno descrito: las propiedades estadísticas de los datos que el modelo recibe en producción cambian con el tiempo y ya no coinciden con las de los datos con los que fue entrenado. Analogía: Imagina que entrenas un modelo para predecir la venta de abrigos basándote en datos de los últimos 5 años. De repente, llega un invierno inusualmente cálido. Los datos de entrada (temperaturas) han "derivado" de lo que el modelo considera normal, y sus predicciones sobre la venta de abrigos serán mucho menos precisas. Las "reglas del juego" han cambiado. 📈📉 Impacto: El Drift es una de las principales razones por las que el rendimiento de los modelos de machine learning se degrada en producción y por lo que es crucial monitorizarlos y reentrenarlos periódicamente. Por qué las otras opciones son incorrectas A. Overfitting (Sobreajuste) El Overfitting es un problema que ocurre durante el entrenamiento del modelo. Sucede cuando el modelo aprende "demasiado bien" los datos de entrenamiento, incluyendo el ruido y las casualidades, en lugar de las tendencias generales. Como resultado, funciona muy bien con los datos que ya ha visto, pero es incapaz de generalizar y falla con datos nuevos. No describe un cambio en los datos a lo largo del tiempo. C. Underfitting (Subajuste) El Underfitting también es un problema de entrenamiento. Es lo opuesto al overfitting: el modelo es demasiado simple y no logra capturar ni siquiera las tendencias básicas de los datos de entrenamiento. Funciona mal tanto con los datos de entrenamiento como con datos nuevos. D. Skew (Sesgo o Asimetría) El Skew describe la forma de la distribución de los datos. Por ejemplo, "feature skew" significa que la distribución de una característica no es simétrica. Aunque existe un concepto relacionado llamado "training-serving skew" (cuando los datos en producción son inherentemente diferentes a los de entrenamiento), el término Drift es el que se usa específicamente para describir el proceso de cambio a lo largo del tiempo. El "skew" es una foto fija de la distribución; el "drift" es la película de cómo esa distribución cambia.
194
Which of the following best describes the purpose of Vertex AI Pipelines? A.To visualize and track experiment metrics like loss and accuracy. B.To provide a managed environment for running Jupyter notebooks. C.To automate and orchestrate the steps of a machine learning workflow, from data extraction to model deployment. D.To store and version control machine learning model artifacts.
C
195
Which of the following is NOT considered a common issue of "untidy" or "messy" data that needs to be addressed before ingestion by a machine learning algorithm? A) Missing attribute values B) Categorical features in string format (e.g., "Yes/No") C) Date/time features stored as objects/strings D) Data that has been successfully transformed into numerical one-hot encodings
D Messy" or "untidy" data refers to issues like missing attribute values, noise, outliers, duplicates, wrong data formats, or unsuited categorical data. Transforming categorical features into numerical one-hot encodings is a method used to improve data quality, making it ready for machine learning algorithms, rather than being an issue itself
196
A banking team is developing an ML model to detect if financial transactions are fraudulent or not. Which type of machine learning problem is this, and why? A) Regression, because the output value (fraudulent or not) is continuous. B) Classification, because the output value (fraudulent or not) is discrete/categorical. C) Unsupervised Learning, because the model needs to discover patterns in unlabeled transaction data. D) Regression, because it predicts a numerical quantity like the amount of fraud.
B In supervised learning, if the label (the characteristic you want to predict) is a discrete quantity with a finite number of values or classes, it is a classification problem. Since "fraudulent" or "not fraudulent" are distinct, separate categories, this is a classification task. Regression problems, in contrast, aim to predict continuous values. While you could build a regression model to predict the number of fraudulent transactions or their amounts, the task of determining whether a specific transaction falls into one of two distinct categories is classification.
197
In the context of gradient descent optimization, what is the impact of setting a very large learning rate? (Select all that apply) A) It guarantees faster convergence to the global minimum. B) It can cause the model to overshoot the minimum or bounce from wall to wall on the loss surface. C) It ensures the model will generalize better to unseen data. D) It may lead to the process not being guaranteed to converge.
B y D The learning rate is a hyperparameter that determines the step size in gradient descent. If the learning rate is too large, the algorithm might "overshoot" the minimum, bouncing from wall to wall or even entirely out of the optimal "valley" on the loss surface. This means the process is not guaranteed to converge to the true minimum. While a higher learning rate might show a rapid initial drop in loss, it doesn't guarantee faster convergence to the global minimum or improved generalization.
198
Why is it crucial to split your dataset into training, validation, and test sets when developing a machine learning model? A) To ensure the model learns complex patterns from all available data simultaneously. B) To prevent underfitting by making sure the model is exposed to a diverse range of examples during training. C) To accurately assess the model's ability to generalize to new, unseen data and identify overfitting. D) To reduce the computational cost of model training by using smaller subsets of data.
C ✅ Razón 1: Por qué la (C) es la correcta (C) To accurately assess the model's ability to generalize to new, unseen data and identify overfitting. (Para evaluar con precisión la capacidad del modelo para generalizar a datos nuevos y no vistos e identificar el sobreajuste). Esta opción es la correcta porque define perfectamente el problema central del machine learning: la generalización. El objetivo de un modelo no es funcionar bien con los datos que ya ha visto, sino predecir correctamente datos futuros que nunca ha visto. Para entender esto, piensa en la analogía de un estudiante: Datos de Entrenamiento (Training): Es el libro de texto y los ejercicios que el estudiante usa para aprender la materia. Datos de Validación (Validation): Son los exámenes de práctica o simulacros. El estudiante los usa para ver qué tan bien está aprendiendo realmente y para ajustar su método de estudio (por ejemplo, "necesito repasar más este tema"). Datos de Prueba (Test): Es el examen final. Es la primera vez que el estudiante ve estas preguntas y su nota en este examen es la medida real de cuánto sabe. Ahora, veamos los dos conceptos clave de la respuesta (C): Generalizar (Generalize): Si el estudiante solo memoriza las respuestas del libro (entrenamiento), sacará un 10 en los ejercicios. Pero si en el examen final (prueba) le cambian un poco los números o las preguntas, fallará estrepitosamente. No ha generalizado el conocimiento. Identificar el Sobreajuste (Identify Overfitting): El "sobreajuste" es exactamente eso: memorizar en lugar de aprender. ¿Cómo lo detectamos? Usando el set de validación. Si el "estudiante" (modelo) saca un 100% en los datos de entrenamiento (el libro) pero un 50% en los de validación (examen de práctica), sabemos que está memorizando. Ha ocurrido un sobreajuste. La división del dataset nos permite simular este escenario: entrenamos con unos datos, comprobamos si hay sobreajuste con otros (validación) y, al final, damos una nota honesta e imparcial al modelo usando datos que jamás ha usado para entrenar o ajustar (prueba). ❌ Razón 2: Por qué las otras son incorrectas A) To ensure the model learns complex patterns from all available data simultaneously. (Para asegurar que el modelo aprende patrones complejos de todos los datos disponibles simultáneamente). Incorrecta porque: Esto es lo opuesto a lo que hacemos. Si el modelo usara "todos los datos disponibles simultáneamente" para aprender, no tendríamos forma de comprobar si ha memorizado o si puede generalizar. Sería como darle a un estudiante el examen final mientras estudia el libro de texto. Su nota sería perfecta, pero no nos diría nada sobre su conocimiento real. B) To prevent underfitting by making sure the model is exposed to a diverse range of examples during training. (Para prevenir el subajuste (underfitting) asegurando que el modelo se expone a una gama diversa de ejemplos durante el entrenamiento). Incorrecta porque: El subajuste (underfitting) ocurre cuando el modelo es demasiado simple y ni siquiera puede aprender los patrones de los datos de entrenamiento (sería un estudiante que ni siquiera entiende el libro de texto). Si bien tener datos diversos es bueno, la división del dataset no previene el subajuste. De hecho, si divides tus datos y dejas un set de entrenamiento demasiado pequeño, podrías causar subajuste. La división se hace principalmente para combatir el sobreajuste. D) To reduce the computational cost of model training by using smaller subsets of data. (Para reducir el coste computacional del entrenamiento usando subconjuntos más pequeños de datos). Incorrecta porque: Este es un efecto secundario, no la razón principal. Es cierto que entrenar con el 80% de los datos (el set de entrenamiento) es más rápido que entrenar con el 100%. Sin embargo, el objetivo no es ahorrar tiempo de cómputo, sino obtener una evaluación fiable. Si el objetivo fuera solo ahorrar tiempo, simplemente tomaríamos una muestra aleatoria pequeña y ya está. La división en tres sets (entrenamiento, validación y prueba) tiene un propósito metodológico estricto para asegurar la calidad del modelo.
199
Which of the following statements accurately describe the benefits and capabilities of BigQuery ML (BQML)? (Select all that apply) A) BQML requires extensive data engineering to export data for model training. B) BQML allows users to build and train machine learning models using standard SQL queries within BigQuery. C) BQML supports a wide range of ML model types, including linear regression, logistic regression, and K-means clustering. D) BQML automates certain ML tasks, such as data preprocessing and hyperparameter tuning.
B, C y D BQML is a powerful tool that allows users to create and train machine learning models directly within BigQuery using familiar SQL commands, thus eliminating the need to export data. This significantly speeds up development and time to production. It supports a variety of model types for both classification (e.g., Logistic Regression, DNN Classifier, XGBoost Classifier) and regression (e.g., Linear Regression, DNN Regressor, XGBoost Regressor), as well as other models like K-means clustering and matrix factorization for recommendations. Furthermore, BQML automates common ML tasks, including data preprocessing and hyperparameter tuning.
200
What is a common method to address missing categorical values in a dataset? A) Replace them with the mean B) Use linear interpolation C) Use mode imputation D) Drop all rows with any missing values
C Esta es la técnica estándar y más común para tratar con valores faltantes en datos de tipo categórico. ¿Por qué la C es la correcta? La moda es simplemente el valor que aparece con más frecuencia en una columna. Los datos categóricos son etiquetas o nombres (por ejemplo, colores como "rojo", "azul"; o países como "España", "Francia"). Lógica: La imputación por la moda rellena los huecos con el valor más común. La idea es que, si un dato falta, lo más probable es que sea igual a la categoría más frecuente. Es una solución sencilla, rápida y lógica. 🧠 Por ejemplo, si en una columna de "país" la mayoría de tus clientes son de "España", rellenarías los campos de país vacíos con "España". ¿Por qué las otras son incorrectas? A) Reemplazarlos con la media: Esto es para datos numéricos. No se puede calcular la media (el promedio) de palabras. ¿Cuál es el promedio de "rojo" y "azul"? No tiene sentido matemático. B) Usar interpolación lineal: Esto también es para datos numéricos, normalmente en series de tiempo. Sirve para estimar un valor entre otros dos puntos conocidos (por ejemplo, la temperatura a las 14:00 si conoces la de las 13:00 y las 15:00). No se puede "interpolar" un valor entre "perro" y "gato". D) Eliminar todas las filas con valores faltantes: Esta es una medida drástica y generalmente una mala idea. Si eliminas cada fila a la que le falte un solo dato, podrías perder una enorme cantidad de información valiosa. Es como tirar a la basura todo el historial de un cliente solo porque no se registró su país de origen. 🗑️
201
What are common goals of Exploratory Data Analysis (EDA)? (Select all that apply) A) Identify important features B) Improve the model's accuracy score C) Detect outliers and anomalies D) Visualize data distributions
A, C y D EDA helps to maximize insights, detect outliers, and uncover important variables, often through visualization techniques. While EDA can contribute indirectly to accuracy, its direct goal is not performance tuning.
202
Why is one-hot encoding used in machine learning pipelines? A) To normalize continuous variables B) To remove outliers C) To convert categorical variables into numeric format D) To reduce dimensionality
C ¿Por qué se utiliza el One-Hot Encoding? 📊 La mayoría de los algoritmos de machine learning no pueden trabajar directamente con datos de texto (categóricos); necesitan que toda la información de entrada sea numérica. El one-hot encoding es una técnica fundamental para lograr esta conversión. Su función es tomar una columna con variables categóricas (ej. "color" con valores como 'Rojo', 'Verde', 'Azul') y transformarla en múltiples columnas nuevas, una por cada categoría única. Cada nueva columna es binaria (contiene solo 0s o 1s), actuando como un interruptor de "encendido/apagado". Ejemplo simple: Si tienes una columna Ciudad: Madrid París Londres El one-hot encoding la convierte en tres columnas: | Ciudad_Madrid | Ciudad_París | Ciudad_Londres | |:---:|:---:|:---:| | 1 | 0 | 0 | | 0 | 1 | 0 | | 0 | 0 | 1 | Este método es crucial porque permite al modelo entender las categorías sin crear una relación de orden falsa entre ellas (por ejemplo, que París (2) es "mayor" que Madrid (1)). ¿Por qué las otras opciones son incorrectas? ❌ A) Para normalizar variables continuas: La normalización (escalar valores a un rango, como de 0 a 1) se aplica a variables numéricas continuas (como edad, precio o temperatura), no a categorías. B) Para eliminar valores atípicos (outliers): La eliminación de outliers es una tarea de limpieza de datos. El one-hot encoding es una tarea de ingeniería de características (feature engineering). Son pasos diferentes en el proceso de preparación de datos. D) Para reducir la dimensionalidad: El one-hot encoding hace exactamente lo contrario: aumenta la dimensionalidad. Convierte una sola columna en múltiples columnas nuevas, lo que incrementa el número total de características en el conjunto de datos.
203
You are building a model to predict whether a transaction is fraudulent or not. What type of machine learning model are you building? A) Regression, categorical label B) Regression, continuous label C) Classification, categorical label D) Classification, continuous label
C 🟢 Por qué la C es la correcta Para identificar el tipo de modelo, debes responder dos preguntas clave: ¿Cuál es el objetivo? ¿Predecir una categoría o un número? Tu objetivo es predecir si la transacción es "fraudulenta" o "no fraudulenta". Estas son clases o categorías distintas. Cuando el objetivo es predecir una categoría, el problema es de Clasificación (Classification). ¿Cómo es la "etiqueta" (el dato que quieres predecir)? La "etiqueta" (label) es el valor de salida que esperas. Tus únicas dos salidas posibles son "Fraudulento" o "No Fraudulento". Esto es un conjunto finito de valores discretos. Por lo tanto, es una etiqueta categórica (categorical label). Uniendo ambas respuestas: Estás construyendo un modelo de Clasificación que utiliza una etiqueta categórica. 🔴 Por qué las otras son incorrectas A) Regression, categorical label (Regresión, etiqueta categórica): Incorrecto: La "Regresión" (Regression) se usa para predecir un valor numérico continuo (ej. predecir el precio de una casa, la temperatura de mañana o el importe del fraude). Tu objetivo no es predecir un número, sino una clase (sí/no). Además, "Regresión" y "etiqueta categórica" son términos que se contradicen. B) Regression, continuous label (Regresión, etiqueta continua): Incorrecto: Esta opción describe un problema de regresión puro. Sería la respuesta correcta si la pregunta fuera: "Estás construyendo un modelo para predecir el importe exacto en euros que se perderá en una transacción fraudulenta". Pero ese no es el caso; solo estás prediciendo "sí" o "no". D) Classification, continuous label (Clasificación, etiqueta continua): Incorrecto: Esta opción es una contradicción en sí misma. La "Clasificación" (el tipo de problema) se define por usar "etiquetas categóricas". Una "etiqueta continua" (continuous label) se usa, por definición, en problemas de "Regresión". No puedes tener un problema de clasificación con una etiqueta continua.
204
Which of the following are valid strategies to improve data quality before model training? (Select all that apply) A. Removing unwanted values B. Converting date columns to datetime format C. Splitting a single dataset into identical training and test sets D. Resolving missing values
A, B y D Improving data quality can involve removing unwanted or irrelevant values, converting data types (e.g., to datetime), and addressing missing values. Creating identical training and test sets is not a valid practice, as it leads to data leakage and poor generalization.
205
Which metric is most appropriate for evaluating a regression model’s performance in Google Vertex AI AutoML Tables? A. Mean Absolute Error (MAE) B. Precision C. F1 Score D. Log Loss
A Mean Absolute Error (MAE) provides the average magnitude of errors between predicted and actual values, making it ideal for regression models. Precision, F1 Score, and Log Loss are generally used for classification tasks.
206
A bank wants to build a model to detect whether a transaction is fraudulent (yes/no). What type of machine learning problem is this? A. Supervised learning, regression B. Supervised learning, classification C. Unsupervised learning, clustering D. Semi-supervised learning
B This is a classification problem under supervised learning because the correct output (fraudulent or not) is a discrete label and known for each transaction.
207
Why is it important to add regularization when training a logistic regression model? (Select two) A. To prevent weights from being driven to infinity B. To ensure the model outputs only 0 or 1 C. To avoid the gradient vanishing problem in deep models D. To prevent saturation in the sigmoid function’s output
A y D El Problema: Datos Perfectamente Separables Para entender por qué la regularización es tan importante en la regresión logística, primero hay que comprender un problema que puede surgir durante su entrenamiento: cuando los datos son perfectamente separables linealmente. Esto ocurre cuando se puede trazar una línea (o un hiperplano en más dimensiones) que separe a la perfección los ejemplos de una clase de los de la otra. Cuando esto sucede, el modelo intenta tener una confianza del 100% en sus predicciones. Para que la función sigmoide devuelva una probabilidad muy cercana a 1 o 0, su entrada (z = w*x + b) debe tender a +∞ o -∞. Para lograr esto, el algoritmo de entrenamiento intentará que los pesos (w) se hagan cada vez más y más grandes, tendiendo al infinito. Esto provoca que el modelo nunca converja a una solución finita. ✅ Por qué A y D son correctas La regularización añade una penalización al tamaño de los pesos, resolviendo este problema de dos maneras que están directamente relacionadas: A. Para evitar que los pesos (weights) tiendan a infinito Esto es el efecto más directo y la razón principal. La regularización añade un término a la función de coste que "castiga" al modelo por tener pesos grandes. El optimizador ahora tiene que encontrar un equilibrio: minimizar el error de clasificación y, al mismo tiempo, mantener los pesos pequeños. Esto fuerza a los pesos a permanecer en valores finitos y razonables, incluso si los datos son perfectamente separables. D. Para evitar la saturación en la salida de la función sigmoide Este es un efecto secundario directo de lo anterior. La "saturación" de la sigmoide ocurre cuando su salida está muy cerca de 0 o 1. En estas zonas "planas", el gradiente es casi cero, lo que detiene o ralentiza enormemente el aprendizaje del modelo. Al evitar que los pesos se disparen al infinito (opción A), la regularización mantiene las entradas de la función sigmoide en una zona más "activa" (la parte inclinada de la curva), evitando la saturación extrema y permitiendo que el entrenamiento continúe de forma efectiva. ❌ Por qué B y C son incorrectas B. Para asegurar que el modelo solo produzca 0 o 1 Esto es conceptualmente incorrecto. Un modelo de regresión logística produce probabilidades, que son valores continuos entre 0 y 1 (por ejemplo, 0.85). La clasificación final como 0 o 1 se obtiene al aplicar un umbral (normalmente 0.5) a esa probabilidad, pero no es la salida directa del modelo. C. Para evitar el problema del gradiente desvaneciente (vanishing gradient) en modelos profundos Este es un problema real, pero pertenece a un contexto diferente: el entrenamiento de redes neuronales profundas (deep learning). No es un problema característico de un modelo simple como la regresión logística.
208
When preparing a dataset for a machine learning project, why is it important to create three separate sets: training, validation, and test? A. It increases the model’s bias B. It prevents overfitting and provides a true estimate of model performance C. It makes the model memorize the test data D. It reduces model complexity
B Splitting the data ensures the model is trained, tuned, and evaluated on independent samples, which helps prevent overfitting and provides a reliable estimate of real-world performance.
209
You are tasked with creating a repeatable sampling of a 70-million-row flight dataset stored in BigQuery to use for training (80%) and validation (10%). Which of the following SQL queries is the most appropriate method to create the 80% training dataset in a way that is repeatable for your colleagues? A. SELECT * FROM flights_dataset WHERE RAND() < 0.8 B. SELECT * FROM flights_dataset ORDER BY date LIMIT 56000000 C. SELECT * FROM flights_dataset WHERE MOD(ABS(FARM_FINGERPRINT(flight_id)), 10) < 8 D. SELECT * FROM flights_dataset WHERE departure_delay IS NOT NULL
C The slides (pages 284-287) explicitly warn that using RAND() is not repeatable, as it generates a new random number on each run. Ordering by a field can introduce bias. The correct and recommended method for creating repeatable splits in BigQuery is to use a deterministic hash function like FARM_FINGERPRINT on a field that distributes well, and then use the MOD (modulo) operator to partition the data into reproducible buckets.
210
Your team is building its first model, which has an RMSE of 0 on the training data but an RMSE of 3.2 on new, unseen data. The original linear model had an RMSE of 2.2 on training data and 2.19 on the new data. What is the most accurate description of the second model? A. The model is underfitting the data. B. The model is generalizing well. C. The model has a high learning rate. D. The model is overfitting the data.
D ✅ Opción D: La Respuesta Correcta (Overfitting) D. The model is overfitting the data. (El modelo está sobreajustando los datos.) Esta es la descripción perfecta para la situación descrita. El sobreajuste (o overfitting) ocurre cuando un modelo de machine learning aprende "demasiado bien" los datos de entrenamiento, hasta el punto de que memoriza el ruido y los detalles específicos de ese conjunto de datos en lugar de capturar el patrón general. Los síntomas clave del overfitting son exactamente los que se mencionan: Error extremadamente bajo (o cero) en los datos de entrenamiento: Un RMSE (Error Cuadrático Medio) de 0 en el set de entrenamiento significa que el modelo predice esos datos a la perfección. Ha "memorizado" las respuestas. Error mucho más alto en datos nuevos: Un RMSE de 3.2 en datos no vistos (unseen data) indica que el modelo es incapaz de generalizar su conocimiento. Cuando se enfrenta a ejemplos que no ha visto antes, su rendimiento se desploma. Imagina que estudias para un examen memorizando las respuestas exactas de un examen de práctica, en lugar de entender los conceptos. Sacarás un 10 en ese examen de práctica, pero si el examen real tiene preguntas ligeramente diferentes, suspenderás. Eso es el overfitting. El primer modelo, el lineal, con un RMSE de 2.2 en entrenamiento y 2.19 en los datos nuevos, es un ejemplo de un modelo que generaliza bien. ❌ ¿Por Qué las Otras Opciones son Incorrectas? A. El modelo está infraajustando los datos (Underfitting). El infraajuste (underfitting) es el problema opuesto. Ocurre cuando un modelo es demasiado simple para capturar la estructura de los datos. Síntomas: Un modelo infraajustado tendría un error alto tanto en los datos de entrenamiento como en los datos nuevos. Por qué no aplica aquí: Nuestro segundo modelo tiene un error perfecto (0) en los datos de entrenamiento, lo cual es lo contrario al infraajuste. B. El modelo está generalizando bien. Generalizar bien significa que el rendimiento del modelo es consistente entre los datos de entrenamiento y los datos nuevos. Hay una pequeña diferencia entre el error de entrenamiento y el de prueba. Ejemplo de buena generalización: El primer modelo lineal (RMSE de 2.2 en entrenamiento y 2.19 en prueba) es un ejemplo perfecto de esto. Por qué no aplica aquí: Nuestro segundo modelo tiene una diferencia abismal entre el error de entrenamiento (0) y el de prueba (3.2), lo que indica una mala generalización. C. El modelo tiene una alta tasa de aprendizaje (learning rate). La tasa de aprendizaje es un hiperparámetro que controla qué tan grandes son los ajustes que hace el modelo durante el entrenamiento. Qué significa: Es un detalle del proceso de entrenamiento, no una descripción del estado final del modelo (como lo son overfitting/underfitting). Por qué no aplica aquí: Si bien una tasa de aprendizaje mal ajustada puede contribuir a un mal modelo, no es la descripción del problema en sí. El problema observable es el overfitting. Describir el modelo como "con una alta tasa de aprendizaje" es como describir a una persona con fiebre diciendo "tomó una medicina equivocada"; puede que sea la causa, pero el síntoma principal es la fiebre. La descripción más precisa del estado del modelo es el sobreajuste.
211
A data analyst on your team is strong in SQL but has no ML experience. You need to build a regression model on a 150 GB structured dataset that lives in BigQuery. The team wants to move beyond a no-code solution to have more control over the model type but wants to avoid the complexity of a full Python framework. Which Google Cloud tool or service is the most suitable choice? A. A custom Python model on a Vertex AI Notebook. B. BigQuery ML (BQML). C. Vertex AI AutoML Tables. D. The pre-trained Natural Language API.
B The presentation (pages 241-253) outlines this exact use case. BigQuery ML (BQML) allows users to build, train, and evaluate models directly in BigQuery using SQL syntax, which is perfect for a SQL-savvy analyst. It avoids the complexity of Python frameworks and the need to move large amounts of data. Vertex AI AutoML Tables has a 100 GB limit for datasets (page 247), making it unsuitable for the 150 GB dataset.
212
When evaluating a binary classification model for detecting a rare but critical disease, the business priority is to identify as many actual positive cases as possible, even if it means some healthy patients are incorrectly flagged. Which performance metric should you prioritize for optimization? A. Accuracy B. Precision C. Recall D. Confusion Matrix
C El Dilema: ¿Qué Error es Peor? En este escenario, estamos ante un diagnóstico médico para una enfermedad grave. Hay dos tipos de errores que el modelo puede cometer: Falso Positivo: El modelo identifica a un paciente sano como enfermo. Consecuencia: El paciente se asusta y se somete a más pruebas, pero al final se confirma que está sano. Es un inconveniente, pero no es fatal. Falso Negativo: El modelo identifica a un paciente enfermo como sano. Consecuencia: Es una catástrofe. La persona enferma no recibe tratamiento y la enfermedad progresa. La pregunta establece claramente que la prioridad es "identificar tantos casos positivos reales como sea posible", aceptando que se marquen incorrectamente algunos pacientes sanos. Esto significa que nuestro objetivo principal es minimizar los Falsos Negativos a toda costa. ✔️ Por qué Recall (Sensibilidad) es la métrica correcta Recall (también conocido como Sensibilidad o Tasa de Verdaderos Positivos) responde a la siguiente pregunta: De todas las personas que realmente estaban enfermas, ¿qué porcentaje detectó correctamente el modelo? Fórmula: Recall = Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos) Maximizar el Recall es, por definición, minimizar los Falsos Negativos. Esta métrica está perfectamente alineada con el objetivo de negocio: encontrar a todos los enfermos, aunque eso signifique que la "red" que lanzamos para atraparlos sea tan amplia que también atrape a algunos sanos. ❌ Por qué las otras opciones son incorrectas A. Accuracy (Exactitud): Esta métrica es engañosa para enfermedades raras. Si solo el 0.1% de la población tiene la enfermedad, un modelo inútil que siempre predice "sano" tendría una exactitud del 99.9%, pero no salvaría ninguna vida. No es una métrica útil aquí. B. Precision (Precisión): Esta métrica responde a una pregunta diferente: "De todos los pacientes que el modelo marcó como enfermos, ¿cuántos lo estaban realmente?". La precisión penaliza los Falsos Positivos. Si optimizáramos para la precisión, el modelo se volvería muy cauteloso y solo marcaría los casos más obvios para no equivocarse, lo que haría que se le escaparan muchos casos reales (aumentando los Falsos Negativos). Es lo contrario de lo que se necesita. D. Confusion Matrix (Matriz de Confusión): La matriz de confusión no es una métrica en sí misma. Es la tabla que resume los aciertos y errores (Verdaderos Positivos, Falsos Negativos, etc.). Es la herramienta que usamos para calcular métricas como el Recall y la Precisión, pero no es el valor único que se optimiza.
213
Which of the following are important reasons to add regularization to a logistic regression model? (Select two) A. To transform the model's output into a calibrated probability estimate. B. To help stop the model’s weights from being driven to positive or negative infinity. C. To decrease the time it takes to run a single training step (epoch). D. To help prevent the model's logits from staying in the flat, asymptotic parts of the sigmoid function, which can halt training.
B y D Ambas respuestas correctas describen dos caras de la misma moneda: el problema del sobreajuste (overfitting) en datos que son perfectamente separables. B. Para ayudar a evitar que los pesos del modelo tiendan a infinito positivo o negativo. Esta es la razón fundamental para usar regularización en una regresión logística. El Problema: Imagina que tus datos se pueden separar perfectamente con una línea. El modelo de regresión logística intentará tener una confianza del 100% en sus predicciones. Para lograr esto, la función sigmoide, que convierte el logit (z) en una probabilidad, debe devolver un valor lo más cercano posible a 1 para una clase y a 0 para la otra. ¿Cómo lo logra el modelo? La función sigmoide σ(z) = 1 / (1 + e^(−z)) se aproxima a 1 cuando z tiende a infinito positivo, y se aproxima a 0 cuando z tiende a infinito negativo. El logit se calcula como z = wᵗx + b. Para que z sea extremadamente grande o pequeño, el modelo necesita que los pesos (w) crezcan mucho, incluso hasta valores infinitos. Esto ocurre cuando los datos son perfectamente separables y el modelo busca una confianza total en sus predicciones. D. Para ayudar a evitar que los logits del modelo permanezcan en las partes planas y asintóticas de la función sigmoide, lo que puede detener el entrenamiento. Esta es una consecuencia directa del problema descrito en el punto B. El Problema: Como vimos, sin regularización, los pesos pueden volverse enormes. Esto hace que los logits (z) también se vuelvan enormes (muy positivos o muy negativos). Si miras la gráfica de la función sigmoide, en sus extremos es casi completamente plana. ¿Por qué es malo? El entrenamiento del modelo se basa en el descenso de gradiente, que utiliza la derivada (la pendiente) de la función de coste para actualizar los pesos. La pendiente en las partes planas de la sigmoide es prácticamente cero. Si el gradiente es cero, las actualizaciones de los pesos también son cero, y el modelo simplemente deja de aprender. Este fenómeno se conoce como el "problema de la desaparición del gradiente" (vanishing gradient). La Solución (Regularización): Al mantener los pesos pequeños (como se explica en B), la regularización asegura que los logits z se mantengan en la zona central de la función sigmoide, donde la pendiente no es cero. Esto permite que el gradiente siga fluyendo y que el modelo pueda continuar aprendiendo y ajustando sus pesos de manera efectiva. Respuestas Incorrectas A. Para transformar la salida del modelo en una estimación de probabilidad calibrada. Esto es incorrecto porque la regularización y la calibración son dos conceptos distintos. ¿Qué es la calibración? Un modelo está calibrado si, cuando predice una probabilidad del 80%, realmente acierta el 80% de las veces. La salida de una regresión logística puede parecer una probabilidad, pero no está necesariamente calibrada; puede ser sistemáticamente demasiado confiada o poco confiada. ¿Para qué sirve la regularización? La regularización sirve para controlar la complejidad del modelo y prevenir el sobreajuste. No está diseñada para asegurar que las probabilidades de salida reflejen las probabilidades del mundo real. Para calibrar un modelo se usan técnicas específicas después del entrenamiento, como la escala de Platt (Platt Scaling) o la regresión isotónica. C. Para disminuir el tiempo que tarda en ejecutarse un solo paso de entrenamiento (época). Esto es incorrecto; de hecho, la regularización aumenta ligeramente el tiempo de computación por paso. ¿Qué ocurre en un paso de entrenamiento? El modelo calcula la función de coste y su gradiente para actualizar los pesos. El efecto de la regularización: La regularización añade un término extra a la función de coste (por ejemplo, la suma de los cuadrados de los pesos). Esto significa que en cada paso, el modelo tiene que hacer un cálculo adicional para la penalización y su derivada. Conclusión: Aunque la diferencia es mínima, la regularización añade trabajo computacional, por lo que un paso de entrenamiento tarda un poco más, no menos.
214
Which of the following is NOT a common technique for handling missing data in a dataset? A. Removing rows with missing values B. Imputing missing values with mean or median C. Using one-hot encoding D. Forward filling with the last known value
C
215
What is the primary purpose of Exploratory Data Analysis (EDA) in the machine learning pipeline? A. To train the machine learning model B. To deploy the model to production C. To understand the distribution and relationships in the data D. To evaluate the model's performance
C
216
In the context of Google Cloud, which service is primarily used for automating the machine learning pipeline, including data preparation, model training, and deployment? A. BigQuery B. Vertex AI C. Cloud Storage D. Dataflow
B Vertex AI es la plataforma unificada de Google Cloud diseñada específicamente para gestionar y automatizar todo el ciclo de vida del machine learning (MLOps), desde la ingesta de datos hasta la producción. ✅ La Solución Correcta: B B) Vertex AI Vertex AI es la plataforma MLOps (Machine Learning Operations) de extremo a extremo de Google Cloud. Su propósito principal es proporcionar un entorno único para realizar todas las tareas relacionadas con el machine learning. ¿Por qué es correcto? Incluye herramientas integradas para cada paso del pipeline que se menciona en la pregunta: Preparación de datos: Permite gestionar y etiquetar conjuntos de datos. Entrenamiento de modelos: Ofrece opciones como AutoML (entrenamiento automatizado) y trabajos de entrenamiento personalizados para código propio. Despliegue y servicio: Facilita la creación de "endpoints" para servir predicciones en tiempo real y la ejecución de predicciones por lotes. Automatización: Su componente clave, Vertex AI Pipelines, permite orquestar y automatizar todos estos pasos en un flujo de trabajo repetible y robusto. Analogía 💡: Si construir un modelo de ML es como construir un coche, Vertex AI es toda la fábrica automatizada. No es solo el almacén de piezas (Cloud Storage) o una máquina específica (Dataflow), sino el sistema que gestiona toda la línea de montaje. ❌ Las Opciones Incorrectas: A, C y D Estas son herramientas importantes que se utilizan dentro de un pipeline de ML, pero no son el servicio principal para orquestarlo. A) BigQuery Es un almacén de datos (data warehouse) serverless. Es excelente para almacenar y procesar los datos que se usarán para el entrenamiento. Incluso tiene una función (BigQuery ML) para entrenar modelos con SQL, pero no es la plataforma que orquesta pipelines complejos de extremo a extremo. C) Cloud Storage Es el servicio de almacenamiento de objetos. Es fundamental para guardar artefactos como los conjuntos de datos, los modelos entrenados y los ficheros de código. Es el "disco duro" del pipeline, pero es un servicio pasivo que no ejecuta ni automatiza nada. D) Dataflow Es un servicio para el procesamiento de datos a gran escala. Es una herramienta muy potente para la fase de preparación y transformación de datos del pipeline, pero su función se limita a esa etapa. No se encarga del entrenamiento ni del despliegue del modelo.
217
Which type of machine learning model is used when the target variable is continuous? A. Classification B. Regression C. Clustering D. Association
B
218
Which metric is commonly used to evaluate the performance of a classification model, especially when the classes are imbalanced? A. Accuracy B. Mean Absolute Error (MAE) C. F1 Score D. R-squared
C
219
What is TensorFlow primarily described as, beyond just machine learning? A. A programming language for machine learning B. An open-source, high-performance library for numerical computation C. A database management system for large datasets D. A cloud-based platform exclusively for deep learning
B TensorFlow is fundamentally defined as an open-source, high-performance library for numerical computation. The sources highlight that it's "not just about machine learning" and can be used for any numeric computation, citing examples like solving partial differential equations in fluid dynamics.
220
Which of the following statements about TensorFlow's abstraction layers and Vertex AI are true? (Select all that apply) A. Vertex AI is a low-level API within the TensorFlow hierarchy for custom operations. [None] B. The Core Python API contains much of the numeric processing code like add, subtract, and matrix multiply operations. C. High-level APIs like tf.keras and tf.data facilitate distributed training, data preprocessing, and model definition. D. Vertex AI is an orthogonal managed service that allows running TensorFlow on the cloud without managing servers, regardless of the abstraction level used.
B, C y D * Statement A is false. Vertex AI is an orthogonal managed service that cuts across all abstraction levels, providing a fully hosted TensorFlow environment. Low-level APIs are closer to the hardware and C++ implementation. * Statement B is true. The Core Python API indeed holds the fundamental numeric processing code, including operations like add, subtract, divide, and matrix multiply, as well as functions for creating variables and tensors. * Statement C is true. High-level APIs such as tf.keras and tf.data are designed to simplify tasks like distributed training, data preprocessing, and the definition, compilation, and training of models. * Statement D is true. Vertex AI is explicitly described as an orthogonal managed service that enables users to run TensorFlow on the cloud on a cluster of machines without needing to install software or manage servers, irrespective of the TensorFlow abstraction level they are using
221
You are working with a very large dataset that cannot fit into memory and needs to be optimized for I/O bound training applications, and potentially TPU training. Which tf.data API feature and file format would be most suitable? A. TextLineDataset for CSV files. B. FixedLengthRecordDataset for binary files. C. tf.data.Dataset abstraction with in-memory dictionaries. D. TFRecordDataset using TensorFlow's binary storage format, tf.train.Example.
D For large datasets that won't fit into memory, the sources state that TFRecords are especially useful for sequence data, data that cannot fit in memory, I/O bound training applications, and TPU training. The TFRecordDataset class is specifically designed to read these files, which are TensorFlow's own binary storage format and use the tf.train.Example protocol buffer for structured data. While other dataset types exist, TFRecordDataset is presented as the optimized choice for these specific constraints.
222
Which Keras API is recommended for building models with multiple inputs or outputs, shared layers, or non-linear topologies (e.g., residual connections or multi-branches)? A. Keras Sequential API B. Keras Functional API C. Keras Estimator API D. Keras Subclassing API
B La API Funcional trata a las capas como funciones. En lugar de simplemente apilar cosas, tú defines qué entra y qué sale de cada capa de forma explícita. Por qué gana: Es la única que permite crear Grafos Acíclicos Dirigidos (DAGs). Multientrada/Salida: Puedes tener una entrada para imágenes y otra para texto, y combinarlas a mitad del modelo. Conexiones residuales: Permite hacer "saltos" (como en ResNet), donde la salida de la capa 1 se suma directamente a la capa 3. Capas compartidas: Puedes usar la misma instancia de una capa (por ejemplo, un detector de bordes) en dos ramas distintas del modelo. 2. Las "Malas": ¿Por qué no funcionan aquí? A. Keras Sequential API (La "Demasiado Simple") Es la más fácil de usar, pero es literalmente una pila lineal de capas. El fallo: Solo permite una entrada y una salida. No puedes hacer bifurcaciones, ni saltos, ni compartir capas. Si intentas hacer una conexión residual (unir la capa A con la C saltándote la B), la Sequential API simplemente no sabe cómo gestionarlo. C. Keras Estimator API (La "Anticuada") Esta API pertenece más al ecosistema antiguo de TensorFlow que a Keras puro. El fallo: Está prácticamente en desuso para la creación de modelos modernos. Se centraba más en el escalado y el entrenamiento en servidores que en la flexibilidad de la arquitectura del modelo. Hoy en día, Keras maneja eso mucho mejor de forma nativa. D. Keras Subclassing API (La "Demasiado Compleja") Aquí es donde escribes código Python puro (class MyModel(tf.keras.Model):). El fallo: Aunque técnicamente puede hacer todo lo que hace la Funcional, no es la "recomendada" para topologías no lineales estándar por una razón: es una caja negra. Al ser imperativa (código que se ejecuta paso a paso), Keras no puede "ver" el gráfico del modelo de antemano. Esto hace que sea más difícil de inspeccionar, depurar y guardar/cargar que la API Funcional. Se reserva para investigación pura donde necesitas lógica personalizada muy loca.
223
You are training a deep neural network and observe that your model is performing well on the training data but poorly on unseen test data, indicating overfitting. You decide to apply regularization. Which of the following statements about L1 and L2 regularization is true? A. L1 regularization is also known as weight decay and confines the weight vector within a smooth circular shape. B. L2 regularization can be used as a feature selection mechanism by driving some weights to exactly zero. C. L1 regularization measures model complexity as the sum of the absolute values of the weight vector components. D. Both L1 and L2 regularization prevent gradients from exploding or vanishing.
C Regularización: El Objetivo 🎯 Antes de analizar las opciones, recuerda el objetivo: estás combatiendo el sobreajuste (overfitting). Tanto la regularización L1 como la L2 lo hacen añadiendo una penalización a la función de pérdida por tener pesos (weights) demasiado grandes. La diferencia clave está en cómo calculan esa penalización. L1 (Lasso): Penaliza la suma de los valores absolutos de los pesos. L2 (Ridge): Penaliza la suma de los valores al cuadrado de los pesos. ✅ C. La regularización L1 mide la complejidad del modelo como la suma de los valores absolutos de los componentes del vector de pesos. Esta es la respuesta correcta. Es la definición precisa de la penalización L1. ¿Qué significa?: Al añadir λ * Σ|w| a la función de pérdida, la regularización L1 fuerza al modelo a mantener los pesos pequeños. Su propiedad más interesante es que tiende a hacer que los pesos de las características menos importantes se vuelvan exactamente cero, realizando así una especie de selección de características automática. ❌ A. La regularización L1 también se conoce como "weight decay" y confina el vector de pesos dentro de una forma circular lisa. Esta afirmación es incorrecta porque confunde L1 con L2. "Weight decay": Este es el apodo de la regularización L2, no L1. "Forma circular lisa": Esto describe la restricción geométrica de L2. La restricción de L1 tiene la forma de un rombo (o un hiper-rombo en más dimensiones), que tiene "esquinas". Es precisamente en estas esquinas donde los pesos se vuelven cero. ❌ B. La regularización L2 se puede usar como un mecanismo de selección de características al llevar algunos pesos a ser exactamente cero. Esta afirmación es incorrecta porque le atribuye a L2 una propiedad de L1. Llevar pesos a cero: Esta es la característica principal de la regularización L1. La penalización cuadrática de L2 hace que los pesos sean muy pequeños, pero muy rara vez los convierte en exactamente cero. L2 prefiere distribuir la importancia entre todas las características en lugar de eliminar algunas por completo. ❌ D. Tanto la regularización L1 como la L2 evitan que los gradientes exploten o desaparezcan. Esta afirmación es incorrecta porque confunde el propósito de la regularización. El problema que resuelven: L1 y L2 están diseñadas para combatir el sobreajuste. Explosión/desvanecimiento de gradientes (Exploding/Vanishing Gradients): Este es un problema de inestabilidad en el entrenamiento, no de sobreajuste. Se soluciona con otras técnicas como el recorte de gradientes (gradient clipping), el uso de funciones de activación adecuadas (como ReLU), o la normalización por lotes (batch normalization). Resumen Final 🧠 Característica-Regularización L1 (Lasso) Regularización L2 (Ridge) - Penalización Suma de valores absolutos `Σ w -Efecto Principal Lleva pesos a cero (dispersión) Hace los pesos pequeños -Uso Secundario Selección de características Previene pesos muy grandes -Apodo Común Lasso Weight Decay -Forma Geométrica Rombo / Diamante Círculo / Esfera
224
What is a key advantage of using the tf.data API in TensorFlow? A) It only works with in-memory datasets B) It requires manual shuffling and batching C) It enables building efficient, reusable, and scalable input pipelines D) It is limited to image data processing
C The tf.data API allows building efficient and scalable input data pipelines from simple, reusable components. It supports various data sources and formats, including large out-of-memory datasets.
225
Which of the following are components of a TensorFlow graph? (Select two) A) Edges, representing mathematical operations B) Nodes, representing arrays of data C) Nodes, representing operations like MatMul, BiasAdd, etc. D) Edges, representing the flow of data between operations
C y D Componentes del Grafo de TensorFlow C) Nodos, representando operaciones como MatMul, BiasAdd, etc. (Correcta) ✅ En un grafo de TensorFlow, los nodos (Nodes) representan operaciones matemáticas (tf.Operation). Cada nodo es un punto de cálculo, como una multiplicación de matrices (MatMul), la suma de un sesgo (BiasAdd), una función de activación (como ReLU), o incluso la definición de una constante o una variable. D) Aristas, representando el flujo de datos entre operaciones (Correcta) ✅ Las aristas (Edges) del grafo representan los tensores (tf.Tensor) que fluyen entre los nodos. Un tensor es la estructura de datos fundamental en TensorFlow, que es esencialmente un array multidimensional (como un vector o una matriz). Las aristas conectan la salida de una operación (un tensor) con la entrada de la siguiente operación, definiendo así el orden y el flujo de los cálculos. Por qué las otras son incorrectas A) Aristas, representando operaciones matemáticas (Incorrecta) ❌ Esta opción invierte los roles. Las aristas no son las operaciones; son las "tuberías" por las que viajan los datos (tensores) entre las operaciones. B) Nodos, representando arrays de datos (Incorrecta) ❌ Esta opción también invierte los roles. Los nodos son las operaciones, no los datos en sí. Los arrays de datos (tensores) son representados por las aristas que conectan los nodos. En resumen: Nodos = Operaciones (Cálculos) Aristas = Tensores (Datos)
226
Which of the following activation functions is most likely to cause the vanishing gradient problem in deep neural networks? A) ReLU B) Leaky ReLU C) Sigmoid D) ELU
C El Problema del Gradiente Evanescente (Vanishing Gradient) 📉 Antes de ver las opciones, es clave entender este problema. Imagina que entrenar una red neuronal es como dar órdenes al primer eslabón de una cadena muy larga basándote en el resultado del último eslabón. El "gradiente" es la señal o corrección que se envía hacia atrás a través de la red (backpropagation). En el problema del gradiente evanescente, esta señal se vuelve cada vez más y más pequeña a medida que viaja hacia las capas iniciales. Cuando la señal llega a las primeras capas, es tan débil (casi cero) que estas capas no aprenden nada o aprenden muy lentamente. La causa principal son las funciones de activación cuyo derivado es un número pequeño. En la retropropagación, se multiplican los derivados de todas las capas. Si multiplicas muchos números menores que 1, el resultado se desvanece exponencialmente hacia cero. ✅ C) Sigmoid Esta es la respuesta correcta y la causante clásica de este problema. Función: La función sigmoide comprime cualquier número a un rango entre 0 y 1. Su Derivado: El problema está en su derivado. El valor máximo del derivado de la función sigmoide es 0.25. En la mayoría de los casos, es mucho más pequeño. Impacto: Al retropropagar el error a través de una red profunda con muchas capas sigmoides, estás multiplicando repetidamente números que son, como mucho, 0.25. Esto hace que la señal del gradiente se encoja drásticamente, provocando que se desvanezca antes de llegar a las primeras capas. ❌ A) ReLU, B) Leaky ReLU y D) ELU Estas tres opciones son incorrectas porque, de hecho, fueron diseñadas para solucionar el problema del gradiente evanescente. ReLU (Rectified Linear Unit): Su función es max(0, x). Su Derivado: El derivado es 1 para cualquier valor positivo y 0 para los negativos. Al multiplicar por 1, la señal del gradiente pasa a través de las neuronas activas sin disminuir su intensidad. Esto evita que la señal se desvanezca. Leaky ReLU y ELU (Exponential Linear Unit): Son variantes de ReLU. Su Derivado: Al igual que ReLU, su derivado es 1 para valores positivos. Para los valores negativos, tienen un pequeño gradiente distinto de cero, lo que ayuda a evitar otros problemas (como las "neuronas muertas"), pero la idea principal de mantener un gradiente de 1 para las activaciones positivas persiste. Resumen Final 🧠 Función Derivado Máximo Efecto en el Gradiente Sigmoid 0.25 💥 Causa el problema ReLU 1 ✅ Soluciona el problema Leaky ReLU 1 ✅ Soluciona el problema ELU 1 ✅ Soluciona el problema
227
What are benefits of using the Keras Functional API over the Sequential API? (Select all that apply) A) Allows building models with multiple inputs and outputs B) Enables layer sharing and custom architectures C) Automatically optimizes hyperparameters D) Supports non-linear topologies such as residual connections
A, B y D Por qué A, B y D son CORRECTAS El Sequential API (model = Sequential()) es excelente para crear "pilas" de capas simples, donde los datos fluyen en una línea recta: Entrada -> Capa 1 -> Capa 2 -> Salida. El Functional API (model = Model(inputs=..., outputs=...)) es más potente y flexible porque te permite construir "grafos" de capas, no solo líneas rectas. A) Permite construir modelos con múltiples entradas y salidas: Correcto. Con la API Funcional, puedes definir una lista de entradas (inputs=[input1, input2]) y una lista de salidas (outputs=[output1, output2]). Esto es fundamental para tareas como modelos que combinan imágenes y texto, o modelos que predicen múltiples cosas a la vez. El API Secuencial no puede hacer esto. B) Habilita el uso compartido de capas (layer sharing) y arquitecturas personalizadas: Correcto. "Layer sharing" significa que puedes crear una instancia de una capa (ej. shared_layer = Dense(64)) y usarla en diferentes partes de tu modelo (ej. output1 = shared_layer(input_a), output2 = shared_layer(input_b)). Esto es la base de arquitecturas como las redes siamesas y es imposible en el API Secuencial. D) Soporta topologías no lineales como las conexiones residuales: Correcto. Una "conexión residual" (como en ResNet) implica tomar la entrada de un bloque (x_input) y sumarla a la salida de ese bloque (x_output). En la API Funcional, esto es fácil: x = add([x_input, x_output]). Esto es una topología no lineal (un grafo con un "salto") que el API Secuencial no puede manejar. Por qué C es INCORRECTA C) Optimiza automáticamente los hiperparámetros: Incorrecto. Ni el API Funcional ni el Secuencial se encargan de esto. La optimización de hiperparámetros (como elegir el mejor learning rate o el número óptimo de capas) es un proceso separado que se realiza con herramientas como KerasTuner o scikit-learn. El API que usas para construir el modelo no realiza la optimización de ese modelo.
228
What is the primary use of the tf.saved_model.save() function? A) Save model weights in JSON format B) Export a TensorFlow model in a universal, deployable format C) Convert a Keras model into a PyTorch model D) Save training logs for TensorBoard
B tf.saved_model.save() is used to export a model to the SavedModel format, which is the standard format in TensorFlow for serving and deployment across platforms like Vertex AI.
229
Which TensorFlow API is recommended when you need to build models with multiple inputs or outputs? A) tf.keras.Sequential B) tf.data C) tf.keras Functional API D) tf.metrics
C The Functional API allows for building models with complex topologies, including multiple inputs and outputs, shared layers, and non-linear data flows. The Sequential API only supports simple, linear stacks of layers.
230
What are the main benefits of using the tf.data API in TensorFlow? (Select all that apply.) A) Building scalable and efficient input pipelines B) Preprocessing data in parallel C) Training models on CPU only D) Handling large datasets that do not fit in memory
A, B y D The tf.data API allows you to create input pipelines that are modular, scalable, and efficient. It supports parallel preprocessing and progressive loading of data from disk, enabling the handling of large out-of-memory datasets. Training on CPU is unrelated to the tf.data API's main purpose.
231
How does L1 regularization affect the weights of a neural network model? A) It makes all weights equal. B) It encourages some weights to become exactly zero. C) It only increases the magnitude of weights. D) It prevents model training.
B L1 regularization leads to sparsity in weights by pushing some weights to zero, effectively performing feature selection and reducing model complexity.
232
What is the main purpose of Vertex AI when working with TensorFlow on Google Cloud? A) Building low-level custom C++ operations B) Providing a managed, scalable service for training and deploying models C) Only storing datasets for offline use D) Replacing Keras and tf.data with proprietary APIs
B Vertex AI offers managed infrastructure for large-scale distributed training, model deployment, and predictions without needing to manage the underlying servers.
233
Which of the following statements are true about regularization techniques in neural networks? (Select all that apply.) A) L2 regularization penalizes large weight values B) Regularization can help reduce overfitting C) Regularization always increases training loss D) L1 regularization is not used for feature selection
A y B L2 regularization penalizes the magnitude of weights (discouraging large weights), while regularization in general is an effective method to reduce overfitting by penalizing model complexity. Regularization may increase training loss but can lower generalization error. L1 regularization is commonly used for feature selection.
234
What is the primary purpose of packaging a trainer application when using Vertex AI for TensorFlow model training?” A. To include all necessary dependencies for the training code B. To define the model architecture C. To specify the training data location D. To set up the training job configuration
A
235
Which of the following best describes the role of Feature Store in Google Cloud?” A. A database for storing raw training data B. A service for managing and serving features for machine learning models C. A tool for automating feature selection D. A platform for deploying trained models
B
236
“In the context of Google Cloud’s Feature Store, what is the purpose of a feature value type?” A. To define the data type of a feature B. To specify how a feature is computed C. To indicate the source of the feature data D. To set the frequency of feature updates
A
237
“When deploying a trained TensorFlow model to Vertex AI for online predictions, which format should the model be in?” A. HDF5 B. SavedModel C. Keras model D. Pickle
B
238
How can you monitor the progress of a Vertex AI training job?” A. Using TensorBoard B. Through the Google Cloud Console C. By checking the job logs D. All of the above
D Por qué la opción D es la correcta Vertex AI es una plataforma muy completa, y Google Cloud ofrece múltiples formas integradas para seguir el progreso de un trabajo de entrenamiento, adaptándose a diferentes necesidades: desde resúmenes visuales de alto nivel hasta la depuración detallada línea por línea. Las tres opciones son métodos estándar y válidos para esta tarea. A) Usando TensorBoard: TensorBoard es una potente herramienta de visualización para experimentos de machine learning. Vertex AI tiene una integración nativa con TensorBoard, lo que te permite monitorizar métricas en tiempo real, como la pérdida (loss) de entrenamiento/validación, la precisión (accuracy) o cualquier otra métrica que definas. Es la mejor forma de obtener una comprensión visual e intuitiva de cómo está evolucionando el rendimiento de tu modelo en cada época. Puedes ver si tu modelo está aprendiendo, estancándose o sobreajustando (overfitting) con solo mirar los gráficos. 📊 B) A través de la Consola de Google Cloud: La Consola de Google Cloud ofrece un panel de control de alto nivel para todos tus trabajos de Vertex AI. Aquí puedes ver el estado de tu trabajo (por ejemplo, En cola, Preparando, Ejecutando, Completado, Fallido), cuánto tiempo lleva en ejecución y los recursos que está consumiendo (como el uso de CPU/GPU). Es tu centro de control para gestionar los trabajos. C) Revisando los logs del trabajo: Cada trabajo de entrenamiento en Vertex AI genera logs (registros), que puedes ver en Cloud Logging. Estos logs contienen información detallada y con marca de tiempo sobre todo lo que ocurre dentro de tu contenedor de entrenamiento. Esto incluye cualquier sentencia print() que pongas en tu código, mensajes específicos del framework que uses (TensorFlow, PyTorch, etc.) y, muy importante, cualquier mensaje de error o traza de la pila (stack trace) si algo va mal. Los logs son esenciales para la depuración (debugging) y para obtener una visión granular, línea por línea, del proceso. 🛠️
239
According to the documentation, what is the primary advantage of using the tf.data API for building input pipelines? A.It allows you to build complex and efficient input pipelines from simple, reusable pieces, and it can handle large amounts of data from various formats. B.It automatically performs hyperparameter tuning for the model during data ingestion. C.Its main function is to visualize the neural network graph using TensorBoard. D.It is designed exclusively for small, in-memory datasets and is not suitable for data that doesn't fit into memory.
A
240
In which of the following scenarios is the Keras Functional API required over the Keras Sequential API? A.Only when creating a deep neural network with more than two hidden layers. B.When building a model that has multiple inputs, multiple outputs, or shared layers. C.When building a simple, linear stack of layers where each layer has exactly one input and one output. D.When you need to compile a model with a loss function and an optimizer. tip: Consider model architectures that are not simple linear stacks. What if a model needs to process a text input and an image input simultaneously?
B
241
What is a key difference between L1 and L2 regularization as described in the material? A.L2 regularization uses the sum of absolute values of the weights as a penalty, while L1 uses the sum of the squared weights. B.L1 regularization encourages sparsity by pushing some feature weights to exactly zero, making it useful for feature selection, whereas L2 does not. C.L1 regularization can only be used for linear models, while L2 is for deep neural networks. D.L2 regularization is also known as weight decay, while L1 has no other name. tip: Think about the geometric shape of the constraint region for each regularization type (a diamond for L1, a circle for L2) and how that might affect the optimal weight values.
B
242
The 'dying ReLU' is a common failure mode in gradient descent. What is a recommended solution to this problem according to the provided text? A.Increase the number of layers in the network to make it deeper. B.Use a saturating activation function like sigmoid instead of ReLU. C.Lower the learning rate or use a ReLU variant like Leaky ReLU or ELU. D.Apply L1 regularization to encourage weight sparsity. tip: The problem occurs when a neuron's input is always negative, causing its output and gradient to be zero. How can you ensure there's still a small gradient?
C
243
When preparing a TensorFlow application for distributed training on Vertex AI, what is the standard way to structure the code for submission? A.Create a Python package with a specific folder structure (e.g., `trainer/`), an `__init__.py` file, a `task.py` for entry point logic, and a `model.py` for model definition. B.Place the training data and the Python script in the same directory and submit it using the `gcloud` command. C.Combine all code into a single Jupyter Notebook and upload it to a GCS bucket. D.Write the entire model in C++ for maximum performance and compile it on the Vertex AI instance. tip: Think about how a cloud service would need to receive, install, and execute your code in a scalable and reproducible manner. This requires a standard packaging format.
A
244
En el contexto de los modelos de lenguaje, ¿qué efecto tiene un valor de temperatura bajo (cercano a 0) en la generación de texto? A.Filtra los tokens menos probables basándose en su probabilidad acumulada. B.Hace que el texto generado sea más predecible y repetitivo. C.Aumenta la diversidad y la aleatoriedad del texto generado. D.No tiene ningún efecto sobre la salida del modelo. tip: Piensa en cómo la temperatura afecta la distribución de probabilidad de los siguientes tokens. ¿La hace más o menos aleatoria?
B
245
¿Cuál de las siguientes afirmaciones describe mejor el funcionamiento del muestreo **Top-K**? A.El modelo considera únicamente los K tokens más probables y redistribuye la probabilidad entre ellos antes de seleccionar el siguiente token. B.El modelo ajusta la aleatoriedad de la distribución de probabilidad completa de todos los tokens posibles. C.El modelo selecciona el token con la probabilidad más alta en cada paso. D.El modelo selecciona un conjunto de tokens cuya probabilidad acumulada supera un umbral P. tip: El nombre 'Top-K' se refiere a un número fijo de opciones.
A
246
¿Qué combinación de parámetros generaría el texto más creativo y diverso? A.Temperatura baja, Top-K bajo, Top-P bajo. B.Temperatura alta, Top-K bajo, Top-P bajo. C.Temperatura alta, Top-K alto, Top-P alto. D.Temperatura baja, Top-K alto, Top-P alto.
C
247
Si estableces un valor de Top-P en 0.9, ¿qué significa? A.El modelo considera el conjunto más pequeño de tokens cuya suma de probabilidades es al menos 0.9. B.El modelo eliminará el 90% de los tokens menos probables. C.El modelo seleccionará los tokens que tengan una probabilidad individual de al menos 0.9. D.El modelo elegirá entre los 9 mejores tokens.
A
248
¿En qué escenario sería preferible usar **Top-P (nucleus sampling)** en lugar de **Top-K**? A.Cuando la distribución de probabilidad de los siguientes tokens es muy plana y muchos tokens son igualmente probables. B.Cuando se quiere que el modelo sea lo más determinista y predecible posible. C.Cuando el tiempo de cómputo es la principal limitación. D.Cuando se desea tener un control exacto sobre el número de tokens considerados para el muestreo.
A Este concepto se conoce como Nucleus Sampling (muestreo de núcleo) y es una técnica para controlar la creatividad y la coherencia de un modelo de lenguaje. Aquí te explico la lógica detrás de "la buena" y por qué las demás no encajan: ¿Cómo funciona el Top-P? Cuando un modelo de IA genera texto, no elige una palabra al azar, sino que asigna una probabilidad a cada token posible. Si ordenamos esas palabras de mayor a menor probabilidad: El modelo empieza a sumar las probabilidades de las palabras más probables (las que están arriba en la lista). Se detiene justo cuando la suma acumulada alcanza o supera el valor P (en este caso, 0.9 o 90%). El modelo entonces ignora el resto de las palabras y elige la siguiente palabra solo entre ese grupo seleccionado. Por qué las otras son "las malas": B) El modelo eliminará el 90% de los tokens: Incorrecto. Top-P no corta por cantidad de tokens, sino por el "peso" de su probabilidad. Si 2 palabras ya suman el 90%, se eliminan miles de otras palabras, no solo el 90%. C) Seleccionará tokens con probabilidad individual de 0.9: Incorrecto. Es muy raro que un solo token tenga una probabilidad tan alta (0.9). Si esto fuera así, el modelo casi nunca tendría opciones para elegir. Top-P usa la suma acumulada. D) El modelo elegirá entre los 9 mejores tokens: Incorrecto. Esto describe otra técnica llamada Top-K (donde K=9). Top-P es dinámico; a veces 0.9 de probabilidad se reparte entre 2 palabras, y otras veces entre 50.
249
What is the primary purpose of Feature Engineering in Machine Learning? * A) To reduce the size of the dataset for faster training. * B) To transform raw data into features that better represent the underlying problem to predictive models, thereby resulting in improved model accuracy on unseen data. * C) To visualize data distributions and identify outliers. * D) To automatically deploy machine learning models to production environments
B La ingeniería de características se define como el proceso de transformar datos brutos en características que representan mejor el problema subyacente para los modelos predictivos, lo que lleva a una mejor precisión del modelo en datos no vistos. También implica combinar el conocimiento del dominio, la intuición y las habilidades de ciencia de datos para crear características que hagan que los modelos se entrenen más rápido y proporcionen predicciones más precisas
250
which of the following are characteristics of a good feature? (Select all that apply) A) Must be known at prediction-time. B) Must always be a string datatype. C) Must be numeric with meaningful magnitude. D) Must have enough examples of the feature value in the dataset. E) Must be unrelated to the objective to prevent bias.
A, C y D Una buena característica debe estar relacionada con el objetivo que se predice, ser conocida en el momento de la predicción, ser numérica con una magnitud significativa y tener suficientes ejemplos en el conjunto de datos. También debe incorporar la perspicacia humana al problema
251
Which of the following challenges are addressed by Vertex AI Feature Store? A) Features are hard to share and reuse. B) Difficulty reliably serving features in production with low latency. C) Alleviating inadvertent skew in feature values between training and serving. D) All of the above.
D A) Las características son difíciles de compartir y reutilizar En muchas empresas, diferentes equipos de datos terminan calculando la misma variable (por ejemplo, "promedio de compras mensuales") por separado. Esto es ineficiente y lleva a inconsistencias. La solución: Vertex AI funciona como un repositorio centralizado. Una vez que alguien define una feature, cualquier otro equipo puede buscarla en el catálogo y usarla en su modelo, ahorrando tiempo y cómputo. B) Dificultad para servir características en producción con baja latencia Entrenar un modelo con datos históricos es fácil, pero cuando el modelo está "en vivo" (producción) y necesita predecir algo en milisegundos, obtener esos datos actualizados es un reto técnico enorme. La solución: El Feature Store separa el almacenamiento en dos: Offline: Para entrenamiento (grandes volúmenes de datos históricos). Online: Una base de datos optimizada para lectura ultrarrápida que permite al modelo consultar los valores más recientes en milisegundos. C) Mitigar el sesgo (skew) entre entrenamiento y servicio Este es uno de los problemas más graves en ML. Ocurre cuando los datos que usaste para entrenar el modelo se calcularon de forma distinta a los datos que el modelo recibe cuando está funcionando en vivo. La solución: Al usar la misma fuente (el Feature Store) tanto para extraer datos históricos como para la inferencia en tiempo real, garantizas que la lógica de cálculo sea idéntica. Esto elimina la posibilidad de que el modelo se confunda por variaciones en el formato o cálculo de los datos.
252
Regarding feature crosses in Machine Learning, which statement is TRUE? A) They are primarily used for generalization rather than memorization. B) They typically lead to dense input representations. C) They are most useful with small datasets. D) They can combine features like "hour-of-day" and "day-of-week" to learn traffic patterns, often resulting in sparse input.
D Las cruces de características (feature crosses) se centran en la memorización y son especialmente útiles en conjuntos de datos grandes, no pequeños. Al combinar características, como la hora del día y el día de la semana, pueden permitir que el modelo aprenda patrones complejos (como los de tráfico), pero esto a menudo conduce a entradas muy dispersas (con muchos ceros)
253
What is the main advantage of using the TRANSFORM clause when creating a model in BigQuery ML? * A) It allows users to define custom SQL functions not available otherwise. * B) It ensures that data transformations defined during model creation are automatically applied during prediction and evaluation, making model improvement transparent to client code. * C) It automatically selects the best features for the model, eliminating the need for manual feature engineering. * D) It is primarily used for real-time streaming data ingestion.
B La cláusula TRANSFORM en BigQuery ML permite definir transformaciones de datos durante la creación del modelo. La principal ventaja es que estas transformaciones se aplican automáticamente durante las fases de predicción y evaluación, lo que significa que el código cliente para la predicción no necesita cambiar, haciendo que las mejoras del modelo sean transparentes para dicho código
254
What is a key requirement for a feature to be usable at prediction time? A. It must be categorical B. It must be available during model training C. It must be known at prediction time D. It must be collected from a data warehouse
C A feature must be available at the moment the model is used for prediction. If it’s not known at prediction time, the model won’t be able to use it effectively—even if it was available during training.
255
Which of the following are characteristics of a “good” feature? (Select all that apply) A. Known at prediction time B. Randomly correlated with the label C. Numeric with meaningful magnitude D. Has enough examples in the dataset
A, C y D Good features are (1) available at prediction time, (2) numeric and with meaningful scales so models can learn from them, and (3) sufficiently present in the dataset to allow generalization.
256
In Keras, which preprocessing layer would you use to one-hot encode string categorical features? A. tf.keras.layers.Hashing B. tf.keras.layers.CategoryEncoding C. tf.keras.layers.StringLookup + tf.keras.layers.CategoryEncoding D. tf.keras.layers.Discretization
C Por qué la opción C es la correcta C. tf.keras.layers.StringLookup + tf.keras.layers.CategoryEncoding Para que una red neuronal entienda categorías en formato de texto (como "perro", "gato", "pez"), necesita convertirlas a un formato numérico. El one-hot encoding para strings se hace en dos pasos: Paso 1: Convertir texto a números enteros (StringLookup). La red no entiende la palabra "gato". La capa StringLookup crea un vocabulario y asigna un número entero único a cada palabra. Por ejemplo: {"perro": 0, "gato": 1, "pez": 2}. Paso 2: Convertir números enteros a vectores one-hot (CategoryEncoding). Ahora que tenemos números, la capa CategoryEncoding los transforma en vectores. Esto evita que el modelo aprenda una relación de orden falsa (por ejemplo, que pez (2) > gato (1)). 0 (perro) se convierte en [1, 0, 0] 1 (gato) se convierte en [0, 1, 0] 2 (pez) se convierte en [0, 0, 1] La combinación de ambas capas realiza el proceso completo y es la forma recomendada de hacerlo en Keras. Por qué las otras opciones son incorrectas A. tf.keras.layers.Hashing Esta capa también convierte texto en números enteros, pero usando una función de hash en lugar de un vocabulario explícito. Es útil cuando tienes muchísimas categorías (cientos de miles). Sin embargo, no realiza el segundo paso de la codificación one-hot, por lo que es una solución incompleta para este problema. B. tf.keras.layers.CategoryEncoding Esta capa solo realiza el segundo paso del proceso (de entero a one-hot). No puede procesar texto directamente. Si le pasas las palabras "perro" o "gato", dará un error porque espera números enteros como entrada. D. tf.keras.layers.Discretization Esta capa se usa para un propósito completamente diferente: agrupar datos numéricos continuos (como la edad o el precio) en "cubetas" o rangos discretos. No tiene ninguna utilidad para procesar datos de texto.
257
What is the purpose of feature crossing? A. Reducing overfitting by eliminating rare features B. Converting numerical features into categorical C. Capturing interactions between two or more features D. Applying normalization to input features
C Feature crossing involves combining multiple features (e.g., product or concatenation) to capture non-linear interactions that a model might otherwise miss.
258
Which of the following techniques in BigQuery ML is used for representation transformation? A. Feature hashing B. Polynomial expansion C. Data normalization D. Feature crossing
A y C Feature hashing and normalization are examples of representation transformation. Polynomial expansion and feature crossing are used for feature construction.
259
Which of the following is a key benefit of using Vertex AI Feature Store? A) Reduces the complexity of building neural network models B) Provides a centralized repository for organizing, storing, and serving ML features C) Automatically tunes hyperparameters for all models D) Guarantees zero data drift in production
B Vertex AI Feature Store provides a centralized repository to organize, store, and serve machine learning features, making feature reuse and sharing across teams easier and reducing training-serving skew.
260
In feature engineering, what makes a feature “good” for machine learning models? (Select all that apply) A) Feature is known at prediction-time B) Feature includes as much raw data as possible C) Feature is numeric or can be represented numerically D) Feature has enough samples in the dataset
A, C y D A good feature must be available at prediction-time, be numeric or convertible to numeric, and have enough examples to avoid bias and overfitting. Including all raw data (B) can introduce noise, not quality.
261
What is the main purpose of feature crosses (e.g., crossing "day of week" and "hour of day") in models built with BigQuery ML? A) To reduce the number of input features B) To capture interactions between features C) To ensure each feature is unique D) To automatically select the best model type
B Feature crosses help capture interactions between two or more features, which can reveal complex patterns that individual features on their own would not capture
262
Which BigQuery ML function would you use to convert a continuous numeric feature into a categorical feature by dividing it into bins? A) ML.POLYNOMIAL_EXPAND B) ML.BUCKETIZE C) ML.FEATURE_CROSS D) ML.REGEXP_EXTRACT
B ML.BUCKETIZE is used in BigQuery ML to split a continuous feature into buckets, thereby converting it into a categorical feature that can be one-hot encoded or otherwise transformed
263
When ingesting features into Vertex AI Feature Store, what are required in your source data? (Select all that apply) A) Entity ID column (as STRING) B) Feature columns matching destination feature names C) Timestamp column for feature generation D) A unique BigQuery dataset for each feature
A, B y C Source data must have an entity ID column (STRING), feature columns that match the destination feature name, and (optionally) a timestamp column. Separate BigQuery datasets for each feature are not required.
264
What is the primary purpose of feature engineering in machine learning? A. Reduce computational cost B. Transform data for better accuracy C. Automate data collection D. Visualize data
B Transforms data to enhance model accuracy, as per the summary’s definition.
265
Which is an example of feature construction? A. Bucketization B. Multiplying two features C. One-hot encoding D. PCA
B Por qué es la buena: La construcción de características (Feature Construction) consiste en crear nuevas características sintéticas a partir de las originales para ayudar al modelo a entender patrones que no son obvios por separado. El concepto clave: Al multiplicar dos variables (por ejemplo, Longitud x Ancho = Área), estás creando una interacción o un cruce de características (Feature Cross). Por qué es vital: Muchos modelos (especialmente los lineales) no pueden ver la relación entre dos variables si se las das por separado. Al "construir" esta tercera variable multiplicada, le das al modelo una pista explícita sobre cómo interactúan, añadiendo información nueva y valiosa que no existía antes en los datos crudos. Por qué las otras son las malas A. Bucketization (Discretización) Qué es: Convertir una variable numérica continua (ej. edad: 24, 25, 26...) en rangos o "cubos" (ej. 18-25, 26-35...). Por qué no encaja: Esto se considera una transformación o preprocesamiento. No estás creando información nueva combinando datos, simplemente estás simplificando o cambiando el formato de una variable existente. C. One-hot encoding Qué es: Convertir categorías (ej. "Rojo", "Verde", "Azul") en columnas binarias (1 o 0). Por qué no encaja: Al igual que la bucketization, esto es representación de datos. Es necesario para que las matemáticas funcionen, pero no "construye" una característica nueva basada en la lógica del negocio o interacciones, solo traduce el idioma de texto a números. D. PCA (Análisis de Componentes Principales) Qué es: Una técnica matemática para reducir la cantidad de variables (dimensionalidad), condensando la información. Por qué no encaja: PCA se clasifica como Extracción de Características (Feature Extraction). Aunque técnicamente crea nuevos valores, su objetivo es resumir y reducir la información automática y matemáticamente, perdiendo la interpretabilidad original, mientras que la "construcción" suele ser un proceso aditivo y manual para enriquecer el modelo.
266
Which is NOT a characteristic of a good feature? A. Related to objective, B. Knowable at prediction time, C. Numeric, D. Complex
D Good features should be simple, not complex, to avoid overfitting, per summary.
267
Which tool manages features in a centralized repository? A. BigQuery, B. Vertex AI Feature Store, C. TensorFlow, D. Keras Layers
B Vertex AI Feature Store is for feature management, as highlighted in the summary.
268
In predicting house prices, which is a good feature? A. Chairs on porch, B. Square footage, C. House color, D. Previous owner name
B Square footage is relevant and numeric, unlike arbitrary data, per the example.
269
Which Google Cloud service is specifically recommended for processing large volumes of unstructured data and converting it into binary data formats like TFRecord to improve data ingestion performance during model training? A) BigQuery B) Dataproc Serverless C) Dataflow D) Dataprep
C Dataflow, which uses the Apache Beam programming model, is recommended for handling large volumes of unstructured data. It can convert this data into binary formats such as TFRecord, which significantly improves data ingestion performance during the training process. While BigQuery is used for tabular data, Dataproc is for existing Hadoop/Spark users, and Dataprep is focused on visual data cleaning and structuring
270
he XYZ Team's Data Science team needs to build a machine learning model that requires significant customization, including control over the model's architecture, the specific machine learning framework (e.g., TensorFlow), and involves engineers with extensive data science expertise and programming ability. Which Vertex AI training method is most appropriate for this scenario? A) Vertex AutoML B) BigQuery ML (BQML) C) Custom Training on Vertex AI D) A "point and click solution"
C Custom training is the best option when you need flexibility and fine-grained control over the model's architecture, framework, or exported model assets, and when your use case doesn't fit AutoML's predefined offerings. It requires data science expertise and programming ability to develop the training application. AutoML is for predefined objectives and codeless solutions, while BQML is suitable for SQL users with data entirely in BigQuery.
271
Vertex Vizier, as a black-box optimization service, offers multiple algorithms for hyperparameter tuning. Which of the following algorithms takes into account past evaluations when choosing the next set of hyperparameter values to evaluate, typically requiring fewer iterations to get to the optimal set of values? A) Grid Search B) Random Search C) Brute Force Search (Not explicitly mentioned in sources as an option for Vizier) D) Bayesian Optimization
D Vertex Vizier offers Grid Search, Random Search, and Bayesian Optimization. Bayesian Optimization is specifically highlighted as the method that "takes into account past evaluations when choosing the hyperparameter set to evaluate next" and "typically requires fewer iterations to get to the optimal set of hyperparameter values". It is also the default algorithm if one is not specified.
272
In Vertex AI Model Monitoring, understanding the baselines used for detection is crucial. What are the correct baselines for skew detection and drift detection respectively? A) Skew detection uses the latest production data, while drift detection uses data from a different geographic region. B) Skew detection uses a custom-defined threshold, while drift detection uses an average of all historical data. C) For skew detection, the baseline is the statistical distribution of the feature's values in the training data. For drift detection, the baseline is the statistical distribution of the feature's values seen in production in the recent past. D) Both skew and drift detection use the same baseline, which is the current production data.
C Vertex AI Model Monitoring uses different baselines for these two types of monitoring. For skew detection, the comparison is made against the "statistical distribution of the feature's values in the training data". For drift detection, the comparison is against the "statistical distribution of the feature's values seen in production in the recent past".
273
what is the primary purpose and benefit of using Vertex AI Pipelines in an enterprise ML workflow? A) To provide a simple point-and-click interface for training AutoML models without needing code. B) To offer a secure repository for storing and managing trained machine learning models. C) To serve as a managed Kubeflow v2 service that accelerates the productionization and standardization of AI workflows through automation and orchestration of portable and scalable ML workflows. D) To visually explore data, detect anomalies, and apply data transformations using a drag-and-drop interface.
C Vertex AI Pipelines is described as "managed Kubeflow v2 for practitioners to accelerate productionization and Standardization of AI". It enables "automation and orchestration" of "portable and scalable ML workflows that are based on containers and Google Cloud services". Other options describe functionalities of AutoML (A), Model Registry (B), and Dataprep (D).
274
Which Google Cloud service is best suited for a data analyst with strong SQL skills who wants to develop and deploy a machine learning model on tabular data? A) Vertex AI Pipelines B) TensorFlow on Google Cloud C) BigQuery ML D) Dataprep
C BigQuery ML allows users comfortable with SQL to train, evaluate, and deploy ML models directly from BigQuery using standard SQL syntax
275
Which of the following are best practices for model deployment and serving on Vertex AI? (Select all that apply) A) Specify the number and type of machines needed B) Always use the default model input settings C) Enable automatic scaling for endpoints D) Define performance requirements before deployment
A, C y D Best practices include choosing appropriate machine types, enabling automatic scaling, and defining performance requirements aligned with business objectives. Default input settings may not fit all use cases.
276
Which method does Vertex Vizier NOT use for hyperparameter tuning? A) Grid Search B) Random Search C) Gradient Descent D) Bayesian Optimization
C Por qué la C es la respuesta correcta El Descenso de Gradiente (Gradient Descent) es el algoritmo de optimización que se usa dentro del proceso de entrenamiento de un modelo para encontrar los mejores parámetros (es decir, los pesos y sesgos). Funciona calculando el error (pérdida) del modelo y ajustando los parámetros en la dirección que reduce ese error. Vertex Vizier (y cualquier herramienta de ajuste de hiperparámetros) opera un nivel por encima de esto. Su trabajo no es ajustar los parámetros (los pesos internos), sino encontrar los mejores hiperparámetros (las configuraciones antes de entrenar, como la tasa de aprendizaje, el número de capas o el tamaño del lote). Vizier trata el proceso de entrenamiento del modelo (que usa Gradient Descent) como una "caja negra". Le da a la caja un conjunto de hiperparámetros, espera a que termine de entrenar y recibe una puntuación (ej. "precisión del 85%"). Luego, usa esa puntuación para decidir qué hiperparámetros probará en el siguiente experimento. En resumen: Gradient Descent: Optimiza los parámetros (dentro del entrenamiento). Vertex Vizier: Optimiza los hiperparámetros (fuera del entrenamiento). Por qué las otras respuestas son incorrectas Estas son, de hecho, las tres estrategias principales que Vertex Vizier sí utiliza para decidir qué hiperparámetros probar: A) Grid Search (Búsqueda en Rejilla): Incorrecto porque Vizier sí lo ofrece. Es un método de fuerza bruta que prueba cada combinación posible de una cuadrícula de valores que tú defines. B) Random Search (Búsqueda Aleatoria): Incorrecto porque Vizier sí lo ofrece. Prueba combinaciones aleatorias de hiperparámetros dentro de tu espacio de búsqueda. A menudo es más eficiente que Grid Search. D) Bayesian Optimization (Optimización Bayesiana): Incorrecto porque este es el método estrella de Vizier. Es un algoritmo inteligente que aprende de los resultados de los experimentos anteriores para decidir qué combinación de hiperparámetros es más probable que dé el mejor resultado, permitiéndole encontrar la mejor configuración mucho más rápido.
277
Which Google Cloud tools can be used for data preprocessing in different scenarios? (Select all that apply) A) BigQuery for tabular data processing B) Dataflow for large-scale unstructured or streaming data C) TensorFlow Extended for data preprocessing in TF pipelines D) Cloud Dataproc for Hadoop/Spark based ETL jobs
A, B, C y D Each tool addresses different preprocessing needs: BigQuery for SQL-based tabular transformations, Dataflow for unstructured/streaming, TensorFlow Extended within TF workflows, and Dataproc for Spark/Hadoop ETL jobs.
278
What is the main purpose of model monitoring in Vertex AI? A) To retrain the model automatically after each prediction B) To detect skew or drift in feature distributions between training and serving data C) To reduce storage costs for model artifacts D) To deploy models at the edge
B Model monitoring is designed to ensure model predictions remain reliable by alerting data scientists to data drift or training-serving skew, which can indicate the need for retraining or further investigation.
279
What are the main stages of the ML enterprise workflow ? A. Data Collection, Model Training, Model Deployment, Model Monitoring B. Experimentation, Training Operationalization, Model Deployment, Prediction Serving C. Problem Definition, Data Preparation, Model Building, Model Evaluation D. Feature Engineering, Model Training, Hyperparameter Tuning, Model Serving
A A. Data Collection, Model Training, Model Deployment, Model Monitoring (Correcta) ✅ Esta opción describe perfectamente el ciclo de vida completo y continuo de un proyecto de ML en una empresa, también conocido como MLOps (Machine Learning Operations). Recolección de Datos (Data Collection): Todo empieza aquí. No hay Machine Learning sin datos. Es el primer paso fundamental para cualquier proyecto. Entrenamiento del Modelo (Model Training): Con los datos listos, se entrena el modelo para que aprenda a hacer predicciones. Esta es la fase central de "creación" del modelo. Despliegue del Modelo (Model Deployment): Un modelo entrenado no sirve de nada si no se pone en producción para que la empresa lo utilice. El despliegue es el proceso de integrar el modelo en los sistemas existentes (una app, una web, etc.) para que pueda hacer predicciones con datos nuevos. Monitorización del Modelo (Model Monitoring): Una vez desplegado, el trabajo no ha terminado. Hay que vigilar constantemente el rendimiento del modelo para detectar si se degrada con el tiempo (lo que se conoce como model drift o concept drift). Si su rendimiento baja, es necesario volver a entrenarlo. En resumen: La opción A es la única que presenta un ciclo completo, realista y de alto nivel, desde el inicio (datos) hasta el mantenimiento a largo plazo (monitorización), que es crucial en un entorno empresarial. B. Experimentation, Training Operationalization, Model Deployment, Prediction Serving (Incorrecta) ❌ Esta opción es demasiado técnica y se centra en aspectos muy específicos de la ingeniería de ML, mezclando etapas con conceptos. Experimentation (Experimentación) y Training Operationalization (Operacionalización del Entrenamiento) son en realidad sub-tareas de la fase de Entrenamiento del Modelo. Prediction Serving (Servicio de Predicciones) no es una etapa en sí misma, sino el resultado del Despliegue del Modelo. Lo más importante: omite etapas fundamentales como la Recolección de Datos al principio y la Monitorización al final. C. Problem Definition, Data Preparation, Model Building, Model Evaluation (Incorrecta) ❌ Esta opción describe el flujo de trabajo de un proyecto de ciencia de datos académico o de investigación, no un ciclo empresarial completo. Describe bien los pasos para crear un modelo en un entorno aislado (definir el problema, preparar los datos, construir el modelo y evaluarlo). Sin embargo, se detiene justo antes de los pasos más importantes para una empresa: el Despliegue y la Monitorización. Un modelo que solo se evalúa pero nunca se pone en producción no genera valor de negocio. D. Feature Engineering, Model Training, Hyperparameter Tuning, Model Serving (Incorrecta) ❌ Esta opción es incorrecta porque mezcla etapas principales con sub-etapas muy específicas del proceso de entrenamiento. Feature Engineering (Ingeniería de Características) es una parte de la preparación de datos. Hyperparameter Tuning (Ajuste de Hiperparámetros) es una parte del entrenamiento del modelo. Al igual que la opción B, se enfoca demasiado en los detalles técnicos del entrenamiento y omite las etapas críticas de Recolección de Datos y Monitorización.
280
Which Google Cloud tool is described as an intelligent data fabric that unifies distributed data and automates data management and governance?” A. Feature Store B. Data Catalog C. Dataplex D. Analytics Hub
C Dataplex is explicitly described as unifying distributed data and automating governance, enabling data meshes across projects without movement, as noted in the data management section. Other tools serve related but distinct purposes, such as Feature Store for ML data or Analytics Hub for data exchange.
281
Which Google Cloud service is recommended for converting unstructured data, such as text or images, into binary formats like TFRecord to optimize training performance? A. BigQuery B. Dataflow C. Dataproc D. TFX
B The document states Dataflow is recommended for converting unstructured data into TFRecord, optimizing training performance, as part of the preprocessing options for different data types. Other tools serve different purposes, such as BigQuery for tabular data or Dataproc for Hadoop-based pipelines.
282
When would you choose to use AutoML over custom training with Vertex AI for building a machine learning model? A. When you need full control over the model architecture and training process. B. When you have a predefined objective and limited data science expertise. C. When you need to handle mixed input types like images and tabular data. D. When you require distributed training for large-scale datasets.
B AutoML is a no-code solution for predefined objectives (e.g., regression, classification) with minimal expertise, as noted in the training models section. Custom training is for scenarios needing flexibility, like mixed inputs or distributed training, making options A, C, and D incorrect.
283
Which hyperparameter optimization method is highlighted as the most efficient in the Google Cloud Professional Machine Learning Engineer certification material?” A. Grid Search B. Random Search C. Bayesian Optimization D. Genetic Algorithms
C The document explicitly states Bayesian Optimization is the most efficient, using probabilistic models to select promising hyperparameters, reducing trials compared to Grid Search or Random Search, as detailed in the hyperparameter tuning section.
284
¿Cuál es una regla práctica para estimar la cantidad mínima de datos necesarios para entrenar un modelo de machine learning? A) Siempre se necesitan al menos 1 millón de datos, sin importar el problema. B) El número de datos debe ser 100 veces mayor que el número de columnas (variables) que quieras evaluar. C) Basta con tener un número de datos igual al número de columnas. D) La cantidad de datos es irrelevante para entrenar un modelo.
B
285
En el contexto del aprendizaje automático y la optimización, ¿para qué se usan las derivadas? A) Para medir la cantidad de memoria que consume un modelo. B) Para calcular la relación entre el número de capas y la precisión del modelo. C) Para conocer la pendiente de una función y así optimizar parámetros durante el entrenamiento. D) Para estimar cuántas iteraciones necesita un algoritmo para converger.
C
286
¿Por qué en un dataset muy grande se puede usar un porcentaje menor para el conjunto de test? A.Porque los datasets grandes siempre tienen menos ruido y son de mayor calidad. B.Porque el número absoluto de muestras de test sigue siendo suficientemente grande para una evaluación fiable. C.Porque entrenar con más datos siempre asegura un mejor modelo. D.Porque es computacionalmente más barato usar un conjunto de test más pequeño. tip: Piensa en la diferencia entre un porcentaje y un número absoluto.
B
287
¿Cuál es el principal riesgo de usar un conjunto de test muy pequeño en términos de número absoluto de muestras? A.El entrenamiento del modelo tardará más tiempo. B.La evaluación del rendimiento del modelo puede no ser estadísticamente significativa y no reflejar su rendimiento real. C.El modelo tendrá un sesgo (bias) alto. D.El modelo se sobreajustará (overfitting) al conjunto de entrenamiento. tip: Si lanzas una moneda solo dos veces, ¿puedes estar seguro de que la probabilidad de que salga cara es del 50%?
B
288
Con un dataset de 10 millones de registros, ¿qué división entrenamiento/test sería más razonable? A.100% entrenamiento / 0% test B.99% entrenamiento / 1% test C.80% entrenamiento / 20% test D.50% entrenamiento / 50% test tip: Considera la afirmación sobre los datasets muy amplios y la relevancia del número de muestras.
B
289
¿Cuál es la proporción más habitual para dividir un conjunto de datos en entrenamiento, validación y prueba en aprendizaje supervisado? A) 50% entrenamiento, 25% validación, 25% prueba B) 70% entrenamiento, 15% validación, 15% prueba C) 80% entrenamiento, 10% validación, 10% prueba D) 60% entrenamiento, 20% validación, 20% prueba
C Esta proporción es muy común y asegura suficientes datos para entrenar sin descuidar la evaluación ni el ajuste de hiperparámetros.
290
¿Por qué es importante mantener separado el conjunto de prueba del de entrenamiento y validación? A) Para entrenar más rápido B) Para reducir la complejidad del modelo C) Para evitar el sobreajuste y tener una evaluación imparcial D) Para equilibrar el conjunto de datos
C El conjunto de prueba simula datos nuevos no vistos y nos dice si el modelo realmente generaliza.
291
En un problema de clasificación con clases desbalanceadas, ¿qué se debe tener en cuenta al dividir el conjunto de datos? A) Mezclar los datos aleatoriamente B) Mantener el orden original de los datos C) Usar muestreo estratificado D) Aumentar el tamaño del conjunto de prueba
C El muestreo estratificado garantiza que la proporción de clases se mantenga en cada subconjunto, lo cual es clave en conjuntos desbalanceados.
292
¿Qué puede ocurrir si usas el conjunto de prueba para ajustar los hiperparámetros del modelo? A) El modelo mejora en datos reales B) El modelo puede memorizar el conjunto de prueba C) Aumenta la pérdida de validación D) El modelo entrena más rápido
B ¿Por qué la "B" es la correcta? El propósito del conjunto de prueba (test set) es actuar como una evaluación final e imparcial de cómo se comportará el modelo en el mundo real. Debe ser datos que el modelo nunca haya visto durante su construcción. Si utilizas el conjunto de prueba para ajustar los hiperparámetros (hacer tuning): Fuga de Información (Data Leakage): Estás filtrando información de la respuesta correcta dentro del diseño del modelo. Sesgo de Selección: Al elegir los hiperparámetros que mejor funcionan para ese conjunto de prueba específico, estás optimizando el modelo para esos datos concretos. Resultado: El modelo "se aprende" o se ajusta excesivamente (overfitting) a las peculiaridades del conjunto de prueba. Reportará métricas excelentes en tu evaluación, pero probablemente fallará en producción con datos nuevos. Analogía del Examen: Es como si el profesor te dejara ver las preguntas exactas del examen final mientras estudias. Sacarás un 10 en el examen, pero eso no significa que hayas aprendido la materia, solo memorizaste las respuestas específicas de ese examen. ¿Por qué las otras opciones son incorrectas? A) El modelo mejora en datos reales: ❌ Incorrecta. Explicación: Ocurre lo contrario. El modelo tendrá una evaluación engañosamente buena en el test set, pero su capacidad de generalizar a datos reales (producción) probablemente será peor, porque los hiperparámetros se eligieron para satisfacer al test set, no a la generalidad del problema. C) Aumenta la pérdida de validación: ❌ Incorrecta. Explicación: No hay una relación directa que cause que la pérdida de validación (si existiera un conjunto separado) aumente. De hecho, si estás usando el test set como validación, la pérdida en ese set disminuiría artificialmente, dándote una falsa sensación de éxito. D) El modelo entrena más rápido: ❌ Incorrecta. Explicación: La velocidad de entrenamiento depende de la naturaleza de los hiperparámetros (ej. un learning rate alto o un batch size grande), no de qué datos uses para seleccionarlos. Usar el conjunto de prueba no cambia la física de cómo la CPU/GPU procesa las matemáticas. Resumen: La división correcta de datos Para evitar este error (Opción B), siempre debes dividir tus datos en tres partes: Entrenamiento (Training): Para que el modelo aprenda los pesos. Validación (Validation): Para ajustar los hiperparámetros y medir el rendimiento intermedio. Prueba (Test): Una "caja fuerte" que solo abres una vez al final de todo el proyecto para la calificación final. Nunca se usa para tomar decisiones de diseño.
293
¿Cuándo es recomendable usar validación cruzada (k-fold) en lugar de una simple división entrenamiento-validación-prueba? A) Cuando tienes muchos datos B) Cuando tu modelo sobreajusta C) Cuando quieres reducir el tiempo de entrenamiento D) Cuando tienes pocos datos
D La validación cruzada permite usar más eficientemente los datos al rotar los subconjuntos, lo cual es ideal con conjuntos pequeños.
294
¿Qué modelo de aprendizaje automático es conocido por su alta interpretabilidad y facilidad de visualización, lo que permite entender fácilmente las decisiones que toma? A.Red neuronal profunda (Deep Neural Network) B.Árbol de decisión C.Modelos de ensamblaje (Ensemble models) D.Máquinas de vectores de soporte (Support Vector Machines) tip: Piensa en un modelo que se asemeja a un diagrama de flujo con ramas y hojas.
B
295
En el contexto de la prevención del sobreajuste (overfitting), ¿qué es la regularización L2 (también conocida como Ridge)? A.Una técnica que detiene el entrenamiento del modelo prematuramente para evitar el sobreajuste. B.Una técnica que añade a la función de coste una penalización proporcional al cuadrado de la magnitud de los coeficientes del modelo. C.Una técnica que añade a la función de coste una penalización proporcional al valor absoluto de los coeficientes del modelo. D.Un método que elimina por completo las características con menor correlación con la variable objetivo. tip: Esta técnica se centra en la magnitud de los coeficientes del modelo.
B
296
Te enfrentas a un problema de sobreajuste y crees que muchas de las características de tu conjunto de datos son redundantes o irrelevantes. ¿Qué técnica de regularización es más adecuada si tu objetivo es simplificar el modelo, forzando a que los coeficientes de las características menos importantes se vuelvan exactamente cero? A.Regularización L2 (Ridge), porque distribuye la penalización entre todos los coeficientes. B.Regularización L1 (Lasso), porque tiende a producir modelos dispersos (sparse models). C.Ambas son igualmente efectivas para este propósito. D.Ninguna de las dos, se debería usar Elastic Net sin regularización. tip: Piensa en qué técnica de regularización también funciona como un método de selección de características.
B
297
¿Cuál es la principal ventaja de la regularización L2 (Ridge) sobre la L1 (Lasso) cuando NO se busca la selección de características y se cree que la mayoría de las características contribuyen al resultado? A.L2 selecciona una de las características correlacionadas y anula las otras. B.L2 es computacionalmente menos costosa que L1. C.L2 tiende a encoger los coeficientes de las características correlacionadas de manera similar, manteniendo todas las características en el modelo. D.L2 siempre converge a una solución global óptima, mientras que L1 no. tip: Considera cómo trata cada técnica a los coeficientes de magnitud similar.
C
298
En el contexto del entrenamiento de un modelo de machine learning, ¿cuál es el propósito principal de una función de coste (o función de pérdida)? A) Medir la velocidad de entrenamiento del modelo. B) Cuantificar la diferencia entre las predicciones del modelo y los valores reales para guiar su optimización. C) Seleccionar las características más importantes de los datos. D) Estandarizar los datos de entrada antes de alimentar el modelo.
B La función de coste es la métrica que el algoritmo de optimización (como el descenso de gradiente) intenta minimizar. Mide qué tan "mal" o "equivocado" está el modelo en sus predicciones, y esa medida es la que guía el ajuste de sus parámetros para mejorar.
299
Estás entrenando un modelo de regresión para predecir el precio de una vivienda. ¿Cuál de las siguientes es la función de coste más comúnmente utilizada para este tipo de problema? A) Entropía Cruzada (Cross-Entropy Loss) B) Error Cuadrático Medio (Mean Squared Error - MSE) C) Pérdida de Bisagra (Hinge Loss) D) Divergencia de Kullback-Leibler (KL Divergence)
B El MSE es el estándar para problemas de regresión. Calcula el promedio de los errores al cuadrado (la diferencia entre el valor predicho y el real). Penaliza más los errores grandes debido al término cuadrático, lo que lo hace muy efectivo para este tipo de tareas.
300
¿Qué función de coste es la más adecuada para entrenar un modelo que debe clasificar imágenes en varias categorías (por ejemplo, "perro", "gato", "pájaro")? A) Error Absoluto Medio (Mean Absolute Error - MAE) B) Error Cuadrático Medio (Mean Squared Error - MSE) C) Entropía Cruzada Categórica (Categorical Cross-Entropy) D) Coeficiente de Correlación de Pearson
C La Entropía Cruzada es ideal para problemas de clasificación. Mide la diferencia entre dos distribuciones de probabilidad: la distribución real (la etiqueta verdadera, ej. [0, 1, 0]) y la distribución predicha por el modelo (ej. [0.1, 0.8, 0.1]). Es la opción estándar para la clasificación multiclase. Para clasificación binaria, se usa la Entropía Cruzada Binaria.
301
Si en un problema de regresión cambias la función de coste de Error Cuadrático Medio (MSE) a Error Absoluto Medio (MAE), ¿cuál es el cambio más significativo que esperarías en el comportamiento del modelo durante el entrenamiento? A) El modelo se volverá completamente inmune a los valores atípicos (outliers). B) El modelo será menos sensible a los valores atípicos, ya que el MAE no eleva los errores al cuadrado. C) El tiempo de entrenamiento se reducirá a la mitad. D) El modelo solo podrá predecir valores positivos.
B El MSE eleva al cuadrado las diferencias, por lo que un valor atípico que genere un error grande tendrá un impacto desproporcionado en la pérdida total. El MAE, al usar el valor absoluto, no magnifica los errores grandes de la misma manera, lo que hace que el modelo sea más robusto o resistente a la influencia de estos valores atípicos.
302
Durante el entrenamiento de un modelo de clasificación en Vertex AI, observas que la precisión (accuracy) de entrenamiento es del 99%, pero la precisión de validación es del 75%. ¿Qué problema es más probable que estés experimentando? A.Desfase de entrenamiento-servicio (Training-serving skew) B.Sobreajuste (Overfitting) C.Bajo ratio de aprendizaje (Low learning rate) D.Subajuste (Underfitting) tip: Considera la diferencia de rendimiento del modelo entre los datos que ha visto durante el entrenamiento y los datos nuevos que no ha visto.
B
303
Has detectado una divergencia significativa entre las métricas de tu conjunto de datos de entrenamiento y el de validación. ¿Cuál de las siguientes estrategias es la MEJOR para empezar a solucionar este problema? A.Introducir técnicas de regularización como Dropout o L2 B.Reducir el tamaño del conjunto de validación C.Aumentar la complejidad del modelo (ej. añadir más capas o neuronas) D.Entrenar durante más épocas tip: Si el modelo funciona bien con los datos de entrenamiento pero no con los de validación, necesitas hacerlo más robusto frente a datos no vistos.
A
304
Después de desplegar un modelo en un endpoint de Vertex AI, notas que la distribución de los valores de una característica en los datos de predicción en tiempo real es muy diferente a la distribución de esa misma característica en el conjunto de datos de entrenamiento. ¿Cómo se llama este problema? A.Desfase de características (Feature skew) B.Fuga de datos (Data leakage) C.Sobreajuste (Overfitting) D.Subajuste (Underfitting) tip: Este problema ocurre cuando los datos que el modelo encuentra en producción no se parecen a los datos con los que fue entrenado.
A
305
¿Qué herramienta de Google Cloud está diseñada específicamente para detectar desfases de datos y de concepto en modelos de machine learning que ya están en producción? A.Cloud Logging B.BigQuery ML C.Vertex AI Model Monitoring D.Vertex AI Experiments tip: Busca un servicio de monitorización continua dentro de la plataforma de IA de Google Cloud.
C
306
¿Qué tipo de regularización elegirías si tu objetivo principal es crear un modelo 'disperso' (sparse), que anule por completo los coeficientes de las características menos importantes, facilitando así la selección automática de características? A.Regularización L2 (Ridge) B.Regularización L1 (Lasso) C.Dropout D.Early Stopping Piensa en cuál de las dos penalizaciones (valor absoluto vs. cuadrado del valor) puede reducir un coeficiente exactamente a cero.
B
307
Un gerente de negocio te pide que expliques qué características, de un conjunto de 100, son las más decisivas para el modelo de predicción de ventas. ¿Por qué la regularización L1 es particularmente útil para responder a esta pregunta de forma sencilla y directa? A.Porque L1 siempre genera modelos más precisos que L2. B.Porque el cálculo matemático de L1 es menos complejo que el de L2. C.Porque L2 reduce el impacto de todas las características de forma proporcional, mostrando una importancia relativa. D.Porque L1 reduce a cero los coeficientes de las características irrelevantes, indicando explícitamente que el modelo 'ignora' esas variables.
D
308
Estás entrenando un modelo y sabes que muchas de tus características están altamente correlacionadas entre sí (multicolinealidad). Si crees que todas ellas aportan algo de información y no quieres eliminar ninguna por completo, ¿qué enfoque de regularización es generalmente preferido? A.Regularización L1 (Lasso) B.No usar ninguna regularización. C.Usar una tasa de aprendizaje más alta. D.Regularización L2 (Ridge)
D La Respuesta Correcta: Opción D Regularización L2 (Ridge) ¿Qué hace? La regularización Ridge añade una penalización a la función de pérdida equivalente al cuadrado de la magnitud de los coeficientes. Comportamiento con Multicolinealidad: Cuando tienes características muy correlacionadas (ej: "metros cuadrados" y "número de habitaciones", que suelen subir juntos), el modelo sin regularizar se vuelve inestable y asigna pesos gigantescos a una y negativos a la otra para compensar. Ridge resuelve esto encogiendo (shrinking) los coeficientes de ambas características hacia cero, pero manteniéndolos equilibrados. Por qué es la clave aquí: La frase crítica del enunciado es: "no quieres eliminar ninguna por completo". Ridge nunca lleva los coeficientes a cero absoluto; los hace muy pequeños, pero los mantiene todos. Esto preserva la información sutil de todas las variables. Por qué las otras son "malas" Opción A: Regularización L1 (Lasso) El problema: Hace selección de características (Feature Selection). Por qué falla: L1 tiene una propiedad geométrica (la "esquina" del rombo en la optimización) que tiende a forzar los coeficientes a ser exactamente cero. En este escenario: Si tienes dos variables correlacionadas, Lasso elegirá arbitrariamente una y matará (pondrá a cero) a la otra. Como el enunciado dice explícitamente que "crees que todas aportan información y no quieres eliminar ninguna", Lasso es la herramienta incorrecta aquí. Opción B: No usar ninguna regularización El problema: Varianza alta e inestabilidad. Por qué falla: La multicolinealidad hace que la matriz de diseño sea casi singular (difícil de invertir matemáticamente). Esto provoca que pequeños cambios en los datos de entrenamiento causen cambios salvajes en los coeficientes del modelo. El modelo sobreajustará (Overfitting) y fallará al generalizar. Opción C: Usar una tasa de aprendizaje más alta El problema: No soluciona el problema estructural. Por qué falla: La tasa de aprendizaje (learning rate) controla qué tan rápido aprende el modelo, no cómo maneja la complejidad o la correlación. De hecho, en presencia de multicolinealidad, la superficie de error suele ser un valle estrecho y alargado; una tasa de aprendizaje alta probablemente hará que el modelo diverja (se vuelva loco) en lugar de converger.
309
Al entrenar un modelo de regresión logística en BigQuery ML usando la sentencia `CREATE MODEL`, ¿qué parámetros de las `OPTIONS` utilizarías para especificar la fuerza de la regularización L1 y L2, respectivamente? A.`REGULARIZATION_TYPE='L1'` y `REGULARIZATION_TYPE='L2'` B.`L1_REG` y `L2_REG` C.`LASSO` y `RIDGE` D.`PENALTY='L1'` y `PENALTY='L2'`
B Explicación de la respuesta correcta (B)La opción B (L1_REG y L2_REG) es la correcta porque, en la sintaxis de CREATE MODEL de BigQuery ML, estos son los nombres exactos de los parámetros dentro de OPTIONS que se usan para definir la fuerza de la regularización.L1_REG: Este parámetro espera un valor numérico (FLOAT64, $>= 0$) que especifica el peso o la "fuerza" de la regularización L1 (también conocida como Lasso). Un valor más alto aumenta la penalización, lo que puede forzar que algunas ponderaciones de características se vuelvan exactamente cero, ayudando así a la selección de características.L2_REG: Este parámetro también espera un valor numérico (FLOAT64, $>= 0$) que especifica la fuerza de la regularización L2 (también conocida como Ridge). Un valor más alto penaliza las ponderaciones grandes, ayudando a prevenir el sobreajuste (overfitting).Un ejemplo de uso en una sentencia CREATE MODEL sería: CREATE OR REPLACE MODEL `mi_dataset.mi_modelo` OPTIONS( model_type='LOGISTIC_REG', L1_REG = 1.0, -- Especifica la fuerza de L1 L2_REG = 0.5 -- Especifica la fuerza de L2 ) AS SELECT ... Por qué las otras opciones son incorrectas Opción A (REGULARIZATION_TYPE='L1' y REGULARIZATION_TYPE='L2'): Esta sintaxis es incorrecta. BigQuery ML no tiene un único parámetro REGULARIZATION_TYPE para seleccionar el tipo de regularización. En su lugar, BQML aplica la regularización L1 si tú proporcionas un valor para L1_REG, y aplica L2 si proporcionas un valor para L2_REG. Puedes incluso usar ambos al mismo tiempo (lo que se conoce como regularización Elastic Net). Opción C (LASSO y RIDGE): Estos son los nombres conceptuales de los métodos de regularización (Lasso para L1 y Ridge para L2), pero no son los nombres de los parámetros de OPTIONS en la sintaxis SQL de BigQuery ML. Opción D (PENALTY='L1' y PENALTY='L2'): Esta es una fuente común de confusión, ya que el parámetro penalty se usa en otras bibliotecas de machine learning muy populares, como scikit-learn en Python. Sin embargo, esta no es la sintaxis correcta para BigQuery ML. BQML es más explícito y separa los controles de fuerza para L1 y L2 en sus propios parámetros.
310
Un ingeniero junior entrena un modelo basado en gradiente (como una red neuronal) usando características con escalas muy diferentes (ej. edad: 18-65, ingresos anuales: 50,000-500,000) sin aplicar ninguna normalización o estandarización. ¿Cuál es el problema más probable que surgirá durante el entrenamiento? A.El modelo sufrirá de sobreajuste (overfitting) inmediatamente. B.La convergencia del modelo será lenta e inestable, ya que las características con mayor escala dominarán el cálculo del gradiente. C.Se producirá una fuga de datos (data leakage). D.Los modelos basados en árboles (como Random Forest) también fallarán.
B
311
Tu compañero te dice que ha 'normalizado' los datos. Cuando le preguntas por el método, te dice que ha transformado cada característica para que tenga una media de 0 y una desviación estándar de 1. ¿Qué técnica ha utilizado realmente? A.Cuantificación (Quantization o Binning) B.Estandarización (Standardization o Z-score normalization) C.Normalización (Min-Max scaling) D.Codificación One-Hot (One-Hot Encoding) tip: Recuerda la diferencia matemática entre escalar a un rango [0, 1] y escalar usando la media y la desviación estándar.
B
312
Un miembro del equipo está preprocesando los datos. Realiza el siguiente proceso: 1) Combina los datos de entrenamiento y validación. 2) Aplica un `StandardScaler` (`fit_transform`) al conjunto combinado. 3) Separa de nuevo los datos en entrenamiento y validación. ¿Qué error crítico se ha cometido en este procedimiento? A.Pérdida de información original B.Uso de una técnica de escalado incorrecta C.Fuga de datos (Data Leakage) D.Cálculo ineficiente tip: Piensa si el conjunto de entrenamiento debe 'saber' algo sobre el conjunto de validación antes de que el modelo sea evaluado.
C
313
Para asegurar que la misma transformación de escalado (ej. estandarización) que se aplica durante el entrenamiento en una pipeline de Vertex AI se aplique de manera idéntica a los datos que llegan al endpoint para predicción, ¿qué componente de TensorFlow Extended (TFX) es ideal para esta tarea? A.BigQuery B.Vertex AI Feature Store C.El argumento `validation_data` en `model.fit()` D.TensorFlow Transform (TFT) tip: Busca la herramienta de TFX diseñada para crear una función de preprocesamiento que se puede guardar y reutilizar.
D
314
¿Cuál es el principal problema al que te enfrentas cuando tienes un conjunto de datos con muchísimas dimensiones (características) pero un número relativamente bajo de ejemplos, un fenómeno conocido como la 'Maldición de la Dimensionalidad'? A.La mayoría de los algoritmos de Machine Learning no aceptan más de 100 dimensiones. B.Los datos se vuelven muy dispersos, lo que hace que cualquier ejemplo de entrenamiento esté 'lejos' de los demás, dificultando que el modelo pueda generalizar. C.El coste computacional de procesar los datos se vuelve el único problema. D.El modelo tenderá a subajustar (underfit) los datos porque no puede capturar la complejidad. tip: Piensa en cómo se distribuyen los puntos en un espacio de muchas dimensiones. ¿Están cerca o lejos unos de otros?
B
315
Has decidido usar PCA para reducir la dimensionalidad. ¿Qué representan los 'componentes principales' que se generan como resultado? A.Un subconjunto de las características originales que son las más importantes. B.Nuevas características artificiales, que son combinaciones lineales de las originales y que capturan la máxima varianza de los datos. C.Los centroides de los clústeres encontrados en los datos. D.Los valores atípicos (outliers) del conjunto de datos. Tip: Los componentes principales no son una selección de las características originales, sino algo nuevo.
B
316
Después de aplicar PCA, necesitas decidir cuántos componentes principales conservar para entrenar tu modelo final. ¿Cuál es el método más común y práctico para tomar esta decisión? A.Utilizar siempre un número fijo, como 2 o 3, para poder visualizar los datos. B.Elegir los componentes que tienen la mayor correlación con la variable objetivo. C.Mantener todos los componentes que tengan un valor propio (eigenvalue) mayor a 0. D.Analizar el gráfico de la 'varianza explicada acumulada' y elegir el número de componentes que capture un porcentaje suficiente de la varianza total (ej. 95%).
D
317
Una de las principales desventajas o contrapartidas de usar PCA como paso de preprocesamiento para un modelo de machine learning es... A. Requiere que los datos sigan una distribución no lineal. B. Siempre aumenta el riesgo de sobreajuste (overfitting). C. La pérdida de interpretabilidad de las características del modelo. D. Solo funciona con variables categóricas.
C Una de las contrapartidas más importantes al usar PCA es el intercambio que se hace entre la simplicidad del modelo y la capacidad de interpretar sus resultados. ¿Por qué la Opción C es la correcta? ✅ El núcleo del problema de la interpretabilidad radica en cómo PCA transforma los datos. PCA toma tus características originales y las combina para crear un nuevo conjunto de características llamadas componentes principales. Características Originales: Suelen ser fácilmente interpretables. Por ejemplo: edad, ingresos, altura, presión arterial. Componentes Principales (Nuevas Características): Son combinaciones matemáticas abstractas de todas las características originales. Por ejemplo, el primer componente (PC1) podría ser algo como: PC1=(0.45×edad)−(0.30×ingresos)+(0.81×altura)+... Cuando entrenas un modelo de machine learning usando estos componentes principales, el modelo te dirá la importancia de PC1, PC2, etc. Pero, ¿qué significa que PC1 sea importante? Es muy difícil de explicar en términos de negocio o del mundo real, porque PC1 no es una cosa, sino una mezcla de muchas. Se pierde la capacidad de decir frases simples y directas como: "El modelo predice un mayor riesgo porque los ingresos del cliente son bajos". En su lugar, tendrías que decir: "El modelo predice un mayor riesgo porque el valor de PC1 es alto", lo cual no es intuitivo ni explicable para la mayoría de las personas. Esta pérdida de interpretabilidad es una desventaja fundamental. ¿Por qué las otras opciones son incorrectas? ❌ A. Requiere que los datos sigan una distribución no lineal. Esto es falso. De hecho, PCA es una técnica lineal que funciona mejor para capturar relaciones lineales en los datos. Para estructuras no lineales, se necesitan técnicas más avanzadas como Kernel PCA. B. Siempre aumenta el riesgo de sobreajuste (overfitting). Esto es lo contrario de la realidad. PCA es a menudo una técnica muy eficaz para reducir el sobreajuste. Al disminuir el número de características y eliminar las de menor varianza (que a menudo son ruido), se simplifica el modelo y se le ayuda a generalizar mejor a datos nuevos. D. Solo funciona con variables categóricas. Esto también es incorrecto. PCA está diseñado fundamentalmente para variables numéricas y continuas, ya que se basa en cálculos de varianza y covarianza. Para usar variables categóricas, primero deben ser convertidas a un formato numérico (por ejemplo, mediante one-hot encoding).
318
¿Cuál es la diferencia fundamental en el tipo de resultado que produce una regresión lineal y una regresión logística? A.La regresión lineal solo puede usar una característica, mientras que la logística puede usar múltiples. B.No hay una diferencia fundamental; la regresión logística es simplemente un nombre más moderno para la regresión lineal. C.La regresión lineal predice un valor numérico continuo (ej. el precio de una casa), mientras que la regresión logística predice la probabilidad de que una entrada pertenezca a una clase específica (ej. la probabilidad de que un email sea spam). D.La regresión lineal dibuja una línea recta y la logística una curva en forma de 'S', pero ambas predicen valores continuos.
C
319
Un modelo de regresión logística para predecir si un cliente abandonará (churn) o no (no churn) un servicio, para un cliente específico, devuelve un valor de 0.85. ¿Cómo interpretas este resultado? A.El modelo cometió un error, ya que la salida debería ser 'churn' o 'no churn'. B.El cliente es un 85% 'churn'. C.La predicción correcta es 'no churn' con una confianza del 15%. D.Hay un 85% de probabilidad de que el cliente abandone el servicio.
D D. Hay un 85% de probabilidad de que el cliente abandone el servicio. Esta es la interpretación perfecta. Un modelo de regresión logística no genera directamente la etiqueta final (como 'churn' o 'no churn'). En su lugar, su salida principal es un valor de probabilidad entre 0 y 1. Este valor (en este caso, 0.85) representa la probabilidad estimada por el modelo de que el cliente pertenezca a la clase "positiva". En un modelo de abandono, la clase "positiva" (la que se está tratando de predecir) es casi siempre el evento de 'churn' (abandono). Por lo tanto, un 0.85 significa que el modelo estima que hay un 85% de probabilidad de que ese cliente en particular abandone el servicio. Posteriormente, se aplica un umbral de decisión (generalmente 0.5) a esta probabilidad para tomar la decisión final. Como 0.85 > 0.5, la predicción final del modelo sería 'churn'. Por qué las otras opciones son incorrectas A. El modelo cometió un error, ya que la salida debería ser 'churn' o 'no churn'. Incorrecto. El modelo no cometió un error. La salida de probabilidad (0.85) es el resultado intermedio esperado. La etiqueta final se deriva de esta probabilidad. B. El cliente es un 85% 'churn'. Incorrecto. Esta es una mala interpretación semántica. Un cliente no puede ser "85% churn"; o abandona o no abandona. La cifra del 85% es una probabilidad (la confianza del modelo), no un estado parcial del cliente. C. La predicción correcta es 'no churn' con una confianza del 15%. Incorrecto. Esto está doblemente mal. Si la probabilidad de 'churn' es del 85%, la probabilidad de 'no churn' es 1 - 0.85 = 0.15 (15%). Dado que el 85% es mucho mayor que el 15% (y está por encima del umbral de 0.5), la predicción final sería 'churn', no 'no churn'.
320
¿Para cuál de los siguientes problemas de negocio sería apropiado utilizar una regresión logística en lugar de una regresión lineal? A.Predecir la temperatura que hará el próximo lunes. B.Predecir la cantidad de lluvia que caerá mañana en milímetros. C.Predecir si una transacción con tarjeta de crédito es fraudulenta o legítima. D.Predecir el precio de venta de una vivienda en función de sus características.
C
321
¿Qué función matemática es el núcleo de la regresión logística y le permite transformar una salida lineal en una probabilidad entre 0 y 1? A.La función Lineal B.La función Sigmoide (o Logística) C.La función de Tangente Hiperbólica (tanh) D.La función ReLU (Rectified Linear Unit) tip: El nombre de esta función a veces se usa como sinónimo de la propia función logística.
B
322
En una matriz de confusión para un problema de clasificación binaria (ej. 'spam' vs 'no spam'), ¿qué representa un 'Falso Positivo' (FP)? A.Un correo electrónico que era legítimo ('no spam') pero el modelo lo clasificó incorrectamente como 'spam'. B.Un correo electrónico que era legítimo ('no spam') y el modelo lo clasificó correctamente como 'no spam'. C.Un correo electrónico que era 'spam' pero el modelo lo clasificó incorrectamente como 'no spam'. D.Un correo electrónico que era 'spam' y el modelo lo clasificó correctamente como 'spam'.
A
323
Observas la siguiente matriz de confusión para un modelo que detecta fraude: Verdaderos Positivos (TP)=80, Falsos Positivos (FP)=20, Falsos Negativos (FN)=10, Verdaderos Negativos (TN)=990. ¿Cuál es la precisión (precision) del modelo? A.80% B.88.9% C.97.2% D.98%
A La Respuesta Correcta A. 80% ¿Por qué? La Precisión (Precision) responde a la pregunta: "De todos los casos que el modelo predijo como positivos (Fraude), ¿cuántos eran realmente positivos?". La fórmula es: TP / (TP + FP) TP (Verdaderos Positivos): 80 (El modelo dijo Fraude y ERA Fraude). FP (Falsos Positivos): 20 (El modelo dijo Fraude, pero ERA legal). Cálculo: 1- Sumamos todas las predicciones positivas: $80 + 20 = 100$. 2- Dividimos los aciertos entre ese total: $\frac{80}{100} = 0.8$. 3- Resultado: 80%. En el contexto de fraude, una precisión del 80% significa que de cada 100 veces que bloqueas una tarjeta, en 20 te has equivocado y has molestado a un cliente honesto. Por qué las otras opciones son incorrectas (Las Trampas) Estas opciones no son números aleatorios; son los resultados de otras métricas que suelen confundirse. B. 88.9% $\rightarrow$ Esto es el RECALL (Sensibilidad) Fórmula: $TP / (TP + FN)$ Cálculo: $80 / (80 + 10) = 80 / 90 = 0.888...$ Explicación: El Recall responde a: "De todos los fraudes que EXISTEN en la realidad, ¿cuántos detectó el modelo?". Aquí te olvidaste de los 10 fraudes que se escaparon (FN), pero la pregunta pedía Precisión, no Recall. C. 97.2% $\rightarrow$ Esto es la ACCURACY (Exactitud) Fórmula: $(TP + TN) / Total$ Cálculo: $(80 + 990) / 1100 = 1070 / 1100 = 0.9727...$ Explicación: La Accuracy mide qué tan bien acierta el modelo en general (tanto fraudes como no fraudes). La trampa: En detección de fraude, la Accuracy suele ser engañosamente alta porque hay muchísimos casos negativos (TN=990). Decir "97% de exactitud" suena genial, pero si tu modelo no detectara ningún fraude, seguiría teniendo una exactitud altísima solo por acertar los casos normales. Por eso nunca usamos Accuracy en datos desbalanceados. D. 98% $\rightarrow$ Esto es la SPECIFICITY (Especificidad) Fórmula: $TN / (TN + FP)$ Cálculo: $990 / (990 + 20) = 990 / 1010 = 0.9801...$ Explicación: Mide qué tan bueno es el modelo detectando las transacciones legítimas (negativos). Resumen Mental para el Examen: El Denominador Para no confundirte nunca entre Precisión y Recall, mira siempre el denominador (la parte de abajo de la fracción): PRECISIÓN (Precision): El denominador es lo que DICE EL MODELO ($TP + FP$). Foco: Calidad de la predicción. RECALL (Sensibilidad): El denominador es lo que ES LA REALIDAD ($TP + FN$). Foco: Cantidad de casos encontrados.
324
Usando la misma matriz de confusión de la pregunta anterior (TP=80, FP=20, FN=10, TN=990), ¿cuál es la exhaustividad (recall o sensibilidad) del modelo? A.88.9% B.97.2% C.80% D.99%
A
325
Estás construyendo un modelo para el diagnóstico precoz de una enfermedad grave pero tratable. ¿Qué métrica de la matriz de confusión es más importante optimizar, incluso a costa de la otra? A.Maximizar la Precisión (Precision) B.Maximizar los Verdaderos Negativos (TN) C.Maximizar la Exactitud (Accuracy) D.Maximizar la Exhaustividad (Recall) tip: ¿Qué error es peor en este caso: decirle a una persona sana que podría estar enferma (FP), o decirle a una persona enferma que está sana (FN)?
D
326
hich statements accurately describe categories of machine learning models and their applications within supervised learning? A) Supervised learning is primarily used when data is unlabeled and the goal is to discover hidden patterns. B) Regression models are used to predict a continuous numerical value, such as predicting a customer's tip amount. C) Classification models are designed to predict a discrete number of values or classes, for example, identifying the sex of a customer. D) If the characteristic you want to predict (the label) is a continuous quantity, a classification algorithm should be used.
B y C Supervised learning requires labeled data and is task-driven to identify a goal, while unsupervised learning deals with unlabeled data to find patterns. Within supervised learning, regression models predict continuous values (like tip amount or dog weight), and classification models predict discrete categories (like sex of a customer or dog breed). Therefore, option A is incorrect as it describes unsupervised learning, and option D is incorrect because a continuous label requires a regression algorithm, not classification.
327
An ML team at XYZ company is initiating their first ML project. The team includes a Data Analyst proficient in SQL but new to ML, and a Data Scientist with domain expertise who has limited experience deploying models to production. Considering their skill sets and objectives, which Google Cloud ML options are suitable for them? A) BigQuery ML (BQML) is suitable for the Data Analyst, enabling them to create and execute machine learning models using SQL queries directly within BigQuery without data export. B) AutoML on Vertex AI is an appropriate choice for both, as it provides a low- or no-code solution that automates model architecture selection and parameter tuning, requiring less data preparation and no development for basic tasks. C) Custom training on Vertex AI allows the Data Scientist to leverage programming tools like Python and TensorFlow for full control over the ML pipeline, including manual hyperparameter tuning, which is beneficial for complex or unique objectives. D) Pre-trained APIs are ideal for developing custom models from scratch with new, unique datasets.
A, B y C BigQuery ML allows users to build ML models using SQL, making it accessible for SQL-proficient Data Analysts. AutoML is a "fastest path from data to value" no-code/low-code solution suitable for users with limited ML expertise, automating many steps. Custom training offers deep control and customization using code, which is suitable for Data Scientists needing to fine-tune or automate complex workflows. Pre-trained APIs are ready-made solutions that use pre-trained models, not for building custom models from scratch with unique datasets
328
The machine learning workflow is typically broken down into three main stages, often illustrated using a restaurant analogy. What are these three core stages? A) Data Collection (gathering ingredients), Model Design (creating recipes), and Model Testing (tasting the meal). B) Data preparation (uploading data and applying feature engineering), Model development (training and evaluating the model), and Model serving (deploying and monitoring the model). C) Feature Selection (choosing key ingredients), Model Tuning (adjusting recipes for taste), and Prediction (serving the meal to customers). D) Data Ingestion (receiving raw ingredients), Model Training (cooking the meal), and Model Optimization (refining the meal for quality).
B The sources explicitly define the three main stages of the ML workflow: Data preparation (gathering and prepping ingredients), Model development (experimenting with recipes, training, and evaluating), and Model serving (serving the meal and monitoring feedback)
329
An organization is facing significant challenges with their ML features, including difficulty in sharing and reusing features, challenges with low-latency serving in production, and frequent training-serving skew. How does a fully managed Feature Store on Google Cloud address these specific pain points? A) It provides a centralized feature repository with easy APIs to search, discover, fetch, and manage permissions for ML features, thereby enabling sharing and reuse across different use cases. B) It offloads the operational overhead of handling infrastructure for low-latency scalable feature serving, allowing data scientists to concentrate on feature computation logic. C) It alleviates training-serving skew by allowing feature values to be computed once and then reused for both training and serving, with capabilities to track and monitor for data drift and quality issues. D) It fully automates the entire feature engineering process, eliminating the need for any manual feature extraction or creation.
A, B y C The Feature Store directly addresses all three mentioned pain points: it facilitates sharing and reuse via a centralized repository; it provides scalable, low-latency serving by managing the underlying infrastructure; and it alleviates training-serving skew by ensuring feature consistency between training and serving, along with monitoring capabilities. However, feature engineering is still described as a primarily manual, time-consuming task, so option D is incorrect as Feature Store does not fully automate this process.
330
When evaluating a regression model's performance, it's crucial to select a metric that is easily interpretable and in the same units as the original label. Which of the following loss function metrics best fits this description? A) Sum of Errors (SUM). B) Mean Squared Error (MSE). C) Root Mean Squared Error (RMSE). D) Sum of Absolute Errors.
C The Sum of Errors can lead to issues where positive and negative errors cancel each other out, making it an unreliable measure of overall error. The Mean Squared Error (MSE) squares the errors, resulting in units that are squared (e.g., pounds-squared), which can be hard to interpret. The Root Mean Squared Error (RMSE) takes the square root of the MSE, bringing the error back to the original units of the label, making it more interpretable and a common metric for evaluating regression models, with the goal to minimize it. The sum of absolute errors is an alternative, but RMSE is specifically highlighted for its interpretability in original units.
331
What is the main advantage of using Vertex AI Pipelines in a machine learning workflow? A) It allows training models without any data preprocessing B) It simplifies hyperparameter tuning using only default values C) It enables automation and orchestration of ML components D) It replaces the need for deploying models to production
C Vertex AI Pipelines help automate and orchestrate machine learning workflows, allowing for consistent, repeatable processes across components like data ingestion, training, and deployment.
332
What is a key benefit of using BigQuery ML? A) It requires exporting data to TensorFlow for training B) It supports only classification models C) It allows you to create and train ML models using SQL D) It only works with structured streaming data
C BigQuery ML lets users build and train models using SQL queries directly within BigQuery, without moving data elsewhere.
333
Which of the following best describes supervised learning? A) The model uses unlabeled data to identify hidden patterns B) The model predicts continuous or categorical outcomes using labeled data C) The model clusters data into similar groups based on distance D) The model generates new data similar to training inputs
B Supervised learning uses labeled data to train models for tasks like regression (continuous outcomes) and classification (categorical outcomes).
334
Which of the following is TRUE about using Vertex AI AutoML compared to Custom Training? (Select all that apply) A) AutoML does not require coding experience B) Custom Training is limited to predefined objectives C) AutoML automatically selects model architecture and tunes hyperparameters D) Custom Training allows more flexibility and manual tuning
A, C y D AutoML is codeless and handles architecture and tuning automatically. Custom training is more flexible and allows manual tuning, but it requires programming skills. Only AutoML is limited to predefined objectives.
335
What is one benefit of using Vertex AI Feature Store? A) It eliminates the need for data labeling B) It prevents training-serving skew by reusing computed features C) It allows training models without any feature engineering D) It stores only image and video data features
B Vertex AI Feature Store helps alleviate training-serving skew by enabling reuse of computed features for both training and serving.
336
Which statement best describes the main advantage of using Vertex AI AutoML for building machine learning models? A. Allows complete control over training code and environment B. Enables codeless model training with automated feature engineering C. Only supports unstructured data such as images and audio D. Requires advanced Python programming skills
B Vertex AI AutoML enables users to train machine learning models without writing code, automating tasks like feature engineering, model selection, and hyperparameter tuning. It’s suitable for users with limited ML expertise, allowing rapid prototyping with a simple UI
337
Which of the following are stages in a standard machine learning workflow in Google Cloud? (Select all that apply) A. Data preparation B. Model development C. Model serving D. Data encryption
A, B y C The typical ML workflow consists of data preparation, model development, and model serving. Data encryption is important for security but is not considered a core stage of the ML workflow itself
338
What is the primary benefit of using the Vertex AI Feature Store? A. It automatically trains models without human intervention B. It serves as a centralized repository to store, share, and serve ML features at scale C. It replaces the need for data preprocessing D. It eliminates the need for feature engineering
B Vertex AI Feature Store is a managed service that provides a centralized place to store, share, and serve machine learning features across teams and projects, enabling efficient feature reuse and reducing issues like training-serving skew
339
Which Google Cloud product allows you to build and use ML models directly using SQL, without exporting data or writing code? A. Vertex AI Workbench B. BigQuery ML C. Dataflow D. Cloud Functions
B BigQuery ML enables users to build, train, and serve machine learning models directly within BigQuery using SQL queries. This makes it easy to apply ML on structured data without exporting data or writing custom code
340
When should a team choose custom training over AutoML in Vertex AI for their machine learning project? (Select all that apply) A. When full control over the model architecture is required B. When only tabular data is available C. When a proprietary algorithm must be implemented D. When no programming ability is available
A y C Custom training on Vertex AI is chosen when teams need full flexibility for defining the model structure, developing custom algorithms, or require advanced configuration and tuning that AutoML cannot provide. AutoML is ideal for standard tasks on well-defined data types, especially when ease of use and speed are required
341
According to the "Machine Learning on Google Cloud learning path" slide, which of the following is NOT one of the five separate courses in the learning path? A) Introduction to AI and ML on Google Cloud B) Launching into Machine Learning C) Data Engineering on Google Cloud D) Feature Engineering
C The "Machine Learning on Google Cloud learning path" slide explicitly lists five courses. These are "Introduction to AI and ML on Google Cloud," "Launching into Machine Learning," "TensorFlow on Google Cloud," "Feature Engineering," and "Machine Learning in the Enterprise." "Data Engineering on Google Cloud" is not mentioned as part of this specific learning path.
342
Which of the following Google Cloud services allows you to build and execute machine learning models directly within a data warehouse using SQL queries, without needing to export data? A) Vertex AI Pipelines B) BigQuery ML C) AutoML D) AI Platform Notebooks
B The presentation states that BigQuery ML "Allows you to use SQL to invoke machine learning models on structured data" and "Doesn't require exporting data out of BigQuery to create and train a model." This highlights its unique capability to perform machine learning directly within the BigQuery data warehouse using standard SQL.
343
In the context of the ML workflow, which of the following statements accurately describes the "Model serving" stage? A) It is the stage where you upload data and apply feature engineering. B) It is the stage where the model is trained and evaluated to ensure it performs as expected. C) It involves experimenting with different recipes and tasting the meal. D) It is the final stage where the model is deployed and monitored, which is analogous to serving a meal to customers and adjusting the menu based on feedback.
D The "ML workflow (Cont.)" slide explicitly describes the final stage, model serving, as where "the model was deployed and monitored. This translates to serving the meal to customers and adjusting the menu as more people tried and reviewed the dish." The other options describe the data preparation and model development stages.
344
What is the primary purpose of using Vertex AI Feature Store in a machine learning project? (Select two) A) To automate the entire ML pipeline from data ingestion to deployment. B) To provide a centralized repository to share, reuse, and manage ML features across different projects. C) To alleviate training-serving skew by allowing feature values to be computed once and reused for both training and serving. D) To build and train custom models using a code-based solution with full control over the environment.
B y C The "Fully managed Feature Store" slide highlights its key benefits. It mentions a "Centralized feature repository with easy APIs to search and discover features" which facilitates sharing and reuse. It also explicitly states that it helps to "Alleviate training-serving skew" by letting you "Compute feature values once; re-use for training and serving." While other tools handle pipeline automation or custom training, the Feature Store's main role is managing and serving features consistently.
345
When deciding between AutoML and Custom Training on Vertex AI, which of the following statements is correct? A) AutoML requires extensive data science expertise, while Custom Training is designed for beginners. B) Custom Training requires less data preparation and development time compared to AutoML. C) AutoML is codeless and requires no programming ability, whereas Custom Training requires programming experience to develop the training application. D) AutoML allows for complete flexibility in defining custom machine learning objectives, while Custom Training has predefined objectives.
C The "When to use AutoML and when to use Custom Training" slide clearly states that for AutoML, "No, AutoML is codeless" is the answer to "Programming ability needed." In contrast, for Custom Training, the answer is "Yes, to develop the training application." The other statements incorrectly describe the characteristics of these two approaches.
346
What is the primary distinction between Artificial Intelligence (AI) and Machine Learning (ML) as described in the course? A) AI is a toolset, while ML is a discipline. B) AI is a discipline, while ML is a toolset for solving AI problems. C) AI and ML are synonymous terms. D) ML is a subset of AI, but AI includes other techniques beyond ML.
B AI is a broad field focused on creating intelligent systems, while ML is a specific set of techniques within AI that enables systems to learn from data and improve performance without explicit programming.
347
In the context of TensorFlow, what does the term "loss" refer to? A) The error between predicted and actual values. B) The speed of model training. C) The size of the model. D) The amount of data used for training.
A In TensorFlow, loss functions (e.g., Mean Squared Error, Root Mean Squared Error) measure the discrepancy between the model's predictions and actual values, guiding the training process to minimize this error.
348
Which of the following is a technique used in feature engineering to handle categorical data? A) Normalization B) One-hot encoding C) Principal Component Analysis (PCA) D) Standardization
B One-hot encoding is a common technique in feature engineering to convert categorical data into a numerical format that can be used by machine learning algorithms, improving model performance.
349
What is the correct order of steps in the machine learning workflow as described in the course? A) Data preparation, Model development, Model serving B) Model serving, Data preparation, Model development C) Model development, Data preparation, Model serving D) Data preparation, Model serving, Model development
A The standard machine learning workflow begins with preparing the data, followed by developing the model, and ends with serving the model to make predictions on new data.
350
What is the primary function of Vertex AI in the context of machine learning on Google Cloud? A) To provide a platform for building and deploying ML models. B) To offer pre-trained models for specific tasks. C) To manage data storage and retrieval. D) To perform automated feature engineering.
A Vertex AI is a unified platform that supports the entire machine learning lifecycle, including creating datasets, training models, evaluating accuracy, tuning hyperparameters, deploying models, and serving predictions.
351
¿Qué significa que un problema de decisión esté en la clase de complejidad P? A.Que el problema solo puede tener dos respuestas: 'sí' or 'no'. B.Que su solución puede ser verificada en tiempo polinómico si se proporciona una prueba. C.Que puede ser resuelto por una máquina de Turing determinista en tiempo polinómico. D.Que puede ser resuelto por una máquina de Turing no determinista en tiempo polinómico.
C Por qué la opción C es la correcta C. Que puede ser resuelto por una máquina de Turing determinista en tiempo polinómico. Esta es la definición formal de la clase P. Vamos a desglosarla: Problema de decisión: Un problema con una respuesta de "sí" o "no". Máquina de Turing determinista: Es el modelo teórico de un ordenador normal, que sigue una secuencia de instrucciones paso a paso sin adivinar. Tiempo polinómico: Esta es la parte más importante. Significa que si el tamaño de la entrada del problema es n, el tiempo que tarda el algoritmo en encontrar la solución es, en el peor de los casos, proporcional a n elevado a una potencia constante (n², n³, etc.). En términos sencillos, un problema está en P si existe un algoritmo eficiente que lo resuelve. A medida que el problema crece, el tiempo de solución crece de manera predecible y manejable, no de forma explosiva. Por ejemplo, ordenar una lista o encontrar el camino más corto en un mapa son problemas en P. Por qué las otras opciones son incorrectas A. Que el problema solo puede tener dos respuestas: 'sí' o 'no'. Esto define lo que es un problema de decisión, no la clase P. Todos los problemas en P son problemas de decisión, pero no todos los problemas de decisión están en P (algunos son mucho más difíciles o incluso irresolubles). B. Que su solución puede ser verificada en tiempo polinómico si se proporciona una prueba. Esta es la definición de la clase de complejidad NP (Nondeterministic Polynomial time). La diferencia clave es resolver vs. verificar. P (Resolver): Puedo encontrar la solución desde cero rápidamente. NP (Verificar): Si me das una posible solución, puedo comprobar rápidamente si es correcta. Por ejemplo, encontrar los factores primos de un número muy grande es difícil (no se conoce un algoritmo en P), pero si me das los factores, puedo multiplicarlos rápidamente para verificar que son correctos (está en NP). Todo problema en P está también en NP, pero no se sabe si NP está contenido en P (el famoso problema P vs. NP). D. Que puede ser resuelto por una máquina de Turing no determinista en tiempo polinómico. Esta es simplemente la definición formal y técnica de la clase NP, equivalente a la opción B. Una "máquina no determinista" es un concepto teórico que puede explorar múltiples caminos a la vez, lo que le permite "adivinar" la respuesta correcta y luego verificarla.
352
¿Cuál es la definición de un problema en la clase NP? A.Un problema que requiere un tiempo de ejecución exponencial para ser resuelto. B.Un problema cuya solución, si existe, puede ser verificada en tiempo polinómico por una máquina de Turing determinista. C.Un problema que no puede ser resuelto en tiempo polinómico por ninguna máquina conocida. D.Un problema que no tiene un algoritmo que lo resuelva.
B NP significa 'Tiempo Polinómico No Determinista', y una de sus definiciones equivalentes es que una solución candidata puede ser verificada rápidamente (en tiempo polinómico).
353
¿Qué es una característica clave de un problema NP-completo? A.Son los problemas más fáciles dentro de la clase NP. B.Cualquier problema en NP se puede transformar (reducir) a un problema NP-completo en tiempo polinómico. C.No tienen aplicaciones prácticas en el mundo real. D.Solo pueden ser resueltos por ordenadores cuánticos.
B Esta es la definición de la completitud en NP. Si encuentras una solución eficiente para un problema NP-completo, puedes resolver eficientemente todos los problemas en NP.
354
Considera el famoso problema abierto P vs NP en ciencias de la computación. Supón que se demuestra que P = NP, es decir, que todos los problemas cuya solución puede verificarse en tiempo polinómico también pueden resolverse en tiempo polinómico. ¿Cuál sería la consecuencia más importante a nivel práctico de este descubrimiento? A. La criptografía de clave pública actual, como RSA, se volvería insegura. B. Las matemáticas se considerarían “completamente resueltas”. C. Los ordenadores dejarían de necesitar más memoria RAM. D. No tendría ningún impacto práctico, sería un resultado puramente teórico.
A Por qué es la buena:Todo nuestro sistema de seguridad en internet (bancos, compras, contraseñas, HTTPS) se basa en una premisa: "Es fácil multiplicar dos números primos gigantes, pero es casi imposible descubrir cuáles eran esos dos números si solo tienes el resultado (factorización)".El vínculo P=NP: La factorización de enteros es un problema que, hoy en día, creemos que es "difícil" (tarda miles de años en computación clásica). Si se demuestra que $P = NP$, significa que existe un algoritmo rápido (polinómico) para resolver problemas de verificación.El colapso: Dado que verificar si una contraseña es correcta es fácil (clase NP), si $P = NP$, encontrar esa contraseña también sería fácil (clase P). RSA y otros algoritmos asimétricos se romperían en cuestión de minutos o segundos.Por qué las otras son las malasB. Las matemáticas se considerarían “completamente resueltas”Por qué falla: Aunque demostrar teoremas sería mucho más fácil (porque encontrar una demostración corta pasaría a ser algo automatizable), no todo estaría resuelto.El límite: Existen problemas "indecidibles" (como el Problema de la Parada de Turing) que no tienen solución algorítmica, sin importar si $P = NP$ o no. La lógica tiene límites que van más allá de la complejidad computacional.C. Los ordenadores dejarían de necesitar más memoria RAMPor qué falla: Estás confundiendo Tiempo con Espacio.La diferencia: $P$ vs $NP$ es una cuestión de Tiempo (cuántos pasos tarda el procesador). Aunque resuelvas un problema rápido, podrías seguir necesitando almacenar gigabytes de datos en la memoria para procesarlos. La complejidad espacial es un tema aparte.D. No tendría ningún impacto práctico, sería un resultado puramente teóricoPor qué falla: Sería el mayor avance tecnológico de la historia.La revolución: Aparte de destruir la criptografía, revolucionaría la logística (el problema del viajante se resolvería perfecto al instante), la medicina (plegamiento de proteínas para curar cáncer), la optimización de tráfico, la economía, etc. El mundo cambiaría radicalmente.
355
¿Cuál de los siguientes es un famoso ejemplo de un problema NP-completo? A.La ordenación de una lista de números. B.La multiplicación de dos números enteros. C.El problema del viajante de comercio (TSP). D.La búsqueda del camino más corto entre dos puntos en un grafo (algoritmo de Dijkstra).
C El Problema del Viajante de Comercio es un ejemplo clásico de un problema NP-completo con importantes aplicaciones en logística y planificación
356
¿cuál es el objetivo principal del Análisis de Componentes Principales (PCA)? A.Predecir un valor futuro basándose en datos históricos. B.Reducir la dimensionalidad (el número de variables) de los datos, intentando perder la menor cantidad de información posible. C.Encontrar valores atípicos (outliers) en el conjunto de datos. D.Agrupar los datos en clusters o grupos distintos.
B PCA busca una proyección de menor dimensión que capture la mayor varianza posible de los datos originales.
357
Imagina que aplicas PCA a un conjunto de datos de imágenes de caras, donde cada píxel es una variable. ¿Qué representaría probablemente el primer componente principal (PC1)? A.Una imagen completamente en negro sin información. B.Detalles muy específicos como el color de los ojos de una sola persona. C.Una cara 'promedio' o una versión base de una cara. D.El fondo de una de las imágenes.
C ¿Por qué la C es la buena? (El concepto de Varianza Global) Para entender esto, hay que recordar qué hace el PCA (Análisis de Componentes Principales). Su objetivo es reducir la complejidad de los datos encontrando los patrones que más se repiten o que capturan la mayor "varianza" (información). Patrones Comunes: En un set de datos de caras, casi todas las imágenes tienen la misma estructura básica: una forma ovalada, dos ojos, una nariz y una boca en posiciones similares. El PC1: El Primer Componente Principal busca la dirección donde los datos varían más en conjunto. Visualmente, esto se traduce en las características que todas las imágenes comparten con mayor fuerza. Eigenfaces: En visión por computador, estos componentes se llaman "Eigenfaces" (caras propias). El PC1 suele parecerse a una "cara fantasma" o borrosa que representa la estructura general de una cara humana y, a menudo, la iluminación global de la escena. Es el "molde" base sobre el cual se construyen las diferencias. Nota: Matemáticamente, el PC1 captura la mayor variación respecto al promedio. Si sumas el PC1 a la "cara media" matemática, obtienes la variación más común (por ejemplo, caras más anchas vs. más estrechas, o luz a la derecha vs. luz a la izquierda). ¿Por qué las malas son las malas? Aquí explicamos por qué las otras opciones contradicen la lógica del algoritmo: A. Una imagen completamente en negro sin información. Por qué falla: El PCA busca maximizar la información (varianza). Una imagen negra implica que todos los valores son cero (o constantes), lo que significa varianza cero. El PC1 es, por definición, el componente con más información, no con menos. Una imagen negra sería el resultado de algo que no tiene importancia en los datos. B. Detalles muy específicos como el color de los ojos de una sola persona. Por qué falla: El PCA prioriza lo global, no lo local. Un detalle específico de una sola persona (como un lunar o un color de ojos raro) es una anomalía estadística, no un patrón general. Este tipo de detalles se encontrarían en los últimos componentes principales (por ejemplo, el PC100 o PC200), que se encargan de capturar el "ruido" o los detalles finos una vez que la estructura general ya ha sido explicada. D. El fondo de una de las imágenes. Por qué falla: Esto depende del dataset, pero generalmente el PCA busca correlaciones. Si los fondos son aleatorios en cada foto, el PCA los considerará "ruido" y no aparecerán en el PC1. Si el fondo es idéntico en todas (ej. una pared blanca), el PCA lo eliminará al centrar los datos (restar la media) y se centrará en lo que cambia (las caras). El PC1 nunca representará el fondo de "una sola" imagen, porque el PC1 se calcula usando todas las imágenes a la vez. Resumen Visual Si tuvieras que reconstruir una cara humana usando PCA, el proceso sería como pintar un cuadro por capas: PC1 (Opción C): Pintas el óvalo de la cara y las sombras principales (la base). PC2 - PC10: Defines si la cara es ancha o delgada, si es hombre o mujer, o la dirección de la luz. PC50+ (Opción B): Empiezas a pintar detalles finos como lunares o arrugas específicas.
358
¿Qué tipo de información se conserva al reducir un conjunto de datos mediante análisis de componentes principales (PCA)? A. La información contenida en las dos primeras variables originales del conjunto de datos. B. La información considerada como ruido o variación aleatoria. C. La información de las variables con los valores medios más altos. D. La información que explica la mayor varianza en los datos, representada por las nuevas componentes principales.
D El Análisis de Componentes Principales (PCA) es una técnica de reducción de dimensionalidad cuyo objetivo es simplificar un conjunto de datos complejo conservando la mayor cantidad de información relevante posible. ¿Por qué la Opción D es la correcta? ✅ La "información" en el contexto de PCA se mide a través de la varianza. Una alta varianza en una dirección específica significa que los datos están muy dispersos en ese eje, lo que indica que hay una estructura o patrón significativo. El funcionamiento de PCA se basa precisamente en encontrar estas direcciones: Primer Componente Principal (PC1): Es la nueva dirección (un eje creado a partir de una combinación de las variables originales) que captura la máxima varianza posible en los datos. Es la dimensión más "importante" del conjunto de datos. Segundo Componente Principal (PC2): Es la siguiente dirección, perpendicular a la primera, que captura la máxima varianza restante. Y así sucesivamente... Cada componente subsiguiente captura la mayor varianza posible sin estar correlacionado con los anteriores. Al reducir los datos a un número menor de componentes, lo que haces es quedarte con los primeros (PC1, PC2, etc.), que son, por definición, las direcciones de mayor varianza. De esta forma, descartas las dimensiones con menos varianza, que a menudo se consideran "ruido". En resumen, PCA prioriza y conserva la estructura fundamental de los datos, que se encuentra en los ejes de mayor dispersión. ¿Por qué las otras opciones son incorrectas? ❌ A. La información de las dos primeras variables del conjunto de datos original. Esto es incorrecto. PCA no selecciona variables originales; crea nuevas variables (los componentes principales) que son combinaciones lineales de todas las variables originales. B. La información considerada como 'ruido' o variación aleatoria. Esto es exactamente lo contrario de lo que hace PCA. El objetivo es eliminar el ruido (las direcciones de baja varianza) y conservar la "señal" (las direcciones de alta varianza). C. La información correspondiente a las variables con los valores medios más altos. La media de una variable no indica su importancia en términos de varianza. De hecho, un paso estándar de preprocesamiento antes de aplicar PCA es centrar los datos (restar la media a cada variable), por lo que la media se vuelve cero y no influye en el resultado. PCA se centra en la dispersión de los datos, no en su ubicación central.
359
¿Cuál es el objetivo principal del algoritmo de agrupamiento K-Means? A.Particionar los datos en un número 'K' de grupos (clusters) donde cada dato pertenece al grupo cuyo centroide (media) está más cercano. B.Clasificar los datos en categorías predefinidas y etiquetadas, como 'spam' o 'no spam'. C.Reducir el número de variables en el conjunto de datos, como hace el Análisis de Componentes Principales (PCA). D.Predecir un valor numérico continuo, como el precio de una casa. tip: Piensa en cómo organizarías un cajón de calcetines de diferentes colores sin saber cuántos colores hay.
A K-Means es un algoritmo de agrupamiento (clustering) que busca formar K grupos basándose en la similitud de los datos, medida por la distancia a un punto central o centroide.
360
En el algoritmo K-Means, ¿qué representa el parámetro 'K'? A.El número máximo de iteraciones que el algoritmo realizará. B.Una medida de la calidad del agrupamiento final. C.El número exacto de grupos (clusters) que se quieren encontrar en los datos. D.El número de puntos de datos en el conjunto de entrenamiento. tip: Es el único parámetro que debes decidir antes de empezar a ejecutar el algoritmo.
C 'K' es un hiperparámetro que el usuario debe especificar, indicando al algoritmo cuántos grupos debe buscar.
361
El algoritmo K-Means itera entre dos pasos. ¿En qué consiste el 'paso de asignación' (assignment step)? A.Se elige el valor óptimo para 'K'. B.Se mueven los centroides a una nueva posición aleatoria. C.Se calcula la media de todos los puntos de datos para encontrar el centro general. D.A cada punto de dato se le asigna el cluster del centroide más cercano. tip: En este paso, cada punto de datos 'elige' un equipo.
D En este paso, se calcula la distancia de cada punto a cada uno de los K centroides y se asigna al más próximo.
362
En K-Means, después del 'paso de asignación', viene el 'paso de actualización' (update step). ¿Qué ocurre en este paso? A.Se eliminan los puntos de datos que están muy lejos de cualquier centroide (outliers). B.Los puntos de datos se reasignan a otros clusters para equilibrar el tamaño. C.Los centroides de cada cluster se mueven a la posición media de todos los puntos de datos asignados a ese cluster. D.Se añade un nuevo centroide si un cluster se vuelve demasiado grande. tip:Ahora que cada punto tiene un equipo, los capitanes (centroides) se mueven para estar en el centro de su equipo.
C El centroide se recalcula para ser el verdadero 'centro' (la media) de todos los puntos que actualmente pertenecen a su grupo.
363
¿Cuál es una de las principales desventajas o sensibilidades del algoritmo K-Means? A.El resultado final puede depender de la posición inicial aleatoria de los centroides. B.Funciona muy mal cuando los datos tienen muchas variables (alta dimensionalidad). C.Solo puede utilizarse para datos con dos variables. D.Requiere que los datos estén etiquetados previamente.
A Una mala inicialización de los centroides puede hacer que el algoritmo converja a un resultado subóptimo. Por eso se suele ejecutar varias veces con diferentes inicios.
364
En el proceso iterativo de K-Means, ¿qué es lo que realmente se 'ajusta' o se mueve en cada paso? A.Los puntos más lejanos (outliers) se eliminan del clúster. B.Los puntos de datos se mueven ligeramente hacia el centroide de su clúster. C.Tanto los puntos de datos como los centroides se mueven para encontrarse en un punto intermedio. D.Los centroides se mueven para posicionarse en el centro (la media) de los puntos que han sido asignados a su clúster.
D 🟢 Por qué la D es la correcta: Los centroides se mueven... El algoritmo K-Means es un proceso iterativo que se repite en dos pasos hasta que los centroides dejan de moverse (convergencia): Paso 1: Asignación. Se toma cada punto de dato (que está fijo en su posición) y se mide su distancia a cada uno de los centroides actuales. El punto de dato es asignado o etiquetado con el color del centroide que tenga más cercano. Importante: En este paso, los puntos no se mueven. Solo reciben una etiqueta. Paso 2: Actualización (El movimiento). Una vez que todos los puntos tienen una etiqueta (ej. "Clúster 1", "Clúster 2"), miramos cada clúster por separado. El centroide de ese clúster ahora se mueve a una nueva posición. ¿Cuál es esa nueva posición? Es el centro exacto (la media o promedio) de todos los puntos que fueron asignados a su clúster en el Paso 1. Este ciclo se repite. Como los centroides se han movido, en el siguiente "Paso 1" algunos puntos que estaban en la frontera pueden ser re-asignados a un nuevo centroide, lo que a su vez hará que los centroides se muevan de nuevo en el "Paso 2". La respuesta D describe perfectamente el "Paso 2", que es el único momento donde algo realmente "se mueve" (cambia sus coordenadas). 🔴 Por qué las otras son incorrectas A. Los puntos más lejanos (outliers) se eliminan... Esto es incorrecto. El algoritmo K-Means estándar no elimina outliers. De hecho, los outliers son un problema para K-Means, porque al calcular la media (el centro), un outlier tira con mucha "fuerza" del centroide hacia él, distorsionando el clúster. B. Los puntos de datos se mueven ligeramente... Esta es la trampa más común. Los puntos de datos nunca se mueven. Sus coordenadas son los datos de entrada; son fijos. Lo único que cambia para un punto de dato es su etiqueta (el clúster al que pertenece). C. Tanto los puntos de datos como los centroides se mueven... Incorrecto por la misma razón que B. Solo los centroides se mueven. 💡 Analogía para entenderlo mejor Imagina un juego con varios jugadores (los puntos de datos) que están clavados en el suelo en un campo de fútbol; no pueden moverse. Ahora, quieres colocar 3 capitanes (los centroides) en el campo. Iteración 1 (Inicio): Pones a los 3 capitanes (centroides) en posiciones aleatorias. Paso 1 (Asignación): Cada jugador (punto) mira a los 3 capitanes y levanta la mano para "unirse" al equipo del capitán que esté más cerca de él. Paso 2 (Actualización/Movimiento): Ahora, cada capitán (centroide) mira a todos los jugadores que levantaron la mano por él y camina (se mueve) para situarse justo en el centro geográfico (la media) de su nuevo equipo. Iteración 2 (Repetir): Paso 1: Como los capitanes se han movido, algunos jugadores que estaban "en la frontera" ahora se dan cuenta de que otro capitán está más cerca, así que cambian su asignación (levantan la mano por el otro capitán). Paso 2: Los capitanes ven que sus equipos han cambiado, así que se mueven de nuevo para re-centrarse con sus nuevos miembros. El juego termina cuando los capitanes dejan de moverse, porque eso significa que los equipos (clústeres) están estables. Como ves, los jugadores (puntos) están fijos, y los capitanes (centroides) son los que se mueven.
365
En K-Means, ¿Cómo decide un punto de dato a qué centroide 'pertenece' durante el paso de asignación? A.La asignación es completamente aleatoria en cada paso. B.Se asigna al centroide que esté más lejos para maximizar la varianza. C.Calcula la distancia a todos los centroides y se asigna al más cercano. D.Se asigna al centroide que tiene menos puntos para mantener los clústeres equilibrados.
C El criterio de asignación es la proximidad. Cada punto se agrupa con el centroide al que está más cerca, generalmente medido con la distancia euclidiana.
366
En K-Means, ¿Cómo se calcula la nueva posición de un centroide durante el paso de actualización? A.Es la media (el promedio) de las posiciones de todos los puntos de datos asignados a su clúster. B.Simplemente se queda en la misma posición para asegurar la estabilidad. C.Se mueve a la posición del punto más denso dentro del clúster. D.Se elige aleatoriamente uno de los puntos asignados a su clúster. Tip: Si el centroide es el 'capitán' del clúster, ¿dónde debería situarse para ser el representante más justo de todos los miembros de su equipo?
A La nueva posición del centroide es el promedio de las coordenadas de todos los puntos que pertenecen a su clúster.
367
En K-Means, ¿Cuándo se detiene este proceso de 'ajuste' (asignación y actualización)? A.Cuando el valor de 'K' es igual al número de puntos de datos. B.Cuando en una iteración, las asignaciones de los puntos a los clústeres ya no cambian (o cambian muy poco). C.Después de un número fijo de 10 iteraciones, sin importar el resultado. D.Cuando todos los clústeres tienen exactamente el mismo número de puntos. tip: ¿Cómo sabe el algoritmo que ha encontrado una solución estable?
B El algoritmo converge cuando los centroides dejan de moverse significativamente porque los puntos ya no cambian de clúster. La solución se ha estabilizado.
368
Cuando visualizas la predicción de una regresión logística, ¿qué forma tiene la curva que relaciona una variable predictora con la probabilidad del resultado? A.Una parábola (una curva en forma de 'U'). B.Una curva en forma de 'S', conocida como función sigmoide. C.Una serie de escalones. D.Una línea recta, igual que en la regresión lineal. tip: Piensa en que la probabilidad debe estar siempre entre 0 y 1. ¿Puede una línea recta garantizar eso?
B La regresión logística utiliza la función sigmoide para mapear la salida de un modelo lineal a una probabilidad, la cual siempre estará acotada entre 0 y 1.
369
Si la curva de probabilidad tiene forma de 'S', ¿por qué se dice que la regresión logística es un modelo lineal? A.Porque solo funciona si las variables predictoras siguen una distribución normal. B.Porque la frontera de decisión que separa las clases es lineal (una línea, un plano, un hiperplano). C.Porque asume que las variables predictoras no están correlacionadas entre sí. D.Realmente no es un modelo lineal, es un error común llamarlo así. tip: La 'linealidad' no está en la probabilidad directamente, sino en una transformación de la misma.
B La regresión logística asume una relación lineal entre las variables predictoras y el 'logaritmo de las odds' (log-odds) del resultado. Esto crea una frontera de decisión lineal.
370
¿Qué es el 'log-odds' o 'logit' y por qué es tan importante para la linealidad de la regresión logística? A.Es la transformación matemática que permite que la relación entre las variables predictoras y el resultado transformado sea lineal. B.Es una métrica para medir el error del modelo, similar al error cuadrático medio. C.Es simplemente otra palabra para la probabilidad predicha. D.Es una función de activación que transforma una relación lineal en una no lineal (la curva 'S').
A ✅ Por qué la opción A es la correcta El objetivo de la regresión logística es predecir una probabilidad (valor entre 0 y 1) usando un modelo lineal, cuya salida natural no está limitada a ese rango. Aquí entra el logit. Problema: Una línea recta (como Y = b₀ + b₁X) puede dar valores de -∞ a +∞, pero una probabilidad solo va de 0 a 1. No se pueden conectar directamente. Solución (Logit): El logit o log-odds es una transformación matemática que convierte la escala de probabilidad [0, 1] en una escala de línea recta [-∞, +∞]. Primero se convierte la probabilidad (p) en odds: Odds = p / (1 - p) Luego se calcula el logaritmo natural de los odds: Log-odds = ln(p / (1 - p)) Esta transformación permite asumir una relación lineal entre las variables predictoras (X) y el resultado transformado (log-odds): ln(p / (1 - p)) = b₀ + b₁X Analogía: La relación entre X y p es una curva en forma de 'S'. El logit es como una lente matemática que la endereza para poder analizarla con herramientas lineales. ❌ Por qué las otras opciones son incorrectas B. Es una métrica para medir el error: Incorrecto. El log-odds transforma la variable de salida, no mide el error. La métrica de error más común es la Pérdida Logarítmica (Log Loss) o Entropía Cruzada Binaria. C. Es simplemente otra palabra para la probabilidad predicha: Incorrecto. La probabilidad va de 0 a 1, el log-odds de -∞ a +∞. Son distintos. D. Es una función de activación que transforma una relación lineal en una no lineal (curva 'S'): Incorrecto. Eso describe la función inversa al logit, llamada sigmoide. Resumen: Logit: transforma la curva 'S' en línea recta (log-odds). Sigmoide: transforma la línea recta en curva 'S' (probabilidad). Son procesos opuestos, aunque relacionados.
371
Si la relación real en tus datos no es lineal, ¿significa que no puedes usar una regresión logística? A.No, pero tienes que transformar la variable objetivo (el 0/1) para que sea lineal. B.Puedes usarla, pero solo si eliminas las variables que tienen una relación no lineal. C.Puedes usarla. Puedes crear variables nuevas (ingeniería de características) que capturen la no linealidad, como términos polinómicos (X²). D.No, no se puede usar. Debes cambiar a un modelo inherentemente no lineal como un árbol de decisión.
C Puedes añadir transformaciones de tus variables (X², log(X), etc.) como nuevas predictoras. El modelo sigue siendo lineal respecto a los coeficientes, pero ahora puede modelar fronteras de decisión no lineales.
372
¿Por qué la detección de caras en una imagen se considera un problema de clasificación 'no lineal'? A.Porque la salida es binaria (0 para 'no cara', 1 para 'cara'). B.Porque no existe una combinación lineal simple de los valores de los píxeles que pueda separar de forma fiable las imágenes de caras y las de no caras. C.Porque las imágenes tienen demasiados píxeles. D.Porque las caras siempre aparecen en el centro de la imagen.
B Pequeños cambios en la iluminación, la pose o la expresión facial alteran los valores de los píxeles de una manera muy compleja. No se puede trazar una 'línea' o 'plano' simple para resolverlo.
373
¿Cómo puede un clasificador como una SVM, que en su forma más simple es lineal, resolver un problema tan complejo y no lineal como la deteccion de caras ? A.La SVM convierte la imagen a blanco y negro, lo que hace que el problema sea lineal. B.Realmente no puede, la afirmación es incorrecta. Siempre es necesaria una red neuronal. C.La SVM se aplica sobre un conjunto de 'características' extraídas previamente de la imagen (ej. HOG, Haar), no sobre los píxeles crudos. D.La SVM ignora los píxeles que no son importantes y se centra solo en los de los ojos y la boca. tip: La SVM no suele trabajar sobre los píxeles en bruto. ¿Qué paso intermedio es crucial?
C Este es el punto clave. Métodos como HOG o las cascadas de Haar transforman los píxeles en un espacio de características donde el problema se vuelve más 'sencillo' y una SVM puede encontrar un hiperplano de separación eficaz.
374
Si las SVM no son necesarias, ¿cuál es la principal ventaja de usar una red neuronal convolucional (CNN) moderna para la detección de caras? A.Las CNN requieren menos memoria para funcionar. B.Las CNN son más rápidas de entrenar que las SVM. C.Las CNN no necesitan preprocesar las imágenes, pueden usar imágenes en color directamente. D.La CNN aprende las características relevantes automáticamente desde los píxeles crudos, eliminando la necesidad de un extractor de características manual. tip:Piensa en el paso de extracción de características que necesitaba la SVM. ¿Quién hace ese trabajo en una CNN?
D Esta es la ventaja fundamental del 'deep learning'. Las capas convolucionales de la red aprenden a identificar las características óptimas (bordes, texturas, formas, etc.) por sí mismas durante el entrenamiento.
375
¿Cuál de las siguientes opciones es un ejemplo de una variable continua? A.La temperatura exacta de una habitación en grados Celsius. B.Si un correo electrónico es 'spam' o 'no es spam'. C.El número de estudiantes en una clase. D.La marca de un coche (ej: Ford, Toyota, Renault).
A La temperatura puede ser 22°C, 22.1°C, 22.11°C, etc. Puede tomar cualquier valor dentro de un rango, por lo que es continua.
376
Un modelo de regresión lineal está diseñado para predecir un resultado. ¿Qué tipo de variable es este resultado? A.Una respuesta de 'sí' o 'no'. B.Una categoría, como 'perro' o 'gato'. C.Un valor numérico continuo, como el precio o la altura. D.Una imagen completa.
C La regresión lineal es la herramienta perfecta para predecir una cantidad que puede variar en un rango continuo (ej: predecir un precio de 150.000,50€).
377
¿Qué es lo que realmente predice la regresión logística? A.Una categoría directamente, como 'cara' o 'no cara'. B.Un número entero que representa la clase. C.La probabilidad (un valor continuo entre 0 y 1) de que algo pertenezca a una clase. D.El conjunto de píxeles que forman una cara.
C La regresión logística predice una probabilidad (que es una variable continua). Luego, usamos esa probabilidad para tomar una decisión (ej: si P > 0.5, es una cara).
378
¿por qué no puedes 'predecir una cara' (generar la imagen de una cara) con la regresión logística? A.Porque las caras son demasiado complejas y la regresión logística es un modelo muy simple. B.Porque la regresión logística solo puede dar una respuesta: un único número (la probabilidad). Una imagen, sin embargo, se compone de miles de números (los valores de los píxeles). C.Porque la regresión logística es para problemas lineales y las caras no lo son. D.Porque una imagen no es una variable continua.
B El formato de la salida no coincide. La regresión logística da un solo número, mientras que 'predecir una cara' significa generar una matriz de miles de valores de píxeles.
379
¿Cuál es el objetivo principal de un clasificador SVM? A.Agrupar los puntos de datos en 'K' clústeres, de forma similar a K-Means. B.Encontrar el hiperplano que maximice la distancia (el margen) a los puntos de datos más cercanos de cada clase. C.Predecir un valor continuo, como el precio de una acción. D.Encontrar una línea o plano (hiperplano) que pase por el mayor número de puntos posible.
B ✅ Respuesta Correcta B. Encontrar el hiperplano que maximice la distancia (el margen) a los puntos de datos más cercanos de cada clase. ¿Por qué es correcta? 🎯 Esta es la definición fundamental de una Máquina de Vectores de Soporte (SVM, por sus siglas en inglés). Imagina que tienes que dibujar una línea para separar dos grupos de puntos (círculos y cuadrados) en un papel. Podrías dibujar muchas líneas, pero la SVM busca la mejor línea posible. ¿Y cuál es la mejor? Aquella que está lo más lejos posible de los puntos más cercanos de cada grupo. Hiperplano: Es el término técnico para la línea (en 2D) o el plano (en 3D) que separa las clases. Margen: Es la distancia desde el hiperplano hasta los puntos más cercanos. Es como el ancho de una "calle" que separa dos barrios. Vectores de soporte: Son esos puntos de datos más cercanos al hiperplano que "sostienen" el margen. El objetivo de la SVM es maximizar este margen (hacer la calle lo más ancha posible), porque un margen más grande generalmente significa que el modelo clasificará nuevos datos de forma más robusta y precisa. ❌ Respuestas Incorrectas A. Agrupar los puntos de datos en 'K' clústeres, de forma similar a K-Means. ¿Por qué es incorrecta? Esto describe un problema de clustering (agrupamiento), que es una tarea de aprendizaje no supervisado. Algoritmos como K-Means encuentran grupos naturales en los datos sin saber a qué categoría pertenecen. La SVM es un algoritmo de clasificación, una tarea de aprendizaje supervisado, lo que significa que aprende a partir de datos que ya tienen etiquetas (ya sabemos qué puntos son círculos y cuáles son cuadrados). C. Predecir un valor continuo, como el precio de una acción. ¿Por qué es incorrecta? Esto describe un problema de regresión. La regresión se usa para predecir un número (un valor continuo), como la temperatura de mañana o el precio de una casa. Aunque existe una variante de SVM para regresión (SVR), la pregunta se refiere al clasificador SVM, cuyo objetivo principal es predecir una categoría o clase (ej: "spam" o "no spam", "perro" o "gato"). D. Encontrar una línea o plano (hiperplano) que pase por el mayor número de puntos posible. ¿Por qué es incorrecta? Esto es conceptualmente lo contrario de lo que hace una SVM. Un clasificador SVM no intenta pasar a través de los puntos, sino entre los grupos de puntos. Un hiperplano que pasa por muchos puntos sería un mal separador de clases. El objetivo es la separación, no el ajuste.
380
En el contexto de SVM, ¿qué son los 'vectores de soporte'? A.Los puntos de datos que se utilizan para realizar las predicciones una vez que el modelo está entrenado. B.Todos los puntos de datos del conjunto de entrenamiento. C.Los puntos de datos que están más alejados de la frontera de decisión. D.Los puntos de datos de entrenamiento que están más cerca de la frontera de decisión y que la 'sostienen'.
D Son los puntos críticos que definen la posición del hiperplano. Si movieras uno de estos puntos, la frontera cambiaría.
381
¿Qué permite el 'truco del kernel' (kernel trick) en las SVM? A.Reducir el número de vectores de soporte para simplificar el modelo. B.Clasificar datos que no son linealmente separables proyectándolos a una dimensión superior donde sí lo son. C.Funciona solo para problemas de regresión, no de clasificación. D.Hacer que el entrenamiento de la SVM sea mucho más rápido.
B El truco del kernel permite a la SVM operar en un espacio de características de mayor dimensión sin tener que calcular explícitamente las coordenadas, permitiéndole crear fronteras de decisión no lineales en el espacio original.
382
¿Qué tipo de problema de clasificación resolverías con un 'kernel lineal' en una SVM? A.Cualquier problema de clasificación, ya que el kernel lineal es el más potente. B.Un problema donde los datos forman dos círculos concéntricos. C.Un problema donde las clases de datos se pueden separar con una única línea recta. D.Un problema con muchos datos y ruido, ya que es el más robusto.
C Si los datos son linealmente separables, un kernel lineal es la opción más simple y eficiente. No hay necesidad de proyectar los datos a una dimensión superior.
383
En SVM, ¿qué es el 'kernel' en sí mismo? A.Es el algoritmo que encuentra los vectores de soporte. B.Es una función matemática que mide la 'similitud' o 'proximidad' entre dos puntos de datos. C.Es el nombre que se le da a la frontera de decisión final. D.Es un parámetro que controla la velocidad del entrenamiento. tip: No es una parte del modelo, sino una regla que el modelo usa para ver los datos.
B Un kernel define cómo medir la relación entre puntos. Un kernel lineal usa una distancia simple, mientras que uno no lineal (como el RBF) puede ver similitudes más complejas, como si los puntos estuvieran 'cerca' en una dimensión superior.
384
En SVM, ¿En qué situación es más útil ajustar el parámetro 'class_weight' (peso de la clase)? A.Cuando los datos son perfectamente separables con una línea. B.Cuando las clases están desbalanceadas (ej: 99% de clase A y 1% de clase B). C.Cuando tienes muchas variables (características). D.Cuando el conjunto de datos es muy grande. tip: Piensa en un problema donde equivocarse en una clase es mucho peor que equivocarse en la otra.
B Si no ajustas el peso, la SVM podría decidir que lo mejor es clasificar todo como clase A para tener un 99% de acierto. Al darle más peso a la clase B, 'penalizas' más los errores en esa clase, forzando al modelo a prestarle atención.
385
En SVM, ¿Qué controla el parámetro de regularización 'C'? A.Un valor de 'C' muy bajo crea un margen más estrecho y es muy estricto con los errores. B.Define el tipo de kernel que se va a utilizar (lineal, RBF, etc.). C.Un valor de 'C' muy alto crea un margen más ancho y permite más errores de clasificación. D.Controla el equilibrio entre tener un margen lo más ancho posible y clasificar correctamente el mayor número de puntos de entrenamiento. tip: Imagina que C es el 'coste' o la 'multa' por cada punto que queda mal clasificado.
D 'C' gestiona el trade-off entre sesgo y varianza. Un 'C' bajo favorece un modelo más simple (margen ancho, más sesgo). Un 'C' alto favorece un modelo más complejo que se ajusta a los datos de entrenamiento (margen estrecho, más varianza).
386
En SVM, El parámetro 'gamma' es muy importante para el kernel RBF. ¿Qué efecto tiene un valor de 'gamma' muy alto? A.No tiene ningún efecto si se usa el kernel RBF, solo afecta al kernel polinómico. B.Aumenta la regularización del modelo, de forma similar al parámetro C. C.Cada vector de soporte tiene una influencia muy amplia, resultando en una frontera de decisión muy suave y general. D.La influencia de cada vector de soporte es muy pequeña y local, lo que puede llevar a una frontera de decisión muy compleja y ajustada a los datos. tip: Piensa en gamma como el 'alcance' de la influencia de un solo punto (vector de soporte).
D Un 'gamma' alto hace que el modelo sea muy sensible a cada punto individual. La frontera se vuelve muy 'ondulada' para capturar cada detalle, lo que puede ser un signo de sobreajuste (overfitting).
387
En SVM, ¿qué pasa con el 'número de iteraciones'? A.Cuantas más iteraciones, mejor será siempre el modelo final. B.Generalmente, no se ajusta. El algoritmo se detiene automáticamente cuando la solución converge (deja de mejorar) o se alcanza un límite máximo por seguridad. C.Debes ajustarlo siempre al número de puntos en tu dataset. D.Se debe ajustar a un valor igual al parámetro C. tip: ¿Es algo que normalmente te preocupas por ajustar a mano en las librerías modernas como Scikit-learn?
B Los algoritmos de optimización de las SVM modernas son muy eficientes. Tienen criterios internos para saber cuándo han encontrado la mejor solución posible y se detienen solos. El límite de iteraciones es más bien una salvaguarda para evitar que se ejecute indefinidamente si algo va mal
388
¿cuál es el propósito fundamental de usar una técnica como Grid Search o Random Search en Machine Learning? A.Para reducir la cantidad de datos necesarios para entrenar. B.Para seleccionar las características (variables) más importantes del conjunto de datos. C.Para entrenar el modelo más rápido. D.Para encontrar la combinación de hiperparámetros que da el mejor rendimiento al modelo. tip: Piensa en los 'botones' o 'perillas' de un modelo que no se aprenden automáticamente de los datos.
D El objetivo es automatizar la búsqueda de los mejores 'ajustes' (hiperparámetros, como C, gamma, learning rate, etc.) para que nuestro modelo generalice mejor.
389
¿Cómo explora el espacio de búsqueda la Búsqueda por Rejilla (Grid Search)? A.Elige combinaciones de hiperparámetros de forma completamente aleatoria. B.Construye una rejilla con todos los valores que le proporcionas y prueba cada una de las combinaciones posibles, una por una. C.Empieza con una combinación y se va moviendo hacia combinaciones mejores, de forma inteligente. D.Solo prueba los valores de los extremos y el centro de la rejilla para ahorrar tiempo. tip: Su nombre, 'rejilla', es una pista muy literal sobre su funcionamiento.
B Si le das 3 valores para el parámetro A y 4 para el B, probará las 3x4=12 combinaciones sin saltarse ninguna. Es exhaustiva sobre la rejilla definida.
390
¿cómo explora el espacio de búsqueda la Búsqueda Aleatoria (Random Search)? A.Se enfoca solo en los hiperparámetros que parecen más importantes. B.Construye una rejilla y luego elige puntos al azar dentro de esa rejilla. C.Define una distribución (o lista) para cada hiperparámetro y elige un número fijo de combinaciones al azar. D.Prueba todas las combinaciones posibles, pero en un orden aleatorio.
C Tú le dices 'prueba 20 combinaciones' y el método elige 20 pares de valores (uno para cada hiperparámetro) de forma aleatoria a partir de los rangos que has definido.
391
¿Cuál es la razón principal por la que Random Search a menudo encuentra mejores modelos que Grid Search con el mismo número de intentos? A.Porque Random Search está garantizado que prueba los valores óptimos. B.Porque Grid Search tiende a sobreajustar el modelo más que Random Search. C.Porque Random Search no malgasta intentos probando múltiples veces valores de un hiperparámetro poco importante. D.Porque la aleatoriedad pura siempre es mejor que un método sistemático.
C ¿Por qué la opción C es la correcta? C. Porque Random Search no malgasta intentos probando múltiples veces valores de un hiperparámetro poco importante. Esta afirmación da en el clavo de la ventaja principal de Random Search. La idea fundamental es que, en la mayoría de los problemas de machine learning, no todos los hiperparámetros tienen la misma importancia. Algunos tienen un impacto enorme en el rendimiento del modelo, mientras que otros apenas lo afectan. Grid Search es un método sistemático que prueba todas las combinaciones posibles de una cuadrícula que tú defines. Si tienes un hiperparámetro importante (ej. la tasa de aprendizaje) y uno poco importante (ej. el número de workers), Grid Search gastará la misma cantidad de esfuerzo en ambos. Por cada valor del parámetro importante, probará todos los valores del parámetro sin importancia, lo cual es un desperdicio de recursos computacionales. Random Search, en cambio, elige combinaciones de hiperparámetros al azar dentro del espacio de búsqueda. Esto significa que cada intento prueba un valor único para cada hiperparámetro. Al no estar atado a una cuadrícula fija, es mucho más probable que explore una mayor diversidad de valores para los hiperparámetros que sí son importantes, aumentando así la probabilidad de encontrar una combinación cercana a la óptima con el mismo número de intentos. Como se ve en la imagen, con el mismo número de puntos (intentos), Grid Search solo prueba 3 valores distintos para cada parámetro. En cambio, Random Search prueba 9 valores únicos y diferentes para cada uno, explorando el espacio de búsqueda de manera mucho más eficiente. ¿Por qué las otras opciones son incorrectas? A. Porque Random Search está garantizado que prueba los valores óptimos. Esto es falso. Ningún método de búsqueda (excepto probar absolutamente todos los valores, lo cual es imposible) puede "garantizar" encontrar el óptimo. Random Search es un método probabilístico; simplemente aumenta las probabilidades de encontrar una buena solución, pero no ofrece ninguna garantía. B. Porque Grid Search tiende a sobreajustar el modelo más que Random Search. Esto es incorrecto. El sobreajuste (overfitting) es una característica del modelo final, no del método de búsqueda en sí. Tanto Grid Search como Random Search pueden encontrar combinaciones de hiperparámetros que lleven a un sobreajuste. La tendencia al sobreajuste depende más de los rangos de valores que se exploren y de una correcta validación cruzada que del método de búsqueda utilizado. D. Porque la aleatoriedad pura siempre es mejor que un método sistemático. Esto es una generalización excesiva y falsa. Afirmar que lo aleatorio "siempre" es mejor es incorrecto. Los métodos sistemáticos como Grid Search son muy útiles cuando el espacio de búsqueda es pequeño y se sabe que todos los hiperparámetros son importantes. La ventaja de Random Search es específica del contexto de la optimización de hiperparámetros, donde la importancia de estos es desigual.
392
¿Cuál es el propósito principal de una matriz de confusión? A.Mostrar qué tan rápido es el modelo. B.Indicar si el modelo está sobreajustado (overfitting). C.Visualizar la relación entre las diferentes variables de entrada. D.Resumir el rendimiento de un modelo de clasificación, detallando los aciertos y errores para cada clase.
D Su gran ventaja es que desglosa los aciertos (verdaderos positivos y negativos) y los errores (falsos positivos y negativos), dándote una visión completa del comportamiento del modelo.
393
En una matriz de confusión para un problema de diagnóstico de cáncer, ¿qué representa un 'Verdadero Positivo' (True Positive, TP)? A.El modelo predijo 'sin cáncer' pero el paciente realmente sí tenía cáncer. B.El modelo predijo 'cáncer' y el paciente realmente tenía cáncer. C.El modelo predijo 'sin cáncer' y el paciente realmente no tenía cáncer. D.El modelo predijo 'cáncer' y el paciente realmente no tenía cáncer. tip: Piensa en 'Verdadero' como que el modelo acertó, y 'Positivo' como la predicción que hizo.
B El modelo acertó al identificar correctamente a un paciente que tiene la enfermedad.
394
¿Qué es un 'Falso Negativo' (False Negative, FN) y por qué suele ser el error más costoso en muchos problemas del mundo real? A.Es una 'falsa alarma', como predecir fraude en una transacción que es legítima. B.Es cuando el modelo predice la clase negativa correctamente. C.Es cuando el modelo predice la clase negativa, pero en realidad era positiva. D.Es cuando el modelo predice la clase positiva correctamente. tip:Imagina que el modelo es un filtro de spam. ¿Qué es peor, que un correo bueno vaya a spam o que un correo de spam llegue a tu bandeja de entrada?
C Por ejemplo, predecir 'no es fraude' cuando sí lo es, o 'no tiene la enfermedad' cuando sí la tiene. El coste es alto porque el problema real pasa desapercibido.
395
Un banco usa un modelo para detectar transacciones fraudulentas. La clase 'Positiva' es 'fraude'. ¿Qué sería un 'Falso Positivo' (False Positive, FP) en este caso? A.Una transacción fraudulenta que el modelo no detecta y permite. B.Una transacción fraudulenta que el modelo identifica correctamente como fraude. C.Una transacción legítima que el modelo identifica correctamente como legítima. D.Una transacción legítima que el modelo marca como fraude y bloquea. tip: Piensa en la experiencia del cliente. ¿Qué error del modelo le causaría una molestia directa?
D Es una 'falsa alarma'. El modelo predijo 'positivo' (fraude) pero se equivocó. Esto causa una molestia al cliente, pero es a menudo preferible a dejar pasar un fraude real.
396
Predicho Perro Gato Zorro +--------------+----------------+----------------+---------------- R. Perro 85 10 5 R. Gato 8 70 22 R. Zorro 2 25 73 +--------------+----------------+----------------+----------------+ Observando la matriz, ¿cuál es el error más común que comete el modelo en general? A.Confundir un Perro con un Gato. B.Confundir un Zorro con un Gato. C.Confundir un Gato con un Zorro. D.Confundir un Gato con un Perro. tip: Busca el número más alto que no esté en la diagonal principal (la que va de arriba-izquierda a abajo-derecha). | | Predicho: Perro | Predicho: Gato | Predicho: Zorro |
B El número más alto fuera de la diagonal es 25, que corresponde a Zorros reales que fueron incorrectamente clasificados como Gatos. Este es el principal punto de fallo del modelo.
397
Predicho Perro Gato Zorro +--------------+----------------+----------------+---------------- R. Perro 85 10 5 R. Gato 8 70 22 R. Zorro 2 25 73 +--------------+----------------+----------------+----------------+ La pregunta clave: '¿En qué se equivoca el modelo?'. Si nos centramos en los **Gatos**, ¿cuál es la historia que cuenta la matriz? A.El modelo es muy bueno identificando Gatos y rara vez se equivoca. B.El principal problema del modelo con los Gatos es que los confunde con los Perros. C.El modelo tiende a confundir a los Gatos con los Zorros. D.El modelo a menudo piensa que otros animales son Gatos (Falsos Positivos para 'Gato'). | | Predicho: Perro | Predicho: Gato | Predicho: Zorro |
C De los 30 Gatos que clasificó mal, 22 fueron etiquetados como Zorros. Esto nos dice que el modelo ve características muy similares entre Gatos y Zorros
398
Tienes el siguiente matriz de confusión de un clasificador con tres clases: Perro, Gato y Zorro. Las filas corresponden a la clase real y las columnas a la clase predicha: Predicho: Perro Gato Zorro +--------------+----------------+----------------+--------- Real. Perro 85 10 5 Real. Gato 8 70 22 Real. Zorro 2 25 73 +--------------+----------------+----------------+--------- Observas que el modelo confunde con frecuencia Gatos y Zorros entre sí (muchos Gatos → Zorro y Zorros → Gato). ¿Cuál sería el siguiente paso MÁS ÚTIL para diagnosticar por qué el modelo comete estos errores específicos al confundir Gatos y Zorros? A.Volver a entrenar el modelo con más iteraciones y esperar que mejore. B.Visualizar y analizar las imágenes donde un Zorro fue clasificado como Gato y viceversa. C.Calcular la precisión (accuracy) total del modelo. D.Añadir muchas más fotos de Perros al conjunto de datos. | | Predicho: Perro | Predicho: Gato | Predicho: Zorro |
B Por qué es la buena: Esta opción se conoce técnicamente como Análisis de Error (Error Analysis). La matriz de confusión ya te ha dicho qué está pasando (el modelo confunde gatos y zorros). Ahora necesitas saber por qué. Diagnóstico cualitativo: Al mirar las fotos específicas donde el modelo falló (los 22 gatos que creyó que eran zorros y viceversa), podrías descubrir patrones humanos: ¿Están mal etiquetadas las fotos originales? (Quizás un humano etiquetó mal). ¿Son zorros bebés que parecen gatos? ¿Es el fondo? (Quizás todas las fotos de zorros son en la nieve y si pones un gato en la nieve, el modelo se confunde). Acción informada: Solo viendo los datos puedes decidir si necesitas limpiar las etiquetas, conseguir mejores fotos o cambiar la arquitectura del modelo. Por qué las otras son las malas A. Volver a entrenar con más iteraciones Por qué falla: Esto es "fuerza bruta" ciega. Si el modelo está confundido porque los datos son ambiguos o sucios, entrenar más tiempo solo hará que el modelo esté más seguro de su error (overfitting) o no cambie nada. "La esperanza no es una estrategia de ingeniería". C. Calcular la precisión (accuracy) total Por qué falla: La precisión es un número resumen. Te dirá "tienes un 85% de acierto", pero oculta el problema real. El problema: Ya sabes que hay un problema específico entre Gatos y Zorros. Calcular el promedio global no te ayuda a diagnosticar ese fallo local. Es como saber que tienes fiebre (el síntoma) pero no buscar la infección (la causa). D. Añadir muchas más fotos de Perros Por qué falla: Esto es irrelevante para el conflicto Gato vs. Zorro. El riesgo: De hecho, podría empeorar las cosas al desbalancear las clases (Class Imbalance). Si el modelo ve 90% perros, empezará a predecir "Perro" para todo por estadística, ignorando aún más a los zorros y gatos.
399
Predicho Perro Gato Zorro +--------------+----------------+----------------+---------------- R. Perro 85 10 5 R. Gato 8 70 22 R. Zorro 2 25 73 +--------------+----------------+----------------+----------------+ si tuvieras que elegir UNA métrica para resumir el problema del modelo con la clase 'Zorro', ¿cuál sería la más reveladora? A.La precisión para la clase 'Zorro' (Precision). B.El número de Verdaderos Negativos. C.El recall (o sensibilidad) para la clase 'Zorro'. D.La precisión (accuracy).
C El Recall (TP / (TP+FN)) te dice 'De todos los Zorros que había, ¿cuántos encontraste?'. En este caso, 73 / (2+25+73) = 73%. Revela que el modelo 'se perdió' un 27% de los zorros, la mayoría de ellos porque los llamó 'Gatos'.
400
¿Cuál es la diferencia fundamental en los datos que utiliza cada tipo de aprendizaje? A.Supervisado usa datos 100% etiquetados, No Supervisado usa datos 0% etiquetados, y Semi-Supervisado usa una mezcla de ambos. B.Supervisado usa solo datos numéricos, y No Supervisado solo datos de texto. C.Supervisado usa datos etiquetados, No Supervisado usa datos sin etiquetar, y Semi-Supervisado no usa datos. D.Supervisado usa datos sin etiquetar, y No Supervisado usa datos etiquetados. tip_ Piensa en si los datos de entrenamiento tienen 'respuestas' o 'etiquetas' con las que aprender.
A Esta es la definición precisa. El aprendizaje supervisado aprende de ejemplos con respuestas conocidas, el no supervisado busca patrones en datos sin respuestas, y el semi-supervisado aprovecha lo mejor de ambos mundos.
401
¿Cuál de los siguientes problemas es un ejemplo clásico de aprendizaje NO supervisado? A.Identificar si una imagen contiene un perro o un gato. B.Predecir el precio de una casa basándose en sus características (metros cuadrados, habitaciones, etc.). C.Clasificar correos electrónicos como 'spam' o 'no spam'. D.Segmentar a los clientes de una tienda en grupos con comportamientos de compra similares, sin saber de antemano qué grupos existen. tip: En este tipo de problemas, no le dices al modelo qué grupos buscar, él debe descubrirlos por sí mismo.
D No tienes etiquetas previas. El objetivo es que el algoritmo (como K-Means) explore los datos y encuentre patrones o 'clústeres' de forma autónoma. Esto es aprendizaje no supervisado.
402
¿Cuál es el escenario ideal para usar aprendizaje SEMI-supervisado? A.Cuando tienes todos tus datos perfectamente etiquetados. B.Cuando no tienes ninguna etiqueta en absoluto. C.Cuando tienes una enorme cantidad de datos, pero etiquetarlos todos a mano es demasiado caro o lento. D.Cuando tienes muy pocos datos en general. tip: Piensa en qué es caro o difícil de obtener en el mundo real: ¿los datos o las etiquetas para esos datos?
C Este es el caso de uso perfecto. Puedes etiquetar a mano un pequeño subconjunto y luego usar la estructura de la gran masa de datos no etiquetados para mejorar el rendimiento del modelo.
403
Hablando de anomalías. ¿Cómo se enfoca un problema de detección de anomalías desde una perspectiva semi-supervisada? A.Se necesita tener exactamente el mismo número de ejemplos de datos normales y de anomalías. B.Se entrena un modelo con muchos ejemplos de anomalías y pocos ejemplos de datos normales. C.Se ignoran los datos normales y solo se usa un algoritmo de clustering sobre las anomalías. D.Se entrena un modelo para que aprenda muy bien cómo son los datos 'normales' (usando una gran cantidad de datos no etiquetados que se asumen normales). Luego, cualquier dato que no encaje en ese patrón se considera una anomalía. tip: ¿Qué es lo 'normal' y qué es lo 'anómalo'? ¿De qué tipo de datos es más fácil tener muchos ejemplos?
D Esta es la estrategia semi-supervisada (a veces llamada de 'un solo tipo'). El modelo se convierte en un experto en la normalidad. Cuando se encuentra con algo que se desvía mucho de esa normalidad aprendida, lo marca como anómalo.
404
Observa un conjunto de datos con dos clusters en forma de media luna (como dos 'C' entrelazadas). ¿Por qué K-Means fallaría en separarlos correctamente? A.Porque K-Means no puede manejar más de 100 puntos de datos. B.Porque necesitarías poner K=3 para que funcione. C.Porque los datos no están etiquetados. D.Porque K-Means asume que los clusters son esféricos (como círculos) y de tamaño similar. No puede manejar formas complejas o no convexas. tip: K-Means intenta trazar líneas rectas para separar los centroides. ¿Puedes separar dos medias lunas entrelazadas con una sola línea recta?
D K-Means define los clusters por su 'centro' (centroide). Esto funciona bien para grupos con forma de mancha o círculo, pero falla estrepitosamente cuando los clusters tienen formas alargadas, curvas o complejas.
405
Imagina un conjunto de datos con un cluster muy denso y pequeño, y otro cluster muy disperso y grande. ¿Qué problema tendrá K-Means aquí? A.El algoritmo fusionará los dos clusters en uno solo. B.El algoritmo simplemente eliminará los puntos del cluster más pequeño por considerarlos outliers. C.No tendrá ningún problema, K-Means es ideal para esta situación. D.El algoritmo tenderá a dividir el cluster grande y disperso en varios trozos, ignorando la estructura real de los datos. tip: K-Means intenta crear clusters que tengan una varianza (dispersión) similar.
D . K-Means busca minimizar la suma de las distancias al cuadrado dentro de cada cluster. Esto hace que prefiera clusters de tamaño y densidad similares, por lo que puede 'robar' puntos del cluster grande para asignarlos a centroides que deberían estar en el cluster pequeño, o dividir el grande.
406
¿Cuál es el problema de que el resultado de K-Means dependa de la 'inicialización aleatoria' de los centroides? A.Significa que solo funciona si los datos están ordenados previamente. B.Significa que el algoritmo es muy lento. C.Significa que el algoritmo no es determinista: diferentes ejecuciones pueden dar como resultado diferentes agrupaciones (clusters). D.Significa que siempre encontrará la solución perfecta, sin importar dónde empiece. tip: Si ejecutas el mismo algoritmo dos veces sobre los mismos datos, ¿te gustaría obtener dos respuestas diferentes?
C Una mala colocación inicial de los centroides puede hacer que el algoritmo se quede 'atascado' en una solución subóptima. Por eso, la práctica estándar es ejecutar K-Means varias veces (con n_init) y quedarse con el mejor resultado.
407
¿Por qué la necesidad de pre-especificar el número de clusters (el valor de 'K') es una de las mayores desventajas de K-Means? A.Porque un valor de K incorrecto hace que el algoritmo falle y no dé ningún resultado. B.Porque en la mayoría de los problemas del mundo real, no sabes de antemano cuál es el número óptimo de grupos. C.Porque el algoritmo tarda más en ejecutarse si K es grande. D.Porque solo se puede usar K=2 o K=3. tip: ¿Cómo sabes cuántos grupos de clientes 'naturales' hay en tus datos antes de analizarlos?
B K-Means no puede descubrir el número de clusters por sí mismo. Te obliga a tomar una decisión que puede no tener fundamento. Si eliges un K incorrecto, el modelo forzará los datos a encajar en ese número de grupos, aunque no tenga sentido.
408
Imagina que estás en un concurso. Hay 3 puertas cerradas. Detrás de una hay un coche 🚗 y detrás de las otras dos, hay cabras 🐐. Eliges una puerta (digamos, la Puerta 1). El presentador, Monty, que sabe dónde está el coche, abre una de las otras dos puertas que siempre contiene una cabra (digamos, la Puerta 3). Ahora te ofrece la oportunidad de cambiar tu elección a la otra puerta cerrada (la Puerta 2). En el momento inicial, cuando eliges tu primera puerta (Puerta 1), ¿cuál es la probabilidad de que hayas elegido la puerta con el coche? A.No se puede saber. B.1/3 (33.3%) C.1/2 (50%) D.2/3 (66.6%)
B Al principio, cada una de las tres puertas tiene la misma probabilidad de ocultar el coche.
409
Imagina que estás en un concurso. Hay 3 puertas cerradas. Detrás de una hay un coche 🚗 y detrás de las otras dos, hay cabras 🐐. Eliges una puerta (digamos, la Puerta 1). El presentador, Monty, abre la Puerta 3 y te muestra una cabra. Ahora te pregunta si quieres cambiar tu elección de la Puerta 1 a la Puerta 2. ¿Cuál es la estrategia ganadora? A.Quedarse con la puerta original (Puerta 1). B.Da igual, la probabilidad es 50/50 para ambas puertas. C.Cambiar a la otra puerta cerrada (Puerta 2).
C Esta es la estrategia ganadora. Sigue leyendo las siguientes preguntas para entender por qué.
410
Imagina que estás en un concurso. Hay 3 puertas cerradas. Detrás de una hay un coche 🚗 y detrás de las otras dos, hay cabras 🐐. Eliges una puerta (digamos, la Puerta 1). El presentador, Monty, abre la Puerta 3 y te muestra una cabra. Ahora te pregunta si quieres cambiar tu elección de la Puerta 1 a la Puerta 2 y decides cambiar. ¿Por qué cambiar de puerta duplica tus posibilidades de ganar? A.Es simplemente una cuestión de suerte y psicología, no de matemáticas. B.Tu primera elección tenía 1/3 de probabilidad de ser el coche. Las otras dos puertas juntas tenían 2/3. Al revelar una cabra, la probabilidad de 2/3 se concentra en la única puerta que queda. C.Porque al abrir una puerta con una cabra, la probabilidad de esa puerta se reparte entre las otras dos.
B Esta es la clave. La acción de Monty te da información. Él 'filtra' la puerta incorrecta del grupo de las que no elegiste, por lo que la probabilidad de 2/3 que tenía ese grupo ahora recae enteramente en la puerta que queda.
411
Imagina que estás en un concurso. Hay 3 puertas cerradas. Detrás de una hay un coche 🚗 y detrás de las otras dos, hay cabras 🐐. Eliges una puerta (digamos, la Puerta 1). El presentador, Monty, que sabe dónde está el coche, abre una de las otras dos puertas que siempre contiene una cabra (digamos, la Puerta 3). Ahora te ofrece la oportunidad de cambiar tu elección a la otra puerta cerrada (la Puerta 2). Vamos a analizarlo de otra forma. Ganas si te quedas con tu puerta original solo si...? A....elegiste el coche al principio (lo que tiene una probabilidad de 1/3). B....Monty elige la puerta a abrir al azar. C....elegiste una cabra al principio.
A
412
Imagina que estás en un concurso. Hay 3 puertas cerradas. Detrás de una hay un coche 🚗 y detrás de las otras dos, hay cabras 🐐. Eliges una puerta (digamos, la Puerta 1). El presentador, Monty, que sabe dónde está el coche, abre una de las otras dos puertas que siempre contiene una cabra (digamos, la Puerta 3). Ahora te ofrece la oportunidad de cambiar tu elección a la otra puerta cerrada (la Puerta 2). Ganas si cambias de puerta siempre que...? A....elegiste una cabra al principio (lo que tiene una probabilidad de 2/3). B....elegiste el coche al principio. C....Monty te ofrezca dinero para no cambiar.
A
413
Dados dos gráficos con diferentes valores para `n_neighbors` (el parámetro 'K'). ¿Qué efecto tiene aumentar el valor de 'K' (por ejemplo, de 1 a 15)? A.Un valor de 'K' más alto siempre resulta en una mayor precisión. B.Un valor de 'K' más alto crea una frontera de decisión más compleja y 'ruidosa'. C.El valor de 'K' no afecta a la frontera de decisión, solo a la velocidad del entrenamiento. D.Un valor de 'K' más alto crea una frontera de decisión más suave y generalizada.
D Al considerar más vecinos, el modelo se vuelve menos sensible a puntos individuales (ruido) y la frontera que separa las clases se suaviza. Esto generalmente produce un modelo que generaliza mejor.
414
En Nearest Neighbors Classification, (con K=1), ¿cuál es el principal riesgo de usar un valor de 'K' tan bajo? A.El modelo podría estar sobreajustándose (overfitting) a los datos de entrenamiento. B.El modelo no podrá clasificar nuevos puntos de datos. C.El modelo será muy lento para hacer predicciones. D.El modelo subestimará la complejidad de los datos (underfitting).
A Con K=1, el modelo se aprende 'de memoria' el conjunto de entrenamiento, incluyendo el ruido. Crea pequeñas islas de clasificación alrededor de puntos individuales, lo que probablemente hará que no generalice bien a datos nuevos.
415
En Nearest Neighbors Classification, ¿Cuál es la diferencia fundamental entre 'weights = 'uniform'` con `weights = 'distance' ? A.No hay ninguna diferencia real, solo cambia el nombre en el código. B.En 'uniform', todos los 'K' vecinos votan con la misma importancia. En 'distance', el voto de los vecinos más cercanos cuenta más. C.'uniform' es para datos numéricos y 'distance' para datos de texto. D.'uniform' crea una frontera suave y 'distance' una frontera compleja.
B Con 'distance', la influencia de un vecino es inversamente proporcional a su distancia. Esto puede ayudar a crear fronteras de decisión más precisas, especialmente cerca de los límites entre clases.
416
En Nearest Neighbors Classification, ¿En qué situación podría ser especialmente útil usar `weights = 'distance'`? A.Cuando todas las clases están muy bien separadas. B.Cuando quieres que tu modelo sea lo más simple posible. C.Cuando el número de vecinos 'K' es muy grande. D.Cuando tienes muy pocos datos.
C Si K es grande, es posible que incluyas vecinos de la clase incorrecta que están lejos. Al ponderar por distancia, la influencia de esos vecinos lejanos y 'malos' se reduce, y los vecinos cercanos y 'buenos' tienen más peso en la decisión.
417
Un experimento común es aplicar K-Means a un dataset de imágenes de dígitos (0-9) con K=10. ¿Cuál es el objetivo principal de este tipo de experimento no supervisado? A.Comprobar si la estructura 'natural' de los datos (sus similitudes visuales) se corresponde con las categorías que ya conocemos (los 10 dígitos). B.Reducir la cantidad de imágenes en el conjunto de datos. C.Construir un clasificador para predecir el dígito de una nueva imagen. D.Medir la velocidad del algoritmo K-Means. tip: El algoritmo no conoce las etiquetas reales '0', '1', '2', etc. ¿Qué se intenta descubrir?
A Se busca ver si el algoritmo puede encontrar por sí mismo los 10 grupos de dígitos basándose únicamente en su apariencia, sin usar las etiquetas.
418
En un clustering de imágenes con K-Means, cada clúster tiene un 'centroide'. Si el algoritmo ha agrupado bien las imágenes de un dígito concreto (por ejemplo, el '8'), ¿qué representa visualmente ese centroide? A.Una de las imágenes originales del dígito '8', elegida al azar. B.Una imagen completamente negra, ya que es el promedio de todos los píxeles. C.Una imagen que se ve como un '8' promedio o borroso. D.Un punto abstracto en un espacio matemático que no se puede visualizar. tip: Un centroide es la 'media' de todos los puntos de su clúster.
C El centroide es la media matemática de todas las imágenes de su clúster. Al promediar muchas imágenes de '8' escritas de formas distintas, el resultado es una versión arquetípica o promediada.
419
Al evaluar un modelo de clustering comparando los clústeres encontrados con las etiquetas verdaderas, ¿por qué la métrica de 'precisión' (accuracy) no es una elección adecuada? A.Porque el resultado de la precisión sería siempre un número aleatorio. B.Porque la precisión solo se puede usar en problemas con dos clases. C.Porque la precisión requiere una coincidencia exacta de etiquetas, y las etiquetas de los clústeres (ej. 'clúster 0') son arbitrarias. D.Porque los algoritmos de clustering nunca se pueden evaluar si se tienen las etiquetas reales. tip: Piensa qué pasaría si un clúster agrupa perfectamente todos los '7' reales, pero el algoritmo lo llama 'Clúster 0' en lugar de 'Clúster 7'.
C La precisión fallaría porque el 'clúster 0' no es igual a la etiqueta '7'. Se necesitan métricas como 'homogeneity' o 'adjusted rand score' que no dependen de los nombres de las etiquetas, sino de la consistencia de la agrupación.
420
A menudo, aplicar reducción de dimensionalidad (como PCA) a datos de imágenes *antes* de usar K-Means mejora el resultado de la agrupación. ¿Cuál es la razón principal de esta mejora? A.La reducción de dimensionalidad aumenta el número de clústeres que se pueden encontrar. B.La reducción de dimensionalidad convierte el problema en uno de tipo supervisado. C.Elimina el ruido y la información redundante, ayudando a que el algoritmo se enfoque en las características que realmente distinguen a los grupos. D.La reducción de dimensionalidad hace que el entrenamiento sea más lento pero más preciso. tip: Las imágenes tienen miles de píxeles (dimensiones). ¿Son todos igual de importantes para definir la forma de un dígito?
C Las imágenes tienen mucho 'ruido' y píxeles correlacionados. PCA crea nuevas características más informativas y con menos ruido. Esto hace que las distancias entre puntos sean más significativas, lo que ayuda a K-Means a formar clústeres mejores y más compactos.
421
¿Cuál es el propósito del parámetro `scoring` en las herramientas de validación cruzada de scikit-learn? A.Especificar el modelo a ser evaluado. B.Establecer los hiperparámetros del modelo. C.Seleccionar la métrica utilizada para evaluar el rendimiento del modelo. D.Definir la estrategia para dividir los datos.
C El parámetro `scoring` acepta cadenas de texto como 'accuracy' o 'neg_mean_squared_error' para definir la métrica de evaluación.
422
Un modelo para detectar ofertas de empleo en una web clasifica casi todos los anuncios como "oferta". ¿Cómo será su rendimiento? a) Precisión alta y exhaustividad baja. b) Precisión baja y exhaustividad baja. c) Precisión alta y exhaustividad alta. d) Precisión baja y exhaustividad muy alta.
D Conceptos Clave: Precisión vs. Exhaustividad Exhaustividad (Recall): Mide tu capacidad para encontrar a todos los que realmente deberían entrar. De todos los mayores de edad que hay en la fila, ¿a cuántos has dejado pasar? Si dejas pasar a todos los mayores de edad, tu exhaustividad es del 100%, incluso si también se te cuelan menores. El objetivo es no dejar a nadie válido fuera. Precisión (Precision): Mide la calidad de tus admisiones. De todas las personas a las que has dejado entrar, ¿cuántas eran realmente mayores de edad? Si dejas entrar a 100 personas, pero 50 son menores, tu precisión es solo del 50%. El objetivo es que tus aciertos sean de calidad. Aplicando los Conceptos al Problema El modelo del enunciado clasifica casi todos los anuncios como "oferta". Volviendo a nuestra analogía, es como un portero que, para no equivocarse, deja entrar a casi todo el mundo que está en la fila. ¿Cómo será su Exhaustividad? Muy alta. Al dejar entrar a casi todos, se asegura de que prácticamente ninguna persona que sea realmente mayor de edad (ninguna "oferta de empleo real") se quede fuera. Ha "capturado" casi todos los casos positivos que existen. ¿Cómo será su Precisión? Baja. Al dejar entrar a casi todos, no solo admite a los mayores de edad (ofertas reales), sino también a una gran cantidad de menores (anuncios que no son ofertas). Por lo tanto, si miras al grupo de gente que ha entrado, una gran proporción de ellos serán "falsos positivos", es decir, admisiones incorrectas. La calidad de su selección es muy pobre. Análisis de las Opciones a) Precisión alta y exhaustividad baja: Incorrecto. Esto sería un portero muy estricto que deja pasar a muy poca gente, pero los pocos que entran son, con seguridad, mayores de edad. Se le escaparían muchos mayores de edad de la fila (exhaustividad baja). b) Precisión baja y exhaustividad baja: Incorrecto. Esto describiría al peor portero posible: no solo se le cuelan muchos menores (precisión baja), sino que además deja fuera a muchos mayores de edad (exhaustividad baja). c) Precisión alta y exhaustividad alta: Incorrecto. Este es el escenario ideal, un modelo perfecto. Sería un portero que deja entrar a todos los mayores de edad y solo a los mayores de edad. d) Precisión baja y exhaustividad muy alta: Correcto. Este es nuestro portero "permisivo". Se asegura de que todos los mayores de edad entren (exhaustividad muy alta), pero a costa de colar a muchos menores (precisión baja). Esto describe perfectamente el comportamiento del modelo.
423
¿Para qué se utiliza principalmente la métrica F1-Score? a) Para medir únicamente la cantidad de errores de falsos negativos. b) Para saber la exactitud (accuracy) global del modelo. c) Para obtener una sola cifra que represente un equilibrio entre la precisión y la exhaustividad. d) Para medir el tiempo que tarda el modelo en ser entrenado.
C El F1-Score es la media armónica de la precisión y la exhaustividad. Es muy útil cuando ambas métricas son importantes y se busca un modelo que tenga un buen balance entre no cometer errores de falsos positivos (buena precisión) y no omitir casos positivos reales (buena exhaustividad).
424
¿Qué describe mejor la relación que suele existir entre la precisión y la exhaustividad? a) Son independientes; mejorar una no afecta a la otra. b) Generalmente, son inversamente proporcionales: si aumentas una, la otra tiende a disminuir. c) Siempre aumentan y disminuyen juntas. d) La precisión es siempre un valor más bajo que la exhaustividad.
B Existe un compromiso (trade-off) entre ambas. Si quieres aumentar la exhaustividad (encontrar más casos positivos), a menudo debes relajar los criterios del modelo. Esto provoca que se cometan más errores de falsos positivos, lo que a su vez reduce la precisión.
425
¿En qué escenario es más importante priorizar una "precisión" alta? a) En un sistema de diagnóstico de una enfermedad grave, donde lo vital es detectar a todos los enfermos. b) Al filtrar correos, para evitar a toda costa que un email importante sea clasificado erróneamente como spam. c) Cuando se busca identificar la mayor cantidad posible de transacciones fraudulentas. d) Cuando el conjunto de datos tiene exactamente la misma cantidad de ejemplos positivos y negativos.
B La precisión mide la calidad de las predicciones positivas. Responde a la pregunta: "De todo lo que el modelo dijo que era positivo, ¿cuántas veces acertó?". Se prioriza para minimizar los falsos positivos. Un falso positivo en el filtrado de correo (un email importante marcado como spam) es un error muy molesto, por lo que se busca una alta precisión.
426
¿Qué mide la métrica "exhaustividad" (también conocida como recall o sensibilidad)? a) El porcentaje de predicciones positivas que fueron correctas. b) La capacidad del modelo para encontrar todas las instancias positivas que realmente existen en los datos. c) El porcentaje total de aciertos del modelo sobre todos los datos. d) La velocidad con la que el modelo realiza las predicciones.
B La exhaustividad se centra en minimizar los falsos negativos (errores donde no se detecta algo que sí existía). Responde a la pregunta: "De todos los casos positivos reales, ¿cuántos fue capaz de encontrar el modelo?". Es crucial cuando es muy importante no pasar por alto ningún caso positivo, como en un control de seguridad.
427
¿Cuál es la principal diferencia entre "precisión" y "exactitud" (accuracy)? a) No hay ninguna diferencia, son sinónimos en el aprendizaje automático. b) La precisión se enfoca solo en las predicciones positivas, mientras que la exactitud considera todas las predicciones (positivas y negativas). c) La exactitud es la media armónica de la precisión y el recall. d) La precisión solo es útil en problemas de regresión, y la exactitud en problemas de clasificación.
B Esta es una distinción fundamental. La precisión ( TP+FP TP ​ ) solo mira el rendimiento dentro de las predicciones que el modelo hizo como positivas. En cambio, la exactitud ( Total TP+TN ​ ) mide el rendimiento global del modelo sobre todas las clases, incluyendo los negativos que predijo correctamente.
428
Un modelo tiene un recall muy alto (casi 100%) pero una precisión muy baja. ¿Qué está ocurriendo probablemente? a) El modelo está prediciendo casi todo como "negativo". b) El modelo es casi perfecto y no comete errores. c) El modelo está siendo muy "agresivo", prediciendo casi todo como "positivo" para no dejarse ninguno. d) El modelo tiene una alta exactitud general.
C Para lograr un recall altísimo, un modelo puede simplemente etiquetar casi todas las instancias como positivas. De esta forma, se asegura de "capturar" a todos los verdaderos positivos, pero a costa de generar una enorme cantidad de falsos positivos, lo que hunde la métrica de precisión.
429
¿Qué es la métrica F1-Score? a) Es simplemente el promedio aritmético de la precisión y el recall. b) Es una métrica que solo tiene en cuenta los verdaderos positivos. c) Es la media armónica de la precisión y el recall, buscando un equilibrio entre ambas. d) Es otra forma de llamar a la exactitud (accuracy) del modelo.
C El F1-Score es la media armónica de la precisión y el recall (2⋅ precision+recall precision⋅recall ​ ). Se utiliza cuando se desea encontrar un buen balance entre minimizar los falsos positivos (alta precisión) y minimizar los falsos negativos (alto recall). Es especialmente útil en conjuntos de datos desbalanceados.
430
¿En qué escenario es especialmente importante priorizar una "precisión" (precision) alta? a) En un sistema de diagnóstico de cáncer, donde no se puede dejar ningún enfermo sin detectar. b) Al clasificar correos electrónicos, donde se quiere evitar a toda costa que un email importante sea enviado a la carpeta de spam. c) Cuando el conjunto de datos está perfectamente balanceado entre clases. d) Cuando se necesita encontrar la mayor cantidad posible de transacciones fraudulentas en un banco.
B La precisión mide la calidad de las predicciones positivas. Responde a la pregunta: "De todo lo que el modelo etiquetó como positivo, ¿cuánto era realmente positivo?". Se prioriza para minimizar los falsos positivos. En el caso del spam, un falso positivo (un email importante marcado como spam) es un error muy costoso, por lo que se busca una alta precisión.
431
¿Qué mide la métrica "recall" (también conocida como exhaustividad o sensibilidad)? a) La proporción de predicciones positivas que fueron realmente correctas. b) El porcentaje total de aciertos del modelo sobre todos los datos. c) La capacidad del modelo para encontrar todas las instancias positivas relevantes en un conjunto de datos. d) La media armónica entre la precisión y la exactitud.
C El recall se centra en minimizar los falsos negativos (casos positivos que el modelo no detectó). Responde a la pregunta: "De todos los positivos que había, ¿cuántos encontró el modelo?". Es una métrica crucial cuando es muy importante no pasar por alto ningún caso positivo, como en el diagnóstico de enfermedades.
432
¿Qué mide la métrica 'Precisión' (Precision)? A.De todos los que eran realmente positivos, ¿cuántos se identificaron correctamente? B.El porcentaje total de predicciones que el modelo acertó. C.El porcentaje de casos negativos que fueron correctamente identificados. D.De todas las predicciones positivas que hizo el modelo, ¿qué porcentaje fue correcto?
D La precisión se centra en la calidad de las predicciones positivas. Es alta cuando el modelo genera pocos Falsos Positivos.
433
¿En qué situación la métrica 'Exactitud' (Accuracy) puede ser poco fiable o incluso engañosa? A.Cuando el modelo se entrena durante demasiado tiempo (sobreajuste). B.Cuando el conjunto de datos está muy desbalanceado. C.Cuando el coste de los errores es el mismo para todas las clases. D.Cuando el número de clases a predecir es mayor de dos (multiclase).
B Si el 99% de los datos pertenece a la clase A y el 1% a la clase B, un modelo que siempre prediga A tendrá un 99% de exactitud, pero será inútil para detectar la clase B.
434
¿Qué métrica se enfoca en minimizar los Falsos Negativos y es crucial en diagnósticos médicos? A.Especificidad (Specificity) B.Precisión (Precision) C.Sensibilidad (Recall / Sensitivity) D.Exactitud (Accuracy)
C La Sensibilidad (o Recall) mide la capacidad del modelo para encontrar todos los casos positivos reales. Es vital en medicina, donde no detectar una enfermedad (un Falso Negativo) puede tener graves consecuencias.
435
En el contexto de detectar si un correo es spam, ¿qué sería un 'Falso Positivo' (False Positive)? A.Un correo legítimo que el modelo clasifica erróneamente como spam. B.Un correo que es spam y el modelo lo clasifica correctamente como spam. C.Un correo que es spam, pero el modelo no lo detecta y lo clasifica como legítimo. D.Un correo legítimo que el modelo clasifica correctamente como legítimo.
A Es 'Falso' porque la predicción es incorrecta (el correo no era spam), y 'Positivo' porque el modelo lo ha etiquetado con la clase positiva (spam).
436
¿Cuál es la función principal de una matriz de confusión? A.Evaluar de forma detallada el rendimiento de un algoritmo de clasificación. B.Visualizar la distribución de los datos en un conjunto. C.Seleccionar las características más importantes para entrenar un modelo. D.Ajustar los hiperparámetros de un modelo para mejorar su velocidad.
A Su propósito es mostrar un resumen de las predicciones correctas e incorrectas que realiza un modelo, desglosado por cada una de las clases.
437
¿Cuál de las siguientes es una métrica común para evaluar algoritmos de agrupamiento? A.Exactitud B.Error Absoluto Medio C.Coeficiente de Silueta D.R-cuadrado tip: Esta métrica mide qué tan similar es un objeto a su propio grupo en comparación con otros grupos.
C El Coeficiente de Silueta es una métrica popular para evaluar la calidad de los grupos creados por un algoritmo de agrupamiento.
438
¿Cuál es el propósito de una matriz de confusión? A.Visualizar la correlación entre características. B.Mostrar el rendimiento de un algoritmo de clasificación. C.Mostrar la distribución de los datos. D.Trazar el límite de decisión de un modelo. tip: Esta matriz tiene cuatro celdas: verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos.
B Proporciona un desglose detallado de las clasificaciones correctas e incorrectas para cada clase.
439
¿Para qué tipo de problema es el "Error Cuadrático Medio" (MSE) una métrica de evaluación común? A.Reducción de dimensionalidad B.Agrupamiento C.Regresión D.Clasificación tip: Esta métrica calcula el promedio de los cuadrados de los errores.
C El MSE mide la diferencia cuadrática promedio entre los valores estimados y el valor real, que es una forma común de evaluar los modelos de regresión.
440
En un problema de clasificación, ¿qué mide la métrica de "precisión"? A.La media armónica de precisión y exhaustividad. B.La capacidad del modelo para identificar correctamente todas las instancias positivas. C.La proporción de predicciones positivas verdaderas entre todas las predicciones positivas. D.La proporción de instancias clasificadas correctamente entre todas las instancias. tip: Esta métrica es importante cuando el coste de un falso positivo es alto.
C La precisión se calcula como TP / (TP + FP), centrándose en la corrección de las predicciones positivas.
441
¿Cuál es la principal ventaja de utilizar la validación cruzada en lugar de una única división de entrenamiento y prueba? A.Solo funciona para modelos de clasificación. B.Requiere menos datos. C.Es computacionalmente más rápida. D.Proporciona una estimación más robusta del rendimiento del modelo en datos no vistos. tip: Piensa en cómo la validación cruzada utiliza los datos varias veces.
D Al promediar el rendimiento en múltiples divisiones, reduce la varianza de la estimación del rendimiento.
442
¿Qué mide la métrica "exactitud" (accuracy) en un problema de clasificación? a) Únicamente la proporción de casos positivos que el modelo acertó. b) La capacidad del modelo para evitar los falsos negativos. c) El porcentaje total de predicciones correctas (tanto positivas como negativas) sobre el conjunto de todos los datos. d) La calidad de las predicciones positivas que realiza el modelo.
C La exactitud es la medida más general del rendimiento. Responde a la pregunta: "De todo lo que el modelo predijo, ¿qué porcentaje fue correcto?". Para ello, suma todos los aciertos (verdaderos positivos y verdaderos negativos) y los divide entre el total de casos.
443
¿Qué pregunta clave responde la métrica "precisión" (precision)? a) ¿Qué porcentaje de los datos ha sido clasificado correctamente en general? b) De todas las veces que el modelo predijo la clase "positiva", ¿qué proporción de ellas fue realmente correcta? c) ¿Cuántos de los verdaderos casos positivos que existían en los datos fueron encontrados por el modelo? d) ¿Con qué velocidad funciona el modelo?
B La precisión se centra exclusivamente en la calidad de las predicciones positivas. Es una medida de fiabilidad. Si un modelo tiene alta precisión, significa que cuando te dice que algo es "positivo", puedes confiar bastante en que es verdad.
444
Un modelo para detectar fraude (un evento muy raro) siempre predice "no es fraude". ¿Cómo sería su rendimiento? a) Tendría una precisión muy alta pero una exactitud baja. b) Tendría tanto una precisión como una exactitud muy bajas. c) Tendría una exactitud muy alta (ej: 99%) pero una precisión nula o indefinida. d) Tendría una exactitud y una precisión perfectas.
C Este es el ejemplo clásico de un conjunto de datos desbalanceado. La exactitud será muy alta porque el modelo acierta en la gran mayoría de los casos (los no fraudulentos). Sin embargo, la precisión será nula o indefinida porque el modelo nunca predice "fraude", por lo que el número de predicciones positivas es cero, haciendo imposible el cálculo. Esto demuestra por qué la exactitud puede ser una métrica engañosa.
445
¿Cuál es la diferencia fundamental entre exactitud (accuracy) y precisión (precision)? a) No hay ninguna diferencia, son términos intercambiables. b) La exactitud mide el rendimiento global, mientras que la precisión se enfoca solo en la fiabilidad de las predicciones positivas. c) La precisión es para problemas con dos clases, y la exactitud para problemas con más de dos clases. d) La exactitud es siempre más importante que la precisión.
B Esta es la distinción clave. La exactitud te da una visión panorámica de todos los aciertos. La precisión, en cambio, pone la lupa sobre un caso de uso específico: la fiabilidad de las afirmaciones positivas del modelo.
446
¿En cuál de las siguientes situaciones es más crítico tener una precisión muy alta? a) En un test médico para una enfermedad muy contagiosa, donde es vital encontrar a todos los posibles infectados. b) En un sistema que recomienda series en Netflix, para asegurar que las sugerencias sean realmente buenas y relevantes para el usuario. c) En un pronóstico del tiempo general que solo dice si lloverá o no. d) Cuando el coste de equivocarse es el mismo para un falso positivo que para un falso negativo.
B Se busca una alta precisión cuando el coste de un falso positivo es alto. En las recomendaciones, un falso positivo es una mala recomendación, lo que frustra al usuario. Se prefiere no recomendar nada a recomendar algo que no va a gustar. En el caso del test médico (a), la prioridad sería la exhaustividad (recall) para no dejar a ningún enfermo sin detectar.
447
¿Qué es fundamentalmente la métrica F1-score? a) La media aritmética simple de la precisión y la exactitud (accuracy). b) Una medida de la velocidad de predicción del modelo. c) La media armónica de la precisión y la exhaustividad (recall), que busca un equilibrio entre ambas. d) Un sinónimo de la exactitud (accuracy) general del modelo.
C El F1-score combina precisión y recall en una sola cifra. Utiliza la media armónica, que penaliza fuertemente los valores extremos. Esto significa que para obtener un F1-score alto, tanto la precisión como el recall deben ser altos.
448
¿En qué escenario es el F1-score una métrica de evaluación especialmente útil? a) Cuando el conjunto de datos está perfectamente equilibrado (mismo número de ejemplos por clase). b) Cuando solo nos importa que las predicciones positivas sean correctas, sin importar cuántas se omitan. c) En conjuntos de datos muy desbalanceados, donde la exactitud (accuracy) puede ser una métrica engañosa. d) Cuando el objetivo principal es que el modelo sea muy rápido.
C En un problema con clases desbalanceadas (ej. 99% negativos, 1% positivos), un modelo que siempre predice "negativo" tendría un 99% de exactitud, pero sería inútil. El F1-score, en cambio, sería de 0, reflejando correctamente que el modelo no tiene capacidad para identificar la clase positiva.
449
Un modelo de clasificación obtiene un F1-score de 0.95. ¿Qué nos dice este resultado? a) Que el modelo tiene una precisión alta, pero una exhaustividad (recall) baja. b) Que el modelo tiene una exhaustividad (recall) alta, pero una precisión baja. c) Que el modelo está sobreajustado (overfitting). d) Que el modelo ha alcanzado un excelente equilibrio entre una alta precisión y una alta exhaustividad.
D Un F1-score cercano a 1 indica un rendimiento sobresaliente. Debido a que es una media armónica, solo puede ser alto si ambas métricas, precisión y exhaustividad, son altas. Un desequilibrio grande entre ellas daría como resultado un F1-score mucho más bajo.
450
¿Cuál es el propósito de la métrica generalizada F-beta score (Fβ)? a) Es simplemente otro nombre para el F1-score. b) Permite dar más peso o importancia a la precisión o a la exhaustividad (recall) según el objetivo del problema. c) Incluye la exactitud (accuracy) en el cálculo para hacerlo más robusto. d) Mide exclusivamente los errores de tipo falso negativo.
B Mientras que el F1-score da el mismo peso a precisión y recall (β=1), la versión F-beta permite ajustar este balance. Un valor de β > 1 (como en el F2-score) da más importancia al recall, mientras que un valor de β < 1 (como en el F0.5-score) da más importancia a la precisión.
451
Para un sistema de seguridad que debe detectar intrusos, donde es vital no pasar por alto ninguna amenaza real (minimizar falsos negativos), ¿qué métrica sería más adecuada? a) Un F-score con beta menor que 1 (ej. F0.5-score). b) La exactitud (accuracy) del modelo. c) Un F-score con beta mayor que 1 (ej. F2-score). d) La precisión del modelo únicamente.
C ¿Por qué esta es la respuesta correcta? Para entenderlo, primero debemos definir los términos clave en el contexto de tu problema (detectar intrusos): Verdadero Positivo (VP): El sistema detecta un intruso y realmente hay un intruso. ¡Bien hecho! Falso Positivo (FP): El sistema detecta un intruso, pero era una falsa alarma (ej. un gato). Esto es molesto, pero no catastrófico. Verdadero Negativo (VN): El sistema no detecta nada y no había ningún intruso. Falso Negativo (FN): El sistema no detecta nada, pero en realidad sí había un intruso. Este es el peor error posible, la situación que se quiere evitar a toda costa. El problema dice que es "vital no pasar por alto ninguna amenaza real". Esto se traduce directamente en minimizar los Falsos Negativos. La métrica que se enfoca en minimizar los falsos negativos es el Recall (también llamado sensibilidad o exhaustividad). El Recall se calcula como: VP / (VP + FN). Como ves, si los Falsos Negativos (FN) son muy bajos, el valor del Recall es muy alto. Ahora, analicemos el F-score. El F-score es una media armónica entre la Precisión y el Recall, diseñada para encontrar un equilibrio entre ambas. La fórmula general incluye un parámetro beta (β): Cuando β = 1 (el F1-score normal), se da la misma importancia a la Precisión y al Recall. Cuando β < 1 (como el F0.5-score), se le da más importancia a la Precisión. Cuando β > 1 (como el F2-score), se le da más importancia al Recall. Dado que tu objetivo principal es maximizar el Recall (para minimizar los falsos negativos), necesitas una métrica que lo priorice. Por eso, un F-score con beta > 1 (como el F2-score) es la elección perfecta, ya que penaliza mucho más al modelo si tiene falsos negativos. ¿Por qué las otras respuestas son incorrectas? a) Un F-score con beta menor que 1 (ej. F0.5-score): Esta opción le daría más peso a la Precisión. La precisión se enfoca en minimizar los falsos positivos (las falsas alarmas). Aunque no quieres tener muchas falsas alarmas, en un sistema de seguridad, es mucho peor no detectar a un intruso real que tener una falsa alarma. b) La exactitud (accuracy) del modelo: La exactitud es simplemente el porcentaje de predicciones correctas sobre el total. Esta métrica es muy engañosa en problemas con datos desbalanceados. Las intrusiones son eventos raros. Un modelo podría tener una exactitud del 99.9% simplemente diciendo "no hay intruso" todo el tiempo, pero sería completamente inútil porque fallaría en detectar el 100% de las amenazas reales. d) La precisión del modelo únicamente: Usar solo la precisión ignora por completo el problema de los falsos negativos. Un modelo podría ser muy preciso (cada vez que dice "intruso", acierta) pero tener un Recall terrible (se le escapan la mayoría de los intrusos). Es una visión incompleta y peligrosa para este caso de uso.
452
¿Qué información clave visualiza una curva ROC? a) La relación entre la precisión (precision) y la exhaustividad (recall) de un modelo. b) El rendimiento de un modelo de clasificación mostrando cómo cambia la tasa de verdaderos positivos frente a la tasa de falsos positivos al variar el umbral de decisión. c) El tiempo que tarda un modelo en entrenarse con diferentes cantidades de datos. d) La exactitud (accuracy) del modelo en función del número de características utilizadas.
B Una curva ROC (Receiver Operating Characteristic) se utiliza para visualizar el rendimiento de un clasificador binario (por ejemplo, decidir si un correo es spam o no) a medida que variamos el umbral de decisión. Eje Y (TPR - True Positive Rate): También conocido como Sensibilidad o Recall. Mide la proporción de positivos reales que el modelo identificó correctamente. TPR = TP / ( TN+ FP) (Queremos que este valor sea lo más bajo posible, cercano a 0). La curva nos muestra el intercambio (trade-off): para detectar más positivos (subir en el eje Y), generalmente tenemos que aceptar cometer más errores de falsa alarma (movernos a la derecha en el eje X). ¿Por qué las demás son incorrectas? a) Eje X: Precisión (Precision), Eje Y: Exhaustividad (Recall). Por qué es mala: Esta configuración existe, pero se llama Curva de Precisión-Recall (PR Curve), no curva ROC. Cuándo se usa: Se prefiere la curva PR cuando las clases están muy desbalanceadas (por ejemplo, detección de fraude donde el 99.9% de los casos son normales). La curva ROC puede ser demasiado optimista en esos casos, mientras que la PR es más exigente. c) Eje X: Verdaderos Positivos, Eje Y: Falsos Positivos. Por qué es mala: Esta opción habla de conteos absolutos (números brutos), no de tasas o proporciones. El problema: Si usáramos números absolutos, la curva cambiaría dependiendo de cuántos datos tengas en total. Para que la curva ROC sea estándar y comparable, debemos usar tasas (porcentajes de 0 a 1) que normalizan los datos independientemente del tamaño de la muestra. d) Eje X: Exactitud (Accuracy), Eje Y: Puntuación F1 (F1-Score). Por qué es mala: La Accuracy y el F1-Score son métricas puntuales que evalúan el rendimiento global en un solo punto de corte. El concepto: Una curva ROC se construye evaluando el modelo en todos los umbrales posibles. No se suelen graficar la Exactitud contra el F1 porque ambas intentan resumir el rendimiento ("lo bueno que es el modelo") y suelen correlacionarse positivamente; no representan el "costo-beneficio" que muestra la ROC.
453
¿Qué métricas se representan en los ejes X e Y de una curva ROC? a) Eje X: Precisión (Precision), Eje Y: Exhaustividad (Recall). b) Eje X: Tasa de Falsos Positivos (FPR), Eje Y: Tasa de Verdaderos Positivos (TPR o Recall). c) Eje X: Verdaderos Positivos, Eje Y: Falsos Positivos. d) Eje X: Exactitud (Accuracy), Eje Y: Puntuación F1 (F1-Score).
B El eje Y representa la Tasa de Verdaderos Positivos (TPR), también llamada sensibilidad o recall, que es la proporción de positivos reales que se identificaron correctamente. El eje X representa la Tasa de Falsos Positivos (FPR), que es la proporción de negativos reales que se clasificaron incorrectamente como positivos.
454
¿Qué significa el valor del "Área Bajo la Curva" (AUC - Area Under the Curve)? a) La exactitud (accuracy) del modelo en su mejor umbral de decisión. b) La velocidad de predicción del modelo. c) La probabilidad de que el modelo clasifique una instancia positiva elegida al azar con una puntuación más alta que una instancia negativa elegida al azar. d) El punto de la curva donde la precisión y la exhaustividad son iguales.
C Por qué la opción C es la correcta El valor AUC (Área Bajo la Curva ROC) es una de las métricas más importantes para evaluar un modelo de clasificación. Su significado real es una probabilidad: c) La probabilidad de que el modelo clasifique una instancia positiva elegida al azar con una puntuación más alta que una instancia negativa elegida al azar. Imagina que tienes dos grupos de datos: uno con ejemplos positivos (ej: correos que SÍ son spam) y otro con ejemplos negativos (ej: correos que NO son spam). Tu modelo asigna una puntuación de "probabilidad de ser spam" a cada correo. Un AUC de 1.0 (el máximo) significaría que el 100% de las veces, el modelo le da una puntuación más alta a un correo de spam elegido al azar que a un correo legítimo elegido al azar. El modelo es un separador perfecto. Un AUC de 0.5 significaría que el modelo no tiene capacidad para distinguir entre las clases. Es como lanzar una moneda al aire. Hay un 50% de probabilidad de que le dé una puntuación más alta al correo de spam. Un AUC de 0.85 significaría que hay un 85% de probabilidad de que el modelo "ordene" correctamente un par aleatorio de un ejemplo positivo y uno negativo. En esencia, el AUC mide qué tan bueno es el modelo para distinguir entre las dos clases, independientemente del umbral de decisión que se elija. Por qué las otras opciones son incorrectas a) La exactitud (accuracy) del modelo en su mejor umbral de decisión. Esto es incorrecto. La exactitud (accuracy) es una métrica que se calcula en un único y específico umbral de decisión (por ejemplo, "si la probabilidad es > 0.5, clasifícalo como positivo"). El AUC, en cambio, resume el rendimiento del modelo a través de todos los umbrales posibles, lo que lo hace mucho más robusto. b) La velocidad de predicción del modelo. Totalmente incorrecto. El AUC es una medida de la calidad o rendimiento discriminativo del modelo, no tiene nada que ver con la rapidez con la que el hardware puede ejecutarlo para hacer predicciones. d) El punto de la curva donde la precisión y la exhaustividad son iguales. Esto describe el "punto de equilibrio" (break-even point) en una curva diferente, la curva de Precisión-Exhaustividad (Precision-Recall curve). No tiene relación con el área bajo la curva ROC. Son conceptos y métricas distintas que se usan para evaluar aspectos diferentes de un modelo.
455
En un gráfico ROC, ¿qué significa una curva que está muy pegada a la esquina superior izquierda? a) Que el modelo es muy rápido pero poco preciso. b) Que el rendimiento del modelo es muy bueno, cercano al ideal. c) Que el modelo es equivalente a una clasificación aleatoria. d) Que el modelo está sobreajustado (overfitted).
B La esquina superior izquierda del gráfico representa un punto donde la Tasa de Verdaderos Positivos es 1 (detecta todos los positivos) y la Tasa de Falsos Positivos es 0 (no comete errores con los negativos). Por lo tanto, cuanto más se acerca la curva a este punto, mejor es el rendimiento del modelo.
456
¿Qué representa una línea perfectamente diagonal desde (0,0) hasta (1,1) en un gráfico ROC? a) Un modelo perfecto con un AUC de 1.0. b) Un modelo que no tiene ninguna capacidad de discriminación (equivale a adivinar al azar). c) Un modelo que clasifica todos los casos como positivos. d) Un modelo con una precisión del 50%.
B Esta línea se conoce como la "línea de no discriminación". Un modelo cuya curva ROC sigue esta diagonal tiene un AUC de 0.5, lo que indica que su capacidad para distinguir entre clases positiva y negativa es nula; es como lanzar una moneda al aire.
457
Tienes un conjunto de datos de clientes y quieres predecir si un cliente abandonará o no tu servicio (problema de "churn"). Cada cliente en tus datos históricos ya está etiquetado como "abandonó" o "no abandonó". ¿Qué tipo de problema estás resolviendo? a) Regresión b) Clustering c) Clasificación d) Reducción de dimensionalidad
C ¿Por qué "Clasificación" es la respuesta correcta? El problema que se describe es un ejemplo clásico de clasificación. En aprendizaje automático (machine learning), un problema de clasificación consiste en predecir una etiqueta o categoría discreta para un conjunto de datos de entrada. En tu caso: Las etiquetas son predefinidas y discretas: "abandonó" y "no abandonó". Son categorías cerradas, no un valor numérico continuo. El objetivo es asignar una categoría: Quieres que el modelo, al recibir los datos de un nuevo cliente, lo etiquete en una de esas dos clases. Usas datos históricos etiquetados: El hecho de que ya sepas qué clientes abandonaron en el pasado ("datos... ya etiquetado") es la base del aprendizaje supervisado, del cual la clasificación es un pilar fundamental. Piénsalo como si el algoritmo tuviera que "clasificar" a cada cliente en uno de dos "cajones": el de los que se van y el de los que se quedan. ¿Por qué las otras respuestas son incorrectas? a) Regresión: La regresión se utiliza para predecir un valor numérico continuo. Por ejemplo, si quisieras predecir cuánto gastará un cliente el próximo mes o cuántos días tardará en abandonar el servicio. Como aquí solo quieres predecir una de dos categorías (sí/no), no es un problema de regresión. b) Clustering: El clustering (o agrupamiento) es una técnica de aprendizaje no supervisado, lo que significa que se usa cuando los datos no están etiquetados. El objetivo del clustering es encontrar grupos (o "clusters") naturales en los datos basándose en sus similitudes. Si no supieras qué clientes han abandonado y simplemente quisieras agrupar a tus clientes por comportamiento similar, estarías haciendo clustering. Pero como tus datos ya tienen la etiqueta "abandonó"/"no abandonó", este no es el caso. d) Reducción de dimensionalidad: Esta técnica se utiliza para simplificar un conjunto de datos reduciendo el número de variables (o "dimensiones"), eliminando información redundante o poco importante. Podría ser un paso previo en tu proyecto para limpiar los datos antes de entrenar un modelo, pero no es el tipo de problema que estás resolviendo en sí mismo. El objetivo final no es reducir variables, sino predecir si el cliente se irá o no.
458
Quieres predecir el precio de venta de una casa basándote en características como su tamaño, número de habitaciones y ubicación. ¿Qué tipo de tarea de machine learning es esta? a) Clasificación b) Regresión c) Clustering d) Reducción de dimensionalidad
B El objetivo es predecir un valor numérico continuo (el precio), lo cual es la definición de un problema de regresión.
459
Tienes un gran conjunto de datos de artículos de noticias y quieres agruparlos por temas (deportes, política, tecnología), pero no tienes ninguna etiqueta que indique el tema de cada artículo. ¿Qué enfoque deberías utilizar? a) Clasificación b) Regresión c) Clustering d) Uno supervisado
C Por qué la C es la respuesta correcta La palabra clave en la pregunta es que "no tienes ninguna etiqueta". Esto significa que es un problema de aprendizaje no supervisado (unsupervised learning). El Clustering (o agrupamiento) es la técnica de aprendizaje no supervisado diseñada específicamente para este fin. Su objetivo es analizar los datos (en este caso, el texto de los artículos) y encontrar grupos naturales o "clústeres" basados en sus similitudes. El algoritmo de clustering agruparía los artículos que usan palabras similares (como "gol", "partido", "jugador") en un clúster (que nosotros luego identificaríamos como "deportes") y los artículos que usan palabras como "congreso", "elección", "presidente" en otro (que identificaríamos como "política"). Por qué las otras respuestas son incorrectas a) Clasificación: Incorrecto. La clasificación es un método de aprendizaje supervisado. Para usarla, necesitarías tener un conjunto de datos ya etiquetado (por ejemplo, 1000 artículos ya marcados como "deportes", "política", etc.). El modelo aprende de esas etiquetas para luego "clasificar" artículos nuevos. Como no tienes etiquetas, no puedes usar este método. b) Regresión: Incorrecto. La regresión también es un método supervisado, pero su objetivo es predecir un valor numérico continuo (como el precio de una casa o la temperatura de mañana), no una categoría o grupo (como "deportes"). d) Uno supervisado: Incorrecto. Esta es una categoría general que describe métodos (como la clasificación y la regresión) que requieren etiquetas para funcionar. El problema establece explícitamente que no tienes etiquetas, por lo que cualquier enfoque "supervisado" está descartado desde el principio.
460
Estás ante un problema de clasificación con datos etiquetados y tienes menos de 100,000 muestras. Siguiendo las guías comunes de Scikit-learn, ¿cuál suele ser un buen algoritmo para obtener un primer resultado rápido y eficaz? a) K-Means b) LinearSVC (Máquina de Vectores de Soporte Lineal) c) PCA (Análisis de Componentes Principales) d) Lasso
B Por qué la respuesta B (LinearSVC) es la buena La opción b) LinearSVC (Máquina de Vectores de Soporte Lineal) es la respuesta correcta por tres motivos clave que se alinean perfectamente con la pregunta: Es un algoritmo de clasificación: El problema pide resolver un "problema de clasificación". LinearSVC es un clasificador (SVC = Support Vector Classifier). Su objetivo es encontrar el mejor hiperplano que separe las clases en tus datos etiquetados. Es rápido y eficaz: El nombre "Lineal" es la clave. Los modelos lineales, como LinearSVC, son computacionalmente muy rápidos de entrenar. No tienen que calcular relaciones complejas, lo que los hace ideales para "obtener un primer resultado rápido". Cumple con las guías de Scikit-learn: La famosa "guía para elegir el estimador" (cheat-sheet) de Scikit-learn recomienda específicamente LinearSVC como un excelente punto de partida para problemas de clasificación de texto o cuando el número de muestras es menor a 100,000 (y si el dataset es mayor, se suele probar SGDClassifier). En resumen, LinearSVC es la única opción que es un clasificador rápido y recomendado para este tamaño de datos. Por qué las otras opciones son malas a) K-Means: Es un algoritmo de clustering (agrupamiento). El clustering es una tarea de aprendizaje no supervisado, lo que significa que funciona con datos sin etiquetar para encontrar grupos naturales. La pregunta dice claramente que tienes "datos etiquetados", por lo que K-Means no es la herramienta adecuada para este trabajo. c) PCA (Análisis de Componentes Principales): Es un algoritmo de reducción de dimensionalidad. Es una técnica de pre-procesamiento, no un modelo de clasificación. Se usa antes de la clasificación para reducir el número de características (columnas), pero no puede, por sí solo, predecir una etiqueta de clase. d) Lasso: Es un algoritmo de regresión (específicamente, regresión lineal con regularización L1). La regresión se usa para predecir un valor continuo (como el precio de una casa o una temperatura). El problema pide resolver una clasificación, que consiste en predecir una categoría discreta (como "spam" / "no spam" o "perro" / "gato").
461
Has intentado un modelo lineal para tu problema, pero su rendimiento es bajo. Sospechas que la relación entre tus datos es más compleja. ¿Qué tipo de algoritmo sería un buen siguiente paso? a) Probar con menos datos b) Un algoritmo no lineal como k-NN (k-Vecinos más Cercanos) o un SVC con kernel no lineal c) Un algoritmo de clustering como Mean-Shift d) Un algoritmo de regresión como Ridge
B Si un modelo lineal no es suficiente, el siguiente paso lógico es probar un modelo que pueda capturar relaciones no lineales y fronteras de decisión más complejas. Tanto k-NN como las Máquinas de Vectores de Soporte con kernels (como RBF) son excelentes opciones para esto.
462
Tu objetivo es agrupar datos mediante clustering, pero no tienes idea de cuántos grupos (k) deberías buscar. ¿Qué algoritmo es más adecuado que el popular K-Means en esta situación? a) Regresión Logística b) Máquinas de Vectores de Soporte (SVC) c) Mean-Shift o DBSCAN d) K-Means, pero probando todos los valores de k posibles
C El principal requisito de K-Means es que debes especificar el número de clústeres de antemano. Algoritmos como Mean-Shift o DBSCAN son capaces de descubrir el número de grupos de forma automática basándose en la densidad y distribución de los datos, lo que los hace ideales cuando k es desconocido.
463
Tienes un conjunto de datos que forman dos círculos concéntricos (uno dentro de otro). ¿Qué algoritmo es más probable que falle al intentar separar estos dos grupos correctamente? a) DBSCAN b) Spectral Clustering c) K-Means d) Ward
C Este algoritmo funciona buscando centros esféricos para los grupos. Como no puede trazar una frontera circular, tiende a dividir los datos con una línea recta, fallando completamente en la tarea de separar los dos anillos. Algoritmos como DBSCAN o Spectral Clustering, que se basan en densidad o conectividad, sí pueden resolver este problema.
464
¿Qué tipo de algoritmo de clustering es especialmente bueno para identificar puntos que no pertenecen a ningún grupo, considerándolos como ruido (outliers)? a) K-Means b) Agglomerative Clustering c) DBSCAN d) BIRCH
C A diferencia de K-Means o los métodos jerárquicos que asignan cada punto a un clúster, DBSCAN define los clústeres como áreas de alta densidad de puntos. Los puntos que se encuentran en regiones de baja densidad son etiquetados como ruido, lo que lo hace ideal para la detección de anomalías.
465
Tus datos forman grupos con formas claramente elípticas o alargadas (anisotrópicas). ¿Qué algoritmo es más adecuado para capturar esta estructura específica? a) K-Means b) Gaussian Mixture Model (GMM) c) Mean-Shift d) Affinity Propagation
B Mientras que K-Means asume que los clústeres son esféricos (con la misma varianza en todas las direcciones), GMM es más flexible y asume que los clústeres son distribuciones gausianas, lo que le permite adaptarse a formas elípticas con diferentes orientaciones y tamaños.
466
Si tu principal restricción es la memoria y necesitas analizar un conjunto de datos muy grande (big data), ¿qué algoritmo está diseñado para ser especialmente escalable y eficiente? a) Spectral Clustering b) Affinity Propagation c) BIRCH d) DBSCAN
C ✅ Por qué la C es la buenaC. BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)BIRCH es la respuesta de libro de texto cuando ves las palabras "restricción de memoria" + "conjunto de datos muy grande".¿Cómo funciona? En lugar de guardar cada punto de datos en la memoria, BIRCH construye una estructura de árbol (llamada CF Tree o Clustering Feature Tree).La magia de la memoria: Este árbol no guarda los datos crudos, sino un "resumen" estadístico de los grupos (número de puntos, suma lineal, suma al cuadrado). Comprime la información.Eficiencia: Es capaz de agrupar los datos realizando una sola lectura (single scan) de la base de datos. Lee un bloque de datos, actualiza el árbol, libera memoria y lee el siguiente bloque.Resultado: Es increíblemente eficiente en I/O (entrada/salida) y memoria, diseñado específicamente para cuando el dataset no cabe en la RAM. ❌ Por qué las malas son las malasA. Spectral ClusteringEl problema: Para funcionar, necesita construir una matriz de similitud (o un grafo laplaciano) que compara todos los puntos con todos los puntos ($N \times N$).Por qué falla: Si tienes un millón de datos, la matriz resultante es gigantesca. El coste computacional es cúbico $O(N^3)$ y la memoria necesaria explota con Big Data. Es excelente para formas complejas, pero pésimo para escalabilidad.B. Affinity PropagationEl problema: Funciona enviando "mensajes" entre pares de puntos de datos para encontrar ejemplares representativos.Por qué falla: Tiene una complejidad temporal y de memoria de $O(N^2)$. Al igual que el Spectral Clustering, si duplicas los datos, el consumo de recursos se cuadruplica. No sirve para Big Data.D. DBSCANEl matiz: Esta es la "trampa" o la segunda mejor opción. DBSCAN es muy popular y bastante eficiente ($O(N \log N)$ con indexación espacial).Por qué pierde contra BIRCH: Aunque DBSCAN es bueno, suele requerir cargar gran parte de los datos o índices espaciales en memoria para calcular los vecinos más cercanos. Si la restricción principal es la memoria y el volumen es masivo, BIRCH gana porque comprime los datos activamente mientras los lee. (Nota: A veces se usa BIRCH primero para reducir los datos y luego DBSCAN sobre el resultado).💡 Resumen para el examenPara preguntas de algoritmos de Clustering:Restricción de Memoria / Big Data / Single Pass $\rightarrow$ BIRCH.Formas arbitrarias (lunas, espirales) / Ruido / Sin definir K $\rightarrow$ DBSCAN.K conocido / Simple / Rápido $\rightarrow$ K-Means.Pocos datos / Alta calidad / Grafos $\rightarrow$ Spectral Clustering.
467
¿Cuál de los siguientes algoritmos SÍ requiere que especifiques de antemano el número exacto de clústeres (grupos) que quieres encontrar? a) DBSCAN b) Mean-Shift c) Spectral Clustering d) OPTICS
C Al igual que K-Means, este es uno de los algoritmos a los que debes pasarle el parámetro k (el número de clústeres) como entrada. En cambio, algoritmos como DBSCAN, Mean-Shift u OPTICS pueden determinar el número de clústeres de forma automática basándose en las propiedades de los datos.
468
En un flujo de trabajo de Scikit-learn, ¿cuál es el propósito principal del método .fit(datos, etiquetas) de un clasificador? a) Generar predicciones para nuevos datos. b) Evaluar la precisión del modelo. c) Entrenar el modelo, es decir, hacer que aprenda los patrones de los datos de entrenamiento. d) Dividir los datos en conjuntos de entrenamiento y prueba.
C El método .fit() es el corazón del proceso de aprendizaje. Durante este paso, el algoritmo analiza los datos y sus correspondientes etiquetas para ajustar sus parámetros internos y "aprender" a asociar unos con otros.
469
Una vez que un modelo ha sido entrenado con .fit(), ¿qué función cumple el método .predict(nuevos_datos)? a) Vuelve a entrenar el modelo con los datos nuevos. b) Calcula el informe de clasificación (precisión, recall, etc.). c) Utiliza los patrones que el modelo ya aprendió para asignar una etiqueta a datos que no ha visto antes. d) Visualiza los datos de entrada para su análisis.
C Después del entrenamiento, el método .predict() es el que se usa para poner el modelo en práctica. Toma nuevos datos (sin etiquetas) y devuelve las etiquetas que el modelo cree que son las correctas basándose en su entrenamiento previo.
470
En el problema de clasificación de dígitos, las imágenes originales son matrices de 8x8 píxeles. ¿Cómo se preparan estos datos para que un clasificador estándar de Scikit-learn los pueda procesar? a) Se utilizan directamente las matrices de 8x8. b) Se "aplanan", convirtiendo cada imagen 2D en un único vector de 64 características (8x8=64). c) Se calcula el promedio de intensidad de los píxeles para cada imagen. d) Se convierten las imágenes a color.
B Los clasificadores estándar de Scikit-learn esperan recibir los datos en un formato tabular de (número_de_muestras, número_de_características). Por ello, cada muestra (imagen) debe ser transformada en un vector unidimensional de características.
471
¿Por qué es una práctica fundamental en machine learning dividir los datos en un conjunto de entrenamiento y un conjunto de prueba? a) Para que el entrenamiento del modelo sea más rápido. b) Para evaluar de forma objetiva qué tan bien generaliza el modelo a datos nuevos que no ha visto durante el entrenamiento. c) Porque los modelos no pueden procesar demasiados datos a la vez. d) Para tener una copia de seguridad de los datos originales.
B Si evaluamos un modelo con los mismos datos que usó para entrenar, los resultados serían engañosamente optimistas. El conjunto de prueba simula una situación del mundo real, permitiéndonos obtener una estimación honesta del rendimiento del modelo ante datos desconocidos.
472
En el ejemplo se utiliza el estimador svm.SVC. ¿Qué tipo de algoritmo es este? a) Un algoritmo de clustering para agrupar datos sin etiquetas. b) Un algoritmo de regresión para predecir valores numéricos. c) Una Máquina de Vectores de Soporte (Support Vector Machine), que es un algoritmo de clasificación. d) Una técnica de reducción de dimensionalidad para visualizar datos.
C SVC son las siglas de Support Vector Classifier. Es un potente y popular algoritmo de aprendizaje supervisado utilizado para tareas de clasificación, que busca encontrar el hiperplano que mejor separa las distintas clases en el espacio de características.
473
En el contexto del reconocimiento facial, ¿cuál es el propósito principal de usar el Análisis de Componentes Principales (PCA)? a) Aumentar el brillo y el contraste de las imágenes para que sean más claras. b) Extraer las características más importantes (los patrones faciales clave o "eigenfaces") y reducir la cantidad de datos necesarios para describir cada rostro. c) Rotar las imágenes para que todas las caras estén perfectamente alineadas. d) Agrupar las caras en clústeres basados en el color del cabello.
B El PCA es una técnica de reducción de dimensionalidad. En lugar de trabajar con miles de píxeles por imagen, PCA encuentra los componentes (patrones) que mejor resumen la variabilidad en el conjunto de datos de caras. Estos componentes, llamados "eigenfaces", actúan como características mucho más eficientes para el clasificador.
474
¿Por qué el modelo de clasificación (una Máquina de Vectores de Soporte o SVC) se entrena con los componentes extraídos por PCA en lugar de con los píxeles de las imágenes originales? a) Porque el SVC no puede procesar imágenes, solo números. b) Para que el entrenamiento sea significativamente más rápido y para evitar el sobreajuste (overfitting) al trabajar con características más generales y menos ruidosas. c) Porque los componentes PCA contienen más información que las imágenes originales. d) Para asegurarse de que el modelo solo aprenda de las caras y no del fondo de la imagen.
B Trabajar con los cientos de "eigenfaces" en lugar de los miles de píxeles tiene dos ventajas clave: primero, reduce drásticamente el tiempo de cómputo del entrenamiento. Segundo, al usar características más generales, se ayuda al modelo a generalizar mejor a caras nuevas que no ha visto, en lugar de memorizar detalles específicos (ruido) de las imágenes de entrenamiento.
475
¿Qué información crucial nos proporciona la matriz de confusión al final del proceso? a) Una visualización de las "eigenfaces" más importantes. b) El tiempo exacto que tardó el modelo en entrenarse. c) Un resumen de cuántas imágenes había por cada persona en el conjunto de datos. d) Un desglose detallado de los aciertos y errores del modelo, mostrando qué personas fueron confundidas con otras.
D La matriz de confusión es una herramienta de evaluación fundamental. Las filas suelen representar la identidad real de la persona y las columnas la identidad predicha por el modelo. La diagonal principal muestra los aciertos, mientras que los valores fuera de la diagonal revelan exactamente qué predicciones fueron incorrectas y a quién confundió el modelo.
476
¿Qué representa una "eigenface" en el contexto de este problema? a) Una imagen promedio de todas las caras del conjunto de datos. b) Una cara sintética generada por el algoritmo que no corresponde a ninguna persona real. c) Un componente principal que captura una dirección de máxima varianza (un patrón fundamental como la forma de la nariz, la línea de los ojos, etc.) en los datos faciales. d) El resultado de aplicar un filtro de desenfoque a las imágenes.
C Las "eigenfaces" no son caras reales, sino una especie de "ingredientes" o patrones básicos de los que se componen las caras del conjunto de datos. La primera eigenface captura el patrón más dominante, la segunda el siguiente, y así sucesivamente. Cualquier cara del conjunto puede reconstruirse combinando estas eigenfaces.
477
Si el informe de clasificación muestra un recall (exhaustividad) bajo para una persona específica, ¿qué significa? a) Que el modelo es muy lento al predecir la identidad de esa persona. b) Que el modelo a menudo confunde a esa persona con otras. c) Que el modelo rara vez predice la etiqueta de esa persona, incluso cuando debería hacerlo. d) Que el conjunto de datos de entrenamiento tenía muy pocas fotos de esa persona.
C Un recall bajo para una clase (en este caso, una persona) significa que el modelo falla en identificar muchas de las instancias de esa clase. Es decir, de todas las fotos que realmente eran de esa persona, el modelo solo fue capaz de identificar correctamente una pequeña proporción, clasificando el resto erróneamente como si fueran otras personas.
478
¿Cuál es el objetivo principal de utilizar GridSearchCV en un proyecto de Machine Learning? a) Acelerar el tiempo de entrenamiento del modelo. b) Seleccionar las características más importantes del conjunto de datos. c) Encontrar la mejor combinación de hiperparámetros para un modelo, probando sistemáticamente un conjunto de valores definidos. d) Dividir el conjunto de datos en entrenamiento y prueba de forma automática.
C GridSearchCV es una herramienta para la optimización de hiperparámetros. Su función es automatizar el proceso de probar diferentes configuraciones de un modelo (como el valor de C en un SVM o el número de vecinos en k-NN) para encontrar cuál de ellas ofrece el mejor rendimiento.
479
¿Qué es un "hiperparámetro" en el contexto de un modelo? a) Un valor que el modelo aprende directamente de los datos durante el entrenamiento. b) Una configuración del modelo que se debe establecer antes del proceso de entrenamiento. c) El resultado final de la predicción del modelo. d) Una característica o columna del conjunto de datos de entrada.
B A diferencia de los parámetros (que el modelo aprende, como los coeficientes en una regresión), los hiperparámetros son "diales" que nosotros, como desarrolladores, ajustamos para guiar el proceso de aprendizaje. Por ejemplo, el kernel de un SVM o la profundidad_máxima de un árbol de decisión son hiperparámetros.
480
¿Cómo funciona internamente el proceso de GridSearchCV? a) Elige combinaciones de hiperparámetros al azar hasta encontrar una que funcione bien. b) Prueba exhaustivamente todas las combinaciones posibles de los valores de hiperparámetros que le proporcionamos. c) Utiliza cálculo diferencial para encontrar matemáticamente los mejores hiperparámetros sin necesidad de probarlos. d) Solo ajusta un hiperparámetro a la vez, manteniendo los demás fijos.
B 🟢 Por qué la (b) es la respuesta correcta b) Prueba exhaustivamente todas las combinaciones posibles de los valores de hiperparámetros que le proporcionamos. El propio nombre GridSearchCV nos da la pista: "Grid" (Rejilla): Cuando le das a la función una lista de posibles valores para diferentes hiperparámetros (por ejemplo, kernel = ['linear', 'rbf'] y C = [1, 10, 100]), internamente crea una "rejilla" o "parrilla" con todas las combinaciones posibles. (linear, 1) (linear, 10) (linear, 100) (rbf, 1) (rbf, 10) (rbf, 100) "Search" (Búsqueda): Luego, de forma exhaustiva (es decir, una por una, sin saltarse ninguna), prueba cada una de esas combinaciones. "CV" (Cross-Validation): Para decidir qué combinación es la "ganadora", utiliza la validación cruzada (Cross-Validation) con cada una, lo que da una puntuación robusta de su rendimiento. Por lo tanto, la opción (b) describe perfectamente este proceso de búsqueda sistemática y completa. 🔴 Por qué las otras respuestas son incorrectas a) Elige combinaciones de hiperparámetros al azar hasta encontrar una que funcione bien. Incorrecta porque: Esta descripción no corresponde a GridSearchCV, sino a su "primo" llamado RandomizedSearchCV (Búsqueda Aleatoria). GridSearchCV no es aleatorio en absoluto; es sistemático y predecible. c) Utiliza cálculo diferencial para encontrar matemáticamente los mejores hiperparámetros sin necesidad de probarlos. Incorrecta porque: Esto describe cómo funcionan los métodos de optimización basados en gradiente (como los que se usan para entrenar una red neuronal). GridSearchCV no "calcula" la mejor combinación; trata el modelo como una caja negra, prueba una combinación, mira el resultado, prueba la siguiente, y así sucesivamente. d) Solo ajusta un hiperparámetro a la vez, manteniendo los demás fijos. Incorrecta porque: Este sería un método de búsqueda muy pobre (a veces llamado "coordinate descent"). El principal beneficio de GridSearchCV es precisamente que prueba las interacciones entre hiperparámetros (por ejemplo, cómo funciona el kernel='rbf' específicamente con C=100). Probarlos de uno en uno ignoraría estas interacciones cruciales.
481
¿Por qué GridSearchCV utiliza la validación cruzada (cross-validation) para evaluar cada combinación de hiperparámetros? a) Para obtener una estimación de rendimiento más robusta y fiable, que no dependa de una única división de los datos. b) Porque es la única forma de medir la exactitud (accuracy) de un modelo. c) Para hacer que el proceso de búsqueda se ejecute más rápido. d) Para visualizar los resultados en un gráfico de dos dimensiones.
A Sin validación cruzada, el rendimiento de una combinación de hiperparámetros podría ser bueno o malo por pura suerte, dependiendo de cómo se dividieron los datos. Al promediar los resultados de varias divisiones (los folds de la validación cruzada), se obtiene una medida mucho más estable y confiable del verdadero rendimiento de esa combinación.
482
Después de ejecutar un GridSearchCV y encontrar los mejores hiperparámetros, ¿qué contiene el atributo .best_estimator_? a) Un diccionario con los nombres y valores de los mejores hiperparámetros. b) Únicamente la puntuación (ej. la exactitud) del mejor modelo. c) Un nuevo modelo, ya re-entrenado automáticamente sobre todo el conjunto de datos de entrenamiento usando los mejores hiperparámetros. d) El modelo original sin entrenar.
C Esta es una característica muy conveniente. Una vez que GridSearchCV encuentra la mejor configuración, vuelve a entrenar un modelo desde cero usando esa configuración pero esta vez con todos los datos de entrenamiento disponibles. El resultado es un modelo listo para ser usado para predicciones, accesible a través del atributo .best_estimator_.
483
¿Cuál es el propósito principal de dividir un dataset grande en trozos o lotes (batches) antes de entrenar un modelo de Machine Learning? A.Para reducir el número total de épocas (epochs) necesarias para el entrenamiento. B.Para gestionar las limitaciones de memoria (RAM o VRAM) y mejorar la generalización del modelo. C.Para que el dataset ocupe menos espacio en el disco duro. D.Para acelerar el proceso de carga de datos inicial. tip: Piensa en las limitaciones de hardware de tu ordenador y en cómo aprende el modelo paso a paso.
B Cargar un dataset gigante de una sola vez puede agotar la memoria. Procesarlo en lotes lo hace manejable y la ligera variación entre lotes ayuda al modelo a generalizar mejor.
484
En el contexto de TensorFlow y Keras, ¿cómo se denomina comúnmente a un 'trozo' o 'subconjunto' del dataset que se procesa en una iteración de entrenamiento? A.Batch B.Step C.Sample D.Epoch
A Este es el término estándar en Machine Learning para referirse al grupo de 'samples' que se procesan juntos en cada paso del entrenamiento.
485
¿Qué factor principal determina si un dataset se considera 'grande' y, por tanto, necesita ser procesado en lotes? A.El tipo de datos que contiene (imágenes, texto, números). B.Si el dataset tiene más de 10,000 filas. C.Si el tamaño total del dataset supera la memoria RAM o VRAM disponible. D.El número de columnas o 'features' que tiene. tip: La decisión se basa en una limitación física y fundamental del hardware que ejecuta el código.
C Esta es la razón fundamental. Si el dataset no cabe en la memoria de una sola vez, es imprescindible cargarlo por partes.
486
¿Cuál de las siguientes afirmaciones sobre el tamaño del lote (batch size) es generalmente correcta? A.El tamaño del lote no tiene ningún efecto en el rendimiento final del modelo. B.Un tamaño de lote muy pequeño (ej. 1) lleva a una convergencia más estable y rápida. C.Un tamaño de lote muy grande siempre acelera el entrenamiento y mejora el resultado. D.El tamaño del lote es un hiperparámetro que hay que ajustar; valores comunes suelen ser potencias de 2 (ej. 32, 64, 128). tip: Piensa si existe una 'bala de plata' o si, como en muchas otras cosas en ML, es una cuestión de experimentación.
D Efectivamente, no hay un tamaño único que sirva para todo. La elección depende del dataset y del modelo, y se suele experimentar con estos valores estándar por optimizaciones de hardware.
487
¿Qué módulo de TensorFlow está específicamente diseñado para crear 'pipelines' de datos eficientes, permitiendo cargar, transformar y trocear datasets grandes de forma sencilla? A.tf.keras.layers B.tf.data C.tf.math D.tf.numpy
B Esta es la API recomendada en TensorFlow para construir flujos de entrada de datos complejos y eficientes, incluyendo la creación de lotes, el prefetching y el cacheo.
488
Si tienes un lote (batch) demasiado grande, ¿cuál es el problema más probable que encontrarás? A.Un error de tipo 'Out Of Memory' (OOM) B.El entrenamiento será extremadamente lento porque cada paso tarda mucho C.El gradiente se volverá demasiado ruidoso e inestable D.El modelo no aprenderá nada (overfitting)
A Por qué la A es CORRECTA A. Un error de tipo 'Out Of Memory' (OOM): Para cada paso de entrenamiento, el modelo debe cargar el lote (batch) completo de datos (imágenes, texto, etc.), junto con sus activaciones intermedias y los gradientes calculados, en la memoria de la GPU (VRAM). La VRAM es un recurso físico muy limitado. Si el tamaño del lote es "demasiado grande", la cantidad de memoria necesaria superará la capacidad física de la GPU, provocando un error "Out Of Memory" (OOM) y deteniendo el entrenamiento. Este es, por lejos, el problema más común y el primer límite que se encuentra al aumentar el tamaño del lote. Por qué las otras opciones son INCORRECTAS B. El entrenamiento será extremadamente lento porque cada paso tarda mucho: Esta afirmación es engañosa. Si bien es cierto que cada paso individual tarda más (porque procesa más datos), el número total de pasos por época es mucho menor. (Ej: 1000 imágenes / lote de 10 = 100 pasos. 1000 imágenes / lote de 100 = 10 pasos). Gracias a la paralización de las GPUs, un lote más grande a menudo resulta en un entrenamiento total (por época) más rápido, no más lento. C. El gradiente se volverá demasiado ruidoso e inestable: Esto es exactamente lo opuesto a la realidad. Un lote pequeño produce gradientes ruidosos e inestables (porque se basan en pocos ejemplos). Un lote grande promedia los gradientes de muchos ejemplos, lo que resulta en una estimación mucho más estable y precisa del gradiente real. D. El modelo no aprenderá nada (overfitting): El sobreajuste (overfitting) no es el resultado directo de un lote grande. De hecho, a veces se argumenta que los lotes pequeños actúan como un regularizador (debido al ruido del gradiente, opción C) y pueden ayudar a evitar el sobreajuste, mientras que los lotes muy grandes pueden converger en mínimos "más agudos" que generalizan peor. En cualquier caso, no es el problema más probable ni inmediato.
489
Al usar `tf.data.Dataset`, ¿qué método se encadena para agrupar los elementos en lotes? A..chunk(32) B..batch(32) C..group_by() D..split(32)
B Este es el método correcto y directo. Toma un número entero como argumento que define cuántos elementos consecutivos del dataset se agruparán en cada lote.
490
¿Por qué se suelen preferir tamaños de lote que son potencias de 2 (como 32, 64, 128)? A.Es una convención sin ninguna razón técnica. B.Para asegurar que el dataset se divide en un número exacto de lotes. C.Porque facilita los cálculos matemáticos del descenso de gradiente. D.Para optimizar el uso de la memoria y el paralelismo en las GPUs.
D Las arquitecturas de las GPUs y CPUs están optimizadas para operar en bloques de datos cuyos tamaños son potencias de 2, lo que permite un procesamiento más eficiente.
491
VERDADERO O FALSO Usar `.batch()` en un `tf.data.Dataset` carga todo el dataset en memoria primero y luego lo divide.
FALSO `tf.data` crea un 'pipeline' que carga y procesa los datos de forma perezosa ('lazy loading'), es decir, solo carga los datos que necesita para el siguiente lote, haciéndolo eficiente en memoria.
492
¿Qué efecto tiene usar un tamaño de lote demasiado pequeño (p. ej., batch_size=1) en el tiempo de entrenamiento? A.Aumenta significativamente el tiempo de entrenamiento. B.El tiempo de entrenamiento es impredecible. C.No tiene impacto en el tiempo de entrenamiento. D.Reduce drásticamente el tiempo de entrenamiento total.
A ✅ Por qué la A) Aumenta significativamente el tiempo de entrenamiento es la correcta El batch_size (tamaño del lote) define cuántos ejemplos de entrenamiento ve el modelo antes de actualizar sus parámetros (pesos). El proceso completo se ve así: Época (Epoch): Una pasada completa por todo el conjunto de datos de entrenamiento. Lote (Batch): Un pequeño subconjunto de esos datos. Iteración: El procesamiento de un lote, que resulta en una actualización de los pesos del modelo. El problema clave es doble: más iteraciones y pérdida de eficiencia. Imagina que tienes 100.000 fotos para entrenar un modelo: Caso 1 (Lote normal, batch_size=100): El modelo necesita hacer 100.000 / 100 = 1.000 actualizaciones (iteraciones) para completar una época. Caso 2 (Lote muy pequeño, batch_size=1): El modelo necesita hacer 100.000 / 1 = 100.000 actualizaciones (iteraciones) para completar una época. Aunque procesar un solo ejemplo es rápido, la sobrecarga de calcular el gradiente y actualizar los pesos 100.000 veces es inmensamente mayor que hacerlo 1.000 veces. Además, el hardware moderno (como las GPUs) está diseñado para el paralelismo. Es mucho más eficiente procesar 100 ejemplos a la vez (vectorización) que procesar 1 ejemplo, 100 veces seguidas. Usar batch_size=1 desperdicia casi toda la capacidad de la GPU, haciendo que cada una de esas 100.000 iteraciones sea ineficiente. En resumen: Con batch_size=1, tienes que hacer muchísimas más actualizaciones, y cada una de esas actualizaciones es computacionalmente ineficiente. El resultado es un tiempo de entrenamiento por época muchísimo más largo. ❌ Por qué las otras opciones son incorrectas D. Reduce drásticamente el tiempo de entrenamiento total: Esto es exactamente lo contrario. Es un error común pensar "lotes más pequeños = pasos más rápidos", pero se ignora que se necesitan muchísimos más pasos y que se pierde la optimización del hardware. Un lote más grande (que quepa en memoria) casi siempre es más rápido por época. B. El tiempo de entrenamiento es impredecible: El tiempo no es impredecible; es predeciblemente lento. Lo que sí puede ser "impredecible" o "ruidoso" es la convergencia del modelo (cómo aprende), ya que cada actualización se basa en un solo ejemplo y puede fluctuar mucho. Pero el tiempo de cómputo será consistentemente largo. C. No tiene impacto en el tiempo de entrenamiento: Esto es incorrecto. El batch_size es uno de los hiperparámetros que más influye directamente en el tiempo de entrenamiento y el uso de memoria.
493
¿Qué es un fichero TFRecord en su esencia? A.Un fichero de texto plano, similar a un CSV, pero con compresión. B.Una carpeta que contiene miles de ficheros pequeños, uno por cada ejemplo. C.Un tipo de base de datos relacional optimizada para TensorFlow. D.Una secuencia de registros binarios que almacena los datos de forma serializada.
D Es un formato simple que almacena tus datos (imágenes, texto, etc.) uno detrás de otro en una estructura binaria eficiente.
494
¿Cuál es la principal ventaja de usar TFRecords en lugar de leer ficheros de imagen (JPEG, PNG) directamente desde el disco en cada época? A.Ocupan mucho menos espacio en el disco duro que los ficheros originales. B.Permiten editar las imágenes directamente dentro del fichero TFRecord. C.Mejoran drásticamente la eficiencia de lectura (I/O) al agrupar muchos ejemplos en pocos ficheros grandes. D.Los ficheros TFRecord son más seguros y no se pueden corromper. tip: Imagina que tienes que recoger 1000 hojas de papel. ¿Es más rápido cogerlas una a una por toda la habitación o coger un solo fajo que ya las contiene todas?
C Esta es la razón clave. Leer un solo fichero grande de forma secuencial es mucho más rápido para el sistema de ficheros que abrir y leer miles de ficheros pequeños repartidos por el disco.
495
Dentro de un TFRecord, cada 'registro' o 'ejemplo' se almacena como un búfer de protocolo (protocol buffer) llamado... A.tf.train.SequenceExample B.tf.train.Record C.tf.train.Feature D.tf.train.Example
D `tf.train.Example` es la estructura principal que representa un ejemplo/registro. Es básicamente un diccionario que mapea nombres de características (strings) a `tf.train.Feature`.
496
Si quieres guardar una imagen en un `tf.train.Feature`, ¿qué tipo de `Feature` es el más adecuado para almacenar los datos brutos de la imagen (bytes)? A.Int64List B.BytesList C.FloatList D.StringList tip: Una imagen, antes de ser decodificada en una matriz de píxeles, es simplemente un conjunto de...?
B Este es el tipo correcto. Se utiliza para almacenar cadenas de bytes, que es la forma en que se representa una imagen codificada (JPEG, PNG) o cualquier otro dato binario.
497
¿Qué función de `tf.data` se utiliza para leer datos de uno o más ficheros TFRecord? A.tf.data.experimental.make_csv_dataset B.tf.data.FixedLengthRecordDataset C.tf.data.TFRecordDataset D.tf.data.TextLineDataset tip: La API de `tf.data` suele tener nombres muy descriptivos. ¿Cuál suena más específico para lo que buscamos?
C Esta es la API principal de `tf.data` diseñada específicamente para leer eficientemente los registros de ficheros TFRecord y crear un dataset de TensorFlow a partir de ellos.
498
Después de leer un registro binario de un TFRecordDataset, ¿qué operación es indispensable realizar antes de poder usar los datos en el modelo? A.Comprimir el registro para ahorrar memoria. B.Guardar el registro en un nuevo fichero para tener una copia de seguridad. C.Hacer 'parsing' (análisis) del registro para decodificarlo y extraer las 'features'. D.Mezclar (shuffle) los registros para asegurar la aleatoriedad. tip: El dataset te da un 'paquete' binario cerrado. ¿Qué tienes que hacer para poder ver y usar lo que hay dentro?
C El dataset te da el registro binario en bruto. Necesitas una función de 'parsing' (como `tf.io.parse_single_example`) que sepa cómo interpretar esos bytes y convertirlos de nuevo en tensores (imágenes, etiquetas, etc.).
499
Verdadero o Falso: Es una buena práctica crear un único y gigantesco fichero TFRecord para todo tu dataset. - Verdadero, así la lectura es lo más secuencial posible. - Falso, es mejor dividir el dataset en varios ficheros TFRecord (shards) para permitir una mejor mezcla (shuffling) y paralelización. tip: Piensa en la operación de 'barajar' o 'mezclar' (shuffle). ¿Es más fácil barajar una sola pila de cartas gigante o varias pilas más pequeñas?
FALSO Al dividir en múltiples ficheros (p. ej., 100-200 MB por fichero), `tf.data.Dataset` puede leer de varios ficheros a la vez, lo que permite una mezcla mucho más efectiva y una mejor paralelización de la carga de datos.
500
¿Cuál es el propósito principal de una función de activación dentro de una neurona artificial? A.Acelerar los cálculos matemáticos de la multiplicación de matrices. B.Introducir no-linealidad en la red, permitiéndole aprender patrones complejos. C.Normalizar los datos de entrada para que tengan una media de 0 y una desviación estándar de 1. D.Asignar los pesos iniciales a las conexiones de la neurona. tip: Piensa qué pasaría si solo sumas y multiplicas números una y otra vez. ¿Qué tipo de relación matemática podrías representar?
B Sin funciones de activación (o con una función lineal), una red neuronal, sin importar cuántas capas tenga, se comportaría como un simple modelo lineal, incapaz de aprender relaciones complejas como las que existen en imágenes o texto.
501
Imagina una red neuronal profunda sin funciones de activación. ¿A qué modelo simple sería equivalente toda la red? A.A una máquina de soporte vectorial (SVM) con un kernel no-lineal. B.A un único modelo de regresión lineal. C.A un modelo de K-Nearest Neighbors (K-NN). D.A un árbol de decisión. tip: Una capa lineal es `y = Wx + b`. Si aplicas otra capa lineal a `y`, obtienes `z = W'(Wx + b) + b'`. ¿Puedes simplificar esta nueva ecuación?
B Una serie de multiplicaciones de matrices (capas) se puede colapsar en una sola multiplicación de matrices. Por lo tanto, toda la red profunda se reduce a un simple modelo lineal incapaz de aprender complejidad.
502
En el funcionamiento de una neurona, ¿en qué momento se aplica la función de activación? A.Después de sumar todas las entradas multiplicadas por sus pesos (la suma ponderada) más el sesgo (bias). B.A los pesos de la neurona para mantenerlos en un rango específico. C.Solo se aplica en la última capa de la red, no en las capas ocultas. D.Antes de que las entradas se multipliquen por los pesos. tip: La neurona primero 'calcula' su estado interno y luego 'decide' cómo 'disparar' o qué señal emitir. La función de activación es esa decisión.
A Este es el orden correcto. 1) Se calcula la suma ponderada de las entradas. 2) Se le añade el sesgo. 3) A este resultado final se le aplica la función de activación para producir la salida de la neurona.
503
¿Cuál es la función de activación más popular y usada por defecto en las capas ocultas de las redes neuronales modernas? A.Función Sigmoide (Sigmoid) B.Función Lineal (Identity) C.Función de Unidad Lineal Rectificada (ReLU) D.Función Tangente Hiperbólica (Tanh) tip: Busca la función que es extremadamente simple de calcular y que resolvió un gran problema que afectaba a las funciones más antiguas en redes profundas.
C ReLU es computacionalmente muy eficiente (devuelve 0 si la entrada es negativa, o la propia entrada si es positiva) y ayuda a mitigar el problema del gradiente desvanecido, lo que permite entrenar redes mucho más profundas.
504
¿Cómo funciona matemáticamente la función ReLU (Rectified Linear Unit)? A.Devuelve 1 si la entrada es positiva y -1 si es negativa. B.Devuelve 0 si la entrada es negativa, y la propia entrada si es positiva o cero. C.Calcula el logaritmo natural de la entrada. D.Convierte cualquier número a un valor entre 0 y 1. tip: Su nombre lo dice todo: 'Lineal Rectificada'. Es lineal para una parte de los números y está 'rectificada' (cortada) para la otra parte.
B Se define como `f(x) = max(0, x)`. Esta simple operación es sorprendentemente poderosa y eficiente.
505
Para un problema de clasificación binaria (ej: 'perro' vs 'gato'), ¿qué función de activación es la más adecuada para la neurona de la capa de salida? A.Sigmoide B.ReLU C.Lineal D.Softmax tip: Necesitas una función que te dé como salida una probabilidad, un número entre 0 y 1.
A La función Sigmoide mapea cualquier valor de entrada a un rango entre 0 y 1, lo cual se puede interpretar directamente como la probabilidad de pertenecer a la clase positiva (por ejemplo, la probabilidad de que la imagen sea un 'perro').
506
¿Y si el problema es de clasificación multiclase (ej: MNIST, clasificar dígitos del 0 al 9)? ¿Qué función de activación usarías en la capa de salida de 10 neuronas? A.Tanh B.Una función Sigmoide en cada una de las 10 neuronas. C.ReLU D.Softmax tip: Necesitas que la capa final te diga 'estoy un 5% seguro de que es un 0, un 10% de que es un 1, un 70% de que es un 2, etc.', y que el total sume 100%.
D Softmax toma las salidas de todas las neuronas de la capa y las transforma en una distribución de probabilidad, donde cada salida está entre 0 y 1 y la suma de todas las salidas es exactamente 1. Esto te dice la confianza del modelo para cada clase.
507
El 'problema de la neurona muerta' (Dying ReLU problem) se refiere a... A.Una neurona que, debido a una actualización de pesos, solo recibe entradas negativas y, por tanto, su salida y su gradiente son siempre cero, dejando de aprender. B.Una neurona que produce valores de salida demasiado grandes (exploding gradients). C.Una neurona que ha sido eliminada de la red mediante una técnica llamada 'dropout'. D.Una neurona en la capa de entrada que no recibe ninguna señal. tip: Piensa en la definición de ReLU: `max(0, x)`. ¿Qué pasa si `x` se vuelve permanentemente negativo por culpa de los pesos y el sesgo?
A Si una neurona ReLU llega a un punto en el que su entrada ponderada es siempre negativa, su salida será siempre 0. Como la derivada de 0 es 0, el gradiente no fluye a través de ella y la neurona efectivamente 'muere', sin poder actualizar sus pesos nunca más.
508
¿Cuál es la característica más distintiva del rango de salida de la función Sigmoide? A.Devuelve un valor entre -1 y 1. B.Su salida es siempre 0 o 1. C.Devuelve cualquier valor positivo. D.Mapea cualquier número de entrada a un valor estrictamente entre 0 y 1.
D La salida de la función Sigmoide siempre se encuentra en el intervalo (0, 1), sin llegar a tocar nunca los extremos. Esto la hace ideal para representar probabilidades.
509
Hoy en día, ¿cuál es el uso más común y apropiado para la función Sigmoide en una red neuronal? A.Como la principal función de activación en todas las capas ocultas de una red profunda. B.En la capa de salida de un problema de clasificación binaria. C.En la capa de salida de un problema de regresión, para predecir un valor numérico continuo (ej: el precio de una casa). D.En la capa de salida de un problema de clasificación multiclase (más de 2 clases).
B Esta es la aplicación estándar de la función Sigmoide.¿Por qué? La función Sigmoide tiene una propiedad matemática fundamental: toma cualquier número real (desde $-\infty$ hasta $+\infty$) y lo "aplasta" para que quede siempre dentro del rango de 0 a 1.La lógica: En una clasificación binaria (ej: "¿Es spam o no?", "¿Es un gato o un perro?"), necesitamos que la red nos dé una probabilidad. Si el resultado es $0.95$, la red está muy segura de que es "Sí/Clase 1". Si es $0.03$, es "No/Clase 0". La Sigmoide es perfecta para traducir la "puntuación" bruta de la red en una probabilidad legible. La fórmula es: σ(x) = 1 / (1 + e^(-x)) Por qué las otras respuestas son incorrectas A) Como la principal función de activación en todas las capas ocultas... El problema: Aunque históricamente se usó mucho, hoy en día se evita en capas ocultas de redes profundas (Deep Learning). La razón técnica: Sufre del problema del "Desvanecimiento del Gradiente" (Vanishing Gradient). Cuando los valores de entrada son muy altos o muy bajos, la curva de la Sigmoide se vuelve casi plana (horizontal). Esto significa que su derivada es casi cero. Durante el entrenamiento (Backpropagation), este "cero" se multiplica hacia atrás, haciendo que la red deje de aprender en las primeras capas. Lo moderno: Hoy se usa ReLU (Rectified Linear Unit) o sus variantes (Leaky ReLU, GELU) para las capas ocultas. C) En la capa de salida de un problema de regresión... El problema: Un problema de regresión busca predecir un valor continuo (ej: precio de una casa: 250.000€, temperatura: 24.5°C). La limitación: La Sigmoide nunca puede dar un valor mayor a 1 ni menor a 0. Si intentas predecir el precio de una casa con una Sigmoide, tu red nunca podrá decirte "200.000", se quedará estancada en "0.999". Lo correcto: Para regresión, normalmente se usa una función de activación Lineal (o ninguna) en la salida. D) En la capa de salida de un problema de clasificación multiclase... El contexto: Multiclase significa elegir una opción entre muchas (ej: "¿Es un perro, un gato, un pájaro o un pez?"). El problema: Si usas Sigmoide en cada neurona de salida, las probabilidades no sumarían 100% (podrías tener un 80% de perro y un 70% de gato al mismo tiempo). Esto se usa en clasificación multi-etiqueta, pero no en multi-clase. Lo correcto: Se utiliza la función Softmax. La Softmax toma los valores de todas las clases y los normaliza para que sumen 1, permitiendo a la red decir: "Es 90% perro, 5% gato, 5% pájaro".
510
El famoso problema del 'gradiente desvanecido' (vanishing gradient) en la función Sigmoide se refiere a que... A.La función no tiene derivada, por lo que no se puede calcular el gradiente. B.Para valores de entrada muy grandes (positivos o negativos), la derivada de la función se acerca a cero. C.La función produce valores negativos que anulan el gradiente. D.El gradiente es siempre 1, por lo que el aprendizaje nunca converge.
B Por qué la opción B es la correcta La opción B) Para valores de entrada muy grandes (positivos o negativos), la derivada de la función se acerca a cero describe perfectamente el problema del gradiente desvanecido (vanishing gradient). Para entenderlo, veamos la función Sigmoide. Esta función tiene una forma de "S" y aplasta cualquier valor de entrada a un rango entre 0 y 1. Ahora, pensemos en cómo aprende una red neuronal: mediante backpropagation. Este algoritmo calcula el gradiente (la derivada) del error con respecto a cada peso de la red, y luego ajusta los pesos en la dirección que reduce el error. Este cálculo se hace hacia atrás, desde la última capa hasta la primera, usando la regla de la cadena, lo que implica multiplicar muchas derivadas juntas. El problema está en la derivada de la función Sigmoide: En el centro (para entradas cercanas a 0), la pendiente es pronunciada y la derivada tiene su valor máximo (0.25). En los extremos (para entradas muy positivas o muy negativas), la función se vuelve casi plana. Esto se llama saturación. En estas zonas planas, la pendiente es casi cero, y por lo tanto, su derivada también es casi cero. Cuando durante el entrenamiento una neurona se satura, su gradiente local será un número muy pequeño (cercano a 0). Al propagar este gradiente hacia atrás, se multiplicará con otros gradientes. Si muchas neuronas en capas sucesivas están saturadas, estaremos multiplicando muchos números pequeños entre sí. El resultado es un gradiente final que es extremadamente pequeño, casi inexistente. Este gradiente "desvanecido" provoca que los pesos de las primeras capas de la red apenas se actualicen, y en la práctica, la red deja de aprender. 🧠💥 Por qué las otras opciones son incorrectas A. La función no tiene derivada, por lo que no se puede calcular el gradiente. Incorrecto. La función Sigmoide es derivable en todos sus puntos. Si no lo fuera, no podría usarse en el descenso de gradiente. C. La función produce valores negativos que anulan el gradiente. Incorrecto. El rango de la función Sigmoide es (0, 1). Nunca produce valores negativos. Otras funciones de activación como la Tangente Hiperbólica (tanh) sí producen valores negativos, pero esa no es la causa del desvanecimiento del gradiente. D. El gradiente es siempre 1, por lo que el aprendizaje nunca converge. Incorrecto. El valor máximo de la derivada (gradiente) de la Sigmoide es 0.25. Nunca llega a ser 1. De hecho, si el gradiente fuera muy grande (mayor que 1) en muchas capas, tendríamos el problema opuesto: el gradiente explosivo (exploding gradient).
511
Si la salida de una neurona con activación Sigmoide es `0.05` en un clasificador de 'spam' vs 'no spam' (donde 'spam' es la clase positiva), ¿cómo se interpreta este resultado? A.El modelo tiene una confianza del 5% de que el correo es 'spam'. B.El cálculo es erróneo, la salida no puede ser tan baja. C.El modelo está un 95% seguro de que el correo es 'spam'. D.El modelo no está seguro y la confianza es del 50%.
A El valor de salida se interpreta como P(clase=positiva | entrada). Un valor de 0.05 significa que hay una probabilidad del 5% de que sea spam (y, por lo tanto, un 95% de probabilidad de que no lo sea).
512
La formula matematica de la funcion Sigmoide es S(x) = 1 / (1 + e^(-x)). ¿Que valor toma la funcion cuando la entrada `x` es 0? A.Infinito B.0.5 C.1 D.0 tip: Recuerda que cualquier número elevado a la potencia 0 es igual a 1.
B Si x = 0, entonces e^(-0) = 1. La expresion se convierte en: 1 / (1 + 1) = 1 / 2 = 0.5 Este es el punto central de la curva El valor 0.5 es muy importante. La función Sigmoide transforma cualquier número real en un valor entre 0 y 1. El punto x = 0 es exactamente el centro de la función, lo que corresponde a una probabilidad del 50% en contextos como la regresión logística. Como puedes ver en el gráfico, la curva cruza el eje vertical (donde x=0) exactamente a la altura de y=0.5.
513
Una desventaja sutil de la Sigmoide es que su salida no está 'centrada en cero' (su rango es de 0 a 1). ¿Por qué esto puede ser un problema para el entrenamiento de la red? A.Porque las actualizaciones de los gradientes para los pesos de una capa serán siempre todas positivas o todas negativas, llevando a un avance en 'zigzag'. B.Porque es imposible que la salida de la neurona sea cero. C.Porque los números entre 0 y 1 son demasiado pequeños y causan errores de redondeo. D.Porque no puede procesar entradas negativas.
A Dado que la salida de la sigmoide es siempre positiva, los gradientes que llegan a los pesos de la capa anterior tendrán todos el mismo signo. Esto hace que las actualizaciones de los pesos no sean óptimas, moviéndose en una dirección restringida en cada paso.
514
¿Qué palabra clave distingue a una función generadora de una función normal en Python? A.return B.next C.generate D.yield
D ¿Por qué la opción D (yield) es la correcta? La palabra clave yield es lo que convierte una función normal en una función generadora. Su presencia en el cuerpo de una función cambia por completo su comportamiento. Una función normal usa return para devolver un único valor y finalizar su ejecución para siempre. En cambio, una función con yield: No devuelve un valor, sino un objeto generador. Este objeto es un iterador, lo que significa que puedes pedirle valores uno por uno. Pausa su ejecución. Cuando la función llega a la instrucción yield, "cede" o "produce" el valor especificado y se queda en pausa, conservando todo su estado (variables locales, etc.). Reanuda donde se quedó. La próxima vez que se le pida un valor al generador (normalmente con la función next() o en un bucle for), la ejecución se reanuda justo después del yield donde se pausó. Es como tener una función que puede "recordar" dónde se quedó y continuar desde ese punto más tarde. Ejemplo simple: def contador_simple(): print("Entregando el 1") yield 1 print("La función se reanuda... entregando el 2") yield 2 print("La función se reanuda de nuevo... entregando el 3") yield 3 Creamos el objeto generador (la función aún no se ha ejecutado) mi_generador = contador_simple() Pedimos el primer valor print(f"Valor recibido: {next(mi_generador)}") # Se ejecuta hasta el primer yield # Salida: # Entregando el 1 # Valor recibido: 1 Pedimos el segundo valor print(f"Valor recibido: {next(mi_generador)}") # Se reanuda y ejecuta hasta el segundo yield # Salida: # La función se reanuda... entregando el 2 # Valor recibido: 2 ¿Por qué las otras opciones son incorrectas? A. return: Esta palabra clave se usa en funciones normales para devolver un valor y terminar la función definitivamente. Si se usa en una función generadora, causa que el generador termine y lance una excepción StopIteration. No produce valores de forma secuencial. B. next: Esta no es una palabra clave que se use para definir una función, sino una función incorporada (next()) que se utiliza para consumir o solicitar el siguiente valor de un iterador, como un objeto generador. C. generate: Simplemente, no es una palabra clave en el lenguaje Python. Es un verbo que describe lo que hace un generador, pero no tiene ningún significado sintáctico.
515
¿Cuál de las siguientes afirmaciones describe correctamente cómo funciona un generador en Python? A.Recuerda su estado interno (sus variables locales) y, cuando se le pide el siguiente valor, reanuda la ejecución desde donde se quedó. B.Apunta directamente a una dirección de memoria donde se encuentra el siguiente valor. C.Es una referencia a otra variable que contiene la lista de datos. D.Guarda en memoria la lista completa de valores y un puntero a la posición actual.
A Esta es la magia del generador. No necesita la lista completa porque 'sabe' cómo generar el siguiente valor basándose en el estado que guardó la última vez que usó `yield`. La analogía del puntero se refiere a este estado guardado.
516
Cuando ejecutas un bucle `for elemento in mi_generador:`, ¿qué ocurre por debajo? A.Python cuenta los elementos primero y luego pide cada uno por su índice. B.Python llama a `mi_generador.get_all()` para obtener los datos. C.Python primero convierte el generador en una lista y luego la recorre. D.Python llama a `iter(mi_generador)` para obtener el iterador y luego llama a `next()` en cada ciclo para obtener el siguiente elemento. tip: El bucle `for` utiliza el protocolo estándar de iteración en Python, que involucra dos funciones clave: `iter()` y `next()`.
D Esto es exactamente lo que describes. El bucle `for` usa el 'protocolo de iteración' de Python. Como un generador ya es su propio iterador, `iter(mi_generador)` simplemente devuelve el propio generador, y el bucle empieza a consumir valores llamando a `next()` hasta que se produce una excepción `StopIteration`.
517
¿Cuál es la principal ventaja de usar un generador para leer las líneas de un fichero de 10 GB en lugar de `fichero.readlines()`? A.Permite escribir en el fichero al mismo tiempo que se lee. B.Es un código más corto y elegante. C.Evita cargar los 10 GB de datos en la memoria RAM de una sola vez. D.Lee el fichero mucho más rápido. tip: Piensa qué pasaría si intentas meter un objeto de 10 GB en un ordenador con 8 GB de RAM.
C ¡Esta es la ventaja crucial! `fichero.readlines()` intentaría leer todo el fichero en una lista, lo que probablemente agotaría la memoria. Un generador leería y cedería una línea cada vez, usando una cantidad de memoria mínima y constante.
518
Verdadero o Falso: Una vez que has recorrido un generador por completo con un bucle `for`, puedes volver a recorrerlo desde el principio en un segundo bucle `for`.
FALSO Un generador, como cualquier iterador, se 'agota'. Una vez que ha cedido todos sus valores y ha lanzado `StopIteration`, está vacío. Si quieres recorrer los valores de nuevo, tienes que crear una nueva instancia del generador.
519
Si llamas manualmente a `next()` en un generador que ya ha cedido su último valor, ¿qué ocurrirá? A.Devolverá el último valor otra vez. B.Se quedará bloqueado esperando un nuevo valor. C.Lanzará una excepción `StopIteration`. D.Devolverá `None`.
C Esta excepción es la señal que usan los iteradores en Python para comunicar que no quedan más elementos. Los bucles `for` la capturan automáticamente para saber cuándo detenerse.
520
Cuando tu dataset de imágenes ocupa varios terabytes, ¿cuál es el primer y más fundamental problema que debes resolver? A.Elegir el tamaño de lote (batch size) correcto para el entrenamiento. B.La memoria RAM no es suficiente para cargarlo. C.Decidir si usar la función de activación ReLU o Leaky ReLU. D.El dataset no cabe en el disco duro de una única máquina, por lo que se necesita un sistema de almacenamiento distribuido. tip: Antes de poder correr, necesitas poder estar de pie. ¿Cuál es el requisito más básico para poder trabajar con un fichero?
D Este es el punto de partida. Antes de pensar en procesar, hay que poder almacenar y acceder a los datos. La solución pasa por usar sistemas como Google Cloud Storage (GCS), Amazon S3 o HDFS.
521
Tienes tu dataset de 5TB almacenado en la nube. Si intentas entrenar un modelo en una sola máquina (aunque sea muy potente), ¿cuál será el principal cuello de botella? A.La velocidad de la CPU para procesar los datos. B.El tiempo. Una sola máquina tardaría semanas, meses o incluso años en completar una sola época. C.La conexión a internet para descargar los datos. D.La falta de funciones en TensorFlow para manejar tantos datos. tip: Imagina que tienes que leer un libro de un billón de páginas. Aunque leas muy rápido, el problema principal es...
B Procesar terabytes de datos de forma secuencial en una única máquina es inviable en la práctica por el tiempo que consumiría. Esto hace que el entrenamiento distribuido no sea una opción, sino una necesidad.
522
Además de TFRecord, ¿qué otro formato de fichero es extremadamente popular en el ecosistema de Big Data (Spark, BigQuery) y muy eficiente para ML a gran escala por su almacenamiento columnar? A.JSON B.SQLite C.Apache Parquet D.CSV Tip: Busca un formato que permita leer solo la columna 'edad' y la columna 'ingresos' sin tener que leer la columna 'dirección' que está en medio.
C Parquet almacena los datos por columnas, no por filas. Esto es increíblemente eficiente si tu modelo solo necesita un subconjunto de las columnas del dataset, ya que permite leer solo los datos necesarios, reduciendo drásticamente la cantidad de información a procesar.
523
El concepto de 'pipeline de streaming' es la evolución natural del 'generador' a esta escala. ¿Qué significa? A.Significa que el modelo debe ser una red neuronal recurrente (RNN) para procesar secuencias. B.Significa que se debe ver el dataset entero en video antes de usarlo. C.Significa que se carga todo el dataset en el almacenamiento en la nube de una sola vez. D.Significa que los datos fluyen desde el almacenamiento distribuido, a través de los nodos de procesamiento, hasta los aceleradores (GPU/TPU), sin ser almacenados completamente en ningún punto intermedio. tip: Piensa en un río. El agua fluye constantemente. No necesitas tener todo el río en un cubo para poder usar su agua.
D Al igual que un generador produce valores uno a uno, un pipeline de streaming a gran escala extrae, transforma y consume lotes de datos en un flujo continuo. Los datos están 'en movimiento', lo que es extremadamente eficiente en memoria.
524
En un entorno de entrenamiento distribuido con múltiples 'workers' (máquinas), ¿por qué es crucial dividir (sharding) tu dataset en múltiples ficheros (ej. 1024 ficheros TFRecord o Parquet)? A.Para poder abrirlos con un editor de texto más fácilmente. B.Para poder mezclar (shuffle) los datos de forma efectiva y permitir la lectura en paralelo por parte de los workers. C.Para que el dataset ocupe menos espacio en total. D.Porque cada worker solo puede leer un fichero como máximo. tip: Imagina a 100 personas que tienen que leer un libro. ¿Es más eficiente que todos intenten leer el mismo ejemplar a la vez, o darles a cada uno un capítulo diferente?
B Si tuvieras un solo fichero, todos los workers intentarían leer del mismo sitio, creando un cuello de botella. Al tener muchos fragmentos, cada worker puede leer de fragmentos diferentes simultáneamente. Además, para mezclar, se puede barajar la lista de ficheros, asegurando que cada época el orden de lectura sea diferente y más aleatorio.
525
El cambio fundamental de mentalidad al pasar de 'gigas' a 'teras' es... A.Dejar de pensar en 'cargar datos' a pensar en 'definir un flujo de datos' y pasar de una sola máquina a un sistema distribuido. B.Simplificar los modelos para que tarden menos en entrenar. C.Comprar discos duros cada vez más grandes. D.Dejar de usar Python y empezar a usar C++ para mayor velocidad.
A El paradigma cambia por completo. Ya no piensas en `datos = cargar_fichero()`. Piensas en `pipeline = definir_fuente_distribuida().preprocesar().batch()`. El foco se mueve de la gestión de un objeto en memoria a la orquestación de un sistema que procesa datos en movimiento.
526
Contrario a la creencia popular, ¿cuál es el formato de punto flotante de 16 bits que las TPUs de Google están especialmente diseñadas para acelerar? A.float8 (FP8) B.float32 (FP32) C.bfloat16 (Brain Floating Point) D.float16 (FP16)
C ✅ Opción C: La Respuesta Correcta (bfloat16) C. bfloat16 (Brain Floating Point) Este formato fue diseñado por Google específicamente para las cargas de trabajo de machine learning y es el formato que sus TPUs (Tensor Processing Units) están optimizadas para acelerar. La clave está en entender la diferencia entre rango y precisión en los números de punto flotante. Rango: La capacidad de representar números muy grandes y muy pequeños. Precisión: La capacidad de representar muchos valores intermedios entre dos números. Para el entrenamiento de redes neuronales, se descubrió que tener un rango numérico grande es más importante que tener una alta precisión. Esto es crucial para manejar los gradientes durante el entrenamiento, que pueden volverse extremadamente pequeños o grandes. Aquí es donde bfloat16 brilla. Fíjate en cómo se comparan los bits: float32 (Estándar): 1 bit de signo, 8 bits de exponente (rango), 23 bits de mantisa (precisión). float16 (Estándar): 1 bit de signo, 5 bits de exponente (rango), 10 bits de mantisa (precisión). bfloat16 (Google): 1 bit de signo, 8 bits de exponente (rango), 7 bits de mantisa (precisión). Como puedes ver, bfloat16 sacrifica precisión (tiene menos bits de mantisa que float16), pero mantiene los 8 bits de exponente de float32. Esto le da el mismo rango dinámico que el formato de 32 bits, lo que lo hace mucho más estable para el entrenamiento y evita problemas de desbordamiento (overflow) o subdesbordamiento (underflow). Además, convertir de float32 a bfloat16 es muy rápido: simplemente se truncan los bits de la mantisa, sin necesidad de cálculos complejos. ❌ ¿Por Qué las Otras Opciones son Incorrectas? D. float16 (FP16) Esta es la respuesta que causa la "creencia popular" mencionada en la pregunta. float16 es el formato estándar IEEE de media precisión. Es muy popular y está fuertemente acelerado por las GPUs de NVIDIA (a través de sus Tensor Cores). Sin embargo, su principal debilidad es su pequeño rango (solo 5 bits de exponente), lo que lo hace propenso a inestabilidad numérica en entrenamientos largos y complejos. Google diseñó bfloat16 para superar esta limitación específica. A. float8 (FP8) Este es un formato de 8 bits, no de 16. Aunque los formatos de 8 bits se están volviendo populares para la injerencia (no tanto para el entrenamiento) en hardware más moderno (incluidas las nuevas TPUs y GPUs) para obtener aún más velocidad, la pregunta se refiere específicamente a un formato de 16 bits. B. float32 (FP32) Este es el formato estándar de precisión simple, pero utiliza 32 bits, no 16. Es la línea base de precisión y estabilidad, pero es más lento y consume más memoria. Precisamente, bfloat16 y float16 se crearon para ser alternativas más rápidas y eficientes a float32.
527
¿Por qué `bfloat16` es generalmente más estable para el ENTRENAMIENTO de un modelo que el `float16` estándar? A.Porque es más preciso que `float16`. B.Porque es un formato de número entero. C.Porque ocupa menos memoria que `float16`. D.Porque al tener el mismo rango dinámico que `float32`, es mucho menos propenso a problemas de 'overflow' (números demasiado grandes) o 'underflow' (números demasiado pequeños) durante los cálculos de los gradientes.
D Durante el entrenamiento, los gradientes pueden variar enormemente. El gran rango de `bfloat16` (heredado de `float32`) maneja estas variaciones sin que los valores se 'rompan', lo que es crucial para la estabilidad.
528
¿es posible usar precisión de 16 bits en una TPU? A.Solo en las versiones más nuevas, las antiguas no podían. B.No, las TPUs solo aceptan `float32`. C.Sí, pero es extremadamente lento y no se recomienda. D.Sí, es su principal ventaja, especialmente usando el formato `bfloat16`.
D No solo es posible, sino que es la forma recomendada de usarlas para obtener el máximo rendimiento. El hardware de las TPUs (las MXU o Unidades de Multiplicación Matricial) está construido para realizar operaciones masivas con `bfloat16` a una velocidad increíble.
529
En TensorFlow/Keras, ¿cómo se activa el 'entrenamiento de precisión mixta' para que la TPU use `bfloat16` internamente? A.Hay que recompilar TensorFlow desde el código fuente con una bandera especial. B.No se puede, es un proceso automático que el usuario no controla. C.Estableciendo una política global: `tf.keras.mixed_precision.set_global_policy('mixed_bfloat16')` D.Casteando manualmente cada tensor con `tf.cast(x, dtype=tf.bfloat16)`. tip: Keras tiene una API de alto nivel para gestionar esta complejidad con una sola instrucción.
C ¡Esta es la forma moderna y correcta! Con esta línea al principio de tu script, Keras se encarga automáticamente de usar `bfloat16` para los cálculos en la TPU y mantener ciertas variables críticas (como los pesos del modelo) en `float32` para mayor estabilidad.
530
la principal ventaja de usar `bfloat16` en una TPU es... A.Reducir el uso de memoria a la mitad y aumentar drásticamente la velocidad de los cálculos matriciales, manteniendo un rango numérico estable para el entrenamiento. B.Poder usar números más precisos que `float32`. C.Facilitar la depuración del código al trabajar con números más simples. D.Obtener resultados numéricamente idénticos a `float32` pero más rápido. tip: Piensa en el doble beneficio: ¿qué ganas en términos de memoria y qué ganas en términos de velocidad de operaciones?
A Este es el resumen ideal. Obtienes dos grandes beneficios (memoria y velocidad) a cambio de una pequeña y manejable pérdida de precisión, pero sin sacrificar la estabilidad que te da el rango de `float32`.
531
¿Qué papel juega el formato `float32` (punto flotante de 32 bits) en el Machine Learning actual? A.Es un formato obsoleto y ha sido completamente reemplazado por `bfloat16`. B.Es el formato de baja precisión que usan las TPUs. C.Es el formato de 'precisión completa' estándar. Ofrece alta precisión y estabilidad, pero consume más memoria y es más lento que los formatos de menor precisión. D.Es un formato que solo pueden procesar las CPUs, no las GPUs ni las TPUs. tip: Piensa en `float32` como el formato 'de referencia' con el que se comparan todos los demás.
C `float32` es la línea de base o el 'gold standard' para la precisión numérica. Cuando la estabilidad y la reproducibilidad son máximas prioridades, `float32` es la elección, asumiendo su coste en memoria y velocidad.
532
**TensorFloat-32 (TF32)** de las GPUs NVIDIA. ¿Qué es exactamente TF32? A.Un formato que usa los 8 bits de exponente de `float32` y los 10 bits de mantisa de `float16`, acelerando los cálculos de `float32` casi sin cambiar el código. B.Es simplemente otro nombre que NVIDIA le da al formato `bfloat16` de Google. C.Un verdadero formato de 24 bits que es más preciso que `float32`. D.Un tipo de dato para almacenar exclusivamente tensores de 32 dimensiones. tip: Es un 'híbrido' que toma lo mejor de dos mundos: el rango de `float32` y la velocidad de `float16`.
A Esta es la genialidad de TF32. Internamente, para las multiplicaciones de matrices, usa el rango de un `float32` (lo que le da estabilidad) y una precisión similar a la de `float16`. Esto permite acelerar código escrito en `float32` de forma casi transparente.
533
¿Cuál es la principal ventaja de usar TF32 en una GPU de NVIDIA compatible (arquitectura Ampere y posteriores)? A.Garantiza que los resultados sean bit a bit idénticos a los de `float32`. B.Ofrece una aceleración de hasta 8 veces en operaciones matriciales para código `float32` sin tener que cambiar el tipo de dato manualmente. C.Hace que la GPU sea compatible con el software de las TPUs. D.Permite que el modelo use la mitad de memoria RAM. tip: Piensa en ello como un 'modo turbo' transparente para tus cálculos `float32`.
B Es una aceleración 'gratuita'. Si tienes una GPU compatible, TF32 está activado por defecto y tu código `float32` se ejecutará mucho más rápido en las operaciones compatibles sin que tengas que hacer nada.
534
Si tu máxima prioridad es la **reproducibilidad exacta** de tus experimentos (obtener bit a bit el mismo resultado siempre), ¿qué deberías hacer? A.Usar `float16` con escalado de pérdida (loss scaling). B.Usar `float32` y, si estás en una GPU NVIDIA moderna, desactivar la aceleración TF32. C.Usar siempre `bfloat16` porque es el más estable. D.Entrenar el modelo durante más épocas. tip: Para obtener una copia exacta, necesitas usar el original, no una versión optimizada.
B Para una fidelidad absoluta, necesitas usar la precisión completa (`float32`) y asegurarte de que no haya optimizaciones 'con pérdida' como TF32 alterando los resultados. Esto garantiza que los cálculos se hagan con los 23 bits de mantisa completos.
535
Comparando los ecosistemas, ¿qué afirmación es más correcta? A.Usar `float32` es igual de rápido en una TPU que en una GPU. B.Las TPUs se centran en `bfloat16`, mientras que las GPUs modernas de NVIDIA ofrecen un abanico más amplio: `float16`, `bfloat16`, `int8` y el modo `TF32` para acelerar `float32`. C.Solo las TPUs pueden realizar entrenamiento de precisión mixta. D.TF32 es el intento de Google por copiar la arquitectura de las GPUs. tip: Piensa en la TPU como un especialista y la GPU como un generalista muy potente con varias especializaciones.
B Esta es una buena forma de verlo. Google optimizó sus TPUs para `bfloat16` de forma excepcional. NVIDIA, al ser un proveedor de hardware más generalista, ha implementado aceleración para un espectro más amplio de formatos, dándole al usuario más flexibilidad.
536
En el entrenamiento de un modelo, ¿qué es exactamente una 'Época' (Epoch)? A.Una única actualización de los pesos del modelo después de ver un lote de datos. B.El número total de ejemplos en el conjunto de datos. C.La acción de mezclar (shuffle) el conjunto de datos antes de entrenar. D.Un recorrido completo del modelo a través de TODO el conjunto de datos de entrenamiento.
D Una época se completa cuando el modelo ha tenido la oportunidad de ver y aprender de cada uno de los ejemplos del dataset de entrenamiento una vez.
537
En la línea `.batch(batch_size, drop_remainder=True)`, ¿cuál es el propósito de `drop_remainder=True`? A.Descarta aleatoriamente algunos ejemplos de cada lote para mejorar la generalización. B.Asegura que todos los lotes (batches) tengan exactamente el mismo tamaño, descartando el último lote si este es más pequeño. C.Elimina los ejemplos que el modelo ya ha aprendido correctamente. D.Elimina el primer lote de cada época porque suele ser de peor calidad. tip: 'Remainder' significa 'resto' o 'sobrante'. ¿Qué harías con el lote sobrante que no está completo?
B Si tu dataset tiene 1010 ejemplos y tu tamaño de lote es 100, tendrás 10 lotes de 100 y un último lote de 10. `drop_remainder=True` descarta ese último lote de 10 para garantizar que el modelo solo vea lotes de tamaño uniforme (100).
538
¿Cómo se relaciona el Gradiente Descendente Estocástico (SGD) con el concepto de 'lote' (batch)? A.SGD es el proceso de dividir el dataset en lotes. B.SGD calcula el gradiente usando el dataset entero en cada paso. C.SGD solo funciona si `drop_remainder` es `False`. D.SGD estima el gradiente y actualiza los pesos del modelo usando un solo lote (o incluso un solo ejemplo) a la vez. tip: La 'S' de SGD viene de 'Estocástico'. ¿Qué es más 'aproximado': usar todos los datos o solo una pequeña muestra (un lote)?
D 'Estocástico' significa aleatorio o aproximado. En lugar de calcular el gradiente 'perfecto' con todos los datos, SGD lo aproxima usando un pequeño lote. Esto es mucho más rápido y, gracias al ruido introducido, a menudo ayuda al modelo a escapar de mínimos locales y a generalizar mejor.
539
En la línea `dataset.map(preproc_fun).cache()`, ¿qué beneficio clave aporta el método `.cache()`? A.Comprime los datos para que ocupen menos memoria RAM. B.Guarda el modelo entrenado en el disco duro. C.Hace una copia de seguridad del dataset original. D.Almacena en memoria (o en un fichero) el resultado de la transformación `map` después de la primera época.
D Si `preproc_fun` es una operación costosa (ej: leer y decodificar imágenes), `.cache()` guarda el resultado. En la segunda, tercera, etc., épocas, el sistema usará los datos ya procesados de la caché en lugar de volver a ejecutar `preproc_fun`, acelerando drásticamente el entrenamiento.
540
Tienes un dataset con 20,000 ejemplos. Tu `batch_size` es 50. ¿Cuántas 'Iteraciones de Entrenamiento' (pasos o steps) hay en una época? A.400 B.50 C.20,000 D.1
A Conceptos clave: Época (Epoch): Una pasada completa por todo el conjunto de datos de entrenamiento. En este caso, una época significa que el modelo ha visto los 20,000 ejemplos una vez. Batch Size (Tamaño del lote): Número de ejemplos procesados en un solo paso antes de actualizar los parámetros. Aquí, se procesan lotes de 50 ejemplos. Iteración (Paso / Step): Procesamiento de un solo lote. En cada iteración, el modelo ve un lote y actualiza sus parámetros. Pregunta: ¿Cuántos lotes de 50 se necesitan para cubrir los 20,000 ejemplos? Cálculo: Iteraciones por época = Número total de ejemplos / Batch size Iteraciones = 20,000 / 50 = 400 Opciones incorrectas: B. 50: Es el tamaño del lote, no el número de iteraciones. C. 20,000: Es el total de ejemplos, no el número de lotes. D. 1: Solo sería correcto si el batch size fuera igual a 20,000.
541
¿Por qué en la cadena `...shuffle().repeat().batch()...` es crucial poner `.shuffle()` ANTES de `.repeat()`? A.Porque `.shuffle()` es más rápido si se ejecuta al principio. B.Porque `.repeat()` no puede funcionar si los datos no están mezclados. C.No importa el orden, el resultado es el mismo. D.Porque si pones `repeat()` primero, mezclarías los datos en la primera época, pero luego cada época sería una repetición exacta de esa primera época mezclada.
D Si repites primero, creas una secuencia infinita de (época 1, época 1, época 1...). Al mezclar después, solo mezclas el orden dentro de cada bloque de época 1, pero la secuencia de épocas no varía. Al mezclar ANTES, te aseguras de que cada vez que `.repeat()` comience un nuevo ciclo, el orden de los datos sea diferente.
542
¿La función ReLU, f(x) = max(0, x), es una función continua? A.Solo es continua para los números positivos. B.La continuidad no es relevante para las redes neuronales. C.No, tiene un salto en x=0, por lo que no es continua. D.Sí, es continua en todo su dominio. Puedes dibujar su gráfica sin levantar el lápiz del papel.
D Por que ReLU es una funcion continua? La funcion Rectified Linear Unit (ReLU) se define como: f(x) = max(0, x) Una funcion es continua en un punto si su grafica no tiene "saltos", "agujeros" o "rupturas" en ese punto. Formalmente, una funcion f(x) es continua en x = a si: 1. f(a) existe. 2. El limite de f(x) cuando x se acerca a a existe (lim x->a f(x) existe). 3. El limite es igual al valor de la funcion (lim x->a f(x) = f(a)). Para la funcion ReLU, el unico punto que podria generar dudas es x = 0, ya que la definicion de la funcion cambia alli (0 para x <= 0 y x para x > 0). Valor de la funcion en x = 0: f(0) = max(0, 0) = 0. (Existe) Limite lateral izquierdo (aproximacion desde x < 0): lim x->0- f(x) = lim x->0- 0 = 0. Limite lateral derecho (aproximacion desde x > 0): lim x->0+ f(x) = lim x->0+ x = 0. Dado que los limites laterales son iguales (0), el limite en x = 0 existe y es 0. Ademas, lim x->0 f(x) = 0 = f(0). Como la funcion es continua en x = 0, y tambien es continua para todos los x < 0 (donde f(x) = 0, que es una constante) y para todos los x > 0 (donde f(x) = x, que es una linea recta), concluimos que ReLU es continua en todo su dominio (R). Analisis de las Opciones Incorrectas A. Solo es continua para los numeros positivos: Esto es incorrecto. La funcion es continua para los positivos (f(x) = x) y para los negativos/cero (f(x) = 0). El punto crucial es que la union en x = 0 tambien es continua. B. La continuidad no es relevante para las redes neuronales: Esto es incorrecto. La diferenciabilidad es lo que se requiere para el algoritmo de backpropagation, y si una funcion no es continua, automaticamente tampoco es diferenciable. Aunque ReLU no es diferenciable en x = 0 (es decir, tiene un "pico" y no una pendiente unica), si es continua y es diferenciable en todos los demas puntos, lo que la hace util. C. No, tiene un salto en x = 0, por lo que no es continua: Esto es incorrecto. Si bien la funcion tiene un "pico" o un "quiebre" en x = 0, lo que la hace no diferenciable en ese punto, no tiene un salto. La grafica llega a y = 0 tanto desde el lado positivo como desde el lado negativo, lo que garantiza la continuidad.
543
Si la funcion ReLU es continua, ¿dónde exactamente está el problema con su derivada? A.No es derivable para ningún valor negativo. B.No es derivable en ningún punto, es solo una convención. C.No es derivable para ningún valor positivo. D.El problema ocurre únicamente en el punto x=0.
D En el punto x=0, la gráfica tiene una 'esquina' o un 'pico'. La pendiente cambia bruscamente de 0 a 1, y en ese punto exacto, la derivada no está definida matemáticamente.
544
En la práctica, durante el algoritmo de backpropagation, ¿cómo solucionan los frameworks como TensorFlow o PyTorch este problema de la derivada en x=0? A.Asignan un valor constante, que suele ser 0 o 1. Esto se conoce como usar un 'subgradiente'. B.Detienen el entrenamiento y muestran un error. C.Le asignan un valor aleatorio al gradiente en ese punto. D.Ignoran las neuronas que dan 0 y no las actualizan. tip: Los ingenieros a menudo solucionan problemas matemáticos teóricos con una solución práctica y sencilla. ¿Cuál sería el valor más simple y lógico para asignar a esa derivada?
A Matemáticamente, se usa un 'subgradiente'. En la práctica, simplemente se define que en el punto x=0, la derivada será 0 (o a veces 1). Como la probabilidad de que la entrada a una neurona sea exactamente 0.0 es extremadamente baja, esta decisión pragmática no tiene un impacto negativo en el entrenamiento.
545
El concepto matemático que justifica usar un valor como 0 o 1 para la derivada en el punto no diferenciable se llama: A.Integración por partes B.Derivada direccional C.Subgradiente D.Continuación analítica tip: Busca el término que es una 'generalización' del gradiente para funciones con esquinas.
C Para funciones convexas que no son derivables en todas partes (como ReLU), el subgradiente es una generalización del gradiente. En el punto x=0 de ReLU, cualquier valor entre 0 y 1 es un subgradiente válido. Por simplicidad, se elige 0 o 1.
546
¿Por qué este único punto de no-derivabilidad no supone un problema real para entrenar redes neuronales gigantes? A.Porque los optimizadores como Adam están diseñados para saltarse esos puntos. B.Porque el problema solo ocurre en la primera capa y no se propaga. C.Porque la probabilidad de que la suma ponderada de una neurona sea exactamente 0.0 es infinitesimalmente pequeña en la práctica. D.Porque las redes neuronales pueden aprender sin gradientes. tip: En el mundo de los números de punto flotante, ¿qué tan común es obtener un resultado de EXACTAMENTE 0.0000000000...?
C Con pesos y entradas de punto flotante, es estadísticamente muy improbable aterrizar exactamente en cero. E incluso si ocurre, la elección de un subgradiente (0 o 1) permite que el algoritmo continúe sin problemas. El impacto en el resultado final del entrenamiento es nulo.
547
En una Red Convolucional (CNN) típica para clasificación de imágenes, ¿cuál es el patrón estándar para el número de filtros a medida que avanzamos a capas más profundas? A.Se reduce (ej: 64 -> 32 -> 16) para hacer el problema más simple. B.Aumenta y luego disminuye en forma de 'reloj de arena'. C.Aumenta (ej: 64 -> 128 -> 256) para poder capturar combinaciones de patrones cada vez más complejas. D.Se mantiene siempre constante (ej: 64 -> 64 -> 64). tip: Piensa en el nivel de detalle. Al principio buscas detalles simples, al final buscas objetos complejos. ¿Necesitas más tipos de 'detectores' para lo simple o para lo complejo?
C Esta es la estrategia estándar. A medida que la red avanza, necesita más "vocabulario" (filtros) para describir las características abstractas que está construyendo a partir de las más simples.
548
¿Cuál es la tarea principal de las **primeras** capas convolucionales (las que tienen menos filtros, ej. 64)? A.Reducir drásticamente el tamaño de la imagen. B.Aprender a detectar patrones muy simples y genéricos, como bordes, esquinas, colores o texturas básicas. C.Detectar objetos completos como 'coches' o 'caras'. D.Decidir la clase final de la imagen. tip: Antes de poder reconocer una casa, necesitas poder reconocer líneas y ángulos.
B Estas capas actúan como 'detectores de características primarias'. Aprenden a reconocer los bloques de construcción fundamentales que componen cualquier imagen.
549
¿por qué las **últimas** capas convolucionales necesitan **más** filtros (ej. 256 o 512)? A.Para combinar los patrones simples de las capas anteriores y formar características mucho más complejas y abstractas. B.Para que el entrenamiento sea más rápido. C.Es una convención sin una razón técnica. D.Porque tienen que analizar una imagen de mayor resolución espacial (alto x ancho).
A Una capa profunda puede aprender un filtro que se activa al detectar una combinación de 'curva' y 'línea' (aprendidas antes) que forman un 'ojo'. Otro filtro puede aprender a detectar una 'rueda'. Se necesita un gran número de estos filtros para reconocer todas las posibles partes de objetos complejos.
550
A medida que el número de filtros **aumenta** en las capas profundas, ¿qué le ocurre a la dimensión espacial (el alto y el ancho) de los mapas de características? A.Depende del tipo de función de activación. B.Se mantiene constante para preservar la estructura de la imagen. C.También aumenta para no perder información. D.Normalmente se reduce mediante capas de Pooling o convoluciones con stride.
D ✅ La Respuesta Correcta: D) Esta arquitectura sigue un patrón de "pirámide invertida": a medida que la red se hace más profunda, los mapas de características se vuelven "más delgados" (menos alto y ancho) pero "más profundos" (más filtros). Hay una lógica muy clara para esto: Aumento de Filtros (Profundidad): En las primeras capas, los filtros detectan características simples (líneas, bordes, texturas). A medida que avanzas, la red necesita combinar estas características simples en conceptos más complejos (ojos, ruedas, texto). Para representar todas estas combinaciones complejas, se necesita un número mayor de filtros. Reducción Espacial (Alto y Ancho): A la vez, a la red le importa menos la ubicación exacta de la característica y más su presencia y relación con otras. Al reducir el alto y el ancho, se logra: Eficiencia Computacional: Procesar imágenes de 5x5 es mucho más barato que de 224x224. Invarianza Traslacional: El "dónde" exacto se vuelve menos importante. Campo Receptivo Mayor: Cada píxel en un mapa de 5x5 "resume" una región mucho más grande de la imagen original que un píxel en un mapa de 224x224. Como bien dice la opción D, esta reducción espacial se logra de dos maneras: Capas de Pooling (ej. Max Pooling): Toman una ventana (ej. 2x2) y la reducen a un solo píxel, descartando información pero quedándose con la más relevante. Convoluciones con Stride: Una convolución con un stride (paso) de 2 saltará de dos en dos píxeles, produciendo un mapa de características de la mitad del tamaño. ❌ Por Qué las Otras Opciones Son Incorrectas A. Depende del tipo de función de activación. Esto es incorrecto. Una función de activación (como ReLU, Sigmoid, etc.) opera elemento a elemento. Cambia los valores dentro del mapa de características (ej. convirtiendo negativos a cero), pero nunca cambia las dimensiones (ni el alto, ni el ancho, ni el número de filtros). B. Se mantiene constante para preservar la estructura de la imagen. Esto es lo que se haría en las primeras capas si se usa padding='same', pero no es el objetivo de las capas profundas. El objetivo de las capas profundas es precisamente abstraer la estructura, no preservarla. Mantener la dimensión constante haría que la red fuera computacionalmente masiva e ineficiente. C. También aumenta para no perder información. Esto es lo opuesto a lo que se hace. Aumentar la dimensión espacial se llama upsampling (muestreo hacia arriba) y se usa en arquitecturas diferentes, como las redes generativas (GANs) o las de segmentación (U-Nets), que necesitan construir una imagen, no clasificarla.
551
Softplus es una variante de ReLU. ¿Qué describe mejor la relación entre ambas? A.Softplus es la derivada de la función ReLU. B.Son la misma función, pero Softplus es más rápida de calcular. C.ReLU es una aproximación de Softplus. D.Softplus es una aproximación suave y curva de la función ReLU, que tiene una esquina puntiaguda.
D La función Softplus, f(x) = log(1 + exp(x)), crea una curva suave que se comporta casi como ReLU: es casi cero para entradas muy negativas y se parece mucho a la línea y=x para entradas positivas. Esencialmente, 'redondea' la esquina de ReLU.
552
Al contrario que ReLU, Softplus 'se puede derivar'. ¿Qué ventaja fundamental proporciona esto para el Descenso de Gradiente? A.Hace que el gradiente sea siempre un número entero. B.Asegura que el gradiente siempre es 1, lo que acelera el aprendizaje. C.Permite que la red aprenda aunque las entradas sean negativas. D.Significa que el gradiente está bien definido para todos los valores de entrada, sin puntos problemáticos como la 'esquina' de ReLU en x=0. tip: El Descenso de Gradiente necesita una 'dirección' clara (la pendiente) para saber cómo actualizar los pesos. ¿Qué pasa si en un punto hay múltiples direcciones posibles, como en una esquina?
D Al ser una curva suave, la pendiente (el gradiente) se puede calcular en cualquier punto sin ambigüedad. Esto la hace teóricamente 'más limpia' para un algoritmo que depende completamente de los gradientes, como el Descenso de Gradiente.
553
Aquí viene una curiosidad matemática: si calculas la derivada de la función Softplus, ¿a qué otra famosa función de activación es idéntica? A.A la función Sigmoide. B.A una constante, como 0.5. C.A la propia función ReLU. D.A la función Tangente Hiperbólica (Tanh). tip: La derivada de Softplus es una función que da como resultado un valor entre 0 y 1. ¿Qué función de activación conoces que haga eso?
A La derivada de `log(1 + exp(x))` es `exp(x) / (1 + exp(x))`, que es la fórmula exacta de la función Sigmoide. Esta elegante conexión matemática es una de las razones por las que Softplus es tan interesante.
554
Si Softplus es teóricamente tan 'perfecta' (derivable, suave), ¿por qué en la práctica se usa muchísimo más la función ReLU? A.Porque es una función muy nueva y poco conocida. B.Principalmente por una razón de eficiencia: el coste computacional. C.Porque Softplus no es no-lineal. D.Porque Softplus solo se puede usar para regresión, no para clasificación. tip: Piensa en el rendimiento. ¿Qué es más rápido para un ordenador: calcular `log(1 + exp(x))` o comprobar si `x` es mayor que 0?
B Las operaciones de `logaritmo` y `exponencial` de Softplus son mucho más lentas para una CPU o GPU que la simple operación de `max(0, x)` de ReLU. En redes con millones de neuronas, esta diferencia de velocidad es enorme.
555
Aunque Softplus no tiene el problema de la 'neurona muerta' de ReLU (donde el gradiente es exactamente 0), sufre un problema similar. ¿Cuál es? A.No tiene ningún problema de gradiente, es perfecta. B.Su salida no está centrada en cero, lo que acelera el entrenamiento. C.Su gradiente se 'satura', haciéndose muy cercano a 0 para entradas muy negativas, lo que ralentiza o casi detiene el aprendizaje. D.Su gradiente puede explotar y hacerse infinito. tip: Recuerda que la derivada de Softplus es la Sigmoide. ¿Qué le pasa a la pendiente de la Sigmoide en sus extremos?
C Para un valor como x=-10, la derivada (Sigmoide) es un número extremadamente pequeño. Esto significa que el flujo de gradiente a través de esa neurona es casi nulo, un efecto muy parecido al de la 'neurona muerta', aunque no sea exactamente cero.
556
¿Por qué la 'deuda técnica' en un sistema de Machine Learning (ML) es a menudo más arriesgada que en un sistema de software tradicional? A.Porque los modelos de ML no se pueden probar (testear) antes de ponerlos en producción. B.Porque un sistema de ML está profundamente entrelazado con los datos de entrada, y estos datos pueden cambiar de forma impredecible, degradando el rendimiento del modelo silenciosamente. C.Porque el código de ML es inherentemente más complejo y difícil de escribir. D.Porque los lenguajes usados en ML, como Python, generan más deuda técnica que Java o C++. tip: Piensa en la diferencia entre una función que siempre suma dos números y un modelo que predice el tráfico basándose en datos de GPS en tiempo real.
B A diferencia del software tradicional, donde las APIs son más estables, un sistema de ML depende de señales del mundo real. Si estas señales cambian (ej: un proveedor de datos altera su formato), el modelo puede empezar a fallar de maneras sutiles y difíciles de detectar. Esto se conoce como 'erosión de límites'.
557
¿Qué describe el principio de 'Entrelazamiento' (Entanglement) en un sistema de ML? A.El hecho de que el código del modelo esté mezclado con el código de la infraestructura. B.La dificultad de configurar los hiperparámetros del modelo. C.La conexión de red entre el sistema de entrenamiento y el de predicción. D.El fenómeno por el cual cambiar cualquier cosa (añadir una feature, ajustar un parámetro) puede afectar de forma impredecible al resto del modelo. tip: La idea se resume en el acrónimo CACE: Changing Anything Changes Everything (Cambiar Cualquier Cosa lo Cambia Todo).
D En un modelo de ML, las características no son independientes. Mejorar la predicción de una característica puede empeorar la de otra. Añadir una nueva puede cambiar la importancia de todas las demás. Esto hace que la mejora y el mantenimiento sean muy complejos.
558
¿Qué es un 'Bucle de Retroalimentación Oculto' (Hidden Feedback Loop) en un sistema de ML? A.Un error en el código que hace que el modelo entre en un bucle infinito. B.El proceso de reentrenar un modelo con nuevos datos de forma periódica. C.Cuando las predicciones de un modelo influyen directamente en los datos con los que se entrenará en el futuro, a menudo de forma no intencionada. D.Cuando el equipo de desarrollo no recibe feedback de los usuarios sobre el rendimiento del modelo. tip: Piensa en un sistema de predicción de precios de acciones. Si muchos confían en él y compran lo que recomienda, ¿qué le pasará al precio de esas acciones?
C Por ejemplo, un sistema de recomendación de noticias muestra noticias populares. Los usuarios hacen clic en ellas, lo que las hace más populares, y el sistema las recomienda aún más. El modelo está influyendo en la realidad que intenta predecir, lo que puede llevar a sesgos y a una degradación del rendimiento.
559
En el contexto de los sistemas de ML, ¿qué es el 'código pegamento' (glue code)? A.El código de los comentarios que explica cómo funciona el modelo. B.El código que define la arquitectura de la red neuronal, como las capas y las funciones de activación. C.El código de bajo nivel y alto rendimiento escrito en C++ para acelerar los cálculos. D.Una gran cantidad de código de soporte, a menudo frágil, escrito para conectar y hacer funcionar paquetes de software genéricos. tip: Imagina que el modelo de ML es el motor de un coche. El 'código pegamento' son todos los cables, mangueras y tornillos que lo conectan al chasis, las ruedas y el volante.
D Muchos sistemas de ML se construyen uniendo librerías de propósito general. El problema es que una gran parte del esfuerzo se va en escribir y mantener este 'pegamento' que extrae, convierte y mueve datos entre las distintas partes, en lugar de en la lógica del modelo en sí. Este código es difícil de probar y mantener.
560
¿Cuál es uno de los mayores riesgos de las 'Dependencias de Datos Inestables'? A.Que el sistema falle de forma silenciosa porque una fuente de datos externa fue actualizada o eliminada sin previo aviso. B.Que el modelo se sobreajuste (overfitting) a los datos de entrenamiento. C.Que el coste de almacenamiento de los datos sea muy alto. D.Que el modelo tarde más tiempo en entrenar. tip: Tu modelo confía en la información que le da un vecino. ¿Qué pasa si un día el vecino empieza a hablar en otro idioma sin avisar?
A Si tu modelo usa como característica (feature) el resultado de otra búsqueda de Google o la salida de otro modelo, y ese otro sistema cambia, tu modelo puede empezar a recibir datos sin sentido. El sistema no se caerá con un error, pero sus predicciones perderán toda su calidad sin que nadie se dé cuenta inmediatamente.
561
¿Qué es, en esencia, una Unidad de Procesamiento Tensorial (TPU)? A.Un servicio de almacenamiento en la nube para guardar grandes modelos de IA. B.Un circuito integrado de aplicación específica (ASIC) diseñado por Google para acelerar cargas de trabajo de Machine Learning. C.Un tipo de tarjeta gráfica (GPU) optimizada para videojuegos. D.Una CPU de propósito general con más núcleos.
B Ser un ASIC significa que fue construido con un único propósito en mente: realizar las operaciones matemáticas del deep learning (especialmente multiplicaciones de matrices) de la forma más rápida y eficiente posible.
562
¿Cuál es la principal ventaja de usar TPUs para entrenar grandes modelos de IA en comparación con hardware más genérico? A.Son más baratas de adquirir para un ordenador personal. B.Son mejores para ejecutar cualquier tipo de programa, incluyendo navegadores web y procesadores de texto. C.Ofrecen un rendimiento y una eficiencia energética superiores para las operaciones de álgebra de tensores (multiplicación de matrices) a gran escala. D.No requieren ninguna programación especial para usarlas.
C Al estar diseñadas para una sola tarea, realizan esas operaciones masivas de forma mucho más eficiente (más cálculos por vatio de energía consumida) que el hardware de propósito general, lo que es ideal para entrenar modelos gigantescos.
563
¿Qué arquitectura de hardware interna es la 'salsa secreta' de las TPUs, permitiéndoles realizar una cantidad masiva de multiplicaciones de matrices en paralelo? A.El motor de renderizado 3D. B.La memoria caché de alta velocidad. C.El Array Sistólico (Systolic Array). D.La unidad de lógica aritmética (ALU) de la CPU. tip: El nombre de esta arquitectura está inspirado en el sistema circulatorio, donde los datos 'bombean' a través de la red de procesadores.
C Un array sistólico es una red de miles de pequeñas unidades de cómputo (multiplicadores-acumuladores) que procesan datos en una onda sincronizada, similar al bombeo del corazón. Esto permite un rendimiento y eficiencia masivos para las operaciones matriciales.
564
¿Cómo se consigue entrenar modelos de IA que son demasiado grandes incluso para el chip de TPU más potente? A.Usando una CPU para ayudar a la TPU con los cálculos que no caben. B.Conectando miles de chips de TPU a través de una red de interconexión de ultra alta velocidad para que actúen como un único superordenador masivo. C.Comprimiendo el modelo hasta que quepa en un solo chip. D.Entrenando el modelo por partes, una capa cada vez, de forma secuencial. tip: Si un motor no es suficiente para mover un tren, la solución no es hacerlo más pequeño, sino...
B Esto se conoce como un 'TPU Pod'. Los chips están diseñados para ser conectados en clústeres gigantes, permitiendo que un solo trabajo de entrenamiento se distribuya entre miles de ellos, una capacidad fundamental para los modelos de lenguaje grandes (LLMs).
565
Aunque originalmente estaban muy asociadas con TensorFlow, ¿qué frameworks de Machine Learning tienen hoy en día soporte de primer nivel para las TPUs? A.Únicamente frameworks de Google como TensorFlow y JAX. B.Solo TensorFlow. C.Cualquier framework de Python, incluyendo Scikit-learn y NumPy. D.TensorFlow, PyTorch y JAX. tip: Para llegar a más usuarios, Google ha adaptado sus TPUs para que funcionen con los 'tres grandes' del Deep Learning.
D Google ha trabajado para que los tres principales frameworks para la investigación y producción de Deep Learning a gran escala (TensorFlow, PyTorch y JAX) funcionen de forma nativa y eficiente en las TPUs, haciéndolas accesibles a una comunidad mucho más amplia.
566
¿Cuál es la idea central detrás del principio de la 'Efectividad Irracional de los Datos' en Machine Learning? A.Que se necesita una cantidad irracionalmente grande de ordenadores para procesar los datos. B.Que los algoritmos más complejos y modernos son siempre la clave para obtener los mejores resultados. C.Que solo los datos irracionales o ruidosos son útiles para entrenar modelos robustos. D.Que la cantidad masiva de datos de calidad a menudo supera la importancia de la sofisticación del algoritmo. tip: Piensa qué es más valioso: una receta de cocina súper secreta y compleja (algoritmo) pero con pocos ingredientes (datos), o una receta simple pero con acceso a los mejores y más abundantes ingredientes del mundo.
D La idea es que, para muchos problemas, un modelo simple entrenado con una cantidad enorme de datos relevantes puede superar a un modelo muy sofisticado entrenado con pocos datos. El volumen y la calidad de los datos 'ganan' a la complejidad algorítmica.
567
Imagina que tienes dos opciones para crear un sistema que prediga si un cliente abandonará tu servicio. ¿Qué enfoque se alinea mejor con la filosofía de la 'Efectividad Irracional de los Datos'? A.Centrarse únicamente en la calidad de los datos de 100 clientes, asegurándose de que cada dato sea perfecto. B.Pasar 6 meses diseñando una red neuronal recurrente con auto-atención y entrenarla con el historial de 1,000 clientes. C.Buscar el algoritmo más novedoso publicado en el último congreso de IA, sin importar los datos disponibles. D.Usar un modelo simple y robusto, como una regresión logística o un gradient boosting, y entrenarlo con el historial de 1 millón de clientes. tip: Elige la opción que prioriza el volumen de la evidencia (datos) sobre la complejidad del detective (algoritmo).
D Este enfoque prioriza la obtención y el uso de una gran cantidad de datos, confiando en que la escala de los datos revelará los patrones necesarios incluso a un modelo más simple. Es muy probable que este enfoque dé mejores resultados y en menos tiempo.
568
En el contexto de la competencia empresarial, ¿por qué un gran dataset propietario y de alta calidad se considera una ventaja competitiva ('moat') más fuerte que un algoritmo novedoso? A.Porque los buenos algoritmos son un secreto empresarial que nunca se comparte. B.Porque los algoritmos se publican y se convierten en 'commodities', mientras que los datos son extremadamente difíciles y costosos de replicar por un competidor. C.Porque los algoritmos son baratos de ejecutar y los datos son caros. D.Porque los datos no necesitan mantenimiento y los algoritmos sí. tip: Piensa qué es más fácil para tu competencia: ¿copiar una receta de un libro de cocina o conseguir los mismos ingredientes que solo crecen en tu jardín secreto?
B Un algoritmo publicado en un paper puede ser implementado por cualquiera. Sin embargo, años de datos de interacciones de usuarios, transacciones o sensores son un activo único que un competidor no puede simplemente copiar. Ese activo de datos es la verdadera barrera de entrada.
569
El principio habla de la efectividad de 'más datos'. ¿Qué requisito indispensable deben cumplir esos datos para que el principio funcione? A.Deben ser de alta calidad: relevantes para el problema, limpios y representativos. B.Deben haber sido generados por otro modelo de IA. C.Deben ser pocos para caber en la memoria RAM. D.Deben estar en un formato de texto simple como CSV. tip: Si quieres predecir el tiempo en España, ¿qué te sirve más: un millón de datos sobre el tiempo en Australia o mil datos sobre el tiempo en España?
A El principio asume implícitamente que los datos son de calidad. Añadir millones de ejemplos irrelevantes o con ruido (basura) no ayudará y puede incluso empeorar el modelo. La regla 'basura entra, basura sale' (Garbage In, Garbage Out) sigue siendo fundamental.
570
En Machine Learning, el concepto de 'rendimientos decrecientes' (diminishing returns) aplicado a los datos significa que... A.Añadir más datos siempre empeora el modelo. B.Cuantos más datos, más lento es el entrenamiento, por lo que el rendimiento del proyecto disminuye. C.Un modelo solo puede aprender de una cantidad fija de datos. D.La mejora en el rendimiento del modelo es mucho mayor al pasar de 1,000 a 100,000 ejemplos que al pasar de 10 millones a 20 millones. tip: Imagina que estudias para un examen. La primera hora de estudio te da un gran empujón. La décima hora de estudio te ayuda, pero probablemente mucho menos que la primera.
D Las primeras tandas de datos suelen proporcionar las mayores ganancias de rendimiento porque permiten al modelo aprender los patrones más importantes. A medida que añades más y más datos, la mejora por cada nuevo millón de ejemplos se hace cada vez más pequeña, aunque siga existiendo.
571
¿Cuál es la función principal de un dispositivo como el Acelerador USB de Coral? A.Aumentar la memoria RAM de un ordenador para poder cargar modelos más grandes. B.Entrenar nuevos modelos de inteligencia artificial en un ordenador portátil con más velocidad. C.Proporcionar una conexión a internet más rápida para usar la IA de la nube. D.Añadir un coprocesador a un dispositivo (como una Raspberry Pi o un PC) para ejecutar inferencias de modelos de IA de forma rápida y con bajo consumo. tip: Piensa en ello como añadir un 'cerebro matemático' especializado a tu dispositivo para que se encargue solo de las tareas de IA.
D Actúa como un acelerador de hardware dedicado que se encarga de los cálculos de la red neuronal, liberando a la CPU principal del dispositivo. Esto permite ejecutar modelos complejos en dispositivos de baja potencia.
572
¿Cómo se llama el pequeño chip de aplicación específica (ASIC) diseñado por Google que se encuentra dentro de los dispositivos Coral? A.TensorFlow Processing Unit (TPU) B.Coral Processing Chip (CPC) C.Edge TPU D.Graphics Processing Unit (GPU)
C Respuesta Correcta C. Edge TPU: Esta es la respuesta correcta porque el Edge TPU es el pequeño chip (ASIC, por sus siglas en inglés, Application-Specific Integrated Circuit) que Google diseñó específicamente para ejecutar modelos de Machine Learning de TensorFlow Lite en el edge (en dispositivos locales, fuera de la nube). Los dispositivos Coral, como la Coral Dev Board y el Coral USB Accelerator, integran este chip para ofrecer una inferencia de ML rápida y de bajo consumo energético. Respuestas Incorrectas A. TensorFlow Processing Unit (TPU): La TPU (Tensor Processing Unit) es un chip ASIC diseñado por Google, pero está optimizado para la computación a gran escala en centros de datos (la nube) y para el entrenamiento y la inferencia masiva de modelos complejos. La TPU es la contraparte de nube del chip, mientras que el Edge TPU es la versión para dispositivos pequeños y de bajo consumo (el edge). B. Coral Processing Chip (CPC): Este término no es una designación oficial o reconocida por Google para su hardware de ML. Es un distractor inventado. El nombre oficial del chip es Edge TPU. D. Graphics Processing Unit (GPU): La GPU es un tipo de procesador que se utiliza a menudo para el entrenamiento y la inferencia de Machine Learning debido a su arquitectura paralela. Sin embargo, no es el chip ASIC específico y patentado por Google que se encuentra dentro de los dispositivos Coral. Los dispositivos Coral utilizan el Edge TPU para una eficiencia superior a la que se lograría con una GPU estándar en ese factor de forma y consumo.
573
¿Qué significa ejecutar la IA 'en el borde' (on the edge), que es el propósito principal de la tecnología Coral? A.Procesar los datos localmente en el propio dispositivo, sin necesidad de enviarlos a la nube. B.Que el dispositivo solo puede tomar decisiones simples, de sí o no. C.Usar solo los algoritmos de IA más novedosos y experimentales. D.Enviar todos los datos a los servidores de la nube de Google para que sean procesados por las TPUs más potentes. tip: Piensa en un sistema de seguridad con cámara. ¿Quieres que el vídeo se envíe a internet para detectar a una persona, o que la propia cámara lo haga al instante?
A Esto ofrece tres grandes ventajas: baja latencia (respuestas instantáneas), mayor privacidad (los datos sensibles, como el vídeo de una cámara, no salen del dispositivo) y menor consumo de ancho de banda y energía.
574
¿Cuál es el principal problema o riesgo al 'cuantizar' un modelo de Machine Learning, especialmente a precisiones muy bajas como enteros de 4 u 8 bits? A.Puede ocurrir una pérdida significativa de la precisión y el rendimiento del modelo. B.El entrenamiento se vuelve extremadamente lento. C.El modelo solo puede ejecutarse en CPUs, no en aceleradores. D.El modelo se vuelve mucho más grande y ocupa más memoria. tip: Imagina que tienes que describir una foto muy detallada usando solo 16 colores en lugar de 16 millones. ¿Qué le pasaría a la calidad de la descripción?
A Al forzar a los pesos y activaciones del modelo (que son números de alta precisión) a representarse con un conjunto muy limitado de valores enteros, se pierde información. Esta pérdida de resolución puede hacer que el modelo se comporte peor que su versión original.
575
¿Cuál es la diferencia fundamental entre la 'Cuantización Post-Entrenamiento' (PTQ) y el 'Entrenamiento Consciente de la Cuantización' (QAT)? A.PTQ usa enteros de 8 bits y QAT usa enteros de 4 bits. B.PTQ se hace antes de entrenar y QAT se hace después. C.PTQ es una técnica para modelos de texto y QAT es para modelos de imagen. D.PTQ convierte un modelo ya entrenado a baja precisión, mientras que QAT simula el efecto de la baja precisión *durante* el proceso de entrenamiento. tip: Piensa en un arquero. ¿Qué es mejor: disparar la flecha y luego tener en cuenta el viento (PTQ), o tener en cuenta el viento mientras estás apuntando (QAT)?
D PTQ es un paso rápido que se hace al final, a menudo con una pérdida de precisión. QAT es un proceso más lento donde el modelo 'aprende a vivir' con las limitaciones de la baja precisión, ajustando sus pesos durante el entrenamiento para compensar la futura pérdida de resolución.
576
¿qué es una librería o metodología como AQT (Accurate Quantized Training)? A.Un compresor de ficheros, como ZIP, pero para modelos de IA. B.Un conjunto de herramientas y algoritmos que implementan una forma sofisticada de Entrenamiento Consciente de la Cuantización (QAT). C.Un nuevo tipo de hardware que reemplaza a las TPUs. D.Un método para cuantizar modelos después del entrenamiento (PTQ) con mayor precisión. tip: AQT es una receta y un conjunto de ingredientes de alta calidad para cocinar un plato que ya conoces (QAT), asegurando que el resultado sea excelente.
B AQT no es un concepto totalmente nuevo, sino una implementación robusta y 'precisa' de QAT. Su objetivo es facilitar a los desarrolladores la tarea de entrenar modelos que mantengan una alta precisión incluso cuando se cuantizan a formatos de muy pocos bits.
577
¿Cómo consigue una técnica como el Entrenamiento Consciente de la Cuantización (QAT/AQT) mantener la precisión del modelo? A.Añadiendo más capas a la red neuronal para compensar la pérdida. B.Descartando las neuronas que son más sensibles a la cuantización. C.Simulando el error de cuantización en el 'forward pass' (cálculo de predicción) para que el modelo aprenda a ser robusto a ese error durante el 'backward pass' (actualización de pesos). D.Entrenando el modelo durante el doble de tiempo. tip: El modelo 'practica para el examen' con las mismas limitaciones que tendrá en el examen final, en lugar de estudiar con recursos ilimitados y llevarse una sorpresa.
C Durante el entrenamiento, el modelo 've' cómo sus pesos y activaciones se verán en el futuro formato de baja precisión. El cálculo del error y la actualización de los gradientes tienen en cuenta esta limitación, forzando al modelo a encontrar soluciones que funcionen bien a pesar de la pérdida de resolución.
578
¿Cuál es el objetivo final de usar una técnica avanzada como AQT para obtener un modelo cuantizado a 4 u 8 bits? A.Publicar un artículo científico sobre un nuevo método de entrenamiento. B.Crear un modelo que ya no necesite re-entrenamiento. C.Conseguir la máxima velocidad y eficiencia de inferencia en hardware especializado (como una TPU) con una mínima o nula pérdida de la precisión del modelo. D.Hacer que el modelo sea más fácil de interpretar por los humanos.
C Este es el 'santo grial': obtener los enormes beneficios de rendimiento de la aritmética de baja precisión sin tener que pagar el precio de una degradación notable en la calidad de las predicciones del modelo. Es buscar lo mejor de ambos mundos.
579
¿Qué es un Perceptrón en su forma más fundamental? A.Un método para agrupar datos similares en clústeres (clustering). B.El algoritmo de red neuronal más simple, que actúa como un clasificador binario lineal. C.Una técnica para reducir la dimensionalidad de los datos, como el PCA. D.Un algoritmo para encontrar el camino más corto en un grafo.
B ¿Qué es el Perceptrón? El Perceptrón fue introducido por Frank Rosenblatt en 1957 y se considera el algoritmo de red neuronal más simple que existe. Su propósito fundamental es: Clasificador Binario: Aprender a distinguir entre dos clases (por ejemplo, 0 o 1, "sí" o "no"). Lineal: Realiza la clasificación trazando una única línea (o hiperplano en dimensiones superiores) que separa los datos de las dos clases. Esto significa que solo puede resolver problemas que son linealmente separables. En esencia, un Perceptrón toma múltiples entradas, las multiplica por pesos, suma los resultados (incluyendo un sesgo o bias) y luego aplica una función de activación (a menudo una función escalón o step function) para decidir la clase de salida (0 o 1). Análisis de las Opciones Incorrectas A. Un método para agrupar datos similares en clústeres (clustering). Incorrecto. El clustering (como K-Means) es un algoritmo de aprendizaje no supervisado que agrupa datos sin etiquetas preexistentes. El Perceptrón es un clasificador de aprendizaje supervisado (requiere datos etiquetados). C. Una técnica para reducir la dimensionalidad de los datos, como el PCA. Incorrecto. La reducción de dimensionalidad (como el Análisis de Componentes Principales o PCA) es un proceso utilizado para reducir el número de características de entrada. El Perceptrón es una herramienta para la clasificación de datos, no para la simplificación de características. D. Un algoritmo para encontrar el camino más corto en un grafo. Incorrecto. Algoritmos como Dijkstra o A* se utilizan para encontrar el camino más corto en estructuras de datos conocidas como grafos. Esto no tiene relación con la función del Perceptrón, que es la clasificación en Machine Learning.
580
En el modelo del Perceptrón, ¿cuál es la función de los 'pesos' (weights)? A.Ajustar el umbral de decisión para que la neurona se active. B.Normalizar los datos de entrada para que estén en la misma escala. C.Indicar la importancia de cada una de las características de entrada para tomar la decisión final. D.Determinar la velocidad a la que el modelo aprende.
C Cada entrada tiene un peso asociado. Un peso grande (positivo o negativo) significa que esa entrada es muy influyente en la decisión. Un peso cercano a cero significa que la entrada es poco relevante. El aprendizaje consiste en ajustar estos pesos.
581
El Perceptrón aprende de sus errores. ¿En qué momento exacto ajusta sus pesos y su sesgo durante el proceso de entrenamiento? A.Solo al principio del entrenamiento, para inicializar los valores. B.Únicamente cuando la predicción que hace es incorrecta. C.Solo al final de cada época, después de ver todos los datos. D.Después de cada predicción, sin importar si fue correcta o no.
B Por qué la opción B es la correcta El algoritmo de aprendizaje del Perceptrón se basa en la idea de "aprender del error". Su funcionamiento es bastante directo: Inicialización: Los pesos y el sesgo se inicializan con valores pequeños, a menudo ceros o números aleatorios cercanos a cero. Predicción: Para cada ejemplo de entrenamiento, el Perceptrón calcula una salida (una predicción). Comparación y Ajuste: Aquí está el punto clave. El algoritmo compara la predicción con el valor real que debería haber obtenido. Si la predicción es correcta, el Perceptrón no hace nada. Considera que su configuración actual es adecuada para ese ejemplo y pasa al siguiente. Si la predicción es incorrecta, y solo en este caso, el Perceptron ajusta sus pesos y su sesgo. El objetivo de este ajuste es mover la "línea de decisión" del Perceptrón para que la próxima vez que vea ese mismo ejemplo (o uno similar), sea más probable que lo clasifique correctamente. Por lo tanto, el ajuste de los pesos y el sesgo es un proceso reactivo que ocurre únicamente cuando se comete un error. Esta es la esencia de su mecanismo de aprendizaje. Por qué las otras opciones son incorrectas A. Solo al principio del entrenamiento, para inicializar los valores. Esto es incorrecto. Al principio solo se inicializan los pesos y el sesgo, es decir, se les da un punto de partida. El aprendizaje real (el ajuste) ocurre después de esta inicialización, a medida que el modelo procesa los datos. Si solo se ajustaran al principio, el modelo nunca aprendería de los datos de entrenamiento. C. Solo al final de cada época, después de ver todos los datos. Esto describe un tipo de aprendizaje llamado "aprendizaje por lotes" (batch learning), que es diferente al aprendizaje del Perceptrón estándar. El Perceptrón original actualiza sus pesos "en línea" (online learning), es decir, ejemplo por ejemplo, tan pronto como detecta un error. No espera a ver todos los datos de una época para hacer los ajustes. D. Después de cada predicción, sin importar si fue correcta o no. Esto es incorrecto y sería ineficiente. Si el Perceptrón ajustara los pesos incluso después de una predicción correcta, estaría "corrigiendo" algo que ya funciona. Esto podría deshacer el aprendizaje previo y hacer que el modelo nunca converja hacia una solución estable. El principio es "si no está roto, no lo arregles".
582
¿Cuál es la limitación más famosa y fundamental de un Perceptrón simple? A.Tiende a sobreajustarse (overfitting) a los datos de entrenamiento. B.Solo puede resolver problemas que son 'linealmente separables'. C.Solo puede procesar datos numéricos, no texto o imágenes. D.Es computacionalmente muy lento y costoso de entrenar.
B Un Perceptrón funciona dibujando una única línea recta (o un plano en más dimensiones) para separar dos grupos de puntos. Si los grupos no se pueden separar con una sola línea (como en el famoso problema XOR), el Perceptrón es incapaz de encontrar una solución.
583
En el Perceptrón, la función de activación es una 'función escalón' (step function). ¿Qué representa esto en la analogía de la neurona biológica? A.El periodo refractario de la neurona después de disparar. B.El umbral de disparo: si la suma de las señales recibidas es suficientemente fuerte, la neurona se 'activa' (dispara), y si no, permanece inactiva. C.La velocidad a la que viaja la señal a través del axón. D.La fuerza de las conexiones sinápticas que reciben las señales. tip: Piensa en un interruptor de la luz. No puede estar 'medio encendido'. O está apagado (0) o está encendido (1).
B La función escalón implementa un umbral de decisión de todo o nada. Si la suma ponderada de las entradas supera este umbral, la salida es 1 ('disparo'). Si no lo supera, la salida es 0 ('inactiva'). Es un modelo simplificado del potencial de acción de una neurona.
584
¿Cuál es el propósito principal de la discretización o 'bucketing' en el preprocesamiento de datos? A.Reducir el número de ejemplos de entrenamiento. B.Aumentar el número de características en el dataset. C.Visualizar los datos en un gráfico de dispersión. D.Convertir características numéricas continuas en categorías. tip: Piensa en cómo agruparías las edades de las personas (un número continuo) en grupos como 'niño', 'adolescente', 'adulto'.
D al agrupar rangos de valores en 'buckets' o contenedores, se trata una variable continua como si fuera categórica.
585
En el aprendizaje supervisado, ¿qué representan la 'etiqueta' (label) y la 'característica' (feature)? A.La etiqueta es la entrada del modelo y la característica es la salida. B.La característica es un hiperparámetro y la etiqueta es el algoritmo. C.Ambas son entradas para el modelo. D.La característica es la entrada y la etiqueta es el valor que el modelo debe predecir.
D Usamos las características (ej: metros cuadrados de una casa) para entrenar al modelo a predecir la etiqueta (ej: precio de la casa).
586
¿Qué problema ocurre cuando un modelo de Machine Learning se desempeña muy bien con los datos de entrenamiento pero mal con datos nuevos? A.Sobreajuste (Overfitting) B.Clasificación C.Subajuste (Underfitting) D.Regresión
A El modelo ha 'memorizado' los datos de entrenamiento, incluyendo su ruido, en lugar de aprender el patrón general.
587
¿Cuál es la diferencia principal entre el aprendizaje supervisado y el no supervisado? A.El aprendizaje supervisado usa datos etiquetados, mientras que el no supervisado usa datos sin etiquetar. B.El aprendizaje supervisado utiliza redes neuronales y el no supervisado no. C.El aprendizaje supervisado es para regresión y el no supervisado para clasificación. D.El aprendizaje no supervisado es más preciso que el supervisado.
A El aprendizaje supervisado aprende de ejemplos con respuestas correctas (etiquetas), mientras que el no supervisado busca patrones en datos sin esas respuestas.
588
En el contexto de Machine Learning, ¿qué es un conjunto de validación (validation set)? A.Un subconjunto de los datos de entrenamiento para visualizar las características. B.Datos completamente nuevos que el modelo nunca ha visto, usados para la evaluación final. C.Un conjunto de datos usado para ajustar los hiperparámetros del modelo y evitar el sobreajuste. D.El conjunto de datos utilizado para entrenar el modelo final.
C Se usa para evaluar el modelo durante el entrenamiento con diferentes configuraciones (hiperparámetros) sin 'contaminar' el conjunto de prueba.
589
Predecir si un correo electrónico es 'spam' o 'no spam' es un ejemplo de ¿qué tipo de problema? A.Clustering (Agrupamiento) B.Regresión C.Clasificación D.Reducción de dimensionalidad
C Estamos asignando cada correo a una de dos categorías discretas y predefinidas.
590
¿Qué mide una función de pérdida (loss function)? A.La diferencia entre la predicción del modelo y el valor real (la etiqueta). B.La cantidad de memoria RAM utilizada por el modelo. C.El número de características de entrada. D.La velocidad de entrenamiento del modelo.
A Cuantifica qué tan 'equivocado' está el modelo en sus predicciones, y el objetivo del entrenamiento es minimizar este valor.
591
Si estás construyendo un modelo para predecir el precio exacto de las acciones de una empresa para mañana, ¿qué tipo de tarea de ML estás realizando? A.Clustering B.Clasificación binaria C.Regresión D.Aprendizaje por refuerzo
C El objetivo es predecir un valor numérico continuo (el precio), lo cual es la definición de una tarea de regresión.
592
En una red neuronal, ¿qué es un 'peso' (weight)? A.Un parámetro que indica la importancia de una conexión entre neuronas. B.El dato de entrada que se introduce en la red. C.La predicción final que produce la red. D.Un valor fijo que define la arquitectura de la red.
A La red 'aprende' ajustando estos pesos para dar más o menos importancia a ciertas entradas y así mejorar la precisión de sus predicciones.
593
¿Para qué sirve un optimizador (optimizer) como 'Adam' o 'SGD' en el entrenamiento de un modelo? A.Para dividir los datos en conjuntos de entrenamiento y prueba. B.Para elegir qué tipo de modelo usar (regresión o clasificación). C.Para visualizar la función de pérdida. D.Para actualizar los pesos del modelo de manera eficiente y reducir la función de pérdida.
D El optimizador es el algoritmo que implementa la estrategia para modificar los pesos del modelo basándose en el error (pérdida) calculado.
594
Terminas de entrenar 5 versiones diferentes de tu modelo. Para decidir cuál es la mejor antes de dar el proyecto por finalizado, ¿qué conjunto de datos deberías usar? A.El conjunto de entrenamiento. B.El conjunto de testeo. C.El conjunto de validación. D.Todos los datos juntos.
C El conjunto de validación está diseñado precisamente para esto: comparar el rendimiento de diferentes modelos o configuraciones y elegir el ganador.
595
El resultado que publicas en tu informe final para demostrar la calidad de tu modelo proviene de la evaluación sobre... A.El conjunto de validación. B.La media de los tres conjuntos. C.El conjunto de entrenamiento. D.El conjunto de testeo.
D El rendimiento en el conjunto de testeo es la métrica final y más honesta sobre cómo se comportará tu modelo con datos nuevos y desconocidos.
596
Detectas que tu modelo tiene un 99% de acierto en el conjunto de entrenamiento, pero solo un 70% en el de validación. ¿Qué problema estás observando? A.Subajuste (Underfitting). B.Un buen ajuste (Good fitting). C.Sobreajuste (Overfitting). D.Fuga de datos (Data leakage).
C Una gran diferencia de rendimiento entre los datos de entrenamiento (que 'memoriza') y los de validación (que no conoce) es el síntoma clásico del sobreajuste.
597
Dado este codigo: %tensorflow_version 2.x import tensorflow as tf from tensorflow import keras (x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data() Define your model model = tf.keras.models.Sequential([ tf.keras.layers.Flatten(), tf.keras.layers.Dense(10, activation='softmax') ]) En la línea `(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()`, ¿qué representa `y_train`? A.Las imágenes de dígitos que usaremos para entrenar. B.Un conjunto de datos para la validación. C.Las etiquetas (el dígito correcto, de 0 a 9) para cada imagen de entrenamiento. D.Las imágenes que usaremos para el testeo final.
C `y_train` contiene las respuestas correctas que el modelo usará para aprender. Es la 'etiqueta' o 'label'.
598
Dado este codigo: %tensorflow_version 2.x import tensorflow as tf from tensorflow import keras (x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data() Define your model model = tf.keras.models.Sequential([ tf.keras.layers.Flatten(), tf.keras.layers.Dense(10, activation='softmax') ]) ¿Cuál es el propósito de la capa `tf.keras.layers.Flatten()`? A.Seleccionar los píxeles más importantes de la imagen. B.Aumentar el tamaño de las imágenes para que el modelo aprenda mejor. C.Reducir el número de colores de la imagen a blanco y negro. D.Convertir la matriz 2D de la imagen (28x28 píxeles) en un vector 1D (784 píxeles).
D Por qué la opción D es la correcta D. Convertir la matriz 2D de la imagen (28x28 píxeles) en un vector 1D (784 píxeles). Formato de Entrada: Las imágenes del dataset MNIST son matrices de 28x28 píxeles. Piensa en ellas como una cuadrícula o una pequeña hoja de cálculo con 28 filas y 28 columnas. Requisito de la Siguiente Capa: La capa que sigue, tf.keras.layers.Dense, también conocida como capa "totalmente conectada", necesita que su entrada sea un vector plano (una única fila larga de números). No puede trabajar directamente con una matriz 2D. La Función de Flatten: La capa Flatten actúa como un adaptador. Toma la matriz de 28x28 y la "aplana" o "desenrolla", colocando cada fila una detrás de la otra para crear un único vector largo. El número total de píxeles no cambia: 28 * 28 = 784. Imagina que la imagen es una alfombra pequeña y cuadrada. La capa Dense necesita que se la entregues como un pasillo largo y estrecho. Flatten es la acción de desenrollar la alfombra. Por qué las otras opciones son incorrectas A. Seleccionar los píxeles más importantes de la imagen. Flatten no selecciona ni descarta ninguna información. Simplemente reorganiza todos los píxeles existentes. Las capas que seleccionan características importantes son otras, como las capas de convolución o de pooling. B. Aumentar el tamaño de las imágenes para que el modelo aprenda mejor. Esta capa no altera la cantidad de datos; una matriz de 28x28 y un vector de 784 contienen exactamente la misma cantidad de información. Aumentar el tamaño de las imágenes es una técnica de aumento de datos (data augmentation) que se realiza con otras herramientas. C. Reducir el número de colores de la imagen a blanco y negro. El dataset MNIST ya viene en escala de grises. Además, Flatten no tiene ninguna función relacionada con el color; es una operación puramente estructural que cambia la forma (shape) del tensor de datos.
599
Dado este codigo: %tensorflow_version 2.x import tensorflow as tf from tensorflow import keras (x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data() Define your model model = tf.keras.models.Sequential([ tf.keras.layers.Flatten(), tf.keras.layers.Dense(10, activation='softmax') ]) ¿Por qué la capa `Dense` tiene exactamente 10 neuronas (`Dense(10, ...)`?) A.Porque hay 10 posibles dígitos a predecir (del 0 al 9). B.Para que el modelo sea 10 veces más rápido. C.Es un número estándar que funciona bien para cualquier problema. D.Es un hiperparámetro que se eligió al azar y podría ser cualquier otro valor.
A Cada neurona en la capa de salida representará la probabilidad de que la imagen corresponda a uno de los dígitos. Necesitamos una neurona por cada clase.
600
%tensorflow_version 2.x import tensorflow as tf from tensorflow import keras (x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data() Define your model model = tf.keras.models.Sequential([ tf.keras.layers.Flatten(), tf.keras.layers.Dense(10, activation='softmax') ]) En la capa de salida se usa `activation='softmax'`. ¿Cuál es su función en este modelo? A.Decidir si la predicción es simplemente 'correcta' o 'incorrecta'. B.Normalizar los píxeles de la imagen de entrada. C.Hacer que todas las predicciones negativas se conviertan en cero. D.Convertir las salidas numéricas de la red en un conjunto de probabilidades que suman 1.
D Si la red produce valores como [-2.1, 5.8, 0.5, ...], softmax los transforma en probabilidades (ej: [0.01, 0.90, 0.02, ...]), indicando que la imagen tiene un 90% de probabilidad de ser el segundo dígito.
601
Has creado un script en Python que usa la librería `transformers` para procesar texto. Lo empaquetas todo en una imagen de Docker. La URI que apunta a esta imagen que acabas de crear es la... A.Pipeline Root URI B.Executor Image URI C.Component Spec URI D.Container Image URI
D Esta es la imagen que contiene tu entorno personalizado con tu código y las librerías que necesita para funcionar.
602
¿Qué imagen es la responsable de la 'logística' de un paso del pipeline, como leer los datos de entrada y pasar los resultados al siguiente paso? A.La imagen del contenedor (container image). B.La imagen del ejecutor (executor image). C.Ambas por igual. D.Ninguna, eso lo hace directamente Kubernetes.
B El ejecutor actúa como el 'jefe de planta', gestionando las entradas y salidas para que tu contenedor pueda hacer su trabajo.
603
Como ingeniero de Machine Learning que está creando un pipeline, ¿cuál de estas dos URIs es la que casi siempre tendrás que gestionar y especificar tú mismo? A) La executor image uri B) Ninguna, la plataforma las elige automáticamente C) La container image uri D) Ambas, siempre tienes que crear las dos
C 🟢 Por qué la C es la correcta: container image uri En un pipeline de Machine Learning moderno (como los que se usan en Kubeflow, Vertex AI, o TFX), cada paso del pipeline (ej. "preparar datos", "entrenar modelo", "evaluar modelo") se ejecuta como un contenedor (generalmente Docker). ¿Qué es la container image? Es la "caja" queTú, como ingeniero de ML, creas. Contiene tu código específico (tus scripts de Python), tus dependencias (como TensorFlow, scikit-learn, pandas) y todo lo necesario para que ese paso funcione. ¿Por qué tienes que gestionarla? La plataforma (Kubeflow, Vertex AI, etc.) no tiene idea de cómo es tu código de entrenamiento o qué librerías usas. Tu trabajo es: Escribir el script (ej. train.py). Crear un Dockerfile que instale Python, tus librerías y copie tu script. Construir esa imagen de Docker. Subirla a un registro de contenedores (como Google Artifact Registry, GCR, o Docker Hub). El URI: La container image uri es la "dirección" de esa imagen en el registro (ej. gcr.io/mi-proyecto/mi-imagen-de-entrenamiento:latest). Tienes que especificar explícitamente esta URI en la definición de tu pipeline para que la plataforma sepa qué imagen debe descargar y ejecutar para ese paso. En resumen: La container image contiene tu lógica, por lo tanto, tú la creas y tú proporcionas su URI. 🔴 Por qué las otras son incorrectas A. La executor image uri ¿Qué es? El "ejecutor" es un componente de la plataforma del pipeline. Es una imagen de contenedor genérica que sabe cómo "envolver" y ejecutar tu contenedor (container image). ¿Quién la gestiona? La plataforma (Google, Amazon, etc.) la proporciona y gestiona. Su trabajo es arrancar tu contenedor, pasarle los artefactos de entrada (como el dataset), recoger los de salida (como el modelo entrenado) y registrar los metadatos. ¿Por qué es incorrecta? Tú casi nunca tienes que especificar o modificar esta imagen. Usas la que la plataforma te da por defecto. Solo la modificarías en escenarios muy avanzados de personalización de la propia plataforma, no en el día a día de crear pipelines de ML. B. Ninguna, la plataforma las elige automáticamente ¿Por qué es incorrecta? Esto es parcialmente cierto para la executor image uri, pero es completamente falso para la container image uri. La plataforma no puede "elegir automáticamente" o adivinar dónde está el código personalizado que tú has escrito para entrenar tu modelo. D. Ambas, siempre tienes que crear las dos ¿Por qué es incorrecta? Como se explicó en el punto A, tú no gestionas ni creas la executor image uri. Tu responsabilidad se centra casi exclusivamente en la container image uri que contiene tu código. Analogía para entenderlo mejor Imagina que el pipeline es un restaurante de comida rápida muy automatizado (la plataforma). El executor image: Es el brazo robótico genérico que tiene el restaurante. Está diseñado para coger una caja de ingredientes, cocinarla y ponerla en una bandeja. El restaurante te proporciona este robot, tú no lo construyes. El container image: Es la caja sellada con tus ingredientes y tu receta únicos (tu código y librerías). Tu trabajo: Tú tienes que (1) preparar esa caja con tu receta (container image) y (2) darle al robot la "dirección" de dónde encontrar esa caja (container image uri) para que pueda cocinarla. Tú solo te encargas de la receta (C), no del robot (A).
604
¿Cuál es la función principal de un archivo `__init__.py` completamente vacío dentro de un directorio? A.Hacer que Python trate ese directorio como un paquete importable. B.Listar las dependencias del proyecto. C.Almacenar variables de entorno para el proyecto. D.Contener la función principal que ejecuta todo el programa.
A Esta es su función más fundamental. Sin él, Python no ve el directorio como un paquete.
605
Tienes una función `entrenar_modelo` en `mi_proyecto/modelos/entrenamiento.py`. ¿Qué escribirías en `mi_proyecto/modelos/__init__.py` para poder importarla usando `from mi_proyecto.modelos import entrenar_modelo`? A.import entrenamiento B.from .entrenamiento import entrenar_modelo C.require('entrenamiento.py') D.from mi_proyecto.modelos.entrenamiento import entrenar_modelo
B El punto `.` indica una importación relativa desde el mismo directorio, exponiendo la función directamente en el nivel del paquete `modelos`.
606
Si tienes una carpeta `mi_proyecto` con un módulo `mi_script.py` dentro, pero olvidas crear el archivo `__init__.py` en `mi_proyecto`, ¿qué error obtendrás si intentas ejecutar `import mi_proyecto.mi_script` desde fuera? A.IndentationError B.ModuleNotFoundError C.SyntaxError D.TypeError
B Como `mi_proyecto` no es reconocido como un paquete (porque le falta `__init__.py`), Python no puede encontrar el módulo `mi_script` dentro de él.
607
En un modelo para clasificar imágenes de perros en 120 razas diferentes, ¿cuál es la principal intuición detrás de usar una arquitectura decreciente (en embudo)? A.Para mantener toda la información de los píxeles originales hasta la capa final. B.Para asegurar que el modelo entrene más rápido. C.Forzar a la red a aprender representaciones cada vez más abstractas y comprimidas de la imagen. D.Porque es la única forma que permite usar la función de activación 'softmax' al final.
C Se empieza con características simples (píxeles, bordes) y se obliga a la red a combinarlas en conceptos complejos (orejas, hocico) hasta llegar a la raza.
608
¿En qué escenario podría ser beneficioso usar varias capas seguidas con el mismo número de neuronas (ej: 512 -> 512)? A.Cuando se tienen muy pocos datos de entrenamiento y se quiere evitar el sobreajuste. B.Para obligar al modelo a resumir la información lo más rápido posible. C.Principalmente cuando se trabaja con datos tabulares y no con imágenes. D.Cuando el objetivo es realizar transformaciones complejas de las características sin perder la riqueza de la información.
D Se mantiene el 'ancho de banda' de la información para permitir que la red aprenda relaciones complejas sin crear un cuello de botella prematuro.
609
Como principiante, estás construyendo tu primera red neuronal para un problema de clasificación estándar. ¿Cuál sería el enfoque más sensato y convencional? A.Comenzar con una arquitectura decreciente, con 2 o 3 capas ocultas. B.Usar una única capa oculta con un número muy grande de neuronas. C.Empezar con una arquitectura creciente (ej: 64 -> 128 -> 256 neuronas). D.Alternar capas anchas y estrechas (ej: 512 -> 64 -> 512).
A Esta es una base sólida y un punto de partida muy común. Es intuitivo, funciona bien en muchos problemas y es fácil de razonar.
610
En un modelo de traducción automática, ¿cuál es la función principal del encoder? A.Corregir la gramática de la frase de entrada antes de traducirla. B.Generar la frase traducida en el nuevo idioma. C.Traducir la frase original palabra por palabra, en orden. D.Procesar la frase de entrada y comprimir todo su significado en un vector de contexto.
D El encoder 'lee' y 'entiende' la entrada para crear una representación numérica que encapsula su significado.
611
El decoder comienza su proceso de generación. ¿Cuál es su principal fuente de información para saber qué tiene que generar? A.El vector de contexto que le pasa el encoder. B.Una copia directa de la secuencia de entrada completa. C.Una palabra aleatoria para empezar a ser creativo. D.La primera palabra de la secuencia de entrada.
A El vector de contexto es la única información que tiene el decoder sobre la secuencia de entrada. Es su 'guía' o 'memoria'.
612
¿Por qué la arquitectura encoder-decoder es especialmente adecuada para la traducción automática, a diferencia de una red neuronal simple? A.Porque permite que la longitud de la frase de entrada y la de salida sean diferentes. B.Porque utiliza menos memoria que otras redes. C.Porque solo funciona con texto y está especializada en idiomas. D.Porque es mucho más rápida que otras redes.
A Por qué la opción A es la correctaA. Porque permite que la longitud de la frase de entrada y la de salida sean diferentes.Esta es la ventaja fundamental y la razón por la que se inventó esta arquitectura (también conocida como Sequence-to-Sequence o Seq2Seq).Red Neuronal Simple (ej. RNN simple): Una RNN simple tiende a mapear una entrada a una salida de manera sincronizada. Por ejemplo, $entrada_1 \to salida_1$, $entrada_2 \to salida_2$. Esto funciona para tareas como etiquetar partes del discurso (cada palabra de entrada recibe una etiqueta de salida). Pero en la traducción, esto es imposible.Problema de Traducción: Las frases casi nunca tienen la misma longitud en diferentes idiomas."It is raining" (3 palabras) se traduce como "Llueve" (1 palabra)."I am hungry" (3 palabras) se traduce como "Tengo hambre" (2 palabras).Solución Encoder-Decoder:El Encoder (codificador) lee la frase de entrada completa (ej. "It is raining") y la comprime en un vector de números (un "vector de contexto" o "pensamiento") que representa el significado de toda la frase.El Decoder (decodificador) toma ese vector de significado y comienza a generar la frase de salida palabra por palabra (ej. "Llueve"), parando cuando decide que la frase está completa.Esta arquitectura de dos pasos desacopla la entrada de la salida, permitiendo que un encoder lea 3 palabras y un decoder genere 1 palabra (o viceversa).Por qué las otras opciones son incorrectasB. Porque utiliza menos memoria que otras redes.Incorrecto: Es todo lo contrario. Los modelos de traducción (especialmente los basados en Transformers, que son una evolución del encoder-decoder) son de los modelos más grandes y que más memoria consumen en el mundo del deep learning.C. Porque solo funciona con texto y está especializada en idiomas.Incorrecto: La arquitectura encoder-decoder es un concepto general. Se usa en muchas otras tareas, como la generación de subtítulos para imágenes (el encoder es una red de visión que "lee" la imagen y el decoder es una RNN que escribe el texto) o el reconocimiento de voz (el encoder "lee" el audio y el decoder "escribe" el texto).D. Porque es mucho más rápida que otras redes.Incorrecto: No es necesariamente más rápida. El proceso (especialmente el del decoder, que genera una palabra a la vez) puede ser bastante lento durante la inferencia (traducción real). Se elige por su capacidad para resolver el problema, no por su velocidad.
613
En una tarea de generación de descripciones para una imagen (Image Captioning), ¿qué tipo de red esperarías que actuara como encoder? A.Una Red Neuronal Convolucional (CNN) para extraer las características visuales. B.Una Red Neuronal Recurrente (RNN) para procesar la secuencia de píxeles. C.Un modelo de regresión lineal para obtener los valores de los píxeles. D.Otro decoder, pero a la inversa.
A Las CNN son expertas en 'entender' imágenes y extraer sus características. Su salida puede ser aplanada para formar el vector de contexto.
614
¿Cuál es la razón principal por la que los frameworks de ML usan C++ en su 'backend'? A.Porque todos los científicos de datos son expertos en C++. B.Para que los modelos de ML puedan usar más memoria RAM. C.Para el rendimiento: C++ es muchísimo más rápido que Python para los cálculos numéricos intensivos. D.Porque C++ es un lenguaje más moderno y fácil de escribir que Python.
C La velocidad es la razón fundamental. Las operaciones matriciales que sustentan el deep learning serían inviables en Python puro.
615
Cuando ejecutas el comando `model.compile()` en Keras (TensorFlow), ¿qué está sucediendo realmente? A.Se está comprobando si tienes un compilador de C++ instalado en tu ordenador. B.El modelo ya se está entrenando con los datos. C.Se está configurando el plan de entrenamiento: se especifica el optimizador, la función de pérdida y las métricas. D.Tu código Python se está traduciendo línea por línea a código C++.
C `compile()` prepara el 'grafo de computación' y define las herramientas (optimizador, pérdida) que el backend de C++ usará durante el entrenamiento.
616
Como científico de datos que usa un framework como Keras o PyTorch, ¿qué necesitas saber o hacer tú con respecto a C++ en tu día a día? A.Instalar manualmente un compilador de C++ y enlazarlo con tu entorno de Python. B.Nada, generalmente. El framework gestiona la interacción con el backend de C++ de forma transparente. C.Escribir funciones personalizadas en C++ para cada capa nueva que diseñe. D.Revisar y depurar el código C++ subyacente cuando tu modelo no converge.
B La belleza de estos frameworks es que te abstraen de la complejidad del hardware y del código de bajo nivel. Tú te centras en la lógica del modelo en Python.
617
¿Cuál es la función principal de Google Artifact Registry en un flujo de trabajo de Machine Learning? A.Escribir el código Python del modelo de Machine Learning. B.Ejecutar la imagen de contenedor para entrenar el modelo. C.Almacenar, gestionar y proteger las imágenes de contenedor y otros paquetes de software. D.Construir la imagen de contenedor a partir de un Dockerfile.
C Artifact Registry actúa como un repositorio central y seguro para los 'entregables' de software, como las imágenes de contenedor.
618
Necesitas definir el entorno para tu modelo, especificando que use Python 3.9, copie tu script `train.py` e instale las librerías de `requirements.txt`. ¿Dónde escribes estas instrucciones? A.En un archivo de configuración de Kubernetes llamado `deployment.yaml`. B.Dentro del comando `model.compile()` de tu script de TensorFlow. C.En un archivo llamado Dockerfile. D.Directamente en la consola web de Artifact Registry.
C El Dockerfile es el 'plano' o la 'receta' que contiene todas las instrucciones para construir el entorno de tu aplicación.
619
Acabas de construir con éxito tu imagen en tu ordenador local usando el comando `docker build`. ¿Cuál es el siguiente paso lógico para que esa imagen pueda ser utilizada por otros servicios de Google Cloud como Vertex AI? A.Enviar el Dockerfile por correo electrónico al administrador de la nube. B.Borrar la imagen de tu ordenador para ahorrar espacio. C.Subir (hacer 'push') la imagen a un repositorio en Artifact Registry. D.Ejecutar `docker build` de nuevo para asegurarte.
C Para que otros servicios en la nube puedan acceder a tu imagen, primero debe estar en un registro centralizado como Artifact Registry.
620
Quieres medir cuánto tiempo tarda en ejecutarse un bloque de código de 5 líneas que tienes en una celda. ¿Qué magic function usarías? A.%time B.%%timeit C.%%time D.%timeit
B `%%` indica que es una 'cell magic', por lo que se aplica a toda la celda. `timeit` es el comando para medir el tiempo de forma precisa.
621
Estás trabajando en un notebook y tus gráficos de Matplotlib no aparecen. ¿Cuál es la magic function más común que necesitas ejecutar primero? A.!import matplotlib B.%%show plots C.%matplotlib notebook D.%matplotlib inline
D Este comando le dice a Jupyter que 'incruste' los resultados gráficos estáticos directamente en la salida de la celda.
622
¿Cuál de las siguientes afirmaciones sobre las magic functions es VERDADERA? A.Son parte de la librería estándar de Python y se pueden usar en cualquier script .py. B.Solo sirven para medir el tiempo y mostrar gráficos. C.Siempre deben escribirse al final de una celda de código. D.Son atajos que extienden la funcionalidad de un notebook, permitiendo ejecutar comandos especiales.
D Esa es su definición. Son comandos que no son Python puro pero que el entorno del notebook entiende y ejecuta.
623
Llevas 4 días entrenando un modelo y se produce un corte de luz. Si has estado guardando checkpoints cada hora, ¿cuál es la situación? A.Solo puedes ver los resultados hasta ese punto, pero no seguir entrenando. B.El modelo continuará entrenando automáticamente cuando vuelva la luz. C.Puedes cargar el último checkpoint y reanudar el entrenamiento, perdiendo como máximo una hora de progreso. D.Debes empezar el entrenamiento de nuevo desde cero.
C Esta es la principal ventaja de los checkpoints para la tolerancia a fallos. Minimizas la pérdida de trabajo.
624
Configuras un checkpoint para que se guarde solo cuando la métrica `val_loss` (pérdida en el conjunto de validación) disminuye. ¿Cuál es el principal beneficio de esta estrategia? A.Guarda un checkpoint en cada época, ocupando mucho espacio en disco. B.Garantiza que el modelo alcanzará una pérdida de cero. C.Hace que el entrenamiento sea mucho más rápido. D.Te aseguras de que, al final del proceso, tienes guardada la versión del modelo que mejor generaliza a datos no vistos.
D Esta estrategia te protege del sobreajuste (overfitting), guardando el modelo en su punto óptimo, incluso si después empezó a empeorar.
625
¿Cuál es el componente más importante que se guarda en un checkpoint para poder reanudar un entrenamiento? A.El script de Python que se usó para el entrenamiento. B.Los pesos (weights) del modelo. C.El conjunto de datos de entrenamiento completo. D.Un informe con las métricas de cada época.
B Los pesos son la esencia de lo que el modelo ha aprendido. Sin ellos, el modelo estaría como recién inicializado.
626
¿Cuál es la consecuencia principal de elevar los errores al cuadrado en el cálculo del RMSE? A.Hace que el error sea más fácil de interpretar. B.Penaliza los errores grandes mucho más que los errores pequeños. C.Elimina los valores atípicos (outliers) del conjunto de datos. D.Asegura que todos los errores sean positivos.
B Este es el efecto clave. Un error 10 veces más grande no contribuye 10 veces más al total, sino 100 veces más (10 al cuadrado).
627
Un modelo de predicción de precios de coches tiene un RMSE de 2.500 €. ¿Cuál es la interpretación más correcta de este valor? A.La suma de todos los errores al cuadrado es 2.500. B.En promedio, las predicciones del modelo se desvían unos 2.500 € del precio real. C.El precio medio de los coches es de 2.500 €. D.El error máximo que ha cometido el modelo es de 2.500 €.
B El RMSE te da una idea de la magnitud del error típico de tu modelo en las mismas unidades que la variable objetivo.
628
Si estás construyendo un modelo para un negocio donde los errores muy grandes son inaceptables y deben ser evitados a toda costa (por ejemplo, predecir la tensión en un componente crítico), ¿por qué sería RMSE una métrica de pérdida adecuada para entrenar tu modelo? A.Porque RMSE es menos sensible a los valores atípicos (outliers). B.Porque RMSE es la única métrica que se puede usar en problemas de regresión. C.Porque el gran castigo que aplica a los errores grandes forzará al modelo a priorizar la reducción de esos errores. D.Porque es la métrica más fácil y rápida de calcular.
C Al minimizar el RMSE durante el entrenamiento, el modelo aprenderá que cometer un error garrafal es extremadamente 'caro' y ajustará sus pesos para evitarlos.
629
¿Cuál es una de las ideas centrales de la programación funcional? A.Ejecutar una secuencia de comandos que van cambiando el estado del programa. B.Encapsular los datos y los métodos que operan sobre ellos dentro de objetos. C.Dividir el programa en pequeños procedimientos que se llaman unos a otros. D.Evitar la modificación de los datos (inmutabilidad) y tratar las funciones como valores.
D La programación funcional se centra en transformar datos para crear nuevos datos, en lugar de modificar los originales, y en usar funciones como bloques de construcción fundamentales.
630
Tienes una lista de precios `[100, 200, 300]` y quieres aplicarles un 21% de IVA a todos. ¿Cuál sería la forma más 'funcional' de hacerlo? A.Copiar la lista tres veces y sumar los valores a mano. B.Crear una clase `Producto` con un método `aplicar_iva()`. C.Usar la función `map()` con una función que calcule el IVA, para generar una nueva lista. D.Usar un bucle `for` para recorrer la lista y modificar cada precio en la lista original.
C map()` es una función de orden superior que aplica una función de transformación a cada elemento de un iterable, produciendo uno nuevo. Es el enfoque funcional por excelencia.
631
Una función `actualizar_log()` escribe un mensaje en un archivo de texto en el disco duro cada vez que es llamada. ¿Por qué esta función NO es una función 'pura'? A.Porque no devuelve ningún valor numérico. B.Porque tiene un 'efecto secundario' (side effect): modifica el estado del sistema fuera de su propio ámbito. C.Porque los archivos de texto no son compatibles con la programación funcional. D.Porque el nombre de la función es demasiado largo.
B Por qué la opción B es la correcta B. Porque tiene un 'efecto secundario' (side effect): modifica el estado del sistema fuera de su propio ámbito. Para que una función sea considerada 'pura', debe cumplir dos reglas estrictas: Ser determinista: Dados los mismos argumentos de entrada, siempre debe devolver el mismo resultado. No tener efectos secundarios: La función no puede modificar nada fuera de su propio ámbito local. Un "efecto secundario" (side effect) es cualquier acción que la función realiza y que afecta al mundo exterior, por ejemplo: Modificar una variable global. Imprimir un mensaje en la consola. Llamar a una API de red. O, como en este caso, escribir en un archivo del disco duro. La función actualizar_log() viola la segunda regla. Al escribir en un archivo, está modificando el estado del sistema de archivos, que está completamente fuera de la función. Esto la convierte en una función 'impura'. Por qué las otras opciones son incorrectas A. Porque no devuelve ningún valor numérico. Incorrecto: La pureza de una función no tiene nada que ver con el tipo de dato que devuelve. Una función pura puede devolver un string, un booleano, una lista, o incluso nada (void/None), siempre y cuando cumpla las dos reglas. C. Porque los archivos de texto no son compatibles con la programación funcional. Incorrecto: Esto no tiene sentido. La programación funcional (el paradigma que usa funciones puras) puede interactuar perfectamente con archivos. Simplemente, las funciones que realizan esas operaciones de I/O (entrada/salida) se consideran 'impuras' y se suelen aislar del resto de la lógica pura del programa. D. Porque el nombre de la función es demasiado largo. Incorrecto: Las reglas de estilo o la longitud del nombre de una función son completamente irrelevantes para su comportamiento o su pureza.
632
En Python, la capacidad de guardar una función en una variable (`mi_funcion = len`) o pasarla como argumento a otra función se conoce como... A.Herencia B.Funciones como 'ciudadanos de primera clase' (first-class citizens). C.Polimorfismo D.Compilación en tiempo de ejecución.
B Este término significa que las funciones no son especiales y pueden ser tratadas como cualquier otro tipo de dato (enteros, strings, listas...).
633
¿Cuál es el propósito principal del comando `python -m `? A.Comprobar si un módulo tiene errores de sintaxis sin llegar a ejecutarlo. B.Importar un módulo dentro de otro script de Python. C.Encontrar un módulo usando las rutas de búsqueda de Python y ejecutarlo como un programa principal. D.Instalar un módulo desde internet.
C Busca el módulo por su nombre en el entorno y lo ejecuta, lo que lo hace muy robusto.
634
Estás en tu carpeta de 'Descargas' en la terminal, pero tu proyecto con un entorno virtual está en 'Documentos/proyecto'. ¿Por qué el comando `python -m pip install pandas` funcionaría correctamente para ese entorno (si está activado) sin importar desde dónde lo llames? A.No funcionaría, siempre debes estar en la misma carpeta que el ejecutable de `pip`. B.Porque `pip install` es un comando universal del sistema operativo. C.Porque `pip` siempre se instala en la carpeta de 'Descargas'. D.Porque `-m` hace que Python busque `pip` en su 'path' de búsqueda, que se actualiza al activar un entorno virtual.
D ✅ La Respuesta Correcta: D) Esta respuesta es correcta porque describe perfectamente la cadena de eventos: "si está activado" (El paso clave): Cuando "activas" tu entorno virtual (ej. con source Documentos/proyecto/venv/bin/activate), tu terminal (shell) modifica su variable PATH. Específicamente, pone la carpeta bin de tu entorno virtual al principio de la lista. El comando python ...: Ahora, cuando escribes python (sin importar desde qué carpeta), la terminal busca en el PATH, encuentra la versión de python de tu entorno virtual primero y la ejecuta. Ya no está ejecutando el Python "global" de tu sistema. El flag -m pip: El flag -m le dice a ese ejecutable de Python: "Quiero que busques un módulo (package) llamado pip en tus carpetas de módulos y lo ejecutes como un script". El "path" de búsqueda de Python: El Python de tu entorno virtual está configurado para buscar módulos solo dentro de la carpeta lib/site-packages de ese entorno. Ahí es donde vive el pip que instalaste para ese proyecto. En resumen: No importa que estés en Descargas. Al activar el entorno, python apunta al intérprete correcto, y -m pip le dice a ese intérprete que use su propia versión de pip. Es la forma más robusta de llamar a pip y asegura que siempre usas el del entorno activo. ❌ Por Qué las Otras Opciones Son Incorrectas A. No funcionaría, siempre debes estar en la misma carpeta que el ejecutable de pip. Esto es falso. El propósito de la variable PATH del sistema operativo es precisamente permitirte ejecutar comandos (como python, git, ls, etc.) desde cualquier carpeta, sin tener que navegar a la carpeta exacta donde viven sus archivos ejecutables. B. Porque pip install es un comando universal del sistema operativo. Esto es incorrecto. pip no es un comando del sistema operativo (como cd en Linux/macOS o dir en Windows). Es un programa separado, un gestor de paquetes de Python. Tiene que ser instalado y encontrado a través del PATH, y es específico de una instalación de Python. C. Porque pip siempre se instala en la carpeta de 'Descargas'. Esto es completamente falso. La carpeta de Descargas es solo el directorio de trabajo actual (desde dónde estás ejecutando el comando). No tiene nada que ver con dónde están instalados los programas. pip se instala junto con su versión de Python correspondiente (en la carpeta bin o Scripts del entorno).
635
¿Cuál es la forma recomendada y más robusta de crear un entorno virtual llamado `entorno_ml`? A.python -m venv entorno_ml B.python crear_entorno.py entorno_ml C.pip install venv entorno_ml D.venv --create entorno_ml
A Esto usa el intérprete de Python activo para ejecutar el módulo `venv` y crear un entorno, asegurando la consistencia.
636
¿Qué representa exactamente un 'step' (paso) en el contexto del entrenamiento de una red neuronal? A.Una pasada completa por todo el conjunto de datos. B.El número total de veces que el modelo se entrena. C.El procesamiento de un único lote (batch) de datos, seguido de una actualización de los pesos del modelo. D.El procesamiento de un único ejemplo (una imagen, una fila de datos).
C Un paso equivale a procesar un lote y realizar una actualización de gradiente. Son conceptos intercambiables en este contexto.
637
Tienes un dataset con 50.000 muestras de entrenamiento y eliges un tamaño de lote (batch size) de 500. ¿Cuántos 'steps per epoch' habrá? A.500 B.1.000 C.100 D.50.000
C Se necesitan 100 lotes de 500 muestras cada uno para procesar las 50.000 muestras totales (50.000 / 500 = 100).
638
Mantienes tu dataset sin cambios, pero decides **disminuir** el tamaño del lote (batch size), por ejemplo, de 64 a 32. ¿Qué le pasará al número de 'steps per epoch'? A.Disminuirá. B.El programa dará un error. C.Aumentará. D.Se mantendrá igual.
C Si los lotes son más pequeños, necesitarás dar más pasos (procesar más lotes) para completar una pasada por todo el dataset.
639
¿Cuál es el propósito principal de la función de activación softmax en una red neuronal? A.Hacer que todos los valores negativos se conviertan en cero. B.Seleccionar la única neurona con el valor más alto y poner las demás a cero. C.Acelerar el tiempo de entrenamiento del modelo. D.Convertir las puntuaciones numéricas de la última capa (logits) en una distribución de probabilidad.
D Toma números cualesquiera (positivos, negativos) y los transforma en probabilidades (valores de 0 a 1 que suman 1).
640
La capa de salida de un modelo para clasificar noticias en 'deportes', 'economía' o 'cultura' produce, después de aplicar softmax, el vector `[0.65, 0.25, 0.10]`. ¿Cómo se interpreta este resultado? A.Hay 0.65 noticias de deportes en el texto. B.La noticia es un 65% sobre deportes y un 35% sobre otros temas. C.El modelo no está seguro, ya que ningún valor es 1.0. D.El modelo predice que la noticia es de 'deportes' con una confianza del 65%.
D El modelo asigna una probabilidad a cada clase y la más alta (0.65 para 'deportes') es la predicción final.
641
Un modelo produce los logits `[2.0, -1.0, 0.0]`. Después de aplicar softmax, ¿cuál de los siguientes podría ser un resultado VÁLIDO? A. [1.0, 0.0, 0.0] B. [0.87, 0.04, 0.09] C. [0.5, -0.2, 0.7] D. [2.0, 0.0, 1.0]
B Propósito de la función softmax Convierte un vector de números reales (logits) en una distribución de probabilidad. Una distribución de probabilidad debe cumplir: Todas las probabilidades ≥ 0 (no negativos). La suma total = 1.0. Propiedad clave Es monótona: preserva el orden de los logits. El logit más alto → probabilidad más alta. El logit más bajo → probabilidad más baja. Ejemplo de entrada (logits) [2.0, -1.0, 0.0] Posición 0 → logit más alto (2.0) Posición 2 → logit medio (0.0) Posición 1 → logit más bajo (-1.0) Orden esperado de salida: Posición 0 > Posición 2 > Posición 1 ✅ Opción correcta: (B) [0.87, 0.04, 0.09] ¿Negativos? → No, todas positivas. ¿Suma = 1.0? → Sí, 0.87 + 0.04 + 0.09 = 1.0. ¿Preserva el orden? → Sí: 0.87 (pos. 0) → logit más alto (2.0) 0.09 (pos. 2) → logit medio (0.0) 0.04 (pos. 1) → logit más bajo (-1.0) Orden: 0.87 > 0.09 > 0.04 → coincide con lo esperado. ❌ Opciones incorrectas A) [1.0, 0.0, 0.0] Softmax nunca da ceros exactos (solo si logit = -∞). Esto es “hard‑max”, no softmax. C) [0.5, -0.2, 0.7] Contiene un valor negativo (-0.2). Rompe la regla de ≥ 0. D) [2.0, 0.0, 1.0] Suma = 3.0, no 1.0. Rompe la regla de normalización.
642
¿Qué pregunta clave intenta responder la métrica de Recall? A.De todos los positivos que había en la realidad, ¿qué fracción fuimos capaces de identificar? B.¿Cuántos falsos positivos cometió el modelo? C.¿Qué porcentaje del total de predicciones fueron correctas? D.Cuando el modelo predice 'positivo', ¿qué tan a menudo acierta?
A El Recall se centra en encontrar a todos los positivos que de verdad existen en los datos.
643
En la fórmula del Recall, `TP / (TP + FN)`, ¿qué representa el denominador `(TP + FN)`? A.El número total de datos en el dataset. B.El número total de predicciones positivas que hizo el modelo. C.El número total de positivos reales que existen en el conjunto de datos. D.El número total de predicciones incorrectas.
C Para entender esto, desglosemos los términos del denominador: TP (True Positives - Verdaderos Positivos): Son los casos que eran realmente positivos y que el modelo predijo correctamente como positivos. FN (False Negatives - Falsos Negativos): Son los casos que eran realmente positivos, pero que el modelo predijo incorrectamente como negativos (es decir, el modelo los "pasó por alto"). Si sumas ambos (TP + FN), estás sumando (Los positivos que el modelo encontró) + (Los positivos que el modelo pasó por alto). El resultado es, por definición, todos los casos positivos que realmente existían en los datos. Por eso, la fórmula del Recall (Sensibilidad) responde a la pregunta: "De todos los positivos que realmente había, ¿qué porcentaje fuimos capaces de encontrar?" Por qué las otras opciones son incorrectas A. El número total de datos en el dataset: Esto sería TP + FN + FP + TN. B. El número total de predicciones positivas que hizo el modelo: Esto es TP + FP (el denominador de la Precisión). D. El número total de predicciones incorrectas: Esto sería FP + FN.
644
Estás construyendo un modelo para un banco que detecta transacciones fraudulentas. Un 'Falso Negativo' significa que una transacción fraudulenta no es detectada y el banco pierde dinero. ¿Qué métrica es la más importante a optimizar? A.Recall (Sensibilidad) B.Precision (Precisión) C.ROC-AUC D.Accuracy (Exactitud)
A Quieres maximizar el Recall para asegurarte de 'capturar' el mayor número posible de fraudes reales, incluso si eso significa que algunas transacciones legítimas sean marcadas para revisión (Falsos Positivos).
645
Al construir una red neuronal, ¿cuál de las siguientes es una decisión que TÚ, como desarrollador, debes tomar? A.Ajustar manualmente el peso de la conexión entre la neurona 3 de la capa 1 y la neurona 5 de la capa 2. B.Decidir qué neuronas específicas se encargarán de detectar las orejas en una imagen de un gato. C.Escribir una función `if/else` dentro de cada neurona para que decida cuándo activarse. D.Definir el número de capas y el número de neuronas en cada capa.
D Esta es una decisión de arquitectura fundamental que define la estructura de la red.
646
¿Cómo 'aprende' una neurona individual a reaccionar ante ciertos patrones durante el entrenamiento? A.Aumentando su función de activación para ser más rápida. B.Copiando el comportamiento de las neuronas que tiene al lado. C.Mediante el ajuste automático de sus pesos (weights) a través del algoritmo de optimización. D.Siguiendo una serie de reglas lógicas que el programador ha escrito previamente.
C El entrenamiento es un proceso de optimización que ajusta los pesos de las conexiones para minimizar el error global, haciendo que las neuronas se especialicen.
647
Después de un entrenamiento exitoso, si una neurona se activa mucho cuando ve un 'ojo' en una foto, esto se debe a que... A.Esa neurona se inicializó con un peso más alto que las demás. B.Es una coincidencia puramente aleatoria. C.El programador le asignó la tarea de 'detectar ojos' a esa neurona. D.El proceso de optimización descubrió que activar esa neurona en ese caso ayudaba a minimizar el error final de la red.
D El comportamiento de la neurona es una consecuencia de la optimización global. Se ha 'dado cuenta' de que especializarse en 'ojos' contribuye a tomar la decisión correcta.
648
En una red neuronal profunda que analiza imágenes, ¿qué tipo de patrones aprendería típicamente la PRIMERA capa oculta (la más cercana a los datos de entrada)? A.El concepto abstracto de 'gato' o 'perro'. B.Patrones muy simples como bordes, esquinas y gradientes de color. C.Caras completas de personas. D.Partes de objetos, como ruedas de coche u ojos.
B La primera capa trabaja directamente con los píxeles brutos, por lo que aprende las características más fundamentales y de bajo nivel.
649
Si ya tienes una capa que ha aprendido a identificar 'ojos', 'narices' y 'bocas', ¿cuál sería el propósito de añadir OTRA capa después de esta? A.Para hacer el entrenamiento del modelo más rápido. B.Para reducir el número total de neuronas en la red. C.Para que la red aprenda a combinar esos elementos en un patrón de nivel superior, como una 'cara'. D.Para volver a analizar los píxeles originales de la imagen.
C Cada nueva capa crea una abstracción sobre la anterior. La combinación de 'ojos', 'nariz' y 'boca' forma una 'cara'.
650
La idea de que cada capa de una red neuronal aprende de las características que extrajo la capa anterior se conoce como: A.Extracción jerárquica de características. B.Regularización C.Función de activación Softmax. D.Optimización de hiperparámetros.
A 'Jerárquica' se refiere a esta estructura de niveles, donde cada nivel construye sobre la complejidad del anterior, desde lo simple a lo abstracto.
651
¿Cuál es la función principal del archivo `setup.py` que se encuentra en la raíz de un proyecto? A.Describir el proyecto y decirle a herramientas como `pip` cómo instalar el paquete de código fuente. B.Ejecutar el entrenamiento del modelo directamente. C.Listar las librerías necesarias, y nada más. D.Contener todo el código que entrena el modelo de Machine Learning.
A Es el 'manual de instrucciones' o los metadatos del paquete, que permite su distribución e instalación.
652
¿Por qué es una buena práctica mover el código de entrenamiento (`model.py`, `task.py`) a una subcarpeta como `trainer`? A.Para que sea más difícil de encontrar y modificar. B.Porque la carpeta `trainer` tiene permisos especiales del sistema operativo. C.Para convertir el código en un paquete de Python instalable y separarlo de los archivos de configuración. D.Para que el código se ejecute más rápido.
C Esto crea una separación clara de intereses: el código de la aplicación por un lado, y la configuración del paquete (`setup.py`), los tests y la documentación por otro.
653
Cuando estás en la carpeta raíz de tu proyecto (donde está `setup.py`) y ejecutas el comando `pip install .`, ¿qué archivo es el principal que `pip` busca y lee para saber qué hacer? A.trainer/__init__.py B.requirements.txt C.setup.py D.trainer/task.py
C `setup.py` es el script de construcción estándar para los paquetes de Python, y `pip install .` lo busca por defecto en el directorio actual.
654
Si la curva de pérdida (loss) de tu modelo es claramente descendente a lo largo del entrenamiento, ¿qué significa? A.Hay un error en el código y el entrenamiento va a fallar. B.El modelo es demasiado simple y no puede aprender. C.El conjunto de datos es demasiado pequeño. D.El modelo está aprendiendo correctamente y su error está disminuyendo.
D Este es el comportamiento ideal. La pérdida mide el error, y si desciende, significa que el modelo está mejorando sus predicciones.
655
En el eje Y del gráfico tienes la 'pérdida' (loss) y en el eje X las 'épocas' (epochs). ¿Qué representa un punto bajo en la curva? A.Un momento en el que el modelo tenía un error bajo. B.Un momento en el que el modelo hizo muchas predicciones incorrectas. C.El número total de datos de entrenamiento. D.El inicio del entrenamiento.
A Cuanto más bajo el punto en el eje Y, menor es la pérdida y, por tanto, mejor era el rendimiento del modelo en ese momento.
656
Imagina el escenario contrario: la curva de pérdida empieza a SUBIR en lugar de bajar. ¿Qué podría estar pasando? A.El modelo ha aprendido perfectamente y ya no puede mejorar. B.Significa que el modelo necesita más capas para aprender. C.Esto es normal en las primeras épocas. D.El entrenamiento es inestable, posiblemente porque la tasa de aprendizaje (learning rate) es demasiado alta.
D Una tasa de aprendizaje muy alta puede hacer que el modelo 'se pase de frenada' en sus correcciones, y el error aumente en lugar de disminuir. Es una señal de alarma.
657
¿Cuál es la característica principal que define a una capa como 'Densa'? A.Que cada neurona solo se conecta con la neurona que tiene justo enfrente en la capa anterior. B.Que cada neurona de la capa densa está conectada a TODAS las neuronas de la capa anterior. C.Que contiene un número muy grande de neuronas. D.Que solo se puede usar al final de una red neuronal.
B Esta conexión total o 'fully-connected' es lo que le da el nombre de densa.
658
Tienes una red donde la primera capa tiene 8 neuronas y la segunda capa es una capa densa con 4 neuronas. ¿Cuántas conexiones (pesos) existen entre estas dos capas? A.8 B.12 C.4 D.32
D Cada una de las 4 neuronas de la capa densa recibe una conexión de las 8 neuronas anteriores. Por lo tanto, 4 x 8 = 32 conexiones.
659
Una neurona específica dentro de una capa densa, ¿de dónde recibe su información para calcular su propia salida? A.Solo de la neurona más activa de la capa anterior. B.De una combinación ponderada de las salidas de TODAS las neuronas de la capa anterior. C.De las otras neuronas que están en su misma capa densa. D.Directamente de los datos de entrada originales del modelo.
B Recoge la salida de cada neurona anterior, la multiplica por el peso de su conexión específica, y suma todo para obtener su propia entrada.
660
Cuando envías un 'trabajo de entrenamiento personalizado' a Vertex AI, ¿qué es lo que la plataforma ejecuta realmente en sus servidores? A.Tu script de Python directamente, leyéndolo línea por línea desde tu ordenador. B.El archivo `setup.py` de tu proyecto. C.Una imagen de contenedor que tú has proporcionado y que está guardada en un registro como Artifact Registry. D.Una máquina virtual vacía, y espera que te conectes para instalar todo a mano.
C Vertex AI coge esa imagen, la despliega en una máquina virtual gestionada por Google y la ejecuta.
661
Como desarrollador, ¿cuál es tu principal responsabilidad para poder lanzar un trabajo de entrenamiento personalizado en Vertex AI? A.Comprar y configurar los servidores físicos en el data center de Google. B.Instalar el sistema operativo y los drivers de la GPU en la máquina virtual de entrenamiento. C.Crear una imagen de contenedor que incluya tu código de entrenamiento y todas sus dependencias. D.Solicitar acceso a la red de Google por correo electrónico.
C Tu trabajo es empaquetar tu aplicación en un contenedor y subirlo a un registro. Vertex AI se encarga del resto.
662
Has conseguido que tu modelo entrene perfectamente dentro de un contenedor en tu portátil. ¿Por qué usar contenedores te da la confianza de que el entrenamiento funcionará correctamente en Vertex AI? A.Porque el contenedor garantiza que el entorno de software es idéntico, eliminando problemas de versiones y dependencias. B.Porque Vertex AI es mucho más rápido y potente que un portátil. C.Porque el contenedor se adapta automáticamente al nuevo hardware. D.Porque Google tiene un equipo que revisa tu código para asegurar que funcione.
A Esta es la ventaja fundamental de la contenedorización. El mismo entorno, las mismas versiones de librerías, en todas partes.
663
¿Cuál es la principal ventaja de utilizar una arquitectura 'Wide & Deep'? A.Es una arquitectura diseñada principalmente para el análisis de imágenes. B.Funciona exclusivamente con redes neuronales muy profundas para obtener la máxima precisión. C.Combina la capacidad de memorizar reglas específicas (Wide) con la de encontrar patrones no evidentes (Deep). D.Es mucho más simple y rápida de entrenar que cualquier otra red neuronal.
C Esta combinación de 'memorización + generalización' es la idea central y la principal fortaleza de esta arquitectura.
664
En un sistema de recomendación de productos, la parte 'Wide' del modelo aprende que 'los usuarios que compran perritos calientes también compran pan de perrito'. ¿Qué habilidad del modelo demuestra esto? A.Memorización B.Generalización C.Reducción de dimensionalidad D.Clasificación multiclase
A La parte 'Wide' es excelente para aprender de memoria estas interacciones frecuentes y directas entre características.
665
¿Qué tarea realiza principalmente la parte 'Deep' de un modelo 'Wide & Deep'? A.Asegurarse de que el modelo no se sobreajuste a los datos. B.Aplicar reglas simples y directas que se han observado millones de veces. C.Realizar una regresión lineal simple sobre las características de entrada. D.Encontrar relaciones complejas y no evidentes entre las características, a menudo usando embeddings.
D La parte 'Deep' busca patrones ocultos que no son obvios a simple vista, explorando combinaciones complejas de características.
666
La sintaxis `y = layers.Dense(8)(x)` realiza dos acciones en una. ¿Cuáles son? A.Define la variable `y` y entrena la capa Densa con los datos de `x`. B.Crea la capa Densa y la conecta directamente a la capa de salida final del modelo. C.Crea una instancia de una capa Densa y la conecta, tomando como entrada el tensor `x`. D.Comprueba si la capa es compatible con el tensor `x` y la inicializa.
C Primero define la capa (`layers.Dense(8)`) y después la 'llama' (`(x)`) para conectarla al flujo de datos.
667
En la línea `x = layers.Dense(16, activation='relu')(encoder_input)`, ¿cuál es la función de la parte `(encoder_input)`? A.Definir el número de neuronas que tendrá la capa. B.Conectar la nueva capa Densa, tomando como entrada el tensor de la capa anterior. C.Especificar el nombre que tendrá la capa. D.Establecer la función de activación de la capa.
B Esta sintaxis de 'llamada' es cómo se construye el grafo de capas, conectando la salida de una con la entrada de la siguiente.
668
Observa las siguientes dos líneas de código: ```python x = layers.Dense(32, activation='relu')(entrada) y = layers.Dense(16, activation='relu')(x) ``` ¿Qué representa la variable `x` en este contexto? A.El modelo completo ya definido. B.La primera capa Densa en sí misma (el objeto capa). C.El tensor de entrada original del modelo. D.El tensor de salida de la primera capa, que se usará como entrada para la segunda.
D `x` es el tensor que sale de la primera capa Densa y que 'fluye' hacia la segunda capa Densa.
669
La métrica de Precisión (Precision), cuya fórmula es `TP / (TP + FP)`, responde a una pregunta clave sobre el rendimiento de un modelo. ¿Cuál es esa pregunta? A.De todos los positivos que había en la realidad, ¿qué fracción fuimos capaces de identificar? B.¿Qué porcentaje del total de predicciones fueron correctas? C.De todas las veces que el modelo predijo 'positivo', ¿cuántas veces acertó? D.¿Qué porcentaje de los casos negativos fueron identificados correctamente?
C Para entenderlo, miremos la fórmula de la Precisión: Precision = TP / ( TP + FP ) El denominador ($TP + FP$): Representa el total de veces que el modelo dijo "esto es positivo" (tanto si acertó como si falló).El numerador ($TP$): Son las veces que, dentro de esas predicciones, realmente tenía razón.Por lo tanto, la Precisión mide la confianza o pureza de tus predicciones positivas. Es la respuesta a la pregunta: "Cuando mi modelo da la alarma, ¿debería creerle o suele ser una falsa alarma?".¿Por qué las demás son incorrectas?Aquí es donde suele haber confusión, porque todas parecen sonar bien, pero matemáticamente describen cosas muy distintas:A. De todos los positivos que había en la realidad, ¿qué fracción fuimos capaces de identificar?Métrica real: Exhaustividad (Recall) o Sensibilidad.La diferencia: Aquí el foco no está en si el modelo miente mucho (falsos positivos), sino en si se le escapan cosas (falsos negativos). Su fórmula usa en el denominador los positivos reales ($TP + FN$), no las predicciones.B. ¿Qué porcentaje del total de predicciones fueron correctas?Métrica real: Exactitud (Accuracy).La diferencia: Esta métrica mete en el mismo saco los aciertos positivos y los aciertos negativos y los divide por el total de datos. Es una visión global, no específica de la clase positiva.D. ¿Qué porcentaje de los casos negativos fueron identificados correctamente?Métrica real: Especificidad (Specificity).La diferencia: Es el "Recall de los negativos". Mide la capacidad del modelo para decir que "no" cuando realmente es "no".Resumen "Truco" para no fallarPara distinguir Precisión (C) de Recall (A), piensa en esto:Precisión (Opción C): Mira hacia tus predicciones. ¿Cuántas balas dieron en el blanco de todas las que disparaste? (Penaliza disparar a lo loco / Falsos Positivos).Recall (Opción A): Mira hacia la realidad. De todos los objetivos que había en el campo, ¿a cuántos les diste? (Penaliza quedarse corto / Falsos Negativos).
670
En la fórmula del Recall, `TP / (TP + FN)`, ¿qué representa el denominador `(TP + FN)`? A.El número total de predicciones incorrectas (`FP + FN`). B.El número total de predicciones positivas que hizo el modelo (`TP + FP`). C.El número total de datos en el dataset (`TP + TN + FP + FN`). D.El número total de casos que eran realmente positivos en los datos.
D El denominador representa a todos los positivos reales: los que encontramos (TP) y los que se nos escaparon (FN).
671
La Exactitud (Accuracy) se calcula como `(TP + TN) / (TP + TN + FP + FN)`. ¿En cuál de los siguientes escenarios esta métrica puede ser particularmente engañosa? A.En un problema donde el coste de los Falsos Positivos y Falsos Negativos es el mismo. B.En un problema con un conjunto de datos muy grande. C.En un problema con un número igual de casos positivos y negativos. D.En un problema donde las clases están muy desbalanceadas (ej. 99% negativos y 1% positivos).
D En este caso, un modelo inútil que siempre prediga 'negativo' tendría un 99% de Accuracy, dándonos una falsa sensación de buen rendimiento.
672
La Exactitud (Accuracy) se calcula con la fórmula `(TP + TN) / (TP + TN + FP + FN)`. ¿Qué mide fundamentalmente esta métrica? A.El porcentaje del total de predicciones (tanto positivas como negativas) que fueron correctas. B.El porcentaje de casos positivos reales que el modelo fue capaz de identificar. C.El porcentaje de predicciones incorrectas. D.El porcentaje de predicciones positivas que fueron correctas tip: Piensa en el significado de 'exactitud' en un sentido general.
A La Accuracy da una visión general del rendimiento del modelo sobre el conjunto de todos los datos.
673
En la fórmula `Accuracy = (TP + TN) / (TP + TN + FP + FN)`, ¿qué representa el denominador `(TP + TN + FP + FN)`? A.El número total de predicciones correctas. B.El número total de predicciones positivas hechas por el modelo. C.El número total de casos positivos reales. D.El número total de muestras en el conjunto de datos.
D El denominador de la Accuracy es la suma de todos los posibles resultados, es decir, el tamaño total del conjunto de datos evaluado.
674
Sabiendo que la Accuracy se calcula como `(TP + TN) / (TP + TN + FP + FN)`, ¿en qué escenario esta métrica puede dar una falsa sensación de buen rendimiento? A.Cuando el coste de un Falso Positivo es muy alto. B.Cuando el número de casos positivos y negativos está perfectamente balanceado (50% / 50%). C.Cuando el modelo tiene un Recall y una Precision muy altos. D.Cuando las clases están muy desbalanceadas (ej. 99% de casos negativos y 1% de positivos).
D Un modelo simple que siempre prediga 'negativo' tendría un 99% de Accuracy, pero sería inútil porque nunca detectaría la clase minoritaria.
675
La métrica de Sensibilidad (Recall) se calcula con la fórmula `TP / (TP + FN)`. ¿Qué pregunta fundamental responde? A.En general, ¿qué porcentaje de aciertos tuvo el modelo? B.¿Cuál es la probabilidad de que una predicción negativa sea correcta? C.De todas las predicciones positivas que hizo el modelo, ¿cuántas fueron correctas? D.De todos los casos que eran realmente positivos, ¿qué porcentaje consiguió encontrar el modelo?
D El Recall mide la capacidad del modelo para 'recuperar' o 'capturar' todos los casos positivos que existen.
676
En un problema de diagnóstico médico para una enfermedad grave, es vital minimizar los Falsos Negativos (FN). ¿Qué fórmula de rendimiento es la más crítica a optimizar? A.Ninguna, todas son igual de importantes. B.`Accuracy = (TP + TN) / (TP + TN + FP + FN)` C.`Precision = TP / (TP + FP)` D.`Recall = TP / (TP + FN)`
D Maximizar el Recall implica minimizar el denominador, y como TP es fijo, esto significa minimizar los Falsos Negativos (FN), que es el objetivo.
677
Un modelo tiene los siguientes resultados: TP=80, FN=20, FP=10. Usando la fórmula `Recall = TP / (TP + FN)`, ¿cuál es el Recall? A.0.72 (80 / 110) B.0.90 (90 / 100) C.0.80 (80 / 100) D.0.88 (80 / 90)
C El total de positivos reales era 80 (TP) + 20 (FN) = 100. El modelo encontró 80 de ellos. Por tanto, el Recall es 80/100 = 0.80.
678
La Precisión (Precision) se define por la fórmula `TP / (TP + FP)`. ¿Qué representa su denominador `(TP + FP)`? A.El número total de aciertos del modelo. B.El número total de predicciones 'positivas' hechas por el modelo. C.El número total de errores del modelo. D.El número total de casos que eran positivos en la realidad.
B El denominador de la Precision agrupa todos los casos que el modelo ETIQUETÓ como positivos, tanto los aciertos (TP) como los errores (FP).
679
En un sistema de recomendación de vídeos, un Falso Positivo (FP) significa recomendar un vídeo que al usuario no le gusta. Si quieres evitar molestar al usuario con malas recomendaciones, ¿qué fórmula deberías priorizar? A.Ninguna, el objetivo es maximizar los Falsos Positivos. B.`Recall = TP / (TP + FN)` C.`Precision = TP / (TP + FP)` D.`Accuracy = (TP + TN) / (TP + TN + FP + FN)`
C Maximizar la Precision significa minimizar el número de Falsos Positivos (FP). Cuando el modelo recomiende algo, será muy probable que acierte, mejorando la experiencia del usuario.
680
Un modelo tiene los siguientes resultados: TP=50, FP=10, FN=5. Usando la fórmula `Precision = TP / (TP + FP)`, ¿cuál es la Precision? A.5.0 (50 / 10) B.0.833 (50 / 60) C.0.769 (50 / 65) D.0.909 (50 / 55)
B Por qué la B es la respuesta correcta La pregunta te da la fórmula exacta que debes usar: Precision = TP / (TP + FP). ¿Qué es la Precisión? Es una métrica que responde a la pregunta: "De todas las veces que el modelo predijo 'Positivo', ¿cuántas veces acertó?". TP (True Positives / Verdaderos Positivos) = 50 FP (False Positivos / Falsos Positivos) = 10 Simplemente tienes que sustituir los valores en la fórmula: Fórmula: Precision = TP / (TP + FP) Sustitución: Precision = 50 / (50 + 10) Cálculo: Precision = 50 / 60 Resultado: 0.8333... (que se redondea a 0.833) El dato FN=5 (Falsos Negativos) es un distractor. Se incluye en la pregunta para comprobar si sabes qué valores necesita la fórmula de Precisión. No se utiliza para este cálculo. Por qué las otras respuestas son incorrectas A) 5.0 (50 / 10): Incorrecto. Esta calculando TP / FP. Esta no es la fórmula de Precisión (ni ninguna métrica estándar común). C) 0.769 (50 / 65): Incorrecto. El denominador 65 proviene de sumar 50 (TP) + 10 (FP) + 5 (FN). La fórmula TP / (TP + FP + FN) no es Precisión, es otra métrica llamada Jaccard Index o Intersection over Union (IoU). D) 0.909 (50 / 55): Incorrecto. El denominador 55 proviene de sumar 50 (TP) + 5 (FN). La fórmula TP / (TP + FN) es la métrica de Recall (Sensibilidad), no de Precisión. El Recall responde a una pregunta diferente: "De todos los positivos que realmente existían, ¿cuántos encontró el modelo?".
681
¿Qué representa la curva ROC (Receiver Operating Characteristic)? A. La relación entre la precisión y la exhaustividad de un clasificador. B. La relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) a distintos umbrales. C. La distribución de las predicciones positivas y negativas en un conjunto de datos. D. El histograma de las probabilidades estimadas por el modelo.
B Por qué B es correcta: La curva ROC traza el TPR (sensibilidad) en el eje Y frente al FPR (1 − especificidad) en el eje X para todos los posibles umbrales de decisión. Por qué A no es correcta: Esa descripción corresponde más bien a la curva Precision–Recall, no a la ROC. Por qué C no es correcta: La curva no muestra directamente distribuciones de predicciones, sino tasas de acierto/fallo a distintos umbrales. Por qué D no es correcta: Un histograma de probabilidades es otra visualización (de densidades), no la curva ROC.
682
¿Qué indica un área bajo la curva ROC (AUC) igual a 1.0? A. Que el clasificador acierta siempre las predicciones positivas pero falla con las negativas. B. Que el clasificador separa perfectamente ambas clases sin error. C. Que el clasificador no aprende nada y actúa al azar. D. Que el modelo tiene un 100 % de precisión.
B Por qué B es correcta: Un AUC de 1.0 significa que para cualquier par ejemplo positivo/negativo, el modelo asigna una probabilidad más alta al positivo, por lo que separa perfectamente ambas clases. Por qué A no es correcta: Un acierto perfecto con positivas pero fallo sistemático con negativas daría un AUC impredecible, pero no 1.0. Por qué C no es correcta: Un modelo aleatorio tiene AUC≈0.5, no 1.0. Por qué D no es correcta: La precisión global al 100 % implica que no hay falsos positivos ni falsos negativos, lo cual coincide con un AUC de 1.0, pero la definición de AUC no mide directamente “precisión” sino capacidad de separación.
683
En la curva ROC, ¿qué significa un punto cercano al vértice superior izquierdo? A. Alta tasa de falsos positivos y baja tasa de verdaderos positivos. B. Baja tasa de falsos positivos y baja tasa de verdaderos positivos. C. Alta tasa de verdaderos positivos y baja tasa de falsos positivos. D. Baja tasa de verdaderos positivos y alta tasa de falsos positivos.
C Por qué C es correcta: El vértice superior izquierdo representa TPR alto (cerca de 1) y FPR bajo (cerca de 0), que es el ideal: muchas detecciones verdaderas y pocos falsos positivos. Por qué A y D no son correctas: Ambas invierten las tasas; allí habría muchos falsos positivos o pocas verdaderas detecciones. Por qué B no es correcta: Eso correspondería a un punto cercano al origen (0, 0), no al vértice superior izquierdo.
684
Si comparamos dos modelos, A y B, cuyas curvas ROC se cruzan, ¿qué criterio extra puede usarse para decidir cuál es mejor? A. Elegir siempre el modelo con menor tiempo de entrenamiento. B. Comparar las AUC globales y preferir la mayor. C. Escoger el modelo cuya curva tenga más puntos. D. Fijar un umbral de operación y comparar la TPR allí.
D Por qué D es correcta: Cuando las ROC se cruzan, el AUC global puede no reflejar la mejor performance en el rango de interés; en cambio, definir un umbral que corresponda a un FPR aceptable y comparar la TPR en ese punto es más útil para tu caso de uso. Por qué A no es correcta: El tiempo de entrenamiento no evalúa la calidad del clasificador. Por qué B no es correcta: La AUC global puede esconder diferencias locales importantes donde una curva supera a la otra. Por qué C no es correcta: El número de puntos depende de la granularidad de umbrales evaluados, no de la calidad del modelo.
685
¿Cuál de estas afirmaciones sobre la curva ROC es FALSA? A. Un clasificador completamente aleatorio produce una línea diagonal desde (0,0) hasta (1,1). B. La curva ROC es insensible al desbalance de clases. C. Cuanto más cerca esté la curva del eje X, mejor será el clasificador. D. La ROC refleja trade‑off entre sensibilidad y especificidad.
C Por qué C es falsa: Una curva cerca del eje X (es decir FPR muy bajo pero también TPR bajo) no indica buen rendimiento; lo ideal es acercarse al punto (0,1), no al eje X. Por qué A no es falsa: Un clasificador aleatorio efectivamente tiene TPR≈FPR en todos los umbrales, trazando la diagonal. Por qué B no es falsa: La ROC mide tasas relativas (TPR, FPR) y no se ve afectada por la proporción de clases. Por qué D no es falsa: Esa es la definición misma: sensibilidad (TPR) vs. 1 − especificidad (FPR).
686
¿Para qué se utiliza principalmente la curva ROC en machine learning? A) Para ajustar el número de capas en una red neuronal B) Para comparar visualmente la capacidad de discriminación de un modelo binario C) Para calcular la precisión media D) Para medir el coste computacional del entrenamiento
B Por qué la opción B es la correcta: La curva ROC se utiliza para comparar visualmente la capacidad de discriminación de un modelo clasificatorio binario, mostrando cómo varía la tasa de verdaderos positivos y falsos positivos según el umbral. Por qué las otras son incorrectas: A) No tiene nada que ver con redes neuronales ni con su arquitectura. C) La precisión media no se calcula con la curva ROC. D) No está relacionada con el coste computacional.
687
¿Qué representa el eje Y de la curva ROC? A) Tasa de falsos negativos B) Precisión C) Tasa de verdaderos positivos (sensibilidad) D) Tasa de verdaderos negativos
C Por qué la opción C es la correcta: El eje Y de la curva ROC corresponde a la tasa de verdaderos positivos o sensibilidad (recall), que mide la proporción de positivos correctamente identificados. Por qué las otras son incorrectas: A) La tasa de falsos negativos no aparece en la ROC. B) La precisión no se representa en la curva ROC. D) La tasa de verdaderos negativos tampoco se utiliza en la ROC.
688
¿Qué indica un área bajo la curva ROC (AUC) de 1? A) El modelo es aleatorio B) El modelo nunca clasifica correctamente C) El modelo separa perfectamente ambas clases D) No se puede interpretar
C Por qué la opción C es la correcta: AUC=1 significa que el modelo tiene una capacidad perfecta para distinguir entre clases (modelo ideal). Por qué las otras son incorrectas: A) Un modelo aleatorio tendría AUC cerca de 0.5. B) Si nunca acierta, el AUC será 0 o cerca. D) Es perfectamente interpretable y muy deseado.
689
¿Cuál de las siguientes afirmaciones describe mejor la diagonal de la curva ROC (y = x)? A) Representa un modelo que predice una sola clase B) Representa un clasificador peor que aleatorio C) Representa un modelo que no tiene poder discriminatorio D) Representa un modelo perfecto
C Por qué la opción C es la correcta: La diagonal indica que el modelo no discrimina mejor que el azar, es decir, sus predicciones no son útiles (AUC=0.5). Por qué las otras son incorrectas: A) Predecir una sola clase sería una esquina (no la diagonal). B) Peor que aleatorio estaría por debajo de la diagonal. D) El modelo perfecto es el borde superior izquierdo, no la diagonal.
690
¿Qué se puede concluir de un modelo cuyo punto en la curva ROC cae cerca del vértice superior izquierdo? A) Tiene alta tasa de verdaderos positivos y baja de falsos positivos B) Tiene baja sensibilidad y alta tasa de falso positivo C) Clasifica todas las observaciones como negativas D) Es mejor elegir otro modelo
A Por qué la opción A es la correcta: El vértice superior izquierdo representa máxima sensibilidad (recall) y mínima tasa de falso positivo (modelo muy bueno). Por qué las otras son incorrectas: B) Es el extremo contrario en la curva. C) Clasificar todo como negativo no llega a ese vértice. D) Si está ahí, no se necesita otro modelo.
691
¿Cuál es el propósito principal de una curva ROC en el contexto de un modelo de clasificación binaria? a) Determinar la precisión (accuracy) del modelo con un único umbral de decisión. b) Visualizar el rendimiento de un modelo a través de todos los posibles umbrales de clasificación, mostrando el balance entre las tasas de verdaderos positivos y falsos positivos. c) Calcular el número exacto de predicciones correctas e incorrectas que realiza el modelo. d) Identificar las características (features) más importantes que influyen en las predicciones del modelo.
B La curva ROC es una representación gráfica que ilustra cómo se comporta un modelo de clasificación al variar el umbral de decisión.[1][2] En el eje Y se representa la Tasa de Verdaderos Positivos (Sensibilidad) y en el eje X la Tasa de Falsos Positivos (1 - Especificidad).[3][4][5][6] Esto permite evaluar el rendimiento del modelo en todo el espectro de umbrales posibles.[2] Por qué las otras no lo son: La opción (a) es incorrecta porque la precisión se calcula para un umbral específico, mientras que la curva ROC evalúa el modelo en todos los umbrales.[2] La opción (c) es incorrecta porque, si bien la curva se construye a partir de los verdaderos positivos, falsos positivos, etc., su propósito no es simplemente contar, sino ofrecer una visión global del rendimiento.[7] La opción (d) se refiere al análisis de importancia de características (feature importance), que es una técnica diferente para interpretar modelos.
692
En un gráfico de curva ROC, ¿qué representa un modelo cuyo rendimiento coincide con la línea diagonal que va desde la esquina inferior izquierda (0,0) hasta la superior derecha (1,1)? a) Un modelo perfecto con un 100% de acierto. b) Un modelo que clasifica todo como negativo. c) Un modelo que no tiene capacidad de discriminación, equivalente a una clasificación aleatoria. d) Un modelo que ha invertido las predicciones, clasificando los positivos como negativos y viceversa.
C La línea diagonal representa un clasificador que no es mejor que el azar.[1] Para cualquier punto en esta línea, la tasa de verdaderos positivos es igual a la tasa de falsos positivos, lo que indica que el modelo no tiene una capacidad real para distinguir entre las clases.[3] Por qué las otras no lo son: Un modelo perfecto (a) se representaría con una curva que alcanza la esquina superior izquierda (0,1), donde la tasa de verdaderos positivos es 1 y la de falsos positivos es 0.[1] Un modelo que clasifica todo como negativo (b) se situaría en el punto (0,0). Un modelo que invierte las predicciones (d) tendría una curva por debajo de la línea diagonal, con un AUC (Área Bajo la Curva) inferior a 0.5.[2]
693
¿Qué indica el valor del Área Bajo la Curva (AUC) de una curva ROC? a) La velocidad a la que el modelo puede realizar predicciones. b) La probabilidad de que un clasificador asigne una puntuación más alta a una instancia positiva elegida al azar que a una instancia negativa elegida al azar. c) El umbral de clasificación óptimo para el modelo. d) El número de verdaderos positivos que el modelo ha identificado.
B El AUC es una medida escalar que resume el rendimiento del modelo en todos los umbrales.[1] Un AUC de 1.0 representa un clasificador perfecto, mientras que un AUC de 0.5 indica un rendimiento aleatorio.[1] De manera más formal, el AUC se puede interpretar como la probabilidad de que el modelo clasifique correctamente una instancia positiva por encima de una negativa. Por qué las otras no lo son: La velocidad de predicción (a) no está relacionada con la curva ROC o el AUC. El umbral óptimo (c) puede ser seleccionado a partir de la curva ROC (por ejemplo, el punto más cercano a la esquina superior izquierda), pero el AUC en sí mismo no es el umbral.[5][9] El número de verdaderos positivos (d) es una métrica que varía con el umbral y se utiliza para construir la curva, pero el AUC es una medida agregada de rendimiento.
694
¿En qué tipo de escenario es especialmente útil utilizar la curva ROC y el AUC como métricas de evaluación? a) Cuando el conjunto de datos tiene clases perfectamente balanceadas. b) Cuando el coste de los falsos positivos y los falsos negativos es exactamente el mismo. c) Cuando el conjunto de datos está desbalanceado, es decir, una clase es mucho más frecuente que la otra. d) Cuando el modelo de clasificación es un árbol de decisión.
C Una de las grandes ventajas de la curva ROC y el AUC es su insensibilidad al desequilibrio de clases.[1] Métricas como la precisión (accuracy) pueden ser engañosas en conjuntos de datos desbalanceados. Por ejemplo, si el 99% de las instancias son de la clase "A", un modelo que siempre predice "A" tendrá una precisión del 99%, pero será inútil. El AUC, sin embargo, proporciona una evaluación más robusta del rendimiento en estos casos.[1] Por qué las otras no lo son: Si bien son útiles en conjuntos de datos balanceados (a), su ventaja es más pronunciada en los desbalanceados. Si los costes son iguales (b), otras métricas como la precisión pueden ser suficientes, aunque el ROC sigue siendo informativo. La curva ROC es particularmente valiosa cuando los costes son desiguales y se necesita encontrar un umbral que equilibre este coste. La curva ROC y el AUC se pueden usar para evaluar cualquier modelo de clasificación que produzca puntuaciones o probabilidades, no solo árboles de decisión (d).[3]
695
Al comparar dos modelos de clasificación mediante sus curvas ROC, ¿qué se considera generalmente un indicador de un mejor rendimiento? a) Una curva ROC que es más suave y tiene menos "escalones". b) Una curva ROC que está más cerca de la línea diagonal de 45 grados. c) Una curva ROC que está más desplazada hacia la esquina superior izquierda del gráfico y tiene un mayor AUC. d) Una curva ROC que intersecta el eje Y en un punto más alto.
C El objetivo de un buen clasificador es maximizar la tasa de verdaderos positivos (eje Y) mientras se minimiza la tasa de falsos positivos (eje X).[10] Gráficamente, esto corresponde a una curva que se acerca lo más posible a la esquina superior izquierda del gráfico (punto (0,1)).[9] Un área bajo la curva (AUC) mayor también indica un mejor rendimiento general del modelo.[9] Por qué las otras no lo son: La suavidad de la curva (a) depende del número de umbrales evaluados y no es un indicador directo de un mejor rendimiento. Estar más cerca de la línea diagonal (b) indica un rendimiento peor, más cercano al azar.[1] Si bien una intersección más alta en el eje Y (d) es buena (alta sensibilidad), no considera la tasa de falsos positivos. Un modelo puede tener una alta sensibilidad a costa de muchos falsos positivos, lo que no es ideal. La curva ROC evalúa este balance.
696
¿Cuál es el propósito principal de una curva ROC (Receiver Operating Characteristic) en el contexto de machine learning? A.Calcular el coste computacional de un algoritmo de clasificación. B.Determinar el número óptimo de características (features) para entrenar un modelo. C.Visualizar el rendimiento de un modelo de clasificación a través de todos los umbrales de clasificación posibles. D.Medir la precisión de un modelo de clasificación sin tener en cuenta los falsos negativos.
C La curva ROC muestra el balance entre la Tasa de Verdaderos Positivos y la Tasa de Falsos Positivos para cada umbral de decisión, ofreciendo una visión completa del rendimiento del modelo.
697
En una curva ROC, ¿qué representan el eje Y (vertical) y el eje X (horizontal), respectivamente? A.Eje Y: Precisión (Precision) / Eje X: Exhaustividad (Recall) B.Eje Y: Tasa de Verdaderos Positivos (TPR) / Eje X: Tasa de Falsos Positivos (FPR) C.Eje Y: Número de predicciones correctas / Eje X: Número de predicciones incorrectas D.Eje Y: Tasa de Falsos Negativos (FNR) / Eje X: Tasa de Verdaderos Negativos (TNR)
B Por qué la Opción B es la CORRECTA B. Eje Y: Tasa de Verdaderos Positivos (TPR) / Eje X: Tasa de Falsos Positivos (FPR) Una curva ROC (Receiver Operating Characteristic) es una herramienta fundamental para evaluar el rendimiento de un clasificador binario. Su propósito es visualizar el compromiso (trade-off) entre capturar correctamente los casos positivos y cometer errores de falsa alarma a medida que variamos el umbral de decisión. Eje Y (Vertical) $\rightarrow$ Tasa de Verdaderos Positivos (TPR): También conocida como Sensibilidad o Recall. Nos dice: "De todos los casos que realmente son positivos, ¿qué porcentaje detectó el modelo?". Eje X (Horizontal) $\rightarrow$ Tasa de Falsos Positivos (FPR): Se define como $1 - \text{Especificidad}$. Nos dice: "De todos los casos que realmente son negativos, ¿qué porcentaje el modelo clasificó incorrectamente como positivos?". El objetivo ideal en una curva ROC es que la línea suba rápidamente hacia la esquina superior izquierda (donde la TPR es 1 y la FPR es 0), lo que significaría que detectamos todos los positivos sin cometer errores falsos. Por qué las otras opciones son INCORRECTAS A. Eje Y: Precisión (Precision) / Eje X: Exhaustividad (Recall) Esta opción describe una Curva Precision-Recall (PR Curve), no una curva ROC. Aunque ambas curvas miden el rendimiento, son distintas. La curva PR se utiliza preferentemente cuando las clases están muy desbalanceadas (por ejemplo, detectar fraude, donde hay muy pocos casos positivos frente a millones de negativos). En una curva ROC, los ejes deben ser TPR vs FPR. C. Eje Y: Número de predicciones correctas / Eje X: Número de predicciones incorrectas Las curvas ROC trabajan con Tasas (porcentajes/proporciones), no con números absolutos. Si usáramos números absolutos (conteos brutos), la curva dependería del tamaño del dataset y no se podría comparar el rendimiento entre diferentes conjuntos de datos. Al dividir por el total de positivos y negativos (normalizar), obtenemos tasas (entre 0 y 1) que son independientes del volumen total de datos. D. Eje Y: Tasa de Falsos Negativos (FNR) / Eje X: Tasa de Verdaderos Negativos (TNR)Esta opción utiliza las métricas "complementarias" a las de la curva ROC estándar, pero están invertidas o no son el estándar de visualización.El Eje X de la ROC se deriva de la TNR (ya que $FPR = 1 - TNR$), pero no grafica la TNR directamente.Graficar FNR vs TNR resultaría en una curva que va en la dirección opuesta y no es la convención establecida en la ciencia de datos. esumen Visual Para que no se te olvide, piensa en la curva ROC como una balanza entre el beneficio (en el eje vertical, encontrar lo que buscas) y el costo (en el eje horizontal, dar falsas alarmas).
698
Un modelo de clasificación A tiene un AUC (Area Under the Curve) de 0.92 y un modelo B tiene un AUC de 0.78. ¿Qué podemos concluir con mayor certeza? A.El modelo B cometerá menos falsos positivos que el modelo A en cualquier umbral. B.El modelo A tiene una mayor capacidad para distinguir entre las clases positiva y negativa que el modelo B. C.El modelo A es computacionalmente más eficiente que el modelo B. D.El modelo A siempre tendrá una mayor precisión (accuracy) que el modelo B.
B Un AUC más alto significa que hay una mayor probabilidad de que el modelo asigne una puntuación de predicción más alta a una instancia positiva elegida al azar que a una negativa elegida al azar.
699
¿Cómo se interpreta una curva ROC que sigue perfectamente la línea diagonal desde la esquina inferior izquierda (0,0) hasta la superior derecha (1,1)? A.El clasificador tiene una alta especificidad pero una muy baja sensibilidad. B.El rendimiento del clasificador es equivalente a una predicción aleatoria (como lanzar una moneda). C.Es un clasificador perfecto, que no comete ningún error. D.El modelo ha invertido las etiquetas; predice los positivos como negativos y viceversa.
B Esta línea (y=x) representa un modelo sin capacidad de discriminación, donde la Tasa de Verdaderos Positivos es igual a la Tasa de Falsos Positivos. No es mejor que el azar.
700
Al examinar una curva ROC, ¿qué indica un punto que está más cerca de la esquina superior izquierda (coordenada 0,1)? A.Un umbral de clasificación muy bajo, que clasifica casi todo como positivo. B.Un umbral de clasificación con un buen balance, logrando una alta tasa de verdaderos positivos con una baja tasa de falsos positivos. C.Un umbral de clasificación muy alto, que clasifica casi todo como negativo. D.Indica un sobreajuste (overfitting) del modelo a los datos de entrenamiento.
B El punto (0,1) representa el clasificador ideal (100% TPR, 0% FPR). Por lo tanto, los puntos cercanos a esta esquina representan umbrales de clasificación muy efectivos.
701
¿Cuál es el objetivo principal del descenso de gradiente? A) Encontrar el valor máximo de la función de pérdida. B) Encontrar el valor mínimo de la función de pérdida. C) Calcular la derivada de la función de activación. D) Aumentar el tamaño del lote (batch) de entrenamiento.
B Por qué B es correcta: El descenso de gradiente ajusta los parámetros del modelo para reducir (minimizar) la función de pérdida, mejorando así la precisión. Por qué las otras no lo son: A) Es el objetivo contrario. C) Aunque usamos derivadas, el objetivo no es solo calcularlas sino usarlas para bajar la pérdida. D) El tamaño del lote es un parámetro de entrenamiento, no el objetivo del algoritmo.
702
En el descenso de gradiente, en la analogía de la canica y la colina, ¿qué representa la pendiente de la colina en cada punto? A) La velocidad a la que rodaría la canica. B) El valor de la función de pérdida en ese punto. C) La derivada de la función de pérdida respecto a un parámetro. D) La tasa de aprendizaje (learning rate).
C Por qué C es correcta: La pendiente indica cuánto cambia la pérdida si modificas ligeramente el parámetro; es la derivada. Por qué las otras no lo son: A) La velocidad depende de la pendiente, pero no es la pendiente en sí. B) El valor de la pérdida es la altura de la colina, no su inclinación. D) La tasa de aprendizaje es un factor externo que escala la pendiente, no la pendiente misma.
703
Si el gradiente en un punto es muy grande, ¿qué puede suceder si usamos una tasa de aprendizaje demasiado alta? A) Convergeremos más rápido al mínimo. B) Nos quedaremos estancados antes de llegar al mínimo. C) Podemos sobrepasar el mínimo y oscilar sin converger. D) Nada: siempre llegaremos al mínimo con gradientes grandes.
C Por qué C es correcta: Un paso demasiado grande puede saltar la zona de mínimo y provocar oscilaciones. Por qué las otras no lo son: A) A veces sí, pero si es excesivo produce inestabilidad. B) Un paso muy pequeño estanca, no uno grande. D) No hay garantía; un paso alto puede evitar la convergencia.
704
¿Cómo interpretamos el signo del gradiente en una dimensión? A) Un gradiente positivo indica que debemos aumentar el parámetro para bajar la pérdida. B) Un gradiente negativo indica que debemos aumentar el parámetro para bajar la pérdida. C) Un gradiente positivo indica que ya estamos en el mínimo. D) El signo no tiene interpretación práctica.
B Por qué B es correcta: Si la derivada es negativa, subir el parámetro (moverse en sentido positivo) reduce la pérdida. Por qué las otras no lo son: A) Al contrario: gradiente positivo → bajar el parámetro. C) En el mínimo, el gradiente es cero, no positivo. D) El signo define la dirección del paso de actualización.
705
Dada la fórmula de actualización de un parámetro θ: theta_new = theta_old - eta * dL(theta)/dtheta ¿qué representa el símbolo η (eta)?** A) El gradiente de la pérdida. B) El valor antiguo de θ. C) La tasa de aprendizaje (learning rate). D) La derivada segunda de la pérdida.
C Por qué C es correcta: η escala el tamaño del paso que damos en la dirección del gradiente. Por qué las otras no lo son: A) El gradiente aparece en la fracción dL/dθ, no es η. B) θ_old es el valor anterior, no η. D) La derivada segunda sería d²L/dθ², no η.
706
Para qué se utiliza el algoritmo de descenso de gradiente en Machine Learning? A) Para aumentar la velocidad del ordenador B) Para optimizar los parámetros de un modelo minimizando el error C) Para crear visualizaciones de datos D) Para predecir el clima
B El descenso de gradiente se usa para encontrar los valores (parámetros) que minimizan la función de error o coste de un modelo, ajustándolo para que prediga mejor. Las demás no son correctas porque el descenso de gradiente no mejora la velocidad del hardware, no sirve directamente para visualizar datos ni se limita a pronósticos meteorológicos.
707
¿Qué significa el “gradiente” en el contexto del descenso de gradiente? A) El resultado final del modelo B) El error absoluto de la predicción C) La pendiente de la función de coste respecto a los parámetros D) El número de datos en el conjunto de entrenamiento
C “Gradiente” es la derivada o pendiente de la función de coste evaluada en los parámetros actuales; indica hacia dónde y cuánto cambiar los parámetros para reducir el error. A no es correcto porque el gradiente es un cálculo intermedio. B no es correcto; el gradiente no es “el error”, ¡es la dirección de máximo cambio! D tampoco, porque no está relacionado con la cantidad de datos.
708
¿Qué representa la tasa de aprendizaje (learning rate) en el descenso de gradiente? A) El tamaño del conjunto de datos B) Cuánto se modifican los parámetros en cada paso C) La diferencia entre predicción y realidad D) El número de parámetros del modelo
B La tasa de aprendizaje determina lo grande que es cada paso que tomamos al actualizar los parámetros en la dirección opuesta al gradiente. A, C y D no son correctas; la tasa de aprendizaje no afecta a los datos, ni es la diferencia (error), ni depende del número de parámetros.
709
¿Cuál de estos ejemplos físicos se usa frecuentemente para explicar el descenso de gradiente? A) Un avión despegando B) Una canica rodando por un valle hasta el punto más bajo C) Un coche acelerando por una autopista D) Una pelota rebotando contra una pared
B La analogía más utilizada es la de una canica o pelota que va descendiendo por la pendiente de un valle hasta llegar al punto más bajo, que sería el óptimo o mínimo de la función de coste. A, C y D no ilustran el proceso de manera adecuada.
710
¿Cuál es la fórmula básica (no vectorizada) para actualizar un parámetro θ en descenso de gradiente? A) θ = θ + tasa_de_aprendizaje B) θ = θ – tasa_de_aprendizaje × derivada_función_coste_respecto_θ C) θ = error × θ D) θ = θ – error
B La fórmula correcta es θ = θ – α × ∂J/∂θ (donde α es la tasa de aprendizaje y ∂J/∂θ es la derivada de la función de coste respecto a θ—lo que indica el gradiente). A omite la dirección (y podría ir al revés). C y D no representan cómo se hace la actualización en descenso de gradiente. Estas preguntas repasan para qué sirve el algoritmo, cómo se interpreta la pendiente, la importancia de la tasa de aprendizaje, una analogía clave (“la canica en el valle”) y la fórmula esencial, ayudando a crear bases sólidas y visualizables en tu aprendizaje.
711
Imagina que estás en una montaña rusa a oscuras y quieres llegar al punto más bajo. Solo puedes saber la inclinación del tramo de vía en el que te encuentras. ¿Qué estrategia, análoga al descenso de gradiente, seguirías? a) Avanzar en la dirección de la máxima inclinación hacia arriba para luego bajar con más fuerza. b) Moverte en pequeños pasos en la dirección contraria a la inclinación (hacia abajo). c) Quedarte quieto y esperar a que la gravedad haga su trabajo. d) Dar saltos grandes y aleatorios con la esperanza de aterrizar en el punto más bajo.
B Esta analogía es perfecta para entender el descenso de gradiente.[1] En el aprendizaje automático, la "montaña rusa" representa la función de coste, que mide el error de nuestro modelo.[2] Nuestro objetivo es encontrar el "punto más bajo", que es el mínimo de esa función de coste, donde el error es el más bajo posible. El "descenso de gradiente" es el algoritmo que nos ayuda a hacer esto.[1][3][4] Lo hace calculando la "inclinación" (el gradiente) en un punto y luego dando un pequeño paso en la dirección opuesta para "bajar la montaña" y reducir el error.[5][6][7] ¿Por qué las otras no son correctas? a) Avanzar en la dirección de la máxima inclinación hacia arriba...: Esto sería lo contrario a lo que buscamos. En lugar de minimizar el error, lo estaríamos maximizando. Este proceso se conoce como "ascenso de gradiente".[6] c) Quedarte quieto...: En el machine learning, esto equivaldría a no entrenar el modelo, por lo que los parámetros no se ajustarían y el error no disminuiría. d) Dar saltos grandes y aleatorios...: Esta estrategia es ineficiente y no garantiza encontrar el punto más bajo. Podrías saltar una y otra vez sin acercarte nunca al mínimo.
712
En el contexto del descenso de gradiente, ¿qué representa la "tasa de aprendizaje" (learning rate)? a) La velocidad a la que el modelo de machine learning procesa los datos de entrenamiento. b) El tamaño de los "pasos" que damos para movernos hacia el mínimo de la función de coste. c) El número total de veces que el algoritmo se ejecuta antes de detenerse. d) La cantidad de datos que se utilizan para entrenar el modelo.
B La tasa de aprendizaje, también conocida como learning rate, es un hiperparámetro crucial en el descenso de gradiente.[3][7] Controla el tamaño de los ajustes que se realizan en los parámetros del modelo en cada iteración.[1][7] Una tasa de aprendizaje adecuada ayuda al algoritmo a converger hacia el mínimo de manera eficiente. ¿Por qué las otras no son correctas? a) La velocidad a la que el modelo...: La velocidad de procesamiento de datos depende de factores como la capacidad computacional, no de la tasa de aprendizaje. c) El número total de veces que el algoritmo se ejecuta...: El número de ejecuciones se conoce como "épocas" o "iteraciones" y es un hiperparámetro diferente.[3][8] d) La cantidad de datos que se utilizan...: La cantidad de datos es el tamaño del conjunto de entrenamiento, no la tasa de aprendizaje.
713
Si al entrenar un modelo con descenso de gradiente observas que la función de coste aumenta en lugar de disminuir, ¿cuál de las siguientes podría ser la causa más probable? a) La tasa de aprendizaje es demasiado pequeña. b) La tasa de aprendizaje es demasiado grande. c) El modelo tiene demasiados parámetros. d) El conjunto de datos es demasiado pequeño.
B Si la tasa de aprendizaje es excesivamente alta, los "pasos" que da el algoritmo para encontrar el mínimo pueden ser tan grandes que "salten" por encima del punto más bajo y terminen en un lugar donde el error es aún mayor.[1][3] Esto provoca que la función de coste diverja (aumente) en lugar de converger (disminuir). ¿Por qué las otras no son correctas? a) La tasa de aprendizaje es demasiado pequeña: Una tasa de aprendizaje muy baja haría que el entrenamiento fuera muy lento, pero la función de coste seguiría disminuyendo, aunque a un ritmo muy pausado.[1][3] c) El modelo tiene demasiados parámetros: Aunque esto puede llevar a problemas de sobreajuste, no es la causa directa de que la función de coste aumente durante el entrenamiento. d) El conjunto de datos es demasiado pequeño: Un conjunto de datos pequeño puede hacer que el modelo no generalice bien, pero no es la razón por la que la función de coste aumentaría en cada paso del descenso de gradiente.
714
¿Cuál es el propósito principal de utilizar el descenso de gradiente en el aprendizaje automático? a) Seleccionar las características más importantes de un conjunto de datos. b) Minimizar la función de coste para encontrar los parámetros óptimos del modelo. c) Dividir el conjunto de datos en entrenamiento y prueba. d) Visualizar los datos en un espacio de alta dimensión.
B El objetivo fundamental del descenso de gradiente es optimizar el modelo.[2][3][4] Esto se logra ajustando iterativamente los parámetros del modelo (como los pesos y los sesgos) para minimizar una función de coste o pérdida, que mide la diferencia entre las predicciones del modelo y los valores reales.[3][7] ¿Por qué las otras no son correctas? a) Seleccionar las características más importantes...: Existen técnicas específicas para la selección de características, pero esa no es la función principal del descenso de gradiente. c) Dividir el conjunto de datos...: La división de datos es un paso crucial en el flujo de trabajo del machine learning, pero se realiza antes del entrenamiento del modelo. d) Visualizar los datos...: Para la visualización de datos se utilizan otras técnicas como el Análisis de Componentes Principales (PCA) o t-SNE.
715
Imagina que dejas caer una canica en un bol. La canica rodará y se asentará en el fondo. ¿A qué concepto del descenso de gradiente se asemeja el punto donde la canica se detiene? a) El punto de partida aleatorio del algoritmo. b) La tasa de aprendizaje. c) Un mínimo local o global de la función de coste. d) El gradiente de la función de coste.
C En la analogía de la canica, el fondo del bol representa el punto más bajo que la canica puede alcanzar desde su punto de partida.[5] En el descenso de gradiente, este punto corresponde a un mínimo de la función de coste, que es el objetivo que el algoritmo intenta encontrar.[3] Si el "bol" tiene una forma simple (convexa), la canica encontrará el único fondo, que es el mínimo global. Si el "bol" tiene varias hondonadas, la canica podría quedarse atascada en una de ellas, lo que representaría un mínimo local.[3][5][9] ¿Por qué las otras no son correctas? a) El punto de partida aleatorio del algoritmo: El punto de partida sería el lugar donde sueltas la canica inicialmente, no donde se detiene. b) La tasa de aprendizaje: La tasa de aprendizaje sería análoga a la "velocidad" o al "tamaño de los saltos" que da la canica al rodar, pero no a su destino final. d) El gradiente de la función de coste: El gradiente es la "inclinación" del bol en un punto determinado, que le dice a la canica en qué dirección rodar, pero no es el punto final en sí.
716
¿Qué es el descenso de gradiente en machine learning? A) Un método para calcular la derivada de una función. B) Un algoritmo que encuentra el valor mínimo de una función ajustando iterativamente los parámetros. C) Una técnica para visualizar datos en un gráfico. D) Un tipo de modelo de machine learning supervisado.
B Explicación: B (correcta): El descenso de gradiente es como un guía que te ayuda a bajar por una montaña hasta el punto más bajo, ajustando poco a poco las "coordenadas" (o parámetros) de tu modelo de machine learning. En palabras simples, busca el lugar donde el error (la función de costo) es lo más pequeño posible, cambiando los valores paso a paso. A: Aunque usa derivadas para saber hacia dónde ir, no es un método para calcularlas, sino que las usa como herramienta. C: No tiene nada que ver con gráficos o visualización; es un proceso matemático para mejorar el modelo. D: No es un modelo en sí mismo (como una regresión), sino una técnica para entrenar modelos ajustando sus números internos.
717
Imagina una canica rodando por una colina hacia el punto más bajo. ¿Qué concepto del descenso de gradiente representa esta analogía? A) El tamaño del paso (learning rate). B) La función de costo. C) El gradiente. D) La convergencia al mínimo.
D Explicación: D (correcta): La canica bajando la colina hasta el fondo es como el descenso de gradiente buscando el punto más bajo de la función de costo. "Convergencia" significa que, poco a poco, llega a ese mínimo donde el error es pequeño. La analogía muestra el objetivo final: ¡llegar abajo! A: El tamaño del paso (learning rate) sería cuánto avanza la canica en cada movimiento, pero la analogía se enfoca en el proceso completo de bajar, no solo en el tamaño de los pasos. B: La colina es como la función de costo (el "mapa" que seguimos), pero la acción de rodar representa el proceso de encontrar el mínimo, no la colina en sí. C: El gradiente es como la pendiente que le dice a la canica hacia dónde ir, pero la imagen completa de la canica llegando abajo es la convergencia.
718
¿Qué papel juega el "learning rate" (tasa de aprendizaje) en el descenso de gradiente? A) Determina cuántos datos se usan en cada iteración. B) Controla el tamaño de los ajustes que se hacen a los parámetros en cada paso. C) Define el número total de iteraciones que el algoritmo realizará. D) Especifica la función de costo que se debe minimizar.
B Por qué la opción B es la correcta La opción B) Controla el tamaño de los ajustes que se hacen a los parámetros en cada paso es la definición precisa del learning rate o tasa de aprendizaje. Piénsalo como si estuvieras bajando una montaña con los ojos vendados (el objetivo es llegar al punto más bajo, que es el mínimo de la función de costo). El descenso de gradiente es el método que usas para decidir en qué dirección dar tu próximo paso (te indica la dirección de máxima pendiente hacia abajo). El learning rate es el tamaño de ese paso. Un learning rate grande (un paso grande): Bajas más rápido, pero corres el riesgo de pasarte del punto más bajo y no encontrarlo nunca, o incluso empezar a subir por el otro lado de la montaña. Un learning rate pequeño (un paso pequeño): Te aseguras de no pasarte del punto más bajo y es más probable que lo encuentres, pero tardarás mucho más tiempo (más iteraciones) en llegar. Por lo tanto, el learning rate es un parámetro crucial que controla la magnitud del ajuste que se aplica a los pesos del modelo en cada iteración para minimizar el error. Por qué las otras opciones son incorrectas A) Determina cuántos datos se usan en cada iteración. Incorrecto. Esto se conoce como "batch size" o tamaño del lote. Es el que define si usas todos los datos (Batch Gradient Descent), un solo dato (Stochastic Gradient Descent) o un grupo de datos (Mini-batch Gradient Descent) en cada actualización de los parámetros. No tiene que ver con el tamaño del ajuste. C) Define el número total de iteraciones que el algoritmo realizará. Incorrecto. El número total de iteraciones se conoce como "epochs" (épocas) si hablamos de cuántas veces el algoritmo ve el conjunto de datos completo, o simplemente "número de iteraciones/pasos". Es un valor que se fija de antemano o se determina mediante criterios de parada (como cuando el error deja de mejorar), pero no es el learning rate. D) Especifica la función de costo que se debe minimizar. Incorrecto. La función de costo (o "loss function") es la fórmula matemática que mide qué tan mal lo está haciendo el modelo; es la "montaña" que intentamos descender. Ejemplos son el Error Cuadrático Medio (MSE) o la Entropía Cruzada. El learning rate es una herramienta para minimizar esta función, no la función en sí misma.
719
¿Cuál es la fórmula básica para actualizar un parámetro $ \theta $ en el descenso de gradiente? A) $ \theta = \theta - \alpha \cdot \nabla J(\theta) $ B) $ \theta = \theta + \alpha \cdot \nabla J(\theta) $ C) $ \theta = \alpha \cdot \nabla J(\theta) $ D) $ \theta = \theta - \nabla J(\theta) / \alpha $
A Explicación: A (correcta): Aquí $ \theta $ es el parámetro (como un peso en tu modelo), $ \alpha $ es el learning rate (tamaño del paso), y $ \nabla J(\theta) $ es la pendiente que te dice hacia dónde ir. Restas porque quieres bajar la colina, no subirla. Es como decir: "doy un pasito en la dirección contraria a la subida para llegar al mínimo". B: Si sumas, subirías la colina (aumentarías el error), y eso es lo opuesto a lo que queremos. C: Esto no usa el valor anterior de $ \theta $, así que no es un ajuste paso a paso, sino algo raro que no funciona así. D: Dividir por $ \alpha $ no tiene sentido aquí; cambiaría todo el cálculo y no te llevaría al mínimo correctamente.
720
¿En qué situación se usa el descenso de gradiente estocástico (SGD) en lugar del descenso de gradiente estándar? A) Cuando la función de costo es convexa. B) Cuando el conjunto de datos es muy grande y calcular el gradiente completo es costoso. C) Cuando se quiere evitar mínimos locales. D) Cuando el modelo tiene pocos parámetros.
B Explicación: B (correcta): El descenso de gradiente estándar mira todos los datos cada vez para calcular la pendiente, pero si tienes millones de datos, ¡eso toma mucho tiempo! El estocástico (SGD) usa solo un pedacito de datos a la vez, como una muestra, para ir más rápido, aunque sea un poco más "desordenado". A: Que la función sea convexa (como una taza sin trampas) no decide si usas uno u otro; ambos funcionan ahí. C: Es verdad que SGD puede "saltarse" mínimos locales por su ruido, pero no es la razón principal para usarlo; la razón es ahorrar tiempo con datos grandes. D: Si tienes pocos parámetros, el estándar suele ser más fácil y estable, no necesitas SGD.
721
Imagina que estás en una montaña rusa a oscuras y tu objetivo es llegar al punto más bajo del recorrido para salir. ¿Qué estrategia se parece más a lo que hace el algoritmo de descenso de gradiente? A.Dar un salto gigante en una dirección aleatoria, esperando aterrizar en el punto más bajo. B.Dar pequeños pasos en la dirección en la que notes que la pendiente baja más rápido. C.Subir hasta la cima más alta para tener una mejor vista y desde allí decidir a dónde ir. D.Quedarte quieto y esperar a que alguien te diga exactamente dónde está la salida.
B Esta es la esencia del descenso de gradiente. 'Siente' la pendiente (el gradiente) en tu posición actual y avanza en la dirección de máximo descenso para acercarte progresivamente al punto más bajo (mínimo).
722
En el descenso de gradiente, el 'tamaño del paso' que das en cada iteración se llama 'tasa de aprendizaje' (learning rate). ¿Qué pasaría si eliges una tasa de aprendizaje demasiado grande? A.El algoritmo se detendría inmediatamente porque no sabría qué hacer. B.El algoritmo podría 'saltar' por encima del punto más bajo y nunca llegar a él, como una pelota que rebota de un lado a otro de un cuenco sin asentarse en el fondo. C.El algoritmo tardaría mucho tiempo en llegar al punto más bajo porque los pasos son demasiado cautelosos. D.El algoritmo encontraría el punto más bajo de forma más rápida y eficiente que con cualquier otro valor.
B Si los pasos son demasiado grandes, puedes pasarte del mínimo. En el siguiente paso, intentas corregir, pero vuelves a dar un paso tan grande que te pasas de nuevo, provocando que el algoritmo diverja o no converja.
723
¿Cuál es el propósito principal de usar el descenso de gradiente en Machine Learning? A.Elegir qué tipo de modelo de Machine Learning es mejor para un problema (por ejemplo, regresión o clasificación). B.Ajustar los parámetros internos del modelo (como los pesos) para que el error entre sus predicciones y los valores reales sea el mínimo posible. C.Calcular cuántos datos se necesitan para entrenar un modelo. D.Hacer que el modelo aprenda lo más rápido posible, sin importar si las predicciones son correctas.
B Esta es exactamente la función. El 'error' es la función de coste (la montaña rusa) y los 'parámetros' son tu posición. El descenso de gradiente ajusta tu posición para encontrar el punto de mínimo error.
724
La fórmula de actualización del descenso de gradiente es: theta_new = theta_current - alpha * ∇J(theta) ¿Qué representa el término ∇J(θ) (el gradiente)? A.La dirección de la pendiente más pronunciada, es decir, hacia dónde 'sube' más rápido la función de coste. B.El valor del error mínimo que el modelo puede alcanzar. C.La velocidad con la que el modelo está aprendiendo. D.La dirección hacia el punto más bajo (mínimo) de la función de coste.
A El gradiente es un vector que apunta en la dirección de mayor incremento de la función. Al movernos en la dirección contraria (negativa), nos aseguramos de estar 'bajando la cuesta'.
725
Imagina que estás entrenando un modelo y ves que la función de coste disminuye muy, muy lentamente después de muchas iteraciones. ¿Cuál es la causa más probable? A.Estás usando muy pocos datos para entrenar el modelo. B.La tasa de aprendizaje (learning rate) es demasiado grande. C.El modelo ha llegado al punto más bajo (mínimo) posible. D.La tasa de aprendizaje (learning rate) es demasiado pequeña.
D Si los pasos (determinados por la tasa de aprendizaje) son minúsculos, el algoritmo avanzará hacia el mínimo, pero lo hará de forma extremadamente lenta, necesitando muchas iteraciones para ver un cambio significativo.
726
¿Qué es el sobreajuste (overfitting) en un modelo de machine learning? A.El modelo tarda demasiado tiempo en entrenarse. B.El modelo es demasiado simple y no aprende bien los datos de entrenamiento. C.El modelo aprende tan bien los datos de entrenamiento que memoriza hasta el ruido, y por eso se comporta mal con datos nuevos. D.El modelo comete muchos errores tanto en los datos de entrenamiento como en los de prueba.
C Esta es la definición precisa de sobreajuste. El modelo pierde su capacidad de generalizar a situaciones no vistas durante el entrenamiento.
727
Estás corrigiendo un modelo sobreajustado. ¿Por qué 'quitar características' (feature selection) es una técnica efectiva? A.Porque cuantas más características tenga un modelo, mejor generalizará. B.Porque simplifica el modelo, obligándolo a aprender solo de las señales más fuertes y reduciendo la probabilidad de que aprenda del ruido. C.Porque acelera el entrenamiento, y un entrenamiento más rápido evita el sobreajuste. D.Porque al quitar características, el modelo siempre se vuelve más preciso.
B Al eliminar entradas (features) irrelevantes o redundantes, reducimos la complejidad del espacio de hipótesis que el modelo debe explorar.
728
¿Cuál es el propósito fundamental de la 'regularización' (por ejemplo, L1 o L2) para combatir el sobreajuste? A.Seleccionar automáticamente las mejores características para el modelo. B.Añadir más datos de entrenamiento al modelo. C.Aumentar el número de capas en una red neuronal. D.Penalizar la complejidad del modelo, favoreciendo pesos o coeficientes más pequeños.
D La regularización añade un término a la función de coste que penaliza los pesos grandes, forzando al modelo a ser más simple y, por lo tanto, a generalizar mejor.
729
¿En qué escenario añadir una nueva característica podría ayudar a REDUCIR el sobreajuste? A.Solo si la nueva característica es una combinación lineal de las ya existentes. B.Si el modelo está sobreajustado porque le falta una señal clave, y la nueva característica que añadimos captura esa señal fundamental que antes faltaba. C.Añadir cualquier característica aleatoria siempre ayuda, porque le da más información al modelo. D.No es posible. Añadir características siempre aumenta la complejidad y el riesgo de sobreajuste.
B A veces, un modelo sobreajusta porque intenta compensar la falta de una pieza clave de información abusando de las características que sí tiene. Añadir esa pieza clave (una característica muy buena) puede simplificar la solución que encuentra el modelo.
730
Un analista de datos que domina SQL quiere crear un modelo de regresión directamente sobre una tabla enorme en su data warehouse, sin mover los datos. ¿Qué herramienta sería la más adecuada y directa para esta tarea? A.Ambas son igual de adecuadas, ya que las dos pueden conectarse a BigQuery. B.BigQuery ML, porque permite crear y entrenar modelos usando sintaxis de SQL directamente donde residen los datos. C.AutoML, porque automatiza todo el proceso. D.Ninguna, se necesita una herramienta de un tercero para entrenar modelos en un data warehouse.
B Esta es la ventaja principal de BigQuery ML: la integración nativa con el entorno de BigQuery para entrenar modelos in-situ usando el lenguaje que el analista ya conoce.
731
¿Cuál de estas afirmaciones describe mejor el enfoque de la 'ingeniería de características' (feature engineering) en AutoML? A.El usuario debe pre-procesar y crear todas las características manualmente antes de subir los datos. B.AutoML realiza la ingeniería de características de forma automática, requiriendo una intervención mínima o nula por parte del usuario. C.Se realiza a través de una serie de comandos SQL complejos dentro de la herramienta. D.La ingeniería de características no es necesaria si usas AutoML.
B Uno de los mayores atractivos de AutoML es que abstrae y automatiza pasos complejos como la transformación y combinación de características.
732
En cuanto a la variedad de modelos disponibles, ¿cómo se comparan generalmente AutoML y BigQuery ML? A.Ambas herramientas ofrecen exactamente los mismos modelos. B.AutoML ofrece una gama mucho más amplia de tipos de modelos que BigQuery ML. C.BigQuery ML suele ofrecer una lista más extensa y explícita de tipos de modelos que el usuario puede elegir (regresión logística, árboles de decisión, k-means, etc.). D.Solo AutoML permite importar modelos personalizados de TensorFlow.
C BigQuery ML proporciona al usuario un control más granular para elegir de una lista más amplia de algoritmos conocidos.
733
¿Para qué perfil de usuario está principalmente diseñado AutoML? A.Expertos en Machine Learning que quieren un control total sobre la arquitectura del modelo. B.Desarrolladores o analistas con poca experiencia en ML que necesitan crear un modelo de calidad rápidamente. C.Administradores de bases de datos que solo trabajan con SQL. D.Científicos de datos que necesitan entrenar modelos en terabytes de datos sin moverlos.
B Este es el punto ideal para AutoML. Permite a los equipos obtener un modelo funcional y de alto rendimiento sin necesidad de un conocimiento profundo en la selección y ajuste de modelos.
734
¿Qué significa que una característica numérica tenga una 'magnitud significativa' para un modelo de machine learning? A.Que todos los números de la característica deben ser muy grandes. B.Que el valor del número representa una cantidad real y medible, donde las diferencias y proporciones son consistentes. C.Que la característica ha sido convertida a números, sin importar lo que representen. D.Que la característica no contiene valores decimales.
B Esto significa que un valor de '10' es el doble que '5', y la diferencia entre '8' y '9' es la misma que entre '1' y '2'. El número en sí mismo porta información cuantitativa real.
735
De las siguientes opciones, ¿cuál es el mejor ejemplo de una característica que es numérica y tiene una magnitud significativa? A.El número de años de experiencia de un empleado (ej. 2, 5, 10). B.El número de teléfono de una persona. C.El número de identificación (ID) de un cliente (ej. 7345, 7346). D.El código postal de una dirección (ej. 28013, 41001).
A Aquí, el número tiene un significado claro y medible. 10 años es el doble de experiencia que 5 años, y la diferencia entre 2 y 3 años es un año constante de experiencia.
736
Un compañero convierte la categoría de un producto ('Gama Baja', 'Gama Media', 'Gama Alta') a los números 1, 2 y 3 respectivamente. ¿Por qué esto viola el principio de 'magnitud significativa'? A.Porque los modelos de machine learning no pueden trabajar con los números 1, 2 y 3. B.Porque las categorías de productos siempre deben representarse con texto. C.Porque el modelo asumirá que la 'distancia' entre 'Gama Baja' y 'Gama Media' es la misma que entre 'Gama Media' y 'Gama Alta'. D.Porque es mejor usar números más grandes como 100, 200 y 300.
C El modelo tratará estos números como si tuvieran una relación lineal y equidistante. Podría asumir que 'Gama Alta' (3) es tres veces 'Gama Baja' (1), lo cual es una suposición incorrecta y arbitraria que introduce un sesgo.
737
¿Cuál es el objetivo principal al realizar un primer entrenamiento con un modelo simple sobre un dataset nuevo? A.Demostrar a los directivos que el proyecto es viable mostrando un resultado rápido. B.Verificar si la computadora tiene suficiente potencia para entrenar modelos complejos. C.Obtener el mejor modelo posible para ponerlo en producción inmediatamente. D.Establecer una 'línea base' (baseline) de rendimiento y comprender si los datos tienen alguna señal predictiva.
D Este es el objetivo clave. Si un modelo simple no puede predecir mejor que el azar, es posible que tus datos no contengan la información necesaria. Cualquier modelo complejo que construyas después deberá superar esta línea base para justificar su complejidad.
738
Recibes un nuevo dataset. ¿Cuál debería ser la PRIMERA acción a realizar, incluso antes de mirar los datos en detalle? A.Normalizar todas las características numéricas para que tengan la misma escala. B.Separar el dataset en un conjunto de entrenamiento y uno de prueba (train/test split). C.Eliminar todas las filas que tengan valores nulos para limpiar los datos. D.Entrenar una red neuronal profunda para ver el máximo potencial.
B Este es el paso más crucial y debe ser el primero. Asegura que tu evaluación final del modelo se haga sobre datos que este nunca ha visto, evitando el 'data leakage' (fuga de datos) y dándote una medida honesta de su capacidad de generalización.
739
Al realizar un Análisis Exploratorio de Datos (EDA) en tu conjunto de entrenamiento, descubres que la característica 'edad' tiene un valor máximo de 200 años. ¿Qué implica esto? A.La característica 'edad' debería ser eliminada inmediatamente. B.Es un 'outlier' (valor atípico) muy valioso que ayudará al modelo a aprender. C.No implica nada, el algoritmo de machine learning ignorará automáticamente los valores imposibles. D.El dataset es de mala calidad y debería ser descartado por completo.
D Es una conclusión demasiado drástica. La mayoría de los datasets del mundo real tienen problemas. Este es un problema de calidad de datos que debe ser investigado y corregido (por ejemplo, eliminando la fila o imputando un valor razonable).
740
Entrenas un modelo de Regresión Logística (un modelo simple) para predecir si un cliente comprará (sí/no) y obtienes un 65% de acierto. En el dataset, el 60% de los clientes NO compraron. ¿Qué te dice esta comparación? A.El modelo es solo ligeramente mejor que una regla simple (predecir siempre 'no comprar'). B.La característica más importante debe ser eliminada para mejorar el modelo. C.El modelo es inútil porque no llega al 90% de acierto. D.El modelo es muy bueno porque 65% es una nota de aprobado.
A Si simplemente predijeras la clase mayoritaria ('no comprar') para todos los clientes, acertarías el 60% de las veces. Tu modelo, con un 65%, apenas está aportando valor sobre esta regla tan tonta. Esto indica que tus características actuales tienen poco poder predictivo.
741
Al analizar tu dataset, te das cuenta de que la variable objetivo (lo que quieres predecir) está muy desbalanceada (ej. 98% de 'No Fraude' y 2% de 'Fraude'). ¿Por qué es crucial identificar esto al inicio? A.Porque la métrica de 'accuracy' (porcentaje de aciertos) será engañosa y debemos usar otras como 'precision' o 'recall'. B.Porque debemos eliminar la clase mayoritaria para que el dataset quede 50/50. C.Porque significa que el dataset no sirve y hay que conseguir otro. D.Porque los modelos simples no funcionan con datos desbalanceados.
A Un modelo que siempre prediga 'No Fraude' tendrá un 98% de accuracy, pero será completamente inútil porque nunca detecta el fraude. Saber esto desde el principio te obliga a elegir métricas de evaluación adecuadas que se centren en la clase minoritaria.
742
Tienes una columna 'nombre_cliente'. ¿Por qué un modelo matemático (como una regresión) no puede usar directamente el texto 'Ana García'? A.Porque los modelos se basan en operaciones matemáticas (sumas, multiplicaciones) y no se puede operar matemáticamente con un texto. B.Porque los ordenadores no entienden el español. C.Porque el nombre 'Ana García' es demasiado largo. D.Porque los nombres de personas son datos privados y está prohibido usarlos.
A Esta es la razón fundamental. El modelo no puede hacer `(0.5 * 'Ana García') + 2`. Necesita que la información esté representada en un formato numérico con el que pueda operar.
743
Un compañero sugiere usar 'One-Hot Encoding' para la columna de nombres. Si hay 30.000 nombres únicos, ¿por qué esta es una MALA idea? A.Porque crearía 30.000 nuevas columnas, una para cada nombre, haciendo el dataset gigantesco e inmanejable. B.Porque tardaría demasiado tiempo en procesarse, pero el resultado sería muy bueno. C.Porque One-Hot Encoding solo funciona con números, no con texto. D.Porque crearía una sola columna con 30.000 valores diferentes.
A Esto se conoce como la 'maldición de la dimensionalidad'. La mayoría de estas columnas serían ceros para cada cliente, creando un dataset muy 'escaso' (sparse) que es ineficiente y difícil de entrenar.
744
Si el nombre de persona en sí no se usa en un modelo de machine learning, ¿cuál es la estrategia correcta para extraer su valor predictivo? A.Eliminar la columna, ya que es imposible de usar. B.Usar solo las tres primeras letras de cada nombre. C.Hacer 'ingeniería de características' (feature engineering) para crear nuevas columnas numéricas a partir de las propiedades del nombre. D.Inventar un número al azar para cada nombre.
C No nos interesa el nombre en sí, sino lo que el nombre *implica*. Actuamos como detectives para extraer esas propiedades y convertirlas en números.
745
Quieres capturar la idea de que los nombres más comunes pueden estar asociados a un cierto perfil demográfico. ¿Qué nueva característica numérica podrías crear? A.Una columna que sea '1' si el nombre es común y '0' si es raro. B.Una columna con la longitud del nombre (ej. 'Ana' -> 3). C.Una columna con el número de veces que aparece cada nombre en el dataset (frecuencia). D.Una columna con el orden alfabético del nombre.
C Podrías crear una columna llamada 'popularidad_nombre' donde, para cada persona, el valor sea cuántas veces aparece su nombre. Así, 'Juan' podría tener un valor de 500 y 'Filemón' un valor de 1. Esto es un número con una magnitud significativa.
746
En un dataset de pasajeros del Titanic, ves nombres como 'Dr. John Smith' y 'Miss Jane Doe'. ¿Qué característica extremadamente valiosa podrías extraer de aquí? A.La longitud total del nombre y el título. B.El apellido ('Smith', 'Doe'). C.El título ('Dr.', 'Miss', 'Mr.', 'Mrs.'). D.El número de vocales en el nombre.
C El título es una mina de oro. Implica género, estado civil, estatus social y, a veces, profesión. Podrías convertirlo a números (ej. Mr=1, Miss=2, Dr=3) y sería una de las características más predictivas.
747
Después de hacer toda esta ingeniería de características a partir de la columna 'nombre', ¿qué haces con la columna original? A.La conviertes a números usando el código ASCII de cada letra. B.La mantienes, porque el modelo podría encontrar algo que se nos escapó. C.La eliminas del dataset que le pasas al modelo. D.La dejas para el final, para la evaluación del modelo.
C El objetivo de la ingeniería de características es reemplazar una columna inútil (para el modelo) por varias columnas numéricas y útiles. Una vez extraída su información, la columna original ya no es necesaria para el entrenamiento.
748
¿Cuál de las siguientes es una variable categórica? A.El número de hijos de una persona (ej. 0, 1, 2). B.El precio de un producto (ej. 19.99€). C.El color de un coche (ej. 'Rojo', 'Azul', 'Verde'). D.La temperatura en grados Celsius (ej. 25.5).
C Esta es una variable categórica. Representa una cualidad o categoría y no tiene un valor numérico inherente. No se puede decir que 'Rojo' es mayor que 'Azul'.
749
En machine learning, ¿cuál es la diferencia fundamental entre una variable ordinal y una nominal? A.Las variables ordinales tienen un orden o jerarquía intrínseca, mientras que las nominales no. B.Las ordinales se representan con números y las nominales con texto. C.Las ordinales siempre tienen más categorías que las nominales. D.Las variables nominales son más importantes para los modelos que las ordinales.
A Esta es la definición clave. 'Bajo', 'Medio', 'Alto' (ordinal) tiene un orden claro. 'España', 'Francia', 'Italia' (nominal) no tiene un orden inherente.
750
Tienes la característica 'nivel_satisfaccion' con valores ('Malo', 'Regular', 'Bueno'). ¿Qué técnica de codificación es la más apropiada y por qué? A.Eliminar la característica, ya que es subjetiva. B.One-Hot Encoding, creando una columna para 'Malo', una para 'Regular' y una para 'Bueno'. C.Asignar números al azar (ej. Bueno=0, Malo=1, Regular=2). D.Label Encoding, asignando un número entero que respete el orden (ej. Malo=0, Regular=1, Bueno=2).
D Como la variable es ordinal, usar una codificación numérica simple (Label Encoding) preserva la relación de orden. El modelo puede entender que 2 es más que 1, y que 1 es más que 0.
751
Un compañero usa Label Encoding para la característica 'ciudad' ('Madrid'=0, 'Barcelona'=1, 'Valencia'=2). ¿Por qué esto es un grave error? A.Porque los nombres de las ciudades son demasiado largos. B.Porque el modelo asumirá una relación matemática falsa entre las ciudades (ej. 'Valencia' = 2 * 'Barcelona'). C.Porque debería haber empezado la numeración en 1 en lugar de 0. D.No es un error, es la forma más eficiente de convertir texto a números.
B El modelo aprenderá que la diferencia entre Valencia y Barcelona es la misma que entre Barcelona y Madrid. Impones una relación de orden y magnitud que no existe en la realidad, introduciendo un sesgo muy fuerte.
752
Para la característica nominal 'tipo_de_transporte' ('Coche', 'Autobús', 'Tren'), ¿cuál es la codificación correcta? A.Combinar 'Autobús' y 'Tren' en una categoría 'Transporte Público'. B.Usar One-Hot Encoding, creando 3 nuevas columnas binarias: 'es_coche', 'es_autobus', 'es_tren'. C.Usar Label Encoding: Coche=0, Autobús=1, Tren=2. D.Usar la frecuencia de cada categoría como el nuevo valor.
B Esta técnica crea una nueva columna para cada categoría. Para un cliente que usa 'Coche', la fila sería [1, 0, 0]. Esto le dice al modelo a qué categoría pertenece sin imponer ninguna relación de orden entre ellas. Es la forma estándar de tratar variables nominales.
753
un 'ID de empleado = 72365' no es una cantidad, sino una categoría. ¿Por qué esta distinción es tan CRÍTICA para un modelo de machine learning? A.Porque los modelos solo aceptan números del 0 al 1. B.Porque el modelo intentará encontrar relaciones matemáticas donde no las hay (ej. pensará que el empleado 72366 es 'un poco más' que el 72365). C.Porque los IDs de los empleados son información confidencial. D.Porque los números tan grandes hacen que el entrenamiento sea más lento.
B El modelo ve números y asume que tienen una magnitud y un orden. Tratará el ID como una cantidad medible, introduciendo un patrón completamente falso que contamina y empeora las predicciones. Un ID es solo una etiqueta, como un nombre.
754
Si tuvieras solo 3 empleados (ID_101, ID_102, ID_103), ¿cómo representaría OHE (one hot encoding) a un empleado con ID_102? A.Con una sola columna llamada 'ID_empleado' con el valor 102. B.Con una sola columna llamada 'ID_empleado' con el valor 2. C.Con una sola columna llamada 'ID_empleado' con un valor de 0.5. D.Con 3 nuevas columnas: 'es_ID_101'=0, 'es_ID_102'=1, 'es_ID_103'=0.
D OHE crea un 'interruptor' para cada categoría posible. Enciende (1) el que corresponde y apaga (0) los demás. Así, el modelo sabe a qué categoría pertenece sin asumir ningún orden ni magnitud entre ellas.
755
Si tenemos el problema de OHE (one hot encoding) con por ejemplo, 70.000 empleados. ¿Cuál es el término técnico para una característica con tantas categorías únicas? A.Característica de alta cardinalidad. B.Característica dispersa (sparse). C.Característica de alta dimensionalidad. D.Característica nominal.
A La cardinalidad de una característica es el número de categorías únicas que contiene. Una característica con 70.000 IDs únicos es un ejemplo clásico de alta cardinalidad, y es una señal de alerta para no usar OHE.
756
Imagina que estás trabajando con un modelo de machine learning que analiza el rendimiento de los empleados en función de sus datos históricos. Un día, se incorpora un nuevo empleado al sistema, y el modelo empieza a fallar. ¿Cuál podría ser la causa de este comportamiento inesperado? A. Porque los modelos de machine learning no están diseñados para entornos que cambian. B. Porque el nuevo empleado aún no ha generado ventas. C. Porque el sistema necesita ser reiniciado cada vez que hay un empleado nuevo. D. Porque el nuevo ID no estaba en el 'vocabulario' que el modelo aprendió durante el entrenamiento.
D Porque el nuevo ID no estaba en el 'vocabulario' que el modelo aprendió durante el entrenamiento.
757
Supón que estás desarrollando un modelo de machine learning para predecir el rendimiento de los empleados, y has estado usando el identificador único de cada empleado (ID_empleado) como parte de los datos de entrada. Sin embargo, te surge una duda: ¿es realmente útil incluir esa columna? Codificar 70.000 IDs individuales parece poco eficiente y posiblemente irrelevante para el objetivo del modelo. Ante esta situación, ¿qué estrategia alternativa sería más inteligente que intentar codificar todos esos identificadores? A. Hacer ingeniería de características: en lugar del ID, usar atributos del empleado como 'antigüedad en la empresa', 'departamento' o 'número de cursos de formación'. B. Usar solo los últimos 3 dígitos del ID del empleado. C. Contratar a menos empleados para que el problema sea más fácil. D. Eliminar la columna 'ID_empleado' y no usarla.
A
758
¿Cuál es la razón principal por la que un modelo de machine learning necesita 'suficientes ejemplos'? A.Para aprender los patrones reales y generalizables de los datos, en lugar de memorizar las casualidades de una muestra pequeña. B.Para que sea más fácil para una persona inspeccionar los datos manualmente. C.Para llenar el disco duro y asegurarse de que se está utilizando toda la capacidad de almacenamiento. D.Para que el proceso de entrenamiento dure más tiempo y sea más completo.
A Con pocos datos, el modelo puede confundir el 'ruido' (casualidades) con una señal real. Con muchos ejemplos, los patrones verdaderos se repiten y destacan, permitiendo al modelo aprender reglas que sí funcionan con datos nuevos.
759
Entrenas un modelo para detectar una enfermedad rara que solo afecta al 1% de la población. Tienes 100 pacientes en tu dataset. ¿Cuál es el problema más probable que enfrentarás? A.No tienes suficientes ejemplos de la clase que te interesa: la enfermedad. B.Tienes demasiados ejemplos de pacientes sanos, lo que confundirá al modelo. C.El modelo será muy lento porque la enfermedad es compleja. D.El modelo sobreajustará y aprenderá a detectar perfectamente a los pacientes sanos.
A En tu dataset, probablemente solo tienes 1 paciente con la enfermedad (el 1% de 100). Es imposible que un modelo aprenda las complejas señales de una enfermedad a partir de un único ejemplo. Necesitas suficientes ejemplos de *cada categoría*, especialmente de la minoritaria.
760
Un compañero entrena un modelo con 50 ejemplos y consigue un 99% de acierto en esos mismos 50 ejemplos. Sin embargo, al usarlo con 10 clientes nuevos, falla en 8 de ellos. ¿Qué fenómeno describe mejor esta situación? A.Un error en la programación del modelo. B.Sobreajuste (Overfitting), el modelo memorizó los datos de entrenamiento en lugar de generalizar. C.Subajuste (Underfitting), el modelo es demasiado simple. D.Los 10 clientes nuevos eran casos atípicos.
B Con tan pocos datos, es fácil para el modelo 'hacer trampa' y simplemente memorizar las respuestas de cada uno de los 50 ejemplos. No aprendió las reglas subyacentes, por lo que es inútil cuando se enfrenta a datos que no ha memorizado.
761
Estás construyendo un modelo para predecir el precio de la vivienda. ¿En cuál de estos escenarios es más probable que necesites MÁS datos? A.Prediciendo el precio en un pueblo pequeño donde todas las casas son casi idénticas. B.Prediciendo el precio en una gran ciudad con muchos tipos de barrios, viviendas y factores socioeconómicos. C.El número de datos necesarios es siempre el mismo, independientemente del problema. D.Prediciendo el precio usando solo una característica: los metros cuadrados.
B Cuanto más complejo es el problema (más variables, más interacciones, más variabilidad), más ejemplos necesita el modelo para entender todas las sutilezas y no confundirse con el ruido. Una ciudad grande es un problema mucho más complejo que un pueblo pequeño.
762
No puedes conseguir más datos para tu proyecto de clasificación de imágenes, pero tienes muy pocos ejemplos. ¿Qué técnica de 'Data Augmentation' sería una estrategia inteligente? A.Usar un modelo más simple, como una regresión logística. B.Generar nuevas imágenes de entrenamiento aplicando pequeñas modificaciones a las existentes (rotar, cambiar brillo, hacer zoom). C.Contactar a los clientes para pedirles que se saquen más fotos. D.Crear copias exactas de las imágenes que ya tienes.
B La aumentación de datos crea ejemplos sintéticos pero realistas. Para un modelo, una foto de un gato ligeramente rotada es un ejemplo ¡nuevo! Esto enseña al modelo a ser robusto ante estas pequeñas variaciones, lo que mejora drásticamente su capacidad de generalización.
763
Keras puede sacar el 'significado de las palabras con una representación vectorial'. ¿Qué significa esto en la práctica? A.Traduce las palabras a inglés, que es el idioma que entienden los modelos. B.Asigna a cada palabra un vector (una lista de números) de tal forma que palabras con significados similares tengan vectores matemáticamente cercanos. C.Asigna un número de ID único a cada palabra (ej. 'gato'=1, 'perro'=2). D.Cuenta cuántas veces aparece cada palabra en el texto.
B Esta es la esencia de los 'word embeddings'. El vector de 'gato' estará cerca del de 'felino', pero lejos del de 'lápiz'. Esto permite al modelo entender relaciones semánticas.
764
Tienes un dataset para predecir el salario de una persona con las características 'edad' (rango 18-65) y 'puntuacion_examen' (rango 0-1000). ¿Por qué es crucial aplicar la normalización (escalar de 0 a 1)? A.Para que los números sean más pequeños y el modelo entrene más rápido. B.Para eliminar los valores atípicos (outliers) de ambas características. C.Para evitar que la 'puntuacion_examen', por tener una escala numérica mucho mayor, domine el aprendizaje y haga que la 'edad' parezca menos importante de lo que es. D.Porque los modelos de machine learning solo pueden aceptar números entre 0 y 1.
C Sin normalizar, un cambio de 100 puntos en el examen es numéricamente mucho más grande que un cambio de 10 años en la edad. La normalización pone a todas las características en una 'escala justa' para que el modelo pueda ponderar su importancia real.
765
¿En qué escenario sería una buena idea convertir la 'edad' (un número continuo) en categorías como '18-25', '26-40', '41-65'? A.Para aumentar la precisión de la característica 'edad'. B.Cuando sospechas que la relación no es lineal. Por ejemplo, si la probabilidad de comprar un producto es alta para los jóvenes, baja para los adultos y vuelve a ser alta para los mayores. C.Siempre es mejor, porque las categorías son más fáciles de entender para el modelo. D.Solo si la característica 'edad' tiene muchos valores decimales.
B La discretización ayuda al modelo a capturar estas relaciones no lineales. El modelo puede aprender una importancia específica para el grupo '18-25' y otra completamente diferente para el grupo '26-40', algo que a un modelo lineal simple le costaría mucho.
766
La magia de la vectorización de palabras permite la 'aritmética semántica'. Si tienes vectores para 'Madrid', 'España' y 'Francia', ¿a qué vector se parecería más el resultado de la operación `Vector(Madrid) - Vector(España) + Vector(Francia)`? A.Al vector de 'París'. B.A un vector sin sentido, ya que no se pueden sumar o restar palabras. C.Al vector de 'Europa'. D.Al vector de 'Torre Eiffel'.
A La operación conceptualmente está haciendo: 'Toma Madrid, quítale su cualidad de ser español y añádele la cualidad de ser francés'. El resultado es la capital de Francia.
767
Un modelo de regresión intenta predecir el precio de una casa. ¿Por qué no puede usar directamente la característica 'barrio' con el valor 'Malasaña' en su ecuación matemática? A.Porque el texto ocupa más memoria que los números. B.Porque los algoritmos matemáticos se basan en operaciones numéricas (sumar, multiplicar) y no hay una forma matemática de 'sumar Malasaña'. C.Porque el modelo podría tener un sesgo en contra de ese barrio. D.Porque 'Malasaña' es una palabra demasiado específica de Madrid.
B Esta es la razón fundamental. Un modelo es una función matemática. Necesita números para operar. No puede calcular `(precio_base * 0.8) + 'Malasaña'`. Es como intentar sumar un número y una foto.
768
En un modelo de datos que incluye barrios de Madrid como variables categóricas, alguien propone asignarles números manualmente, por ejemplo: Malasaña = 1, Salamanca = 2, Lavapiés = 3. ¿Por qué este método puede generar problemas para el modelo de aprendizaje automático? A. Porque los números deberían ser más grandes, como 100, 200 y 300. B. Porque es mucho trabajo manual asignar un número a cada barrio. C. Porque si mañana aparece un barrio nuevo, no sabríamos qué número darle. D. Porque el modelo aprenderá una relación de orden y magnitud falsa (ej. que 'Lavapiés' es 3 veces 'Malasaña' o que 'Salamanca' está a medio camino entre los otros dos).
D
769
Tienes una columna con comentarios de usuarios (ej. 'El servicio fue rápido y excelente'). ¿Cuál es la forma correcta de transformar este texto en una característica útil? A.Usar técnicas de Procesamiento de Lenguaje Natural (NLP) para extraer características numéricas, como una puntuación de sentimiento (ej. 0.9 sobre 1) o la frecuencia de ciertas palabras clave. B.Quedarse solo con la primera palabra de cada comentario. C.Contar el número de letras en el comentario. D.Eliminar la columna, ya que el texto libre es demasiado caótico para ser útil.
A No usamos el texto crudo, sino que lo usamos como materia prima para crear características numéricas con significado. El sentimiento, la presencia de palabras como 'excelente' o 'problema', etc., son señales numéricas que un modelo sí puede usar.
770
¿Cuál es la fórmula correcta para calcular el Recall? A. TP / (TP+FN) ​ B.(TP+TN) / (TP + TN + FP + FN) ​C. TP / (TP+FP) ​ D. TN / (TN+FP))
A El Recall se calcula como el número de Verdaderos Positivos (TP) dividido por la suma de Verdaderos Positivos (TP) y Falsos Negativos (FN).
771
Qué significa fundamentalmente el Recall en un modelo de clasificación? A.La capacidad del modelo para encontrar todos los casos positivos reales. B.La capacidad del modelo para no etiquetar una muestra negativa como positiva. C.El porcentaje de predicciones correctas sobre el total de predicciones. D.La proporción de predicciones negativas que fueron correctas.
A El Recall responde a la pregunta: De todos los que realmente eran positivos, ¿cuántos fuimos capaces de identificar correctamente?
772
Un modelo con un Recall alto tendrá... A.Pocos Verdaderos Positivos (TP). B.Muchos Falsos Negativos (FN). C.Pocos Falsos Negativos (FN). D.Muchos Falsos Positivos (FP).
C El objetivo del Recall es minimizar los Falsos Negativos. Si el Recall es alto, significa que el modelo es muy bueno encontrando casi todos los casos positivos reales.
773
¿Cómo se relaciona el Recall con los Falsos Positivos (FP)? A.El Recall es completamente independiente de los Falsos Positivos. B.El Recall aumenta si los Falsos Positivos aumentan. C.Un Recall alto implica necesariamente pocos Falsos Positivos. D.La fórmula del Recall no utiliza directamente los Falsos Positivos.
D La fórmula del Recall -> TP / (TP+FN) se centra en los Verdaderos Positivos y los Falsos Negativos, ignorando los Falsos Positivos.
774
En cuál de los siguientes escenarios es MÁS importante maximizar el Recall? A.Recomendar vídeos en una plataforma. Si se recomienda un vídeo que no gusta (FP), no es grave. B.Clasificar correos como spam. Si un correo importante va a spam (FN), es un problema. C.Predecir si un cliente hará clic en un anuncio. D.Identificar si una foto contiene un gato o un perro en una app de entretenimiento.
B Este es el ejemplo clásico. El coste de un Falso Negativo (un correo importante que no se detecta como 'no spam' y se pierde) es muy alto. Por tanto, queremos encontrar todos los 'no spam' posibles, maximizando el Recall para la clase 'no spam'.
775
En un modelo de predicción de abandono de clientes (churn), la empresa considera que el coste de no identificar a un cliente que va a abandonar es muy alto. ¿Qué significa esto? A.La métrica más importante es el Accuracy general del modelo. B.El coste del Falso Positivo (FP) es mayor que el coste del Falso Negativo (FN). C.Se debe priorizar la Precisión para no molestar a clientes fieles con ofertas de retención. D.Se debe optimizar el modelo para obtener un Recall alto, aceptando un posible aumento de Falsos Positivos.
D Si el coste de un Falso Negativo es alto, queremos minimizar esos errores. Eso es precisamente lo que hace un modelo con alto Recall: encuentra la mayor cantidad posible de clientes que realmente van a abandonar.
776
Para un problema de detección de fraude bancario, donde cada transacción es 'Fraude' o 'No Fraude', ¿qué tipo de modelo de Machine Learning es el más apropiado? A.Un modelo de Reducción de dimensionalidad, para visualizar los datos. B.Un modelo de Clasificación, porque asigna cada transacción a una de dos categorías discretas. C.Un modelo de Regresión, porque predice un valor numérico continuo. D.Un modelo de Clustering, porque agrupa las transacciones similares.
B El objetivo es clasificar cada transacción en una de dos clases definidas: 'Fraude' o 'No Fraude'.
777
¿Por qué un modelo de regresión que da como salida un número (ej. de 0 a 1) no es la mejor opción para decidir si una transacción es fraudulenta o no? A.Porque los modelos de regresión son mucho más lentos que los de clasificación. B.Porque la regresión solo funciona con datos financieros. C.Porque es imposible convertir la salida de una regresión en una decisión de 'sí' o 'no'. D.Porque el problema no busca predecir una cantidad, sino una probabilidad de pertenencia a una clase (Fraude/No Fraude).
D Aunque algunos modelos de clasificación emiten una probabilidad, su objetivo final es asignar una clase. La regresión se enfoca en predecir un valor en una escala continua.
778
En la detección de fraude, la clase 'Fraude' suele ser muy minoritaria en comparación con la clase 'No Fraude'. ¿Qué nombre recibe este problema? A.Varianza alta B.Desbalance de clases (Imbalanced Classes) C.Multicolinealidad D.Sobreajuste (Overfitting)
B Este es el término técnico para describir un conjunto de datos donde una clase es mucho más frecuente que la otra.
779
En un detector de fraude, un 'Falso Negativo' (FN) representa... A.Una transacción fraudulenta que el modelo identificó correctamente. B.Una transacción fraudulenta que el modelo no detectó (la marcó como legítima). C.Una transacción legítima que el modelo identificó correctamente. D.Una transacción legítima que el modelo marcó como fraude.
B El caso era realmente positivo (fraude), pero el modelo dio una predicción negativa (no fraude). Este es el error más costoso.
780
Si el objetivo principal del banco es no dejar pasar NINGÚN fraude, aunque eso suponga bloquear algunas transacciones legítimas por error, ¿qué métrica se debe priorizar? A.Accuracy (Exactitud) B.Recall (Sensibilidad) C.Specificity (Especificidad) D.Precision (Precisión)
B . El Recall mide la capacidad del modelo para encontrar TODOS los casos positivos (fraudes) reales. Maximizarlo es el objetivo cuando el coste de un Falso Negativo es muy alto.
781
¿Por qué el Accuracy (Exactitud) puede ser una métrica muy engañosa en un problema de detección de fraude? A.Porque el Accuracy solo mide los Falsos Positivos y no los Falsos Negativos. B.Porque si el 99% de las transacciones son legítimas, un modelo que siempre predice 'No Fraude' tendrá un 99% de Accuracy pero será inútil. C.Porque es una métrica muy difícil de interpretar para los directivos del banco. D.Porque el Accuracy no puede calcularse en problemas con dos clases.
B Este modelo tendría un Recall de 0 para la clase 'Fraude', fallando en su propósito principal a pesar de tener un Accuracy aparentemente excelente.
782
'Falsos negativos tienden a ser bajo el recall'. ¿Cuál es la forma más precisa de expresar esta relación? A.Los Falsos Negativos y el Recall no tienen relación directa. B.Un número alto de Falsos Negativos (FN) causa directamente un Recall bajo. C.Un Recall bajo causa un número alto de Falsos Negativos (FN). D.Un número bajo de Falsos Negativos (FN) causa un Recall bajo.
B El Recall se calcula como TP / (TP + FN). Si el denominador crece debido a muchos FN, el resultado de la división (el Recall) disminuye.
783
Si tu modelo para detectar clientes que abandonarán la empresa tiene un Recall muy bajo, ¿qué está ocurriendo en la práctica? A.El modelo tiene un rendimiento general excelente en todas las métricas. B.El modelo está fallando en identificar a la mayoría de los clientes que realmente van a abandonar. C.El modelo está prediciendo correctamente casi todos los clientes que se van a ir. D.El modelo está confundiendo a muchos clientes leales con clientes que van a abandonar.
B Un Recall bajo significa que hay muchos Falsos Negativos. En este caso, muchos clientes que abandonan están siendo clasificados incorrectamente como 'no abandonan'.
784
Descubres que tu modelo tiene un Recall bajo. Como bien dices, 'igual es que no hemos cogido un buen modelo'. ¿Cuál de las siguientes NO es una posible causa o solución a investigar? A.Las variables (features) que usamos no contienen suficiente información para predecir la clase positiva. B.El problema es el desbalance de clases y no se ha aplicado ninguna técnica para mitigarlo (ej. SMOTE, class weights). C.Aumentar el número de Falsos Negativos para que el modelo aprenda de sus errores. D.El modelo es demasiado simple para capturar los patrones (ej. Regresión Logística en un problema complejo).
C Correcto, esta opción no tiene sentido. El objetivo es siempre reducir el número de Falsos Negativos, no aumentarlo. El modelo ya está cometiendo demasiados de estos errores.
785
¿Es posible que un modelo con un Recall muy bajo para la clase 'fraude' tenga un Accuracy (Exactitud) general muy alto (ej. 98%)? A.No, es imposible. Si el Recall es bajo, el Accuracy también debe ser bajo. B.Sí, si la clase 'fraude' es muy rara (ej. 1% de los datos). C.No, el Recall y el Accuracy siempre tienen valores muy similares. D.Sí, pero solo si el modelo tiene también una Precisión muy alta.
B Si el modelo predice siempre 'no fraude', acertará en el 99% de los casos (TN), pero fallará en el 1% (FN). El resultado: 99% de Accuracy pero 0% de Recall.
786
Partiendo de tu idea 'Sin datos nuevos no hay retrain', ¿es esta afirmación generalmente correcta y por qué? A.No, reentrenar con los mismos datos varias veces hace que el modelo sea más preciso. B.No, siempre hay que reentrenar un modelo cada día, aunque los datos no cambien. C.Sí, es correcta, porque los modelos antiguos se borran automáticamente después de un tiempo. D.Sí, es correcta. Reentrenar con los mismos datos solo produciría el mismo modelo, sin aportar ninguna mejora.
D El objetivo de reentrenar es que el modelo aprenda de nueva información que refleje la realidad actual. Sin nueva información, no hay nuevo aprendizaje.
787
¿Cuál es el término técnico que describe el fenómeno por el cual un modelo pierde rendimiento con el tiempo porque los datos del mundo real cambian? A.Subajuste (Underfitting) B.Error de Compilación C.Model Drift (o Concept Drift) D.Sobreajuste (Overfitting)
C 'Drift' (deriva) se refiere a este cambio en la distribución de los datos o en la relación entre las variables, que hace que el modelo original se vuelva obsoleto.
788
Un modelo que predice el precio de la vivienda fue entrenado antes de una gran crisis económica. Años después, sus predicciones son muy malas. ¿Por qué es fundamental reentrenarlo? A.Porque se necesita un modelo que use menos memoria RAM. B.Porque los datos originales seguramente se han corrompido o perdido. C.Porque el algoritmo original probablemente contenía errores. D.Porque la relación entre las variables (m², ubicación) y el precio ha cambiado drásticamente (Concept Drift).
D La crisis cambió las reglas del juego. El modelo necesita aprender estas nuevas reglas a partir de datos recientes que incluyan el nuevo contexto económico.
789
Además de la llegada de nuevos datos, ¿qué otra señal es un disparador clave para decidir que es hora de reentrenar un modelo? A.Simplemente reentrenar en fechas fijas (ej. el día 1 de cada mes), sin mirar nada más. B.Cuando el data scientist que creó el modelo deja la empresa. C.Una caída monitorizada y sostenida en las métricas de rendimiento (ej. el Recall o la Precisión). D.Cuando sale una nueva versión del lenguaje de programación (ej. Python 4).
C Monitorizar el rendimiento del modelo en producción es crucial. Si vemos que empieza a fallar más (baja el Recall, por ejemplo), es una clara señal de 'model drift' y una llamada a reentrenar.
790
Has reentrenado tu modelo de detección de fraude con los datos del último mes y has creado una nueva versión. ¿Cuál es el siguiente paso lógico y seguro antes de ponerlo en producción? A.Reentrenarlo una vez más, por si acaso. B.Evaluar la nueva versión contra la versión antigua usando un set de datos de prueba común. C.Borrar el modelo antiguo para evitar confusiones. D.Ponerlo en producción inmediatamente para aprovechar las mejoras cuanto antes.
B Es fundamental comparar ambos modelos en igualdad de condiciones (A/B testing o evaluación offline) para confirmar que la nueva versión es realmente superior antes de desplegarla.
791
¿Es posible que un único modelo de Machine Learning genere dos o más predicciones simultáneamente? A.Sí, pero solo funciona para problemas de clasificación, no de regresión como predecir un precio. B.No, intentarlo produciría un error de sobreajuste (overfitting) de forma garantizada. C.Sí, es posible. Esta área del Machine Learning se conoce como predicción multi-output o multi-objetivo. D.No, es teóricamente imposible. Siempre se debe entrenar un modelo separado para cada variable que se quiere predecir.
C Es un campo entero dedicado a entrenar un solo modelo para que aprenda a predecir varias cosas a la vez.
792
un modelo que toma los datos de una vivienda y predice su 'precio' (valor numérico) y los 'días que tardará en venderse' (otro valor numérico). ¿Cómo se llama este tipo específico de problema? A.Clasificación Multi-label B.Regresión Multi-output (o multivariante) C.Clasificación Multi-clase D.Regresión Polinómica tip: El problema implica predecir números ('Regresión') y son varias salidas ('Multi-output').
B 'Regresión' porque las salidas son valores numéricos continuos, y 'Multi-output' porque hay más de una salida a predecir.
793
¿En qué escenario sería más sensato usar dos modelos en lugar de uno multi-output? A.Cuando se tienen muchísimos datos (terabytes). B.Siempre es mejor usar dos modelos, el multi-output es solo teórico. C.Cuando el jefe de proyecto prefiere tener dos modelos. D.Cuando las dos variables a predecir son completamente independientes y no están correlacionadas.
D Si no hay una relación entre las variables objetivo, no hay conocimiento que transferir entre las tareas, por lo que la principal ventaja del enfoque multi-output desaparece. La simplicidad de dos modelos gana.
793
¿Cuál es la principal ventaja de usar un único modelo multi-output en vez de dos modelos separados? A.Reduce a la mitad la cantidad de datos necesarios para entrenar. B.Siempre es más fácil de programar que dos modelos separados. C.Garantiza que el modelo nunca sufrirá de 'model drift'. D.Si las variables a predecir ('precio' y 'días') están correlacionadas, el modelo puede aprender de esa relación y mejorar ambas predicciones.
D Esta es la razón fundamental. El modelo puede aprender que ciertas características que bajan el precio también acortan el tiempo de venta, usando una tarea para informar a la otra.
794
¿Todos los algoritmos de Machine Learning soportan la regresión multi-output de forma nativa? A.Solo las Redes Neuronales pueden hacerlo; los modelos clásicos no. B.No, pero muchos algoritmos populares sí lo hacen, como los Árboles de Decisión, Random Forest y las Redes Neuronales. C.Sí, cualquier algoritmo de regresión puede predecir múltiples salidas sin ninguna modificación. D.Ningún algoritmo lo soporta. Se debe programar siempre desde cero.
B Mientras que algunos modelos más simples no lo soportan, muchos de los algoritmos más potentes y de uso común están preparados para esta tarea.
795
¿Cuál es el objetivo principal de la estandarización de una feature numérica en Machine Learning? A.Convertir los datos a una escala común sin distorsionar las diferencias en los rangos de valores. B.Reducir el número de features en el modelo para simplificarlo. C.Asegurarse de que todos los valores de la feature estén entre 0 y 1. D.Eliminar los valores atípicos (outliers) del conjunto de datos.
A Esta técnica transforma los datos para que tengan una media de 0 y una desviación estándar de 1, lo cual es fundamental para muchos algoritmos.
796
Si quieres estandarizar una columna numérica, primero calculas la media. ¿Qué segundo valor estadístico necesitas calcular de esa misma columna? A.El valor máximo. B.La varianza. C.La desviación estándar. D.La mediana.
C La desviación estándar mide la dispersión de los datos respecto a la media, y es el componente clave para escalar en esta técnica.
797
La fórmula para estandarizar un valor individual 'x' es (x - media) / ?. ¿Qué representa el '?' en la fórmula? A.El número total de muestras. B.La media. C.La desviación estándar. D.El rango (máximo - mínimo).
C Al dividir la diferencia respecto a la media por la desviación estándar, se expresa cada punto de dato en términos de 'cuántas desviaciones estándar' se aleja de la media.
798
Después de aplicar la estandarización a una feature, ¿qué valor aproximado tendrán la nueva media y la nueva desviación estándar de esa feature? A.Media = 1, Desviación estándar = 0 B.Depende de los datos originales, no se puede saber. C.Media = 0.5, Desviación estándar = 0.5 D.Media = 0, Desviación estándar = 1
D Este es precisamente el resultado y el objetivo de la estandarización: centrar los datos en una media de 0 y darles una dispersión unitaria.
799
Tienes una feature 'edad' con media 30 y desviación estándar 5. ¿Cuál es el valor estandarizado para una persona de 40 años? A.-2 B.2 C.10 D.0.5
B Aplicando la fórmula (x - media) / desv. estándar: (40 - 30) / 5 = 10 / 5 = 2. El valor está a 2 desviaciones estándar por encima de la media.
800
¿Qué describe mejor el proceso de discretización en el preprocesamiento de datos? A.Transformar una variable continua, como la edad, en un conjunto finito de categorías, como 'Niño', 'Adolescente', 'Adulto'. B.Asignar un valor numérico a cada categoría de una variable, como 'Rojo' -> 1, 'Verde' -> 2. C.Eliminar filas del conjunto de datos que contienen valores anómalos o extremos. D.Ajustar la escala de una variable para que tenga una media de 0 y una desviación estándar de 1.
A Este es el núcleo de la discretización: agrupar un rango infinito de valores en un número manejable de 'cajas' o 'bins'.
801
Desde un punto de vista técnico, ¿cuál es el objetivo principal de la discretización? A.Eliminar la correlación entre la variable y la variable objetivo. B.Aumentar la cantidad de información que el modelo puede aprender de la variable. C.Reducir la cardinalidad de la variable. D.Hacer que la distribución de la variable se parezca a una distribución normal.
C La cardinalidad es el número de valores únicos. Al agrupar, pasamos de potencialmente infinitos valores únicos a un número reducido de categorías.
802
Imagina que divides la variable 'temperatura' en intervalos de 10 grados: [0-10), [10-20), [20-30), etc. ¿Qué método de discretización estás usando? A.Discretización por cuantiles (frecuencia igual). B.Discretización basada en árboles de decisión. C.Discretización por clústering (ej. K-Means). D.Discretización por ancho igual.
D Este método divide el rango total de la variable en un número determinado de sub-rangos, y cada uno tiene exactamente el mismo ancho (en este caso, 10 grados).
803
¿Cuál es una de las principales ventajas de discretizar una variable continua? A.Incrementa la precisión de los cálculos al eliminar los decimales. B.Permite capturar relaciones no lineales de forma más sencilla para ciertos modelos. C.Reduce el número total de features (columnas) en el dataset. D.Garantiza que el modelo final sea más preciso en todos los casos.
B Algunos modelos lineales tienen dificultades con las relaciones no lineales. Al discretizar, el modelo puede aprender pesos diferentes para cada 'bin', aproximando así una curva.
804
Tienes los siguientes precios de productos: 1, 2, 4, 5, 20, 22, 25, 100. Si usas discretización por frecuencia igual (cuantiles) para crear 4 'bins', ¿en qué bin estaría el precio '20'? A.En el segundo bin. B.En el cuarto bin (el más alto). C.En el tercer bin. D.En el primer bin (el más bajo).
C Cada bin debe tener 8/4 = 2 observaciones. El primer bin tiene {1, 2}, el segundo {4, 5}, y el tercero {20, 22}. Por tanto, '20' cae aquí.
805
¿Cuál de las siguientes situaciones es el signo más claro de que un modelo está sufriendo de sobreajuste (overfitting)? A.El modelo tarda mucho tiempo en entrenar. B.El modelo tiene un error bajo tanto en los datos de entrenamiento como en los de validación. C.El modelo tiene un error alto tanto en los datos de entrenamiento como en los de validación. D.El modelo tiene un error muy bajo con los datos de entrenamiento, pero un error muy alto con los de validación.
D Esto significa que el modelo ha 'memorizado' los datos de entrenamiento, incluyendo el ruido, y es incapaz de generalizar su aprendizaje a datos que no ha visto antes.
806
¿Cuál de las siguientes es una causa común de sobreajuste? A.Usar un modelo demasiado simple para la complejidad de los datos. B.Tener un conjunto de datos de entrenamiento demasiado grande y diverso. C.Utilizar un modelo excesivamente complejo para la cantidad de datos disponibles. D.Entrenar el modelo durante muy pocas épocas (epochs).
C Un modelo con demasiada flexibilidad (ej. un árbol de decisión muy profundo o una red neuronal con muchas capas) puede empezar a aprender el ruido de los datos en lugar de la señal subyacente.
807
Si detectas que tu modelo está sobreajustado, ¿cuál de las siguientes estrategias sería una solución adecuada? A.Introducir técnicas de regularización (como L1, L2 o Dropout). B.Utilizar menos datos para entrenar, para que el proceso sea más rápido. C.Añadir más capas a tu red neuronal o permitir más profundidad en tu árbol de decisión. D.Entrenar el modelo durante más tiempo (más épocas).
A La regularización penaliza la complejidad del modelo, forzándolo a aprender patrones más simples y robustos, lo que mejora su capacidad de generalización.
808
En una gráfica de curvas de aprendizaje (learning curves), ¿cómo se visualiza el sobreajuste? A.La curva de error de entrenamiento sigue bajando, mientras que la de validación baja al principio y luego empieza a subir. B.La curva de error de entrenamiento y la de validación se mantienen altas y no mejoran. C.La curva de error de validación está consistentemente por debajo de la de entrenamiento. D.La curva de error de entrenamiento y la de validación convergen en un punto bajo.
A El punto donde la curva de validación empieza a subir es el momento en que el modelo deja de generalizar y empieza a memorizar el ruido de los datos de entrenamiento.
809
¿Qué técnica de validación es más robusta contra el sobreajuste a la hora de evaluar un modelo? A.Dividir los datos una sola vez en 80% para entrenamiento y 20% para validación (Hold-out). B.Entrenar y evaluar el modelo con el mismo conjunto de datos. C.Usar solo el 10% de los datos para entrenar y el 90% para validar. D.La validación cruzada (Cross-Validation).
D Al dividir los datos en múltiples pliegues (folds) y entrenar/evaluar el modelo varias veces, se obtiene una estimación mucho más estable y fiable del rendimiento real del modelo, reduciendo el riesgo de sobreajuste a un conjunto de validación particular.
810
¿Cuál es el resultado principal que produce un modelo Word2vec para una palabra? A.Una definición de la palabra, como en un diccionario. B.La traducción de la palabra a otro idioma. C.La frecuencia con la que la palabra aparece en el texto. D.Un vector numérico que captura su significado semántico.
D Word2vec convierte cada palabra de su vocabulario en un vector de números (embedding) donde la posición en un espacio multidimensional representa su significado contextual.
811
La famosa operación vectorial 'Rey' - 'Hombre' + 'Mujer' ≈ 'Reina' demuestra que Word2vec... A.Solo funciona con palabras relacionadas con la realeza y el género. B.Captura relaciones semánticas en la estructura del espacio vectorial. C.Ha memorizado una lista de familias reales y sus géneros. D.Es capaz de realizar operaciones aritméticas complejas.
B El vector que va de 'Hombre' a 'Rey' es similar al que va de 'Mujer' a 'Reina'. Esta es la magia de Word2vec: las relaciones entre palabras se convierten en relaciones geométricas entre vectores.
812
En el espacio vectorial generado por Word2vec, ¿qué esperarías de los vectores de las palabras 'perro' y 'cachorro'? A.Que sus vectores apunten en direcciones completamente opuestas. B.Que uno de los vectores sea cero. C.Que sus vectores sean muy cercanos entre sí. D.Que sus vectores sean perpendiculares (ortogonales).
C Como las palabras 'perro' y 'cachorro' se usan en contextos muy similares, el modelo aprenderá a situar sus vectores en una región muy próxima dentro del espacio vectorial.
813
Desde un punto de vista práctico, ¿para qué se usan principalmente los vectores de palabras (embeddings) generados por Word2vec? A.Para crear un nuevo idioma que solo las máquinas puedan entender. B.Para comprimir archivos de texto y que ocupen menos espacio en disco. C.Para corregir la gramática y la ortografía de un texto. D.Para ser usados como 'features' de entrada en modelos de Machine Learning más complejos.
D Los modelos de clasificación de texto, análisis de sentimiento, etc., no pueden procesar texto crudo. Estos vectores convierten el texto en una entrada numérica de alta calidad que estos modelos pueden utilizar.
814
¿Qué describe mejor la forma en que un Árbol de Decisión para clasificación toma una decisión? A.Encuentra una línea o hiperplano que separe las diferentes clases de datos. B.Sigue una secuencia de preguntas 'si/no' sobre las características del dato hasta llegar a una conclusión. C.Asigna pesos a cada característica y los suma para obtener una puntuación de probabilidad. D.Calcula la distancia de un nuevo dato a todos los demás para ver cuáles son sus vecinos más cercanos.
B Esta es la esencia de un Árbol de Decisión. Cada 'nodo' del árbol es una pregunta que divide los datos, llevándote por un camino hasta una 'hoja' que contiene la predicción final.
815
En la estructura de un Árbol de Decisión, ¿cómo se llama el nodo final de una rama, el que ya no hace más preguntas y da la clasificación definitiva? A.Nodo hoja (Leaf Node). B.Nodo raíz (Root Node). C.Nodo de decisión (Decision Node). D.Nodo de rama (Branch Node).
A Los nodos hoja son los nodos terminales del árbol. Representan las etiquetas de clase y son el resultado de seguir un camino de decisiones.
816
¿Cómo decide el algoritmo cuál es la 'mejor' pregunta para hacer en cada paso? A.Hace una pregunta al azar para asegurar la variabilidad del modelo. B.Siempre pregunta primero por la primera columna (feature) del conjunto de datos. C.Busca la pregunta que divida los datos en dos mitades de igual tamaño. D.Elige la pregunta que divide los datos en los grupos más 'puros' posibles.
D Elige la característica y el punto de corte que mejor separe las clases. Para ello, utiliza métricas como la Ganancia de Información (Information Gain) o la Impureza de Gini, que miden cuán mezcladas o puras quedan las clases después de la división.
817
¿Cuál es una de las principales VENTAJAS de los Árboles de Decisión en comparación con modelos más complejos como las Redes Neuronales? A.Son muy fáciles de interpretar y visualizar. B.No requieren datos para entrenar. C.Son inmunes al sobreajuste (overfitting). D.Siempre son más precisos y potentes.
A Se les considera modelos de 'caja blanca' (white-box) porque podemos ver y entender fácilmente el conjunto de reglas que ha aprendido. Podemos literalmente dibujar el árbol y seguir el camino de decisión.
818
Si un Árbol de Decisión ha crecido mucho y tiene un rendimiento perfecto en los datos de entrenamiento pero malo en los de validación, ¿qué técnica se suele aplicar para solucionarlo? A.Añadir más datos aleatorios. B.Convertir todas las variables a texto. C.Aumentar la profundidad máxima del árbol. D.Poda (Pruning).
D La poda consiste en 'recortar' ramas del árbol que no aportan mucho poder de generalización y que probablemente solo están modelando el ruido de los datos de entrenamiento. Esto simplifica el modelo y combate el sobreajuste.
819
¿Cuál es el objetivo principal del Análisis Exploratorio de Datos (EDA)? A.Construir y entrenar un modelo de machine learning predictivo. B.Resumir las características principales de un conjunto de datos, a menudo con métodos visuales. C.Demostrar matemáticamente la validez de una hipótesis. D.Reemplazar todos los valores faltantes en el conjunto de datos.
B Esta es la definición central del EDA. Se trata de una investigación inicial para descubrir patrones, detectar anomalías y probar hipótesis a través de resúmenes estadísticos y gráficos.
820
¿Qué gráfico es más adecuado para visualizar la distribución de una única variable numérica continua? A.Gráfico de barras B.Gráfico de dispersión (Scatter plot) C.Histograma D.Gráfico de líneas
C ¿Por qué la C es la "buena"? C. Histograma El objetivo: Quieres ver la distribución (la forma) de datos numéricos que son continuos (como la altura, el peso, el salario o la temperatura). Cómo funciona: El histograma toma esa variable continua y la divide en "intervalos" o "cubos" (bins). Luego, cuenta cuántos datos caen en cada intervalo. El resultado visual: Barras verticales pegadas unas a otras (sin espacios). Esto te permite ver al instante si los datos siguen una curva de campana (distribución normal), si están sesgados hacia un lado, o si hay valores atípicos. ¿Por qué las demás son las "malas"? A. Gráfico de barras El error común: Se parece visualmente al histograma, pero conceptualmente es lo opuesto. Uso: Se usa para variables categóricas (etiquetas de texto, como "País", "Color", "Marca"). Diferencia visual: En el gráfico de barras, las barras están separadas por un espacio, indicando que las categorías no tienen continuidad entre sí (ej: no hay nada entre "Manzana" y "Pera"). B. Gráfico de dispersión (Scatter plot) El error: Este gráfico necesita obligatoriamente dos variables (un eje X y un eje Y) para mostrar la relación entre ellas (correlación). Uso: Ver si "a mayor altura, mayor peso". Como tu pregunta dice "una única variable", este gráfico no sirve. D. Gráfico de líneas El error: Este gráfico implica una secuencia u orden específico. Uso: Se usa casi exclusivamente para series temporales (evolución a lo largo del tiempo). Conectar puntos de una distribución aleatoria con una línea no tendría sentido lógico.
821
En un conjunto de datos con una distribución muy sesgada (asimétrica) y con valores atípicos (outliers), ¿qué medida de tendencia central suele ser más representativa? A.La moda B.El rango C.La media (promedio) D.La mediana
D La mediana (el valor que se encuentra en el medio de los datos ordenados) no se ve afectada por los valores extremos, lo que la convierte en la medida más robusta y representativa para datos sesgados.
822
¿Para qué se utiliza principalmente un gráfico de dispersión (scatter plot)? A.Para ver la composición porcentual de un todo. B.Para visualizar la relación entre dos variables numéricas. C.Para comparar los valores de diferentes categorías. D.Para mostrar la distribución de una única variable.
B Cada punto en el gráfico representa una observación, y su posición en los ejes X e Y muestra los valores de las dos variables, permitiendo ver si hay una relación entre ellas.
823
En el contexto del EDA, ¿qué es un 'outlier' o valor atípico? A.El valor más común en una variable categórica. B.Un valor que falta en el conjunto de datos. C.Una observación que es numéricamente muy distante de las otras observaciones. D.Un error de tipeo en los nombres de las columnas.
C Esta es la definición correcta. Un outlier es un punto de datos que se desvía marcadamente de la tendencia general del resto de los datos.
824
Si el coeficiente de correlación de Pearson entre dos variables es -0.9, ¿qué indica esto? A.Existe una fuerte relación lineal negativa (inversa). B.Existe una fuerte relación no lineal. C.Existe una fuerte relación lineal positiva. D.No hay casi ninguna relación entre las variables.
A El valor está cerca de -1, lo que indica una relación *fuerte*. El signo negativo indica que cuando una variable aumenta, la otra tiende a disminuir. Esto es una relación lineal negativa.
825
¿Qué es la 'imputación' en el contexto del tratamiento de datos faltantes? A.Eliminar todas las filas que contienen al menos un valor faltante. B.Sustituir los valores faltantes por un valor estadístico estimado. C.Ignorar los valores faltantes durante el análisis. D.Crear un nuevo modelo para predecir los valores faltantes.
B La imputación consiste en rellenar los huecos (valores faltantes) con valores plausibles, como la media, la mediana o la moda de la columna.
826
Un diagrama de caja (box plot) es especialmente útil para visualizar... A.La tendencia de una variable a lo largo del tiempo. B.La relación exacta entre dos variables numéricas. C.La frecuencia de cada categoría en una variable cualitativa. D.El resumen de cinco números: mínimo, primer cuartil, mediana, tercer cuartil y máximo.
D Esta es precisamente la información que un diagrama de caja está diseñado para mostrar, ofreciendo una vista rápida de la dispersión, la centralidad y los posibles valores atípicos.
827
¿Cuál es la principal diferencia entre el análisis univariado y el bivariado? A.El univariado es descriptivo, mientras que el bivariado es predictivo. B.El univariado es para datos numéricos y el bivariado para datos categóricos. C.El univariado se enfoca en una sola variable a la vez, mientras que el bivariado analiza la relación entre dos variables. D.El univariado usa gráficos y el bivariado usa tablas.
C Esta es la distinción fundamental. 'Uni-' significa uno, y 'bi-' significa dos. El análisis univariado explora las características de una variable, y el bivariado explora cómo dos variables se comportan juntas.
828
¿Qué visualización combina las características de un diagrama de caja y un histograma para mostrar la distribución de datos? A.Gráfico de dispersión (Scatter plot) B.Gráfico de área C.Mapa de calor (Heatmap) D.Gráfico de violín
D Un gráfico de violín muestra la densidad de probabilidad de los datos en diferentes valores (como un histograma rotado y suavizado) y a menudo incluye un marcador para la mediana y un recuadro para el rango intercuartílico, como un diagrama de caja.
829
En Machine Learning, ¿cuál es el propósito principal de dividir un conjunto de datos en un set de entrenamiento (80%) y un set de validación (20%)? A.Para cumplir con los requisitos de importación de datos de las librerías de Machine Learning. B.Para entrenar el modelo con una parte de los datos y luego evaluar su rendimiento en datos que no ha visto antes. C.Para acelerar el proceso de consulta en BigQuery. D.Para reducir el coste de almacenamiento en BigQuery utilizando solo el 80% de los datos.
B Esta es la práctica estándar para verificar si el modelo puede generalizar su aprendizaje a nuevos datos, evitando el sobreajuste (overfitting).
830
¿Qué hace la función `FARM_FINGERPRINT(data)` en BigQuery en el contexto de la división de datos? A.Encripta los datos para hacerlos más seguros. B.Selecciona un 80% aleatorio de las filas cada vez que se ejecuta. C.Convierte el contenido de una fila en un número único y consistente (hash). D.Ordena los datos de la tabla de forma numérica.
C Calcula un valor hash de 64 bits, lo que permite que una misma fila siempre reciba el mismo número, haciendo la división repetible.
831
¿Cómo se interpreta la condición `WHERE MOD(ABS(FARM_FINGERPRINT(data)), 10) < 8` en una consulta SQL de BigQuery? A.Selecciona el 8% de los datos. B.Selecciona filas donde el 'fingerprint' es menor que 8. C.Selecciona aproximadamente el 80% de los datos de forma determinista. D.Selecciona las primeras 8 filas de la tabla.
C Al dividir el hash entre 10, se obtienen restos del 0 al 9. Esta condición selecciona los que tienen un resto de 0 a 7 (8 de 10 posibilidades).
832
¿Por qué se considera que el método de `FARM_FINGERPRINT` para dividir datos es 'determinista'? A.Porque selecciona los datos de forma completamente aleatoria cada vez. B.Porque determina cuál es el mejor algoritmo de Machine Learning para usar. C.Porque el resultado depende de la hora y fecha en que se ejecuta la consulta. D.Porque la función `FARM_FINGERPRINT` siempre producirá el mismo número de hash para la misma fila de datos.
D Esto garantiza que una fila específica siempre pertenecerá al mismo conjunto (entrenamiento o validación) cada vez que se ejecute la consulta.
833
Si usas `WHERE RAND() < 0.8` en lugar de `FARM_FINGERPRINT`, ¿cuál es la principal desventaja? A.No permite hacer divisiones que no sean 80/20. B.Funciona solo con datos numéricos. C.La división de datos no es repetible; cada ejecución dará un set de entrenamiento diferente. D.Es mucho más lento en BigQuery.
C `RAND()` genera un número aleatorio nuevo para cada fila en cada ejecución, lo que impide reproducir los experimentos de forma exacta.
834
¿Cuál es el resultado de la operación matemática `MOD(A, 2)`? A.El resto de dividir el número A entre 2. B.La raíz cuadrada del número A. C.La mitad del número A. D.El número A elevado a la segunda potencia.
A La función de módulo (MOD) devuelve el resto de una división entera. Al dividir entre 2, el resto solo puede ser 0 (si es par) o 1 (si es impar).
835
Para obtener el conjunto de validación (el 20% restante) usando el método `FARM_FINGERPRINT`, ¿qué condición `WHERE` deberías usar si el entrenamiento usó `MOD(..., 10) < 8`? A.`WHERE MOD(ABS(FARM_FINGERPRINT(data)), 10) >= 8` B.`WHERE MOD(ABS(FARM_FINGERPRINT(data)), 10) > 8` C.`WHERE MOD(ABS(FARM_FINGERPRINT(data)), 10) = 2` D.`WHERE RAND() < 0.2`
A Esta es la condición complementaria. Si el entrenamiento cogió los restos 0, 1, 2, 3, 4, 5, 6 y 7, esta condición coge los restos 8 y 9 (2 de 10 posibilidades, es decir, el 20%).
836
En el contexto de la división de datos, ¿qué garantiza el uso de una función de hash como `FARM_FINGERPRINT` sobre una columna o conjunto de columnas? A.Que cada fila de datos será asignada de forma consistente a un número, permitiendo una división repetible. B.Que los datos se distribuyan de forma desigual para favorecer ciertos patrones. C.Que el proceso de entrenamiento del modelo será más rápido. D.Que la división será diferente cada vez, mejorando la robustez del modelo.
A La esencia de usar un hash aquí es que la misma entrada (los datos de la fila) siempre produce la misma salida (el número hash).
837
Al usar `MOD(..., 10)`, ¿estamos realizando una división con o sin repetición? A.Sin repetición; una fila se asigna o al grupo de entrenamiento o al de validación, pero nunca a ambos. B.Depende de si usamos la función `ABS` o no. C.Depende del número de filas de la tabla. D.Con repetición, porque una fila puede ser seleccionada para entrenamiento y validación.
A Dado que el hash de una fila es constante, el resultado de `MOD(hash, 10)` también lo es. Por lo tanto, o es `< 8` o es `>= 8`, no puede cumplir ambas condiciones a la vez.
838
Además del método `FARM_FINGERPRINT` con `MOD`, BigQuery ML tiene una forma nativa de dividir datos al crear un modelo. ¿Qué opción en la declaración `CREATE MODEL` lo permite? A.`DATA_SPLIT_METHOD='AUTO_SPLIT'` B.`PARTITION_BY='TRAIN_VALIDATION'` C.`SPLIT_METHOD='RANDOM'` D.`DIVIDE_DATA_INTO(train, validation)`
A La cláusula `DATA_SPLIT_METHOD` junto con `DATA_SPLIT_COL` o `DATA_SPLIT_EVAL_FRACTION` permite a BigQuery ML gestionar la división automáticamente.
839
¿Cuál es el objetivo principal de un Clasificador de Votación (Voting Classifier) en machine learning? A.Combinar las predicciones de varios modelos diferentes para obtener un resultado final más robusto y preciso. B.Seleccionar automáticamente el mejor algoritmo individual para un problema específico. C.Reducir la cantidad de datos necesarios para entrenar un modelo de clasificación. D.Entrenar un único modelo que sea extremadamente preciso y rápido.
A Esta es la definición clave. Se busca la 'sabiduría colectiva' de múltiples modelos para mejorar el rendimiento general.
840
¿Qué describe mejor el paso de 'Entrenamiento' en un Clasificador de Votación? A.Se entrena un solo modelo maestro que luego dirige a los demás. B.Los modelos se entrenan unos a otros en una secuencia. C.Solo se entrena el modelo que se espera que sea el más preciso. D.Se entrenan varios modelos diferentes (o iguales) de forma independiente sobre los mismos datos de entrenamiento.
D Esta es la descripción precisa. Cada modelo aprende del mismo conjunto de datos por su cuenta, antes de que sus predicciones se combinen.
841
En un problema de clasificación binaria (Spam/No Spam), un sistema de 'Votación Suave' da una probabilidad promediada de 0.45 para 'Spam' y 0.55 para 'No Spam'. ¿Cuál es la decisión final? A.El resultado es 'No Spam'. B.Se necesita un cuarto modelo para desempatar. C.No se puede decidir porque la diferencia es muy pequeña. D.El resultado es 'Spam'.
A En la 'Votación Suave', la clase con la probabilidad promedio más alta (0.55 en este caso) es la ganadora.
842
Imagina que usas un Clasificador de Votación para reducir el sobreajuste (overfitting). ¿Cómo lo consigue? A.Eligiendo solo el modelo que no ha memorizado el ruido de los datos. B.Haciendo que todos los modelos del ensamble sean muy simples. C.Utilizando menos datos de entrenamiento para evitar la memorización. D.Al promediar las decisiones, se suavizan las predicciones extremas que podrían haber memorizado el ruido.
D Si un modelo se sobreajusta y hace una predicción extraña basada en ruido, los otros modelos, que probablemente no cometieron ese mismo error, pueden 'corregirlo' con sus votos.
843
Un Clasificador de Votación se considera un método de 'ensamble' porque... A.funciona como una 'caja negra' cuyo funcionamiento interno es desconocido. B.crea un conjunto o 'ensamble' de múltiples modelos que trabajan juntos. C.ensambla las características de los datos antes de entrenar. D.utiliza un solo algoritmo, pero lo ensambla de una manera compleja.
B Esa es la definición literal de un método de ensamble: un grupo de modelos que colaboran para resolver un problema.
844
¿Por qué la 'Votación Suave' a menudo produce mejores resultados que la 'Votación Dura'? A.Porque no necesita que los modelos se entrenen. B.Porque tiene en cuenta la 'confianza' de cada modelo en su predicción, no solo el voto final. C.Porque es computacionalmente más sencilla y rápida. D.Porque ignora las predicciones de los modelos menos precisos.
B Un modelo que está muy seguro de su predicción (probabilidad alta) tiene más peso en el promedio final que un modelo que duda (probabilidad cercana a 0.5).
845
En la 'Votación Suave', ¿cómo se determina la clase final? A.La clase con el mayor número de votos, sin importar las probabilidades. B.La clase que es predicha por el modelo con la probabilidad más alta. C.La clase que aparece con más frecuencia en las predicciones. D.La clase que tiene la probabilidad promedio más alta después de combinar las probabilidades de todos los modelos.
D Esta es la mecánica correcta: se promedian las probabilidades para cada clase a través de todos los modelos, y la clase con el promedio más alto gana.
846
¿Cuál de las siguientes es una ventaja clave de usar un Clasificador de Votación sobre un modelo único? A.Siempre garantiza un 100% de acierto en las predicciones. B.Requiere menos conocimiento técnico para su implementación. C.Reduce el sobreajuste (overfitting) y es menos sensible a los sesgos de un solo algoritmo. D.Es mucho más rápido de entrenar que un solo modelo.
C Al promediar las decisiones, se suavizan las predicciones extremas y se compensan los errores o debilidades de los modelos individuales.
847
¿Qué requisito especial tienen los modelos para poder usar la 'Votación Suave' (Soft Voting)? A.Deben ser modelos muy simples y rápidos. B.Deben ser capaces de predecir la probabilidad de pertenencia a cada clase. C.Deben haber sido entrenados con conjuntos de datos completamente diferentes. D.Deben ser todos del mismo tipo de algoritmo (por ejemplo, solo árboles de decisión).
B La 'Votación Suave' necesita las probabilidades para poder promediarlas y ver qué clase tiene la confianza promedio más alta.
848
En un sistema de 'Votación Dura' (Hard Voting), si tres modelos clasifican un dato como {A, B, A}, ¿cuál sería la predicción final del ensamble? A.La predicción sería 'A' porque es la clase que recibe la mayoría de los votos. B.Se calcularía un promedio de las predicciones para decidir. C.La predicción sería 'B' porque es el voto minoritario. D.No se podría tomar una decisión porque no hay unanimidad.
A La 'Votación Dura' funciona por mayoría simple: la clase con más votos (2 para 'A' contra 1 para 'B') es la ganadora.
849
Which BigQuery ML model type is being created with the following statement? CREATE OR REPLACE MODEL `Vuelos.modelo_retrasos` OPTIONS(model_type='LOGISTIC_REG') AS ... A) KMeans B) Linear Regression C) Logistic Regression D) ARIMA
C Logistic Regression
850
In the provided SQL CASE statement, what is the target label for the model? CASE WHEN ARR_DELAY < 0 THEN TRUE ELSE FALSE END A) Whether the flight departed late B) Whether the flight was canceled C) Whether the flight arrived early D) Whether the flight arrived at all
C
851
When filtering training data with WHERE ORIGIN_CITY_NAME = 'Pago Pago, TT', what subset of data will be used by the model? A) All USA flights B) Flights departing from Pago Pago, TT only C) Flights going to Pago Pago, TT only D) Flights between Pago Pago and Hilo, HI only
D
852
Which of the following are true about BigQuery ML's LOGISTIC_REG model? (Select all that apply) A) It predicts continuous numerical outcomes B) It predicts binary (TRUE/FALSE) outcomes C) It can be used for classification problems D) It requires specifying a model type in the OPTIONS clause
B, C y D
853
If you want to predict whether a flight arrives early using BigQuery ML, which of the following column types can be used as the model's LABEL column? A) Integer column with values 0 (late) and 1 (early) B) String column with values 'Early' and 'Late' C) Boolean column with values TRUE (early) and FALSE (not early) D) All of the above
D
854
In BigQuery ML, which option is used to specify the label column when creating a logistic regression model with the following statement? CREATE OR REPLACE MODEL `project.dataset.model` OPTIONS(model_type='LOGISTIC_REG', input_label_cols=['is_delayed']) AS … A. label_cols B. input_label_cols C. target_columns D. class_label
B
855
Suppose you train a logistic regression model in BigQuery ML using only two categorical string features—ORIGIN and DEST. How does BigQuery ML handle these string features during training? A. It ignores all string features by default. B. It automatically one-hot encodes them into dummy variables. C. It applies continuous embedding techniques. D. It throws an error if categorical features are present.
B
856
When you call ML.PREDICT on a binary classification logistic regression model in BigQuery ML with a single new row of input features, how many rows does ML.PREDICT return in the result? A. One row, containing the predicted label and its probability. B. Two rows, one per class label, each with its probability. C. One row for each feature. D. Zero rows if no errors occur.
B
857
Given this prediction call in BigQuery ML: SELECT * FROM ML.PREDICT( MODEL `Vuelos.modelo_retrasos`, (SELECT 'Pago Pago, TT' AS origin_city_name, 'Hilo, HI' AS dest_city_name) ); The output shows a probability of 0.55465 for is_delayed = TRUE. What does this probability represent? A. The model’s confidence that the flight will depart on time. B. The model’s confidence that the flight will be delayed. C. The historical fraction of flights delayed between Pago Pago and Hilo. D. The average delay in minutes predicted by the model.
B
858
After training a logistic regression model in BigQuery ML as shown: CREATE OR REPLACE MODEL `Vuelos.modelo_retrasos` OPTIONS(model_type='LOGISTIC_REG', input_label_cols=['is_delayed']) AS … Which function would you use to retrieve evaluation metrics such as accuracy, precision, and recall for this classification model? A. ML.PREDICT B. ML.EVALUATE C. ML.TRAIN D. ML.VALIDATE
B
859
What is the purpose of the input_label_cols parameter in the CREATE OR REPLACE MODEL statement used in the provided BigQuery ML script? A) To specify the columns used as features for training the model B) To define the column that contains the target variable for the model C) To indicate the columns to be excluded from the training dataset D) To set the output column for storing predictions
B
860
A machine learning model is being created with the option model_type='LOGISTIC_REG'. Which of the following best describes the type of problem this model is intended to solve? A) Regression, as it predicts a continuous numerical value. B) Clustering, as it groups similar data points without predefined labels. C) Binary Classification, as it predicts an outcome with two distinct possibilities. D) Anomaly Detection, as it identifies rare or unusual data points.
C
861
Review the following query used to define the target variable for a model: CASE WHEN ARR_DELAY < 0 THEN TRUE ELSE FALSE END AS is_delayed Based on this logic, what is the model being trained to predict? A) The probability that a flight will be delayed. B) The probability that a flight will be canceled. C) The probability that a flight will arrive earlier than scheduled. D) The exact arrival delay time in minutes.
C
862
A model has been trained using only the flight's origin and destination cities as features. A prediction is then requested using the ML.PREDICT function for a new flight. What output will the ML.PREDICT function generate for this logistic regression model? A) The historical average delay for the specified route. B) A single integer value representing the predicted delay. C) The probability for each of the possible target labels. D) A TRUE or FALSE value indicating if the flight was on time in the past.
C
863
An analyst runs the following query. What is its primary objective? SELECT ORIGIN_CITY_NAME, AVG(DEP_DELAY) AS avg_departure_delay_minutes FROM `Vuelos.vuelos_usa` WHERE DEP_DELAY IS NOT NULL AND DEP_DELAY < 0 GROUP BY ORIGIN_CITY_NAME ORDER BY avg_departure_delay_minutes DESC LIMIT 1 A) To find the city that has the longest average departure delay. B) To find the city with the earliest average departure (i.e., the most negative delay). C) To find the city with the most frequent early departures. D) Among cities that have early departures, to find the one whose average early departure is closest to zero.
D
864
A data analyst wants to use a large language model (LLM) hosted on Vertex AI to enrich a table in BigQuery. They prefer to use their existing SQL skills without writing code in a separate notebook. What is the most direct way to achieve this within the Google Cloud ecosystem? A) Export the BigQuery table to a CSV file, process it using a Python script that calls the Vertex AI API, and then re-import the results into BigQuery. B) Create a REMOTE MODEL in BigQuery that points to the Vertex AI model's endpoint using a Cloud Resource Connection. Then, invoke the model using the ML.GENERATE_TEXT function in a SQL query. C) Set up a Dataflow job that reads the BigQuery table, calls the Vertex AI API for each row, and writes the output to a new BigQuery table. D) Use the BigQuery REST API to fetch the data, process it in a Cloud Function that calls the Vertex AI model, and then stream the results back into a new BigQuery table.
B BigQuery ML allows the creation of REMOTE MODELs that act as a reference to models hosted on Vertex AI. By creating a Cloud Resource Connection, a user can securely link BigQuery to Vertex AI services. This enables SQL practitioners to invoke powerful generative models directly within a BigQuery query using functions like ML.GENERATE_TEXT, streamlining the entire workflow without leaving the BigQuery environment.
865
You are tasked with analyzing a large number of images stored in a Google Cloud Storage bucket using SQL in BigQuery. The goal is to generate a text description for each image. Which combination of BigQuery features is designed for this specific use case? A) A standard BigQuery table to store the image file paths and a User-Defined Function (UDF) written in JavaScript to process the images. B) A federated table pointing to the Cloud Storage bucket and a BigQuery ML KMEANS model to cluster the images based on their file names. C) An OBJECT TABLE to reference the unstructured image files in Cloud Storage and an ML.GENERATE_TEXT query using a remote vision model to produce descriptions. D) An external table to read the image metadata and a CREATE MODEL statement to train a custom image classification model directly in BigQuery.
C An OBJECT TABLE is the standard way to create a structured reference in BigQuery to unstructured data, like images, stored in Google Cloud Storage. Once referenced, you can use the ML.GENERATE_TEXT function with a remote multimodal model (e.g., Gemini Pro Vision) to pass the image data to the model and generate text-based results, such as descriptions or analyses, directly in a SQL query.
866
In a machine learning project, you have generated vector embeddings for a product catalog and stored them in a BigQuery table. Now, given the embedding of a user's search query, you need to find the top 5 most similar products from the catalog. Which BigQuery ML function is specifically designed for this type of similarity search? A) ML.RECOMMEND B) ML.DISTANCE C) VECTOR_SEARCH D) ML.PREDICT
C The VECTOR_SEARCH function is specifically optimized for performing efficient similarity searches on vector embeddings. It takes a base table with embeddings and a query table (or a single query embedding) and returns the nearest neighbors based on a specified distance metric like COSINE or EUCLIDEAN. This is the standard and most efficient method for finding similar items based on their vector representations within BigQuery.
867
When creating a remote model in BigQuery to connect to a Vertex AI endpoint, you must first create a Cloud Resource Connection. This connection has an associated service account. What is the essential IAM role that this service account must be granted to allow it to successfully invoke models on Vertex AI? A) roles/bigquery.dataEditor B) roles/storage.objectViewer C) roles/aiplatform.user (Vertex AI User) D) roles/cloudaicompanion.user
C The service account associated with the BigQuery Cloud Resource Connection acts on behalf of BigQuery when it calls external services. To access and run models on Vertex AI, this service account requires the Vertex AI User (roles/aiplatform.user) role. This role grants the necessary permissions to make predictions and interact with Vertex AI resources, such as foundation models. Without it, the connection will fail when trying to invoke the remote model.
868
You are using the ML.GENERATE_EMBEDDING function in BigQuery with a remote model to convert text descriptions into vector representations. The function takes a table of text data as input. What is the output of this function? A) A single column named embedding that contains the generated vector as a string. B) The original input columns plus a new STRUCT column containing the embedding and processing status, unless flatten_json_output is set to TRUE. C) A table with only two columns: the primary key from the source table and the generated embedding as an ARRAY. D) It directly modifies the input table by adding a new column named ml_generate_embedding_result with the vector.
B The ML.GENERATE_EMBEDDING function returns all the columns from the input table query and adds a new STRUCT column (by default named ml_generate_embedding_result) that contains the generated embedding vector along with status information about the operation. To simplify the output, you can set the flatten_json_output option to TRUE, which unnests the struct into separate columns, including ml_generate_embedding_result (the embedding itself) and ml_generate_embedding_status. The function does not modify the source table but produces a new result set.
869
An ML engineer needs to perform a complex, reusable calculation on several columns to create a new feature for a model. This calculation involves trigonometric and geometric formulas that are not available as built-in SQL functions. What is the most efficient and maintainable approach within BigQuery to handle this transformation? A) Export the data to a Python environment, perform the calculation using a library like NumPy, and re-upload the results to a new table. B) Write a complex CASE statement within the main SELECT query to handle all the logic for every row. C) Create a permanent User-Defined Function (UDF) using CREATE FUNCTION. Then, call this function within the SELECT statement used for model training. D) Perform the calculation manually for a sample of the data and use the results to train a separate model that predicts the feature's value.
C A User-Defined Function (UDF) is the ideal solution for encapsulating complex, custom, and reusable logic directly within BigQuery. It allows the engineer to define the feature engineering calculation once and then easily apply it in multiple queries, just like any other built-in function. This approach is more efficient, maintainable, and less error-prone than writing a large, complex formula directly in the main query or moving data outside of BigQuery.
870
When training a classification model in BigQuery ML, which clause in the CREATE MODEL statement is used to specify the algorithm to be used (e.g., logistic regression, boosted tree) and to identify the column that contains the ground truth label? A) USING (model = '...', target = '...') B) OPTIONS(model_type = '...', input_label_cols = ['...']) C) CONFIG(algorithm = '...', label_column = '...') D) PROPERTIES(type = '...', label = '...')
B The OPTIONS clause is a fundamental part of the CREATE MODEL statement in BigQuery ML. It is used to configure the model's training process. Specifically, the model_type parameter sets the learning algorithm (e.g., 'LOGISTIC_REG' or 'BOOSTED_TREE_CLASSIFIER'), and the input_label_cols parameter is an array that specifies which column(s) should be treated as the target variable for prediction.
871
An engineer has trained a binary classification model to predict the probability of a customer converting. When evaluating the model, they are more interested in how well the model's predicted probabilities align with the true outcomes, rather than the accuracy of a binary (0/1) prediction at a specific threshold. Which two evaluation metrics are most appropriate for this purpose? A) Precision and Recall B) Accuracy and F1-score C) Log loss and ROC AUC D) Mean Squared Error and Mean Absolute Error
C Log loss and ROC AUC (Area Under the Receiver Operating Characteristic Curve) are excellent metrics for evaluating the quality of predicted probabilities from a classification model. Log loss penalizes models for being overconfident and wrong, directly measuring the accuracy of the probabilities themselves. ROC AUC measures the model's ability to discriminate between the positive and negative classes across all possible classification thresholds. Metrics like Precision, Recall, and Accuracy depend on a single, chosen threshold and do not evaluate the full spectrum of probability outputs.
872
After successfully training a LOGISTIC_REG model in BigQuery ML, a data scientist wants to interpret the model by examining the coefficients assigned to each input feature. Which BigQuery ML function provides this information? A) ML.EVALUATE B) ML.FEATURE_INFO C) ML.PREDICT D) ML.WEIGHTS
D The ML.WEIGHTS function is used to inspect the underlying weights or coefficients of a trained linear or logistic regression model in BigQuery ML. The output shows the learned value for each feature, which helps in understanding how the model makes its predictions (e.g., whether a feature has a positive or negative influence on the outcome)
873
You have a trained classification model named my_project.my_dataset.my_model in BigQuery. You are given a new table, my_project.my_dataset.new_data, with the same schema used for training. What is the correct syntax to use the model to generate predictions on this new data? A) SELECT my_model.PREDICT(new_data.*) FROM \my_project.my_dataset.new_data`` B) SELECT * FROM ML.PREDICT(MODEL \my_project.my_dataset.my_model`, TABLE `my_project.my_dataset.new_data`)` C) EXECUTE MODEL \my_project.my_dataset.my_model` ON TABLE `my_project.my_dataset.new_data`` D) SELECT ML.INFERENCE(MODEL \my_project.my_dataset.my_model`, (SELECT * FROM `my_project.my_dataset.new_data`))`
B The standard function for performing batch inference in BigQuery ML is ML.PREDICT. It takes two primary arguments: the MODEL to use for prediction and the input data, which can be specified as a TABLE or a subquery. This function returns the original input columns along with new columns containing the prediction results, such as the predicted label and the probabilities for each class.
874
In the Google Natural Language API, the sentiment analysis response provides two key metrics: score and magnitude. What is the fundamental difference between these two metrics? A) score measures the overall emotional weight, while magnitude indicates if the sentiment is positive or negative. B) score is the sentiment of the first sentence, while magnitude is the average sentiment of the entire document. C) score ranges from -1.0 to 1.0 indicating negative or positive sentiment, while magnitude is a non-negative number indicating the overall strength of emotion. D) score is always a positive number representing confidence, while magnitude can be negative or positive depending on the text's emotional content.
C The score indicates the direction of the sentiment, where values closer to 1.0 are positive, values closer to -1.0 are negative, and values around 0 are neutral. The magnitude, on the other hand, measures the "amount" or intensity of the emotion expressed, regardless of whether it's positive or negative. A longer text with strong emotional language will have a higher magnitude than a short, neutral text
875
You are analyzing customer reviews for a restaurant. A review states, "The pizza was delicious, but the service was incredibly slow." A standard document-level sentiment analysis returns a near-neutral score. Which Natural Language API endpoint would provide more granular and actionable insights by identifying the sentiment associated with both "pizza" and "service" individually? A) analyzeSyntax B) analyzeEntities C) analyzeSentiment D) analyzeEntitySentiment
D The analyzeEntitySentiment endpoint is specifically designed for this scenario. While a standard analyzeSentiment call provides a single score for the entire text, analyzeEntitySentiment identifies specific entities (like "pizza" and "service") and determines the sentiment expressed towards each one separately. This allows you to distinguish that the customer had a positive sentiment about the food and a negative sentiment about the service within the same review.
876
When performing syntactic analysis with the Natural Language API's analyzeSyntax method, the response for each token includes a lemma. What does the lemma represent? A) The token's position within the sentence's dependency parse tree. B) The token's part of speech, such as Noun, Verb, or Adjective. C) The canonical or root form of the word, independent of its inflection. D) A confidence score indicating the accuracy of the syntax analysis for that token.
C The lemma is the base or dictionary form of a word. For instance, the words "running," "ran," and "runs" all share the lemma "run". This is a crucial feature for text analysis as it allows for the aggregation and tracking of word concepts without being diluted by different grammatical forms (like tense or plurality).
877
The analyzeEntities method of the Natural Language API returns a salience score for each entity it identifies. What does this score signify? A) The sentiment associated with the entity, ranging from negative to positive. B) A value from 0 to 1 indicating the centrality or importance of the entity to the entire text. C) The number of times the entity was mentioned in the text. D) A confidence score indicating how certain the API is that it correctly identified the entity.
B The salience score is a number within the range of [0, 1] that represents the prominence or relevance of an entity to the overall document. An entity that is central to the main topic of the text will receive a higher salience score than an entity that is mentioned only peripherally.
878
When constructing a JSON request for the Natural Language API, you typically provide the text to be analyzed directly in the content field. If your text is stored in a file within a Google Cloud Storage bucket, how should you modify the request payload to instruct the API to process the file from that location? A) Change the document.type from PLAIN_TEXT to GCS_FILE and provide the bucket name in the content field. B) Keep the document.type as PLAIN_TEXT but add a source field with the value "gcs://bucket/file". C) Replace the content key with gcsContentUri and set its value to the Cloud Storage URI of the file (e.g., "gs://bucket-name/file-name.txt"). D) You must first download the file from Cloud Storage and then pass its contents in the content field; the API cannot access GCS directly.
C The Natural Language API is designed to process text directly from Google Cloud Storage. To do this, the request's JSON payload must be structured correctly. Instead of using the content field to hold the text, you must replace it with the gcsContentUri key and provide the full URI of the object in Cloud Storage as its value
879
When using a generative model in Vertex AI Studio, you want the output to be as predictable and fact-based as possible, minimizing randomness and creative variations. Which setting for the temperature parameter should you choose? A) A high value, such as 1.0, to maximize creativity. B) A mid-range value, such as 0.5, to balance predictability and diversity. C) A low value, such as 0.0, to ensure the model selects the most probable, deterministic response. D) The temperature setting does not affect the randomness of the output, only the token limit.
C The temperature parameter controls the degree of randomness in the model's response. A lower temperature (approaching 0.0) makes the model more deterministic, meaning it will consistently choose the highest probability tokens, which is ideal for tasks requiring factual and consistent answers. Higher temperatures encourage more diverse and creative results.
880
An engineer gives a large language model the prompt: "Classify this movie review: 'I really enjoyed this film!'" The model responds with a summary of the review instead of the expected "positive" label. Which prompt design technique is best suited to guide the model to perform the classification task correctly? A) Zero-shot prompting, by rephrasing the prompt to be more explicit. B) Few-shot prompting, by providing several examples of movie reviews paired with their correct sentiment labels (positive, negative, neutral) before the actual review to be classified. C) One-shot prompting, by only providing a single example of a poem to change the model's domain . D) Adjusting the Output token limit to 1 to force a single-word answer.
B When a model doesn't understand the desired output format from a simple instruction (a zero-shot prompt), the most effective way to guide it is with few-shot prompting. By providing a few examples of the task (an input review and its corresponding output label), the model learns the pattern and understands that the goal is to classify sentiment rather than summarize the text.
881
The "Freeform" prompt interface in Vertex AI Studio, powered by multimodal models like Gemini, is capable of processing more than just text inputs. Which of the following combinations of inputs can it accept for analysis? A) Text and audio files only. B) Images and video only. C) Text, images, and video. D) Text and tabular data only.
C The "Freeform" mode in Vertex AI Studio leverages the multimodal capabilities of Gemini models. This means it can natively understand and process a combination of different data types in a single prompt, including text, images, and videos, to generate a text-based response
882
Within the Vertex AI Studio UI for designing prompts, what is the primary mechanism for providing examples to the model for one-shot or few-shot prompting? A) Writing the examples directly in the main prompt input field along with the final query. B) Using the dedicated Context and Examples fields, which allow you to structure input/output pairs separately from the test prompt. C) Uploading a CSV file containing the examples via the "Import" button. D) Adding a special instruction like [EXAMPLES_START] and [EXAMPLES_END] within the main prompt box.
B The Vertex AI Studio interface provides a structured way to design prompts that use examples. Instead of mixing examples with the final query in a single text block, users can use the separate Examples section to provide clear input and output pairs. This helps the model better understand the task and desired response format, which is the core of one-shot and few-shot prompting.
883
You need to build a chatbot that consistently adopts a specific persona (e.g., a Shakespearean poet) throughout a conversation. In the Vertex AI Studio "Chat" interface, which feature is specifically designed to provide the model with this kind of persistent, background instruction? A) The main chat input box, where you remind the model of its persona before each question. B) The System instructions or Context field. C) The Temperature parameter, which can be set to a high value to enable personas. D) The Saved Prompts library, where personas can be stored and applied.
B The "Chat" interface in Vertex AI Studio includes a field for System instructions (also referred to as context). This field is the correct place to define the model's persona, rules, or any other context that should be considered consistently across the entire conversation. This ensures the model adheres to the defined constraints without needing to be reminded in every message.
884
You need to train a custom image classification model using Vertex AI AutoML. Your dataset consists of thousands of labeled images stored in a Google Cloud Storage bucket. What is the recommended method for linking these images and their labels to a Vertex AI Dataset? A) Uploading the images one by one through the Google Cloud Console UI and assigning labels manually. B) Creating a CSV file where each row contains a Cloud Storage URI for an image and its corresponding label, and then importing this single CSV file from Cloud Storage. C) Writing a Python script using the Vertex AI SDK to create a separate API call for each image. D) Placing the images in folders within the Cloud Storage bucket, where each folder name corresponds to a label, and then pointing the dataset to the root folder.
B For large datasets, the most efficient and standard method is to create a CSV index file. This file acts as a manifest, pointing Vertex AI to the location of each image file in Cloud Storage and providing its associated label. Vertex AI then uses this CSV to import and organize the entire dataset in a single operation.
885
When initiating an AutoML Vision training job from the Vertex AI console, after selecting your dataset and model details, what is the primary way you define the training duration and cost? A) By specifying the number of training steps and the learning rate. B) By selecting a specific machine type (e.g., n1-standard-4) and the number of epochs. C) By setting a budget in "node hours," which determines the maximum amount of computation to be used for training. D) By choosing a predefined training time, such as "short," "medium," or "long."
C The AutoML training process abstracts away complex configurations. The main way a user controls the training job's extent and cost is by setting a budget based on node hours. A higher budget in node hours allows the service to search for a better model for a longer time, potentially leading to higher accuracy
886
To get an online prediction from a deployed AutoML Vision model's REST endpoint, you must send a JSON payload. How should the image data be formatted within the instances array of this payload? A) As a public URL pointing to the image file. B) As a base64-encoded string representing the image bytes. C) As the Cloud Storage URI of the image file. D) As a raw binary array of the image's pixel data.
B For online predictions via the REST API, the image itself must be embedded in the JSON request. The standard method for this is to convert the image file into a base64-encoded string and place that string within the content key inside the instances array
887
Before training an AutoML Vision model, it is a best practice to inspect the dataset for labeling errors. The Vertex AI console provides an interface for this. For a production-grade model, what is the recommended minimum number of training images per label to achieve high accuracy? A) At least 10 images per label. B) At least 100 images per label. C) At least 1,000 images per label. D) At least 20 images per label.
B While a model can be trained with fewer images for a demonstration, the documentation explicitly notes that for a production model, a user should aim for at least 100 images per label to ensure the model has enough data to learn effectively and achieve high accuracy.
888
What is the primary role of a "Managed Dataset" within the Vertex AI platform? A) It is a centralized repository that stores only the final, trained models. B) It is a temporary staging area for data that is deleted after a model training job is complete. C) It is a core Vertex AI resource that links your raw data (e.g., images in Cloud Storage) with its labels and makes it available for training and analysis. D) It is a tool used exclusively for performing data augmentation before training begins.
C A Managed Dataset in Vertex AI is a crucial, persistent resource. It serves as a bridge between your source data, which can reside in places like Cloud Storage or BigQuery, and the Vertex AI training services. It stores the metadata, labels, and pointers to the data, allowing you to easily use the same curated and labeled dataset to train multiple models or perform further analysis without re-importing the data each time
889
An SQL analyst wants to train a binary logistic regression model directly within BigQuery to predict customer churn. Which BigQuery ML statement should they use to begin this process? A) SELECT PREDICT(churn) FROM customers; B) CREATE OR REPLACE MODEL dataset.churn_model OPTIONS(model_type='logistic_reg') AS SELECT ... C) EXECUTE TRAINING ON dataset.customers FOR churn_model TYPE='logistic_reg'; D) TRAIN MODEL dataset.churn_model USING (SELECT * FROM customers) OPTIONS(label='churn');
B The standard syntax for training a model in BigQuery ML is the CREATE OR REPLACE MODEL statement. This command allows you to define the model's name, specify its type (like 'logistic_reg') in the OPTIONS clause, and provide the training data via a SELECT query, all within a single SQL statement.
890
In a raw e-commerce dataset, the totals.transactions column is an integer representing the number of purchases, but it is NULL for visitors who made no purchase. To create a binary classification label (1 for purchase, 0 for no purchase), which SQL expression is most appropriate? A) totals.transactions AS label B) IF(totals.transactions IS NULL, 0, 1) AS label C) CAST(totals.transactions AS BOOLEAN) AS label D) IFNULL(totals.transactions, 0) AS label
B The IF(totals.transactions IS NULL, 0, 1) expression correctly handles the logic. It checks if the totals.transactions field is NULL (meaning no transaction occurred) and assigns a 0 in that case. If it's not NULL (meaning at least one transaction occurred), it assigns a 1. This effectively creates the binary target label needed for the classification model.
891
You have a trained classification model in BigQuery ML and want to get performance metrics like precision, recall, and roc_auc. Which function is specifically designed to compute these metrics against the model's holdout data or a new dataset? A) ML.TRAINING_INFO B) ML.PREDICT C) ML.EVALUATE D) ML.FEATURE_INFO
C The ML.EVALUATE function is the standard way to assess a trained model's performance in BigQuery ML. When called on a model, it automatically computes a variety of evaluation metrics based on how the model performed against its internal evaluation dataset, returning them as a query result
892
An analyst has a trained BigQuery ML model and wants to use it to predict which users in a new dataset are most likely to make a purchase, then aggregate the results. Which statement best describes how ML.PREDICT is used in this workflow? A) It is a standalone command that replaces the entire SELECT statement. B) It must be used in a CREATE MODEL statement to generate predictions. C) It is a function that takes a model and input data, and its output can be used within a standard SELECT query for further aggregation with GROUP BY or ORDER BY. D) It only works on the original training data and cannot be applied to new data.
C The ML.PREDICT function is designed to be nested within a standard SQL query. It performs inference on the specified data, and the results (the predictions) can then be immediately used by outer SQL clauses like SELECT, GROUP BY, and ORDER BY for further analysis, such as summing predicted purchases by country or user
893
When working with a dataset containing daily user interaction data (like ga_sessions_*), what is a common strategy in BigQuery to split the data so that older data is used for training and more recent data is reserved for prediction? A) Using the TABLESAMPLE clause to randomly select rows for training. B) Manually creating two separate tables, one for training and one for prediction. C) Using a WHERE clause to filter the _TABLE_SUFFIX pseudo-column based on a date range. D) Using the ML.SPLIT_DATA function to divide the data by time.
C For tables sharded by date, like the Google Analytics sample data, the _TABLE_SUFFIX pseudo-column represents the date suffix of the table name (e.g., '20170631'). A common and effective strategy is to use a WHERE _TABLE_SUFFIX BETWEEN 'start_date' AND 'end_date' clause to select a specific date range for training, and a different, later date range for prediction or evaluation
894
You are using Vertex AI AutoML to train a tabular classification model. During the model training setup, which two of the following are essential configuration steps? A) Writing a custom Python training script and selecting a container image. B) Specifying the Target column (the label to be predicted) and excluding any irrelevant identifier columns (like ClientID) from the training features. C) Manually setting the learning rate and the number of hidden layers in the neural network. D) Defining a custom loss function and selecting the optimizer algorithm (e.g., Adam, SGD).
B In the AutoML workflow, Vertex AI handles the complex model architecture choices. The user's primary responsibility is to guide the training process by defining the problem. This includes specifying which column the model should learn to predict (the Target column) and removing columns that contain unique identifiers or are otherwise not useful for prediction, as these can negatively impact the model's performance.
895
In the evaluation results for a binary classification model in Vertex AI, you are examining the precision-recall curve. A business requirement is to be very certain about positive predictions, even if it means missing some actual positive cases. How should you adjust the confidence threshold to meet this requirement? A) Lower the threshold to increase both precision and recall. B) The threshold cannot be adjusted and is fixed at 0.5. C) Increase the threshold, which will increase precision but likely decrease recall. D) Decrease the threshold, which will increase precision but decrease recall.
C The confidence threshold is the level of certainty the model must have to classify an instance as positive. Increasing the threshold means the model will only flag cases it is very confident about, which increases precision (reducing false positives). The trade-off is that it will likely miss more actual positive cases that fall below this high threshold, thus decreasing recall.
896
The confusion matrix is a key tool for evaluating a classification model's performance. What information does it primarily provide? A) A ranking of which features were most influential in the model's predictions. B) A graph showing the trade-off between the true positive rate and the false positive rate. C) A table showing how often the model correctly and incorrectly classified examples for each class in the test set. D) The overall accuracy and log loss of the model across all classes combined.
C A confusion matrix gives a detailed breakdown of model performance on a class-by-class basis. It shows the number of true positives, true negatives, false positives, and false negatives, which helps you understand not just how accurate the model is overall, but also where it gets "confused" between different labels
897
After an AutoML model is trained, Vertex AI provides a Feature Importance chart. What is the most common use of this information for an ML practitioner? A) To determine the optimal confidence threshold for deployment. B) To calculate the total cost of the model training job. C) To understand which data columns had the greatest impact on the predictions, which can be used to improve the model in future iterations. D) To select the best machine type for deploying the model to an endpoint.
C Feature importance values indicate how much each feature contributed to the model's predictions. A practitioner can use this insight to perform feature engineering, such as removing features with very low importance or combining highly important features to potentially create a more powerful signal, thus improving model performance in the next training cycle
898
You need to build a machine learning model to predict a customer's exact credit score, which is a continuous number. When creating a new tabular dataset in Vertex AI, which learning objective should you select? A) Classification, because you are assigning a value to a customer. B) Regression, because you are predicting a continuous numerical value. C) Forecasting, because you are predicting a future credit score. D) Clustering, because you are grouping customers by their creditworthiness.
B In machine learning, the task of predicting a continuous value (like a price, temperature, or in this case, an exact credit score) is called regression. Classification, on the other hand, is used when the goal is to predict a distinct category or class (e.g., whether a loan will be "repaid" or "defaulted")
899
A machine learning engineer has a Python training script and wants to run it as a custom training job on Vertex AI without building a custom Docker container. What is the most efficient approach? A) Use a Vertex AI Notebook instance and run the script directly in a Jupyter cell. B) Create a CustomJob using the Vertex AI SDK, specifying the name of a pre-built training container and providing the path to the Python script. C) Package the script into a zip file and upload it directly to the Vertex AI Model Registry. D) Create a Dockerfile that copies the script, build the image, push it to Artifact Registry, and then create a CustomJob
B Vertex AI provides pre-built containers for common ML frameworks like TensorFlow, PyTorch, and Scikit-learn. The most straightforward method for running a script without a custom Dockerfile is to create a CustomJob (or CustomTrainingJob) and point to one of these pre-built containers. You only need to provide your script, and Vertex AI handles the execution environment. Option A runs the script but not as a scalable, managed training job. Option D is for when a pre-built container is not sufficient.
900
Inside a Python script running as a Vertex AI custom training job, how should you save the final trained model so that Vertex AI can locate it and register it? A) Save the model to a local directory named /output. B) Print the model's file path to standard output so the logging system can capture it. C) Save the model to the Cloud Storage path specified by the AIP_MODEL_DIR environment variable. D) The model is saved automatically; no specific path is needed.
C When a Vertex AI training job runs, it sets several environment variables. The AIP_MODEL_DIR variable provides a Cloud Storage URI that the training service expects to find the model artifacts in upon completion. Saving the model to this specific location is the standard convention that allows the platform to automatically pick it up for registration in the Vertex AI Model Registry.
901
You need to train a large model that requires significant computational power. When defining a custom training job using the Vertex AI SDK, how do you specify the hardware configuration, such as the machine type and the number of GPUs? A) By setting environment variables like MACHINE_TYPE and GPU_COUNT in the training script. B) By passing them as command-line arguments to the Python training script. C) By defining the worker_pool_specs, which includes parameters for machine_spec (to set the machine type) and replica_count. D) By naming the training job with a specific convention, such as job-name--n1-standard-8--gpu-v100.
C The hardware for a custom job is configured via the worker_pool_specs parameter when the job is defined and submitted (e.g., through the SDK or gcloud). This specification is a list of dictionaries where you define the machine type, the number of replicas (nodes), and the type and count of accelerators (like GPUs) for each worker pool in the training cluster.
902
What is the primary purpose of using Vertex AI Experiments in the context of training machine learning models? A) To automatically deploy the best-performing model to a production endpoint. B) To provide a managed Jupyter notebook environment for interactive development. C) To track, compare, and organize different training runs by logging parameters, metrics, and artifacts. D) To host and serve pre-trained models from Google's Model Garden.
C Vertex AI Experiments is a managed service for ML experiment tracking. It allows you to log key information from each training job—such as hyperparameters, evaluation metrics (e.g., accuracy, loss), and output artifacts—into a centralized location. This makes it easy to compare the performance of different model versions, organize your work, and reproduce results.
903
After your custom training job has successfully created and saved a model artifact to Google Cloud Storage, what is the next logical step to manage this model for versioning and deployment within the Vertex AI ecosystem? A) Create a new training job using the saved model as a base model. B) Manually create a new endpoint and point it directly to the model artifact in the Cloud Storage bucket. C) Upload the model artifact to the Vertex AI Model Registry, creating a managed Model resource. D) Copy the model artifact to a BigQuery table for serving.
C The Vertex AI Model Registry is the central repository for managing your trained models. By uploading the model artifact from Cloud Storage to the registry, you create a versioned Model resource. This managed resource can then be easily deployed to an endpoint, evaluated, and tracked, providing a streamlined MLOps workflow. Deploying directly from a Cloud Storage bucket (Option B) bypasses the management and versioning benefits of the registry.
904
Which Vertex AI Python SDK code snippet correctly creates a new managed TabularDataset from a CSV file located in a Google Cloud Storage bucket? a) dataset = aiplatform.Dataset.upload( source='gs://my-bucket/data.csv', display_name='my-tabular-dataset' ) b) dataset = aiplatform.TabularDataset.create( display_name='my-tabular-dataset', gcs_source=['gs://my-bucket/data.csv'] ) c) dataset = aiplatform.create_dataset( type='TABULAR', source='gs://my-bucket/data.csv', name='my-tabular-dataset' ) d) dataset = aiplatform.TabularDataset( import_from='gs://my-bucket/data.csv' )
B The correct method is TabularDataset.create(). This class method is specifically designed to create a new managed tabular dataset resource in Vertex AI. It requires a display_name for the dataset and a data source, which in this case is provided via the gcs_source parameter pointing to the file in Google Cloud Storage.
905
In the Vertex AI SDK, how do you instantiate a client object to reference an existing managed dataset using its full resource name? A) dataset = aiplatform.Dataset.get("dataset_display_name") B) dataset = aiplatform.TabularDataset(dataset_name="projects/my-project/locations/us-central1/datasets/12345") C) dataset = aiplatform.TabularDataset.load("projects/my-project/locations/us-central1/datasets/12345") D) dataset = aiplatform.get_dataset(name="12345")
B To create a client object for an existing Vertex AI resource, you instantiate its corresponding class with the dataset_name parameter set to the full resource identifier. This creates a local Python object that acts as a reference to the remote managed dataset, allowing you to interact with it (e.g., launch a training job) without creating a new one.
906
When creating a tabular dataset in Vertex AI, which two of the following are supported as native data sources? A) A CSV file in Google Cloud Storage and a table in BigQuery. B) An Amazon S3 bucket and a local CSV file on your computer. C) A Google Sheet and a pandas DataFrame in memory. D) A MySQL database and a JSON file in Google Drive.
A Vertex AI is tightly integrated with other Google Cloud services. For tabular datasets, the two primary, natively supported sources are files (like CSV) stored in Google Cloud Storage (GCS) and tables or views from BigQuery. Data from other sources must first be moved into either GCS or BigQuery.
907
What is the primary advantage of creating a managed Vertex AI Dataset instead of pointing a training job directly to a raw data file in a storage bucket? A) Creating a managed dataset is the only way to use GPUs for training. B) It provides a reusable, versioned, and centralized resource that can be used for multiple training jobs and analyses without re-defining the source and schema. C) It automatically cleans the data and removes all missing values before training. D) It reduces data storage costs by compressing the source files.
B A managed dataset acts as a centralized and governed pointer to your data. By creating this resource, you establish a single source of truth that can be easily shared, versioned, and reused across different experiments and training jobs (especially for AutoML). It decouples the data management from the model training, which is a key MLOps principle.
908
The operation to import data into a newly created Vertex AI Dataset can take a significant amount of time for large datasets. How is this typically handled by the Vertex AI platform and its SDK? A) The method call is synchronous and will block the execution of your script until the data import is fully complete. B) The method call is an asynchronous operation; it returns immediately and the user must manually poll the dataset's status to check for completion. C) The import process is limited to 5 minutes; if it takes longer, the operation will fail. D) You must specify a timeout parameter, otherwise the SDK will not wait for the operation to complete.
A While the underlying API call is asynchronous, the high-level Vertex AI Python SDK methods like TabularDataset.create() are designed for ease of use and are typically blocking by default. The SDK call will not return control to your script until the underlying long-running operation (like data import) has finished successfully or failed. This simplifies scripting by removing the need for manual polling loops.
909
What is the primary reason to use the Keras Functional API instead of the simpler tf.keras.Sequential API? A) The Functional API provides better training performance and uses less memory. B) The Functional API is required for building models with non-linear topologies, such as those with multiple inputs, multiple outputs, or shared layers. C) The Functional API is the only way to use custom-defined layers. D) The Functional API has been deprecated in favor of the Sequential API for all new projects.
B The Sequential API is excellent for simple, linear stacks of layers. However, the Keras Functional API is designed for flexibility and is the go-to choice when you need to create complex models. Its ability to handle multiple inputs and outputs, shared layers, and directed acyclic graphs (DAGs) of layers is its main advantage over the Sequential model.
910
When building a model with the Keras Functional API, how do you connect layers together? A) By adding them to a list in the order they should be connected. B) By calling the connect() method between two layer instances. C) By calling a layer instance as if it were a function, passing the output of the previous layer as its input. D) By defining the connections in a separate configuration file.
C The core principle of the Functional API is that layers are callable objects. You create a graph of layers by passing the output tensor from one layer as the input argument to the next layer. The syntax looks like this: output_tensor = MyLayer()(input_tensor).
911
After defining the directed graph of layers, which two arguments are essential when you instantiate the final tf.keras.Model object? A) name and optimizer B) layers and loss C) inputs and outputs D) input_shape and output_shape
C A Keras Functional model is explicitly defined by its entry and exit points. When you create the Model instance, you must tell it where the data flows in and where the predictions flow out. This is done by passing the initial input tensor (or a list of them) to the inputs argument and the final output tensor (or a list of them) to the outputs argument.
912
You are building a model that needs to process two different types of input simultaneously: a main text input and a separate numerical metadata input. After processing each input through its own set of layers, how would you typically combine these two branches? A) By using a tf.keras.layers.Concatenate layer to merge the output tensors from both branches. B) By defining two separate models and averaging their predictions after training. C) By adding the output tensor of one branch to the output tensor of the other branch using simple + arithmetic. D) By using a tf.keras.layers.MultiInput layer designed for this purpose.
A The standard way to combine multiple processing branches in the Functional API is with a merge layer. The most common of these is tf.keras.layers.Concatenate, which takes a list of tensors and joins them along a specified axis, creating a single, larger tensor that can then be passed to subsequent layers for further processing.
913
What is the very first step required to define the entry point for data in any Keras Functional API model? A) Creating a tf.keras.layers.Dense layer with an input_shape argument. B) Creating an instance of the tf.keras.layers.Input layer, specifying the shape of the input data. C) Calling the model.add_input() method to define the input shape. D) The input is implicitly defined by the first layer that is called.
B Unlike the Sequential API where the input shape can be defined on the first layer, the Functional API requires you to explicitly create a symbolic Input tensor. This tensor, created using tf.keras.layers.Input(shape=...), serves as the starting point of your model graph. All subsequent layers are connected to this initial input.
914
In a Jupyter environment, what is the most common way to execute a SQL query against a BigQuery table and load the results directly into a pandas DataFrame? A) Use the %%bigquery magic command, passing the name of the DataFrame you want to create as an argument. B) Manually export the BigQuery table to a CSV file, upload it to the notebook environment, and then read it with pandas.read_csv(). C) Use the pandas.read_sql() function with a standard database connection string. D) Use the bq command-line tool with the --output pandas flag.
A The %%bigquery cell magic is a convenient feature provided by the google-cloud-bigquery Python library for use in notebooks. It allows you to write standard SQL directly in a cell and have the results automatically loaded into a specified pandas DataFrame, streamlining the process of pulling data from BigQuery for analysis.
915
After loading a dataset into a pandas DataFrame named df, which line of code is the standard way to quickly check for the total number of missing (null) values in each column? A) df.describe() B) df.info() C) df.isnull().sum() D) df.dropna(inplace=True)
C The .isnull() method returns a DataFrame of the same shape with boolean values indicating if a value is null. Chaining .sum() on top of this aggregates these booleans column-wise (since True is treated as 1 and False as 0), giving you the total count of missing values for each column. This is a fundamental first step in data cleaning and EDA.
916
An analyst wants to understand the distribution of a single continuous numerical variable, such as product prices, in their dataset. Which type of plot is most suitable for this purpose? A) A scatter plot B) A line chart C) A histogram D) A pie chart
C A histogram is the standard visualization for examining the distribution of a single numerical variable. It groups the data into bins and displays the frequency of observations in each bin, which helps in identifying the data's central tendency, spread, and shape (e.g., whether it is skewed or normally distributed).
917
What is the primary purpose of creating a correlation heatmap (e.g., using seaborn.heatmap) during exploratory data analysis? A) To visualize the distribution of each individual numerical feature. B) To quickly identify the strength and direction of linear relationships between pairs of numerical variables in the dataset. C) To display the frequency count of different categories in a categorical variable. D) To show how a variable changes over time.
B A correlation heatmap displays the correlation matrix as a color-coded grid. It is an extremely effective tool for quickly identifying which pairs of numerical variables have a strong positive correlation (tend to increase together) or a strong negative correlation (one tends to increase as the other decreases). This helps in understanding relationships and in selecting features for a machine learning model.
918
To investigate the relationship between two continuous numerical variables, such as a person's age and income, which type of plot would be the most effective choice? A) A bar chart B) A scatter plot C) A box plot D) A histogram
B A scatter plot is the ideal visualization for examining the relationship between two continuous variables. Each point on the plot represents an observation, with its position determined by its values on the x-axis (e.g., age) and y-axis (e.g., income). This allows you to visually inspect for patterns, trends (positive, negative, or no correlation), and outliers.
919
What is the primary benefit of including tf.keras.layers preprocessing layers directly into your model architecture, rather than applying preprocessing steps outside of the model (e.g., with pandas or scikit-learn)? A) It significantly speeds up the model training process. B) It allows the model to be trained on unstructured data like images and text. C) It bundles the preprocessing logic into the saved model itself, which helps prevent training-serving skew by ensuring the same transformations are applied during inference. D) It is the only way to perform data augmentation for image models.
C The key advantage of using Keras preprocessing layers is that they become part of the model's computational graph. When you save the model, the preprocessing logic (e.g., the learned vocabulary from a StringLookup or the mean/variance from a Normalization layer) is saved with it. This ensures that raw data fed to the model for prediction will automatically undergo the exact same transformations that were applied to the training data, thus minimizing training-serving skew.
920
When using stateful Keras preprocessing layers like tf.keras.layers.Normalization or tf.keras.layers.StringLookup, which method must be called on the training data before you begin training the model? A) .compile() B) .fit() C) .adapt() D) .predict()
C Stateful preprocessing layers need to learn internal parameters from the data. For example, the Normalization layer needs to compute the mean and variance, and the StringLookup layer needs to build its vocabulary of unique strings. The .adapt() method is used to perform this fitting process by showing the layer a sample of the training data. This must be done before the layer can correctly transform data during model training or inference.
921
You are building a model with a categorical feature that has a very high cardinality (e.g., a 'product_id' with thousands of unique values). Which combination of Keras layers is the most memory-efficient and effective way to represent this feature? A) A tf.keras.layers.StringLookup layer followed by a tf.keras.layers.CategoryEncoding layer with output_mode='one_hot'. B) A tf.keras.layers.Discretization layer to group the IDs into bins. C) A tf.keras.layers.Normalization layer to scale the string values. D) A tf.keras.layers.StringLookup layer followed by a tf.keras.layers.Embedding layer.
D One-hot encoding a high-cardinality feature would create a very wide and sparse input vector, which is inefficient. The standard and most effective approach is to first map the string identifiers to integer indices using StringLookup and then feed these indices into an Embedding layer. The Embedding layer learns a dense, lower-dimensional vector representation for each category, which is much more efficient and often leads to better model performance.
922
Your model needs to process both numerical and categorical features. You have created two separate preprocessing models using the Keras Functional API: one for the numerical inputs and one for the categorical inputs. Which layer is typically used to combine the outputs of these two preprocessing branches into a single feature vector? A) tf.keras.layers.Add B) tf.keras.layers.Concatenate C) tf.keras.layers.Dense D) tf.keras.layers.Flatten
B The tf.keras.layers.Concatenate layer is the standard choice for combining multiple feature vectors. It takes a list of input tensors and joins them together along a specified axis to create a single, wider tensor. This combined tensor can then be fed into the main body of your deep learning model for further processing.
923
Which Keras preprocessing layer is used to convert a continuous numerical feature, like a user's age, into a discrete categorical feature by grouping the values into a predefined set of bins or intervals? A) tf.keras.layers.Normalization B) tf.keras.layers.CategoryEncoding C) tf.keras.layers.Hashing D) tf.keras.layers.Discretization
D The tf.keras.layers.Discretization layer (also known as binning) is specifically designed for this purpose. It takes a continuous numerical input and maps it to an integer index based on which bin or interval the value falls into. This is a common feature engineering technique to help a model learn non-linear relationships from numerical data.
924
: What is the primary purpose of a tool like Cloud Dataprep in a machine learning workflow? A) To train, evaluate, and deploy machine learning models using a code-free interface. B) To visually explore, clean, and prepare structured or unstructured data for analysis and model training, without writing code. C) To provide a managed environment for running Jupyter notebooks on scalable hardware. D) To execute complex SQL queries for data warehousing and business intelligence.
B Cloud Dataprep is a serverless, intelligent data service specifically designed for data preparation. Its primary function is to allow users to visually inspect data, identify quality issues (like missing values or inconsistencies), and build a series of transformation steps (a "recipe") to clean and standardize the data before it's used in ML models or analytics.
925
In the context of Cloud Dataprep, what is a "recipe"? A) A pre-trained machine learning model used for data validation. B) A configuration file that defines the compute resources for a data processing job. C) A graphical dashboard that visualizes the final, cleaned dataset. D) An ordered sequence of user-defined transformation steps that are applied to the dataset to clean and format it.
D A recipe is the core component of a Dataprep workflow. As a user applies cleaning steps (like deleting columns, filling missing values, or splitting text), each action is added to the recipe. This sequence of steps can then be saved and applied to the full dataset by running a job, ensuring that the transformations are repeatable and consistent.
926
When you apply a recipe to a very large dataset in Cloud Dataprep, which underlying Google Cloud service is typically used to execute the transformation job in a scalable and parallelized manner? A) BigQuery B) Cloud Functions C) Dataflow D) App Engine
C While Dataprep provides the user-friendly interface for defining transformations, it leverages the power of Dataflow as its execution engine for running jobs at scale. Dataflow is a fully managed service for stream and batch data processing that automatically provisions and manages resources, allowing the Dataprep recipe to be applied efficiently to terabytes of data.
927
A data analyst loads a new dataset into Cloud Dataprep and sees quality bars at the top of each column: green for valid data, gray for missing data, and red for mismatched data. What is this initial, automated analysis called? A) Model Training B) Data Profiling C) Anomaly Detection D) A/B Testing
B Data profiling is the process of examining and creating a summary of a dataset. When data is loaded, Dataprep automatically profiles it, providing instant visual feedback on data types, distributions (histograms), and the prevalence of missing or mismatched values. This initial profile is crucial for quickly identifying data quality issues that need to be addressed.
928
A column in your dataset is supposed to contain only numerical values, but the data profile shows a high percentage of mismatched (red) entries because some values are strings (e.g., "N/A"). Which of the following is a valid transformation step in a Dataprep recipe to fix this? A) Change the column's data type to "String" to accept all values. B) Use the replace transformation to find text patterns like "N/A" and replace them with a null value or a specific number like 0. C) Delete the entire column from the dataset. D) All of the above are valid strategies.
D All listed options are valid strategies for handling data quality issues, and the best choice depends on the specific context. You could change the data type if the column is meant to be mixed (A). More commonly, you would replace the invalid strings with a consistent value (B). If the column is deemed not useful or is mostly corrupted, deleting it might be the best option (C). Dataprep's interface supports all of these actions.
929
In a Keras model, you want to use the exact same trained Embedding layer to process two different text inputs. Which of the following best describes how to achieve this using the Functional API? A) Create two separate Embedding layers with the same configuration and hope they learn similar weights. B) Train a separate model for the Embedding layer and load its weights into two different layers in the main model. C) Instantiate the Embedding layer once, and then call this same layer instance on both of the separate input tensors. D) This is not possible; layers cannot be shared between different inputs.
C A key advantage of the Keras Functional API is the ability to create shared layers. You can instantiate a layer (like Embedding or Dense) a single time and then use it on multiple inputs by calling it like a function. This creates a shared weight representation that is updated based on the gradients from all paths it's used in, which is a powerful technique for learning from related inputs.
930
You are building a model that has two distinct outputs: a main classification prediction and an auxiliary regression prediction. When compiling and training this model, how are the loss functions and labels typically handled? A) You must combine both outputs into a single tensor and use one custom loss function. B) You provide a list or dictionary of loss functions to model.compile() and a corresponding list or dictionary of ground truth labels to model.fit(). C) The model can only have one loss function; the auxiliary output is not used in training. D) You train the model twice, once for each output.
B The Keras Functional API natively supports multi-output models. To train such a model, you typically provide a separate loss function for each output by passing a list or dictionary to the loss argument of model.compile(). Correspondingly, when you call model.fit(), you provide the ground truth data as a list or dictionary that matches the structure of the outputs and losses.
931
After constructing a complex model using the Keras Functional API, what is the standard method to print a text-based summary of the architecture, including the output shape and parameter count for each layer? A) print(model) B) model.summary() C) model.visualize() D) model.describe()
B The model.summary() method is an essential utility for inspecting and debugging your model's architecture. It provides a concise, text-based table that shows each layer in order, its output shape, and the number of trainable and non-trainable parameters, which is invaluable for verifying connections and model complexity.
932
Why is the Keras Functional API necessary for implementing a model with a residual connection (or skip connection), where the input to a block of layers is added to its output? A) Because the Sequential API does not support the Add layer. B) Because the Sequential API only allows for a linear, top-to-bottom flow of data, and cannot handle non-linear connections like skip connections. C) Because residual connections require custom activation functions that are only available in the Functional API. D) Because only the Functional API can be compiled with multiple loss functions needed for residual training.
B The Sequential model is strictly for linear stacks of layers where the output of one layer feeds directly and exclusively into the next. A residual connection is a non-linear topology because data from an earlier part of the model "skips" over intermediate layers to be combined with data from a later layer. The Functional API is designed to build these arbitrary graphs of layers and can easily handle such connections.
933
In the Keras Functional API, what is the role of the tf.keras.Model class? A) It is a base class that must be subclassed to create any custom model. B) It is a container that you instantiate at the end of the process by specifying the model's inputs and outputs to define the trainable model object. C) It is a function used to automatically connect a list of layers in the correct order. D) It is a utility for compiling the model and is not used to define the architecture itself.
B In the Functional API, you first define the graph of layers by connecting them together. The final step is to create a usable model object from this graph. This is done by instantiating the tf.keras.Model class and telling it where the graph starts (inputs) and where it ends (outputs). This creates a complete, trainable, and savable model from the layers you've defined.
934
What is the primary objective of a linear regression algorithm? A) To classify data points into distinct categories based on a linear decision boundary. B) To find the best-fitting linear relationship between one or more input features and a continuous target variable. C) To group similar data points into clusters based on their distance from a central line. D) To reduce the number of features in a dataset by projecting them onto a lower-dimensional line.
B Linear regression is a foundational regression algorithm. Its goal is to model the relationship between independent variables (features) and a dependent, continuous variable (the target or label). It does this by finding the optimal parameters (weights and a bias) for a line (or hyperplane in higher dimensions) that best fits the data.
935
In the context of training a linear regression model, what is the most commonly used loss function? A) Hinge Loss, which measures the distance to the classification margin. B) Cross-Entropy Loss, which measures the difference between two probability distributions. C) Mean Squared Error (MSE), which measures the average of the squared differences between the predicted and actual values. D) Mean Absolute Error (MAE), which measures the average of the absolute differences between predicted and actual values.
C Mean Squared Error (MSE) is the standard loss function for linear regression. It calculates the difference between the model's prediction and the true value for each data point, squares that difference, and then finds the average of all these squared differences. Squaring the errors penalizes larger errors more heavily and ensures the loss value is always positive.
936
What is the role of the gradient descent algorithm in training a linear regression model? A) It is a feature selection method used to determine which input variables are most important. B) It is an optimization algorithm that iteratively adjusts the model's weights and bias to minimize the loss function. C) It is a data preprocessing technique used to scale numerical features before training. D) It is a method for evaluating the final model's performance on a test dataset.
B Gradient descent is the core optimization algorithm used to train many machine learning models, including linear regression. It works by calculating the gradient (slope) of the loss function with respect to the model's parameters (weights and bias). It then takes a "step" in the opposite direction of the gradient to find a new set of parameters that result in a lower loss. This process is repeated until the loss is minimized.
937
In a simple linear regression model described by the equation price = m * square_footage + b, what is the correct interpretation of the coefficient m (the slope)? A) The base price of a house when the square footage is zero. B) The predicted change in price for a one-unit increase in square_footage. C) The overall average price of all houses in the dataset. D) A measure of the model's prediction error.
B The slope (m) in a linear regression equation represents the rate of change. It quantifies how much the dependent variable (price) is expected to change when the independent variable (square_footage) increases by exactly one unit. The b term (the y-intercept) represents the predicted price when the square footage is zero.
938
When using the gradient descent algorithm, what is a potential consequence of setting the learning rate too high? A) The model will train extremely slowly but will always find the optimal solution. B) The training process may fail to converge because the parameter updates repeatedly overshoot the minimum of the loss function. C) The model will be prone to underfitting the training data. D) It will have no effect on the training process, only on the final prediction accuracy.
B The learning rate is a hyperparameter that controls the step size at each iteration of gradient descent. If the learning rate is too large, the updates to the model's weights can be so drastic that they "jump" over the point of minimum loss. This can cause the loss to oscillate or even increase, preventing the algorithm from converging to a good solution.
939
What is the primary purpose of configuring a Vertex AI Model Monitoring job for a deployed endpoint? A) To automatically retrain the model with new data as it arrives. B) To track the real-time cost and resource consumption of the prediction endpoint. C) To detect and alert on issues like feature drift and training-serving skew, which can degrade model performance over time. D) To provide a user interface for sending sample prediction requests to the model.
C Vertex AI Model Monitoring is designed to maintain the performance and reliability of models in production. Its core function is to detect deviations between the data seen during training and the data being sent for live predictions. It specifically tracks for feature drift (changes in input data distributions) and training-serving skew (discrepancies between training and serving environments), alerting users when these issues arise.
940
A model performs with 95% accuracy on its test set but shows only 70% accuracy immediately after being deployed to a production environment. What is the most likely cause of this discrepancy? A) Prediction Drift, where the model's output distribution has changed over a long period. B) Concept Drift, where the fundamental relationship between features and the target has changed. C) Training-Serving Skew, where there is a difference between how data is processed or generated in the training environment versus the serving environment. D) Normal statistical variance that should be ignored.
C Training-serving skew refers to a situation where a model's performance differs significantly between the training/evaluation phase and the live production environment. This is often caused by inconsistencies in data preprocessing, feature engineering, or the data generation process itself. It's a common issue that model monitoring helps to identify.
941
When setting up a feature drift detection job in Vertex AI Model Monitoring, why is it necessary to provide the original training dataset as a baseline? A) To allow the monitoring service to retrain the model with that data. B) To calculate the billing costs for the monitoring job. C) To serve as the "ground truth" distribution; the monitoring service compares the statistical properties of the live prediction traffic against this baseline to detect drift. D) To enable the endpoint to serve batch predictions on the training data.
C Drift is a relative concept; you can only know if something has "drifted" by comparing it to a starting point. In Vertex AI Model Monitoring, the original training data serves as that stable baseline. The service calculates the statistical properties (like mean, variance, and distribution) of the training data and continuously compares the incoming prediction requests against this baseline to see if they are statistically different.
942
In Vertex AI Model Monitoring, how do you define the sensitivity for triggering an alert when drift is detected? A) By specifying a retraining interval for the model. B) By setting a detection threshold for each feature being monitored. C) By selecting a specific machine type for the monitoring job. D) By writing a custom alerting function in Python.
B For each feature you choose to monitor, you must set a threshold. This threshold represents the maximum allowable statistical distance (e.g., L-infinity distance) between the baseline (training) distribution and the live (serving) distribution. If the measured drift for a feature exceeds this user-defined threshold, the monitoring service will log the deviation and can trigger an alert.
943
Your model monitoring dashboard indicates that the distribution of an input feature, user_age, has changed significantly in production compared to the training data. However, the distribution of the model's output predictions (prediction_score) has remained stable. Which statement best describes this situation? A) Prediction drift has occurred without feature drift. B) Both feature drift and prediction drift have occurred. C) Neither feature drift nor prediction drift has occurred. D) Feature drift has occurred, but it has not yet caused prediction drift.
D Feature drift specifically refers to a change in the input data's distribution (user_age in this case). Prediction drift refers to a change in the model's output distribution (prediction_score). It is possible for input features to drift without immediately impacting the model's overall output, especially if the model is robust to such changes or if the drifting feature has low importance. This scenario describes feature drift without a corresponding prediction drift.
944
What is the most significant advantage of defining your feature engineering steps within the TRANSFORM clause of a CREATE MODEL statement in BigQuery ML? A) It allows you to use more complex SQL syntax than a standard SELECT statement. B) It makes the training query run faster by pre-calculating the features. C) It ensures that the exact same transformations are automatically applied during prediction with ML.PREDICT, which helps prevent training-serving skew. D) It is the only way to import and use data from Google Cloud Storage.
C The TRANSFORM clause is a powerful feature in BigQuery ML. Any transformations you define within it are saved as part of the model artifact. When you later call ML.PREDICT, the model automatically applies these same transformations to the raw input data before making a prediction. This guarantees consistency between training and serving and is the recommended way to prevent training-serving skew.
945
A data scientist wants to help their linear model learn the interaction effect between two categorical features: time_of_day (e.g., 'morning', 'evening') and user_type (e.g., 'new', 'returning'). Which BigQuery ML function is specifically designed to create a single feature representing this combination? A) ML.ONE_HOT_ENCODER B) ML.STANDARD_SCALER C) ML.POLYNOMIAL_EXPAND D) ML.FEATURE_CROSS
D The ML.FEATURE_CROSS function is designed to create interaction features from categorical inputs. It combines the input features into a single new categorical feature that captures the joint effect of the original features, which can significantly improve the predictive power of linear models.
946
You have a dataset in BigQuery where a single column is an ARRAY of strings, representing all the tags associated with a blog post. To use these tags as features, you first need to convert the array into separate rows, one for each tag. What standard SQL operator is used for this purpose? A) FLATTEN B) UNNEST C) EXPAND D) PIVOT
B The UNNEST operator is a standard SQL function in BigQuery that takes an ARRAY and returns a table with a separate row for each element in that array. This is the fundamental operation for "flattening" repeated or nested data structures so they can be used effectively in queries and for model training.
947
A machine learning model is struggling to learn a non-linear relationship between a numerical feature, engine_speed, and the target variable, fuel_efficiency. Which BigQuery ML function can be used to generate polynomial terms (e.g., engine_speed2, engine_speed3) to help a linear model capture this pattern? A) ML.QUANTILE_BUCKETIZE B) ML.POLYNOMIAL_EXPAND C) ML.PRINCIPAL_COMPONENT_ANALYSIS D) ML.FEATURE_CROSS
B The ML.POLYNOMIAL_EXPAND function takes a numerical feature and creates new features corresponding to that feature raised to a power up to a specified degree. For example, POLYNOMIAL_EXPAND(STRUCT(engine_speed), 2) would produce the original feature and the feature squared (engine_speed2). This allows linear models like logistic or linear regression to fit non-linear, polynomial relationships.
948
To engineer features from a text column containing user comments, you want to calculate a score for each word that reflects its importance within a single comment relative to the entire collection of comments. Which classical natural language processing technique and corresponding BigQuery ML function would you use? A) N-grams, using the ML.NGRAMS function. B) Principal Component Analysis, using the ML.PCA function. C) Term Frequency-Inverse Document Frequency, using the ML.TF_IDF function. D) One-hot encoding, using the ML.ONE_HOT_ENCODER function.
C Term Frequency-Inverse Document Frequency (TF-IDF) is a standard technique for weighting the importance of terms in a document corpus. It increases the weight for terms that appear frequently in a given document but are rare across all documents. BigQuery ML provides the ML.TF_IDF function to compute these scores directly in SQL, which is a powerful step for text feature engineering.
949
An SQL analyst wants to train a binary logistic regression model directly within BigQuery to predict customer churn. Which BigQuery ML statement should they use to begin this process? A) SELECT PREDICT(churn) FROM customers; B) CREATE OR REPLACE MODEL dataset.churn_model OPTIONS(model_type='logistic_reg') AS SELECT ... C) EXECUTE TRAINING ON dataset.customers FOR churn_model TYPE='logistic_reg'; D) TRAIN MODEL dataset.churn_model USING (SELECT * FROM customers) OPTIONS(label='churn');
B The standard syntax for training a model in BigQuery ML is the CREATE OR REPLACE MODEL statement. This command allows you to define the model's name, specify its type (like 'logistic_reg') in the OPTIONS clause, and provide the training data via a SELECT query, all within a single SQL statement.
950
In a raw e-commerce dataset, the totals.transactions column is an integer representing the number of purchases, but it is NULL for visitors who made no purchase. To create a binary classification label (1 for purchase, 0 for no purchase), which SQL expression is most appropriate? A) totals.transactions AS label B) IF(totals.transactions IS NULL, 0, 1) AS label C) CAST(totals.transactions AS BOOLEAN) AS label D) IFNULL(totals.transactions, 0) AS label
B The IF(totals.transactions IS NULL, 0, 1) expression correctly handles the logic. It checks if the totals.transactions field is NULL (meaning no transaction occurred) and assigns a 0 in that case. If it's not NULL (meaning at least one transaction occurred), it assigns a 1. This effectively creates the binary target label needed for the classification model
951
You have a trained classification model in BigQuery ML and want to get performance metrics like precision, recall, and roc_auc. Which function is specifically designed to compute these metrics? A) ML.TRAINING_INFO B) ML.PREDICT C) ML.EVALUATE D) ML.FEATURE_INFO
C The ml.EVALUATE function is the standard way to assess a trained model's performance in BigQuery ML. When called on a model, it automatically computes a variety of evaluation metrics, such as
952
An analyst has a trained BigQuery ML model and wants to use it to predict which users in a new dataset are most likely to make a purchase, then aggregate the results. Which statement best describes how ML.PREDICT is used in this workflow? A) It is a standalone command that replaces the entire SELECT statement. B) It must be used in a CREATE MODEL statement to generate predictions. C) It is a function that takes a model and input data, and its output can be used within a standard SELECT query for further aggregation with GROUP BY or ORDER BY. D) It only works on the original training data and cannot be applied to new data.
C The ml.PREDICT function is designed to be nested within a standard SQL query. It performs inference on the specified data, and the results (the predictions) can then be immediately used by outer SQL clauses like SELECT, GROUP BY, and ORDER BY for further analysis, such as summing predicted purchases by country or user.
953
When working with a dataset containing daily user interaction data (like ga_sessions_*), what is a common strategy in BigQuery to split the data so that older data is used for training and more recent data is reserved for prediction? A) Using the TABLESAMPLE clause to randomly select rows for training. B) Manually creating two separate tables, one for training and one for prediction. C) Using a WHERE clause to filter the _TABLE_SUFFIX pseudo-column based on a date range. D) Using the ML.SPLIT_DATA function to divide the data by time.
C For tables sharded by date, like the Google Analytics sample data, the _TABLE_SUFFIX pseudo-column represents the date suffix of the table name. A common and effective strategy is to use a WHERE _TABLE_SUFFIX BETWEEN 'start_date' AND 'end_date' clause to select a specific date range for training, and a different, later date range for prediction or evaluation.
954
You are preparing a Python training script for a hyperparameter tuning job on Vertex AI. How should you design your script to receive the specific hyperparameter values that the tuning service assigns for each trial? A) Read the values from a JSON file stored in a Cloud Storage bucket. B) Define the hyperparameters as environment variables within the script. C) Hardcode the hyperparameter values directly into the model's code. D) Parse the values as command-line arguments using a library like argparse.
D The Vertex AI hyperparameter tuning service starts each trial by running your training code and passing the hyperparameter values as command-line arguments. Your script must be equipped to parse these arguments (for example, with Python's argparse library) and use them to configure your model and optimizer for that specific trial.
955
When containerizing a custom training application for a Vertex AI hyperparameter tuning job, which two of the following commands are essential to include in your Dockerfile? (Select two). A) EXPOSE 8080 B) RUN pip install cloudml-hypertune C) COPY ./data /data D) ENTRYPOINT ["python", "-m", "trainer.task"]
B y D Explanation: B) RUN pip install cloudml-hypertune: The cloudml-hypertune library is required within your training script to report the results of a trial back to the Vertex AI service. Your container needs to have this library installed. D) ENTRYPOINT ["python", "-m", "trainer.task"]: The ENTRYPOINT command configures the container to run your training script when it starts. This is how Vertex AI initiates the training trial inside the container.
956
In a custom training script, you need to report the model's final validation accuracy to the Vertex AI hyperparameter tuning service so it can evaluate the trial's performance. What is the correct way to accomplish this? A) Print the final accuracy value to standard output using print(). B) Use the cloudml-hypertune library to report the metric with a specific tag and value. C) Write the final accuracy value to a file named results.txt in the container's working directory. D) Return the accuracy value from the script's main() function.
B The standard method to communicate a trial's result to the tuning service is by instantiating a HyperTune object from the cloudml-hypertune library. You then call its report_hyperparameter_tuning_metric method, passing a unique hyperparameter_metric_tag and the final metric_value you want the service to optimize.
957
You are configuring a hyperparameter tuning job in the Vertex AI console. Your goal is to find the set of hyperparameters that results in the lowest possible validation loss. In your training script, you report the metric like this: hpt.report_hyperparameter_tuning_metric(hyperparameter_metric_tag='val_loss', ...). Which two settings must you configure in the "Metric" section of the UI? (Select two). A) Set "Goal" to Maximize. B) Set "Metric to optimize" to val_loss. C) Set "Maximum number of trials" to 1. D) Set "Goal" to Minimize.
B y D Explanation: B) Set "Metric to optimize" to val_loss: This field in the UI must exactly match the hyperparameter_metric_tag you defined in your training code. D) Set "Goal" to Minimize: Since the objective is to find the lowest possible validation loss, the goal for the optimization algorithm must be set to Minimize. If you wanted to optimize for accuracy, you would select Maximize.
958
You are configuring a hyperparameter tuning job in Vertex AI and need to balance speed with the effectiveness of the tuning algorithm (e.g., Bayesian optimization). What is the primary trade-off when you increase the "maximum number of parallel trials"? A) The job will run faster, but its overall effectiveness may be reduced because new trials start without benefiting from the results of other concurrently running trials. B) The job will run slower, but its effectiveness will increase because the algorithm has more time to make decisions. C) The cost per trial will decrease significantly, but the total time to complete the job will increase. D) The job will be both faster and more effective because more of the hyperparameter space is explored at once.
A Increasing the number of parallel trials reduces the total time the job takes to complete. However, it can make the tuning process less effective. Advanced tuning strategies, like the default Bayesian optimization, use the results from completed trials to make more intelligent decisions about which hyperparameter values to try next. If many trials run in parallel, they are chosen without the benefit of knowing the outcomes of other trials that are still running, which can lead to a less efficient search
959
What is the primary advantage of using BigQuery ML to develop and execute machine learning models? A) It automatically selects the best model type for your data from a wide range of deep learning architectures. B) It allows data analysts and SQL practitioners to build, train, and run models directly in BigQuery using SQL queries, avoiding data movement. C) It provides a graphical, no-code interface for building complex ML pipelines with managed services. D) It guarantees superior model performance over specialized frameworks like TensorFlow or PyTorch.
B The main goal of BigQuery ML is to democratize machine learning by allowing professionals who are proficient in SQL to build models within the BigQuery environment. This eliminates the complex and time-consuming step of exporting data to a different platform for model training, thereby increasing development speed
960
You are creating a model in BigQuery ML to predict a customer's total purchase amount, which is stored in the total_spend column. Which SQL syntax correctly specifies the model type as linear regression and defines the target label? A) MODEL_OPTIONS(type='linear_regression', label='total_spend') B) WITH(model_type='linear_reg', target_label='total_spend') C) OPTIONS(model_type='linear_reg', input_label_cols=['total_spend']) D) DEFINE MODEL(type='linear_reg') LABEL(total_spend)
C When using the CREATE MODEL statement in BigQuery ML, the model's configuration is defined within an OPTIONS clause. You must specify the model_type (e.g., 'linear_reg') and provide the name of the label column as a list in input_label_cols
961
After training a regression model in BigQuery ML, you want to assess how well its predictions approximate the actual data. You are particularly interested in the R² score, which measures the proportion of the variance in the dependent variable that is predictable from the independent variables. Which BigQuery ML function should you use to calculate this metric? A) ML.PREDICT B) ML.TRAINING_INFO C) ML.VALIDATE_MODEL D) ML.EVALUATE
D The ML.EVALUATE function is used to evaluate a model's performance by comparing its predictions against actual data. For regression models, its output includes several key metrics, including the r2_score , mean absolute error, and mean squared error.
962
You have successfully trained a classification model in BigQuery ML where the label column was named is_fraud. You now use the ML.PREDICT function to get predictions on new data. What will be the name of the output column containing the predicted label (e.g., the class with the highest probability)? A) prediction_is_fraud B) predicted_is_fraud C) is_fraud_prediction D) is_fraud_output
B When you use the ML.PREDICT function, BigQuery ML automatically names the output column containing the prediction by prepending predicted_ to the name of the original label column. Therefore, if the label column is is_fraud, the prediction column will be predicted_is_fraud
963
You are using Explainable AI in BigQuery ML. You need to understand which features are the most important for the model's predictions overall, rather than for a single, specific prediction. Which function should you use, and what is the key prerequisite for it to work? A) Function: ML.EXPLAIN_PREDICT. Prerequisite: The model must be a tree-based model. B) Function: ML.FEATURE_IMPORTANCE. Prerequisite: You must provide a separate test dataset. C) Function: ML.GLOBAL_EXPLAIN. Prerequisite: The model must have been trained with the ENABLE_GLOBAL_EXPLAIN=TRUE option. D) Function: ML.SHAP_VALUES. Prerequisite: The model must be a linear model.
C The ML.GLOBAL_EXPLAIN function is used to understand which features are most important in general for the model. To use this function, it is mandatory that the model was originally trained or retrained with the ENABLE_GLOBAL_EXPLAIN=TRUE option set in the CREATE MODEL statement.
964
According to the documentation, for which of the following scenarios is Vertex AI Workbench a particularly suitable notebook environment? A) For users who need a simple, browser-based editor and do not require control over the underlying environment. B) For data scientists transitioning from a local workstation to the cloud who are working on complex projects with multiple files and dependencies. C) For projects that must be written exclusively in R or Swift. D) For users who want a fully automated, no-code experience for model building.
B Vertex AI Workbench is highlighted as a good option for those who prioritize control and customizability. It is described as being great for complex projects and ideal for data scientists moving to the cloud from a local environment like a laptop or workstation.
965
When preparing to move a machine learning model from local development to training at scale with the Vertex AI Training Service, what is a crucial best practice for structuring your code? A) Combine all helper functions, data loading, and model definition into a single, large notebook cell for easier execution. B) Store the training data directly inside the notebook file to ensure it's version controlled with the code. C) Organize the training code into a Python package. D) Manually install all dependencies each time the training job runs by using pip install commands within the script.
C A key objective when moving to scaled training is to learn how to organize the training code into a Python package. This makes the code more modular, reusable, and easier to deploy as a training job on the Vertex AI Training Service
966
To use the full capabilities of the Vertex AI Training Service as described in the workflow, which specific API must be enabled in your Google Cloud project? A) Cloud Storage API B) AI Platform Training & Prediction API C) Compute Engine API D) BigQuery API
B The instructions explicitly state that the "AI Platform Training & Prediction API" must be searched for and enabled to proceed with the training lab
967
What software and machine learning frameworks are explicitly mentioned as being pre-installed on Vertex AI Workbench Instances to accelerate development? A) Only the standard Python library with no specific ML packages. B) A proprietary Google framework that is incompatible with open-source tools. C) A suite of deep learning packages, including support for TensorFlow and PyTorch. D) Business intelligence tools like Tableau and Power BI.
C The documentation states that Vertex AI Workbench Instances come with a pre-installed suite of deep learning packages, and it specifically names support for the TensorFlow and PyTorch frameworks.
968
n the lab's described workflow, how does a user begin working with the project's code and notebooks after creating and launching a Vertex AI Workbench instance? A) By writing all the Python code from scratch in a new, empty notebook. B) By cloning a GitHub repository containing the lab files directly into the JupyterLab environment. C) By uploading a zip file containing the code through the JupyterLab interface. D) By connecting the instance to a Cloud Storage bucket and running a script from there.
B The procedure involves running a !git clone command within the first cell of a new notebook to pull the training-data-analyst repository from GitHub into the Workbench instance's local file system.
969
What is the primary function of the tf.data API within the TensorFlow ecosystem? A) To define the layers and architecture of a neural network. B) To deploy trained machine learning models to production servers. C) To build efficient, flexible, and high-performance input pipelines for consuming data. D) To perform low-level mathematical tensor operations on a GPU.
C The tf.data API is specifically designed to create and manage data input pipelines. It provides tools to read data from various sources like memory or disk, and then efficiently transform and prepare it for training a model
970
When building a robust training pipeline with the tf.data API for a typical deep learning task, which two of the following operations are commonly used to prepare the dataset for training? (Select two). A) .compile() B) .shuffle() C) .batch() D) .fit()
B y C Explanation: B) .shuffle(): This method is used to randomize the order of the dataset's elements. This is a crucial step to prevent the model from learning spurious patterns based on the original order of the data and to improve generalization. C) .batch(): This method groups a specified number of consecutive elements from the dataset into batches. Training on batches instead of single examples is more computationally efficient and helps stabilize the gradient updates. The lab objectives explicitly mention learning to build pipelines with these features
971
The tf.data API can create datasets from multiple kinds of sources. According to the lab's objectives, which two data sources will you learn to use? (Select two). A) Data from a live video stream. B) Data residing on disk. C) Data read directly from in-memory tensors or arrays. D) Data queried directly from a SQL database.
B y C The learning objectives clearly state that the lab will cover how to use tf.data to read data directly from memory and how to load a dataset when it resides on disk
972
The lab overview mentions that using a tf.data.Dataset will allow you to implement "stochastic gradient descent". How does the tf.data API facilitate this training method? A) By automatically calculating the gradient for each training example. B) By providing the data in small batches, allowing the model's weights to be updated frequently based on these batches. C) By ensuring the entire dataset is loaded into a single tensor to guarantee a stable gradient. D) By automatically selecting the most optimal learning rate for the model.
B Stochastic gradient descent (and its common variant, mini-batch gradient descent) involves updating the model's parameters using only a small subset (a batch) of the data at each step. The tf.data API is ideal for this, as its .batch() method makes it easy and efficient to supply the training loop with a new batch of data for each iteration.
973
What is a key performance benefit of creating an input pipeline with the tf.data API, especially when training on an accelerator like a GPU? A) It automatically visualizes the data distribution to help identify outliers. B) It allows data loading and preprocessing to be offloaded to the CPU, running in parallel with model execution on the GPU. C) It guarantees that the model will converge in fewer epochs. D) It simplifies the model's architecture by automatically removing unnecessary layers.
B A primary advantage of tf.data is performance. It can create highly efficient pipelines that prefetch and preprocess data on the CPU while the GPU is busy with the previous batch's calculations. This prevents the GPU from being idle ("starved" for data), leading to much faster overall training times. This concept is central to writing "production input pipelines"
974
What is the primary purpose of an activation function (like ReLU or sigmoid) in a neural network? A) To initialize the weights of the network before training begins. B) To speed up the convergence of the gradient descent algorithm. C) To introduce non-linearity, allowing the model to learn complex patterns. D) To reduce the number of features required for training.
C Without a non-linear activation function, a neural network, no matter how many layers it has, would behave like a single-layer linear model. Non-linearity is essential for the network to be able to learn and approximate the complex, non-linear relationships found in most real-world data.
975
In a binary classification task, a business wants to minimize the risk of failing to identify a fraudulent transaction (a positive case). Which evaluation metric should they focus on maximizing? A) Accuracy B) Precision C) Recall (Sensitivity) D) Specificity
C Recall measures the model's ability to find all the actual positive samples. It is calculated as True Positives / (True Positives + False Negatives). By maximizing recall, the business minimizes "false negatives"—fraudulent transactions that the model incorrectly labels as non-fraudulent.
976
What is a classic sign that a machine learning model is overfitting? A) The model performs poorly on both the training data and the test data. B) The model has high performance on the training data but performs poorly on new, unseen test data. C) The model's training time is excessively long. D) The model's loss on the training data remains high and does not decrease.
B Overfitting occurs when a model learns the training data too well, including its noise and random fluctuations, instead of the underlying general pattern. This results in excellent performance on the data it has seen before (the training set) but a failure to generalize to new data (the validation or test set).
977
What is the primary purpose of using regularization techniques, such as L1 or L2 regularization, during model training? A) To increase the model's learning rate automatically. B) To select the most important features for the model. C) To prevent overfitting by adding a penalty for large model weights. D) To convert categorical features into numerical features.
C Regularization techniques add a penalty term to the loss function based on the magnitude of the model's weights. This discourages the model from assigning excessively large weights to features, which is a common cause of overfitting. The penalty term helps create a simpler model that generalizes better to new data.
978
In the context of training a neural network, what is an "epoch"? A) A single pass of a mini-batch of data through the model. B) One complete pass of the entire training dataset through the model. C) The process of updating the model's weights after processing a single data point. D) A measure of the model's final accuracy on the test set.
B An epoch represents one full cycle where the learning algorithm has processed every example in the training dataset once. Training a model typically involves running for multiple epochs to allow the model's weights to converge to an optimal state.
979
Which statement best captures the classic definition of Machine Learning? A. A set of hand-crafted rules to automate decisions B. A field that gives computers the ability to learn without being explicitly programmed C. A database system for storing large datasets D. A user interface design methodology
B Define ML como la capacidad de aprender sin programar reglas explícitas.
980
What is a primary reason to use Machine Learning instead of manual rule coding? A. When the problem is deterministic and simple to encode B. When behavior must self-adjust or cannot be programmed by hand C. When no data is available and rules are known D. When computation is impossible
B ML se usa cuando no es viable codificar reglas fijas o se requiere autoajuste.
981
In traditional software development, which flow is typical? A. Data + Model → Rules → Results B. Data + Computation → Rules → Results C. Rules + Data + Computation → Results D. Model + Predictions → Data
C En software tradicional combinamos reglas, datos y cómputo para obtener resultados.
982
In Machine Learning systems, what is the typical usage flow? A. Rules + Computation → Data B. Model + New Data + Computation → Predictions/Classifications C. New Data + Rules → Program D. Computation → Rules → Predictions
B En ML, un modelo entrenado procesa datos nuevos para generar predicciones.
983
Which methodological families are foundational to ML? A. Spreadsheets and dashboards B. Statistical optimization at scale and artificial neural networks C. Compilers and interpreters D. Data entry and manual labeling only
B ML combina métodos estadísticos optimizados y neuronas artificiales.
984
In a simple linear model 𝑌=𝑚𝑋+𝑏, what does 𝑏 represent? A. Slope of the line B. Intercept (bias term) C. Independent variable D. Dependent variable
B 𝑏 es el término independiente o sesgo (intercepto).
985
Which variables are typically labeled as features and target in supervised learning? A. X are features; Y is the target B. Y are features; X is the target C. m and b are features; X is the target D. m is target; X and b are features
A Convencionalmente, 𝑋 son las características y 𝑌 es la variable objetivo.
986
Which step is used to estimate parameters like 𝑚 and 𝑏 in linear regression? A. Gradient explosion B. Ordinary least squares (least-squares fitting) C. Random guessing D. Feature hashing
B El ajuste por mínimos cuadrados estima parámetros minimizando errores.
987
The correlation coefficient R ranges in: A. [0, 1] B. [0, ∞) C. [-1, 1] D. (-∞, ∞)
C 𝑅 varía entre −1 y 1, indicando correlación inversa o directa.
988
What does 𝑅→1 typically indicate? A. No relationship B. Strong inverse correlation C. Strong direct correlation D. Nonlinear dependence only
C Valores cercanos a 1 indican correlación positiva fuerte.
989
What does 𝑅→−1 typically indicate? A. Strong inverse correlation B. Strong direct correlation C. No correlation D. Overfitting
A Valores cercanos a −1 indican correlación negativa fuerte.
990
What does 𝑅→0 typically indicate? A. Perfect linear fit B. No linear correlation C. Perfect inverse correlation D. Constant variance
B Valores cercanos a 0 sugieren ausencia de correlación lineal.
991
Which sequence best reflects a basic supervised ML workflow for a linear model? A. Predict → Train → Collect → Evaluate B. Collect data → Split into X, Y → Estimate m, b → Validate → Use model C. Collect data → Use model → Validate → Estimate m, b D. Validate → Collect → Predict → Train
B Se recolectan datos, se separan, se entrena, se valida y se usa el modelo.
992
Which of the following best describes “What ML is”? (Select all that apply) A. Applied math/statistics B. Numerical computation C. Trial-and-error coding without data D. Iterative, exploratory process
A, B y D ML combina matemáticas, cómputo numérico y un proceso iterativo; no es simple “probar a ver si funciona”.
993
Which of the following is NOT what ML is? A. Applying the scientific method to data B. “Programming as usual” with fixed rules C. Iteratively exploring models and hyperparameters D. Using statistical learning to generalize
B ML no es programación tradicional basada en reglas fijas.
994
Which are core supervised learning tasks? A. Clustering and dimensionality reduction B. Regression and classification C. Compression and encryption D. Search and retrieval only
B Regresión y clasificación son tareas supervisadas clásicas.
995
Which tasks are typical ML applications? (Select all that apply) A. Anomaly detection B. Recommendation systems C. Entity extraction D. Manual rule compilation
A, B y C D no es una aplicación de ML; las otras son usos comunes de ML.
996
Which pairing between problem and technique is correct? A. Linear regression → housing price estimation B. SVM → music generation C. RNNs → image classification of animals is impossible D. Naive Bayes → real-time rendering
A La regresión lineal se usa típicamente para estimar precios.
997
Which statement about a scientific model is correct? A. It is a narrative without math B. It describes a system using math to interpret and predict behavior C. It requires no assumptions or constraints D. It cannot be falsified
B Un modelo científico usa matemáticas para explicar y predecir.
998
Which interpretations follow from the universal law of gravitation model? (Select all that apply) A. The force is attractive (negative sign in position vector) B. Force ∝ masses of the bodies C. Force ∝ square of the distance D. Force ∝ inverse square of the distance
A, B y D La fuerza es atractiva, proporcional a las masas e inversamente proporcional al cuadrado de la distancia.
999
Which sequence aligns with the scientific method? A. Predict → Publish → Ignore data → Hypothesize B. Ask a question → Build a hypothesis → Experiment → Analyze → Confirm or revise C. Collect opinions → Decide → Announce D. Implement → Deploy → Monitor only
B El método científico itera entre hipótesis, experimentos y análisis.
1000
Which fields commonly apply the scientific method? (Select all that apply) A. Astronomy B. Sociology C. Astrology D. Computer science
A, B y D Astrología no es una ciencia empírica; las otras sí aplican el método científico.
1001
Which phrase summarizes data science? A. Designing GUIs for dashboards B. Applying the scientific method to data to extract useful insights C. Compressing files for storage D. Writing device drivers
B La ciencia de datos aplica el método científico sobre datos para extraer valor.
1002
Which set represents the “5 Vs” often associated with Big Data? A. Version, Vector, Variable, Validity, Value B. Volume, Velocity, Variety, Veracity, Value C. Volume, Variance, Vectorization, Verification, Value D. Velocity, Vacuum, Vision, Variability, Value
B Son volumen, velocidad, variedad, veracidad y valor.
1003
Which elements influence whether something is “Big Data”? (Select all that apply) A. Data quantity B. Fit in memory and processing methods C. Organizational culture D. Logo design
A, B y C Big Data incluye volumen, métodos y cultura “data-driven”.
1004
A “data-driven” organizational culture implies: A. Decisions based solely on hierarchy B. Decisions guided by systematic data analysis C. No need for experimentation D. Avoiding metrics to reduce bias
B “Data-driven” significa decisiones informadas por datos y análisis.
1005
Which areas sit around the broader Big Data ecosystem? (Select all that apply) A. Data engineering B. Business intelligence and analytics C. Machine learning and deep learning D. Astrology
A, B y C Ingeniería de datos, BI/analítica, ML y DL forman parte del ecosistema.
1006
Which quote aligns with a common critique of Big Data hype? A. “Big Data is only for scientists” B. A comparison to teenage sex: everyone talks about it, few know how to do it C. “Big Data eliminates uncertainty entirely” D. “Big Data is obsolete”
B La cita refleja la brecha entre discurso y práctica real.
1007
Which industries commonly apply ML? (Select all that apply) A. Cybersecurity B. Precision agriculture C. Education D. All of the above
D ML se aplica en múltiples industrias, incluyendo seguridad, agricultura y educación.
1008
Which is the best description of linear algebra? A. The study of stacks and queues B. The study of vectors, matrices, vector spaces, linear systems, and linear transformations C. The study of calculus and limits only D. The study of file systems
B Álgebra lineal trata matrices, vectores y transformaciones lineales.
1009
What does R² represent? A. A scalar B. A set of 2D vectors (e.g., Cartesian coordinates) C. A 3D vector space D. A matrix of size 2×2
B 𝑅2 es el espacio de vectores de dos dimensiones.
1010
In ML, why is linear algebra essential? (Select all that apply) A. Features, weights, and targets can be represented as vectors/matrices B. Decision boundaries can be linear hyperplanes C. Transformations can map to spaces where problems are easier D. It replaces the need for data
A, B y C Representación, geometría y transformaciones son claves; no sustituye los datos.
1011
Which hardware is typically used to accelerate matrix and vector operations? A. GPUs (e.g., NVIDIA Tesla/Ampere) B. HDDs C. Keyboards D. Printers
A Las GPU aceleran multiplicaciones de matrices y vectores.
1012
What does matrix transposition do? A. Adds a scalar to a matrix B. Multiplies two matrices C. Swaps rows and columns D. Inverts a matrix
C La transposición intercambia filas por columnas.
1013
Which condition must hold to add two vectors or matrices? A. Same number of rows only B. Same dimensions/shape C. Square matrices only D. Orthogonal vectors only
B La suma/resta requiere dimensiones idénticas.
1014
What happens in scalar multiplication of a vector or matrix? A. Only diagonal elements are changed B. Each element is multiplied by the scalar C. Rows are swapped D. Columns are zeroed out
B Multiplicación escalar aplica el mismo factor a cada elemento.
1015
What is the rule for matrix multiplication dimensions? A. (m×n) · (n×p) → (m×p) B. (m×n) · (p×n) → (m×p) C. (m×n) · (m×p) → (n×p) D. (n×m) · (p×n) → (p×m)
A Las dimensiones internas deben coincidir y el resultado es 𝑚×𝑝 .
1016
Which statement about the identity matrix I is true? A. A·I = I for any square matrix A B. A·I = A for compatible dimensions; it leaves A unchanged C. A·I doubles A D. A·I zeroes A
B Multiplicar por la identidad devuelve la misma matriz (dimensiones compatibles).
1017
Which practice helps avoid errors in matrix operations? A. Ignoring shapes to simplify code B. Always checking dimensions before multiplying C. Only multiplying square matrices D. Using random shapes to generalize
B Verificar dimensiones previene errores de multiplicación.
1018
Which of the following are examples of ML application domains? (Select all that apply) A. Spam detection B. Fraud detection C. Customer segmentation D. Manual spreadsheet formatting
A, B y C Son aplicaciones típicas; D no es un caso de ML.
1019
Which mapping between technique and use case is correct? A. SVM → Optical Character Recognition (OCR) B. Linear regression → Image segmentation C. RNNs → Sorting algorithms D. K-means → Email routing rules
A Las SVM se han usado ampliamente para OCR.
1020
En un flujo de trabajo de machine learning, ¿qué herramienta te permite ejecutar código y visualizar resultados de forma interactiva en el navegador? A. NumPy B. Matplotlib C. Jupyter Notebook D. Scikit-learn
C Jupyter Notebook proporciona cuadernos interactivos ideales para explorar datos, documentar y ejecutar código paso a paso.
1021
Qué biblioteca de Python se utiliza principalmente para operaciones con arrays y cálculo numérico en proyectos de machine learning? A. NumPy B. Flask C. BeautifulSoup D. Requests
A NumPy ofrece arrays eficientes y operaciones vectorizadas esenciales para el cálculo numérico en ML.
1022
¿Qué biblioteca es la opción estándar para crear gráficos y visualizaciones durante el análisis exploratorio de datos en machine learning? A. Matplotlib B. Scikit-learn C. TensorFlow D. SciPy
A Matplotlib es la librería base de visualización en Python, usada para gráficos 2D y exploración de datos.
1023
¿Qué biblioteca de Python proporciona implementaciones listas para usar de algoritmos clásicos de machine learning como regresión lineal, SVM o k-NN? A. Scikit-learn B. Pandas C. PyTorch D. Seaborn
A Scikit-learn ofrece una amplia colección de algoritmos de ML, utilidades de preprocesado y pipelines.
1024
Para asegurar compatibilidad con ejemplos y APIs recientes, ¿qué versión mínima de scikit-learn es recomendable usar? A. 0.20 B. 0.24 C. 1.0 o superior D. 2.0
C Usar scikit-learn 1.0+ garantiza acceso a funcionalidades y documentación actuales.
1025
¿Cómo compruebas en Python la versión instalada de un módulo como scikit-learn? A. sklearn.version() B. version(sklearn) C. print(sklearn.version) D. pip show sklearn dentro del intérprete
C La convención en Python es consultar el atributo version del módulo, por ejemplo: print(sklearn.version).
1026
Si clonas un repositorio de un proyecto de machine learning que se actualiza frecuentemente, ¿qué comando debes ejecutar antes de empezar a trabajar para traer los últimos cambios? A. git push B. git pull C. git merge D. git init
B git pull sincroniza tu copia local con la versión remota más reciente.
1027
Si un repositorio de ML cambia con frecuencia y quieres evitar conflictos, ¿qué estrategia sencilla puedes usar en lugar de clonar? A. Descargar los archivos individualmente desde la plataforma B. Trabajar siempre sin conexión C. Crear un fork y no actualizarlo D. Borrar el historial de git
A Descargar archivos concretos reduce el riesgo de resolver conflictos y asegura que usas la última versión de cada recurso.
1028
¿Qué sistemas operativos son nativamente adecuados para instalar y usar herramientas típicas de machine learning basadas en Linux? A. Linux, Unix y macOS B. Windows 7 sin subsistema C. Android D. iOS
A Muchas herramientas de ML están orientadas a entornos tipo Unix, como Linux y macOS.
1029
En un equipo con Windows, ¿qué opción te permite ejecutar un entorno Linux para machine learning sin crear una máquina virtual completa? A. Windows Subsystem for Linux 2 (WSL 2) B. BIOS UEFI C. PowerShell Remoting D. Hyper-V clásico sin integración
A WSL 2 proporciona un kernel Linux real integrado en Windows, facilitando flujos de ML compatibles con Linux.
1030
¿Por qué es recomendable usar un entorno virtual de Python (venv/virtualenv) en proyectos de machine learning? A. Para acelerar la GPU B. Para aislar dependencias y evitar conflictos entre proyectos C. Para compilar el kernel del sistema D. Para reducir el tamaño de los datasets
B Los entornos virtuales garantizan que cada proyecto tenga sus propias versiones de librerías sin interferencias.
1031
Si quieres empezar rápidamente con notebooks de machine learning sin instalar nada localmente, ¿qué servicio basado en navegador puedes usar? A. Google Colaboratory B. Apache Kafka C. Docker Swarm D. PostgreSQL
A Google Colab permite ejecutar notebooks en la nube con librerías de ML preinstaladas.
1032
¿Qué servicio de Google Cloud proporciona un entorno de notebooks gestionado para flujos de trabajo de machine learning? A. Vertex AI Workbench B. Cloud Spanner C. Cloud Run D. BigQuery ML UI
A Vertex AI Workbench ofrece notebooks gestionados integrados con el ecosistema de Google Cloud para ML.
1033
Tras crear una máquina virtual Linux para ML, ¿qué paso general debes realizar para preparar el entorno de Python? A. Actualizar paquetes e instalar librerías con el gestor (por ejemplo, pip) B. Deshabilitar la red C. Formatear el disco principal D. Cambiar el idioma del sistema
A Es buena práctica actualizar el sistema e instalar librerías necesarias (NumPy, Matplotlib, scikit-learn, Jupyter).
1034
En un flujo de trabajo colaborativo de ML con repositorios actualizados a menudo, ¿qué problema ayudas a evitar al ejecutar git pull antes de empezar? A. Trabajar con una versión desactualizada del código o datos B. Aumentar el tamaño del repositorio C. Eliminar ramas remotas D. Reducir el uso de memoria de Python
A git pull sincroniza tu entorno local con el remoto, evitando inconsistencias y conflictos por versiones antiguas.
1035
¿Qué es el aprendizaje supervisado en machine learning? A) Un método que descubre grupos en datos sin etiquetas B) Un enfoque que aprende a partir de un conjunto X con respuestas Y previamente conocidas C) Un algoritmo que genera datos sintéticos D) Un proceso que elimina características irrelevantes automáticamente
B En aprendizaje supervisado se parte de ejemplos X con etiquetas Y anotadas y se aprende una función para predecir Y a partir de X.
1036
¿Cuál de las siguientes frases describe mejor la “capacidad de aprender” de un modelo? A) Datos + resultados = reglas aprendidas para predecir B) Reglas + resultados = datos C) Datos + reglas fijas = resultados inmutables D) Resultados + azar = predicciones
A El modelo busca patrones en los datos y, con resultados conocidos, aprende reglas que mejoran sus predicciones.
1037
¿Cuál es el objetivo principal al entrenar un modelo supervisado? A) Aumentar el número de características B) Minimizar una función de coste respecto a los parámetros del modelo C) Aleatorizar los pesos para evitar sesgos D) Maximizar el número de iteraciones
B El entrenamiento busca los parámetros que minimizan el coste (error) del modelo respecto a los datos.
1038
¿Cuál de las siguientes es una aplicación típica del aprendizaje supervisado? A) Reducción de dimensionalidad sin etiquetas B) Predicción de la demanda C) Agrupamiento de clientes sin etiquetas D) Detección de outliers sin etiquetas
B La predicción de demanda es una tarea supervisada con etiquetas históricas de demanda.
1039
¿Qué forma tiene la hipótesis en una regresión lineal simple? A) y = m x + b B) y = a x^2 + b C) y = e^(a x) D) y = log(x) + c
A La regresión lineal simple ajusta una línea recta con pendiente m y sesgo b.
1040
¿Cuál es el objetivo al entrenar una regresión lineal simple? A) Conocidas X e Y, obtener los parámetros θ que mejor ajusten la relación lineal B) Maximizar la varianza de X C) Minimizar la cantidad de datos D) Evitar el uso de sesgo/intercepto
A Se estiman los parámetros θ (por ejemplo, m y b) que mejor relacionan X con Y.
1041
¿Qué caracteriza a la regresión lineal multivariable? A) Usa una sola variable independiente B) Estima un valor objetivo combinando linealmente múltiples variables C) Requiere variables solo categóricas D) No necesita etiquetas
B La regresión multivariable modela Y como combinación lineal de varias características.
1042
En regresión multivariable, ¿cómo se representan datos y parámetros? A) X es un vector y θ una matriz B) X es una matriz m x n y θ es un vector de tamaño n C) X es escalar y θ es un vector D) X es una matriz n x m y θ una matriz m x n
B X recoge m ejemplos con n características; θ contiene un peso por característica.
1043
¿Cuál de las siguientes es una característica válida para tasar el precio de viviendas? A) Color favorito del propietario B) Superficie útil en m2 C) Número de seguidores del agente inmobiliario D) Temperatura media global
B La superficie útil es una característica relevante para predecir el precio.
1044
En el modelado de datos tabulares, ¿qué representan m y n? A) m columnas y n filas B) m ejemplos (filas) y n características (columnas) C) m características y n ejemplos D) m etiquetas y n modelos
B m es el número de ejemplos; n, el número de características por ejemplo.
1045
¿Qué papel tiene x0 = 1 en muchos modelos lineales? A) Normalizar datos B) Representar el término de sesgo (intercepto) para permitir desplazamiento de la recta/hiperplano C) Convertir variables categóricas D) Indicar el índice del ejemplo
B x0 = 1 permite que θ0 actúe como intercepto en la hipótesis lineal.
1046
¿Cuál es un ejemplo de variable cuantitativa continua? A) Nivel educativo B) Color de la casa C) Temperatura D) Cliente nuevo/existente
C La temperatura varía en un continuo y admite valores reales.
1047
¿Cuál es un ejemplo de variable cuantitativa cardinal? A) Precio B) Número de compras C) Marca del coche D) Nivel socioeconómico
B El número de compras es una cuenta (cardinal) de enteros.
1048
¿Cuál es un ejemplo de variable cualitativa ordinal? A) Nivel educativo (primaria, secundaria, universidad) B) Color (rojo, azul, verde) C) Precio en euros D) Temperatura en grados
A Los niveles educativos tienen un orden intrínseco.
1049
¿Cuál es un ejemplo de variable cualitativa nominal? A) Tamaño (pequeño, mediano, grande) B) Marca del producto C) Número de habitaciones D) Edad
B Las marcas no tienen orden; son categorías nominales.
1050
¿Cuál es un ejemplo de variable binaria en un dataset de viviendas? A) Número de baños B) Año de construcción C) ¿Tiene piscina? (sí/no) D) Precio en miles de euros
C La presencia de piscina es una variable sí/no (binaria).
1051
¿Qué decisión de modelado es importante al incluir “tipo” o “localización”? A) Aplicar siempre escalado min-max B) Elegir entre one-hot encoding u ordenarlas con un criterio C) Convertirlas a números aleatorios D) Ignorarlas por ser categóricas
B Las variables categóricas pueden codificarse como one-hot o con orden si procede.
1052
En el ejemplo de viviendas, ¿qué consideración sobre superficie es relevante? A) Usar siempre rangos en lugar de m2 B) Diferenciar superficie útil de construida según el objetivo C) Convertir m2 a pies cuadrados sin motivo D) Usar valores binarios
B Útil vs. construida afecta la relación con el precio y debe definirse.
1053
¿Para qué sirve modelar la curva con polinomios o transformaciones (logarítmica, potencial)? A) Para reducir m B) Para capturar relaciones no lineales en una hipótesis extendida C) Para eliminar el intercepto D) Para evitar el sobreajuste automáticamente
B Transformaciones y términos polinómicos permiten ajustar relaciones no lineales.
1054
¿Qué afirma la “resolución analítica” de la regresión lineal? A) Que siempre es mejor que métodos iterativos B) Que θ óptima puede calcularse con álgebra lineal, pero puede no ser invertible o costar O(n^3) C) Que no necesita datos D) Que evita el cálculo de costes
B La solución cerrada existe, pero la inversión de matrices puede fallar o ser costosa.
1055
¿Qué mide la función de coste en regresión lineal según esta definición? A) La suma de productos entre X y θ B) El “error” acumulando residuos como diferencia absoluta entre predicción y valor real C) La correlación de X con Y D) La norma de θ exclusivamente
B El coste agrega la discrepancia (residuos) entre predicciones y valores reales.
1056
¿Cuál es el objetivo al optimizar los parámetros θ? A) Maximizar el coste B) Minimizar la función de coste respecto a θ C) Igualar todas las características D) Reducir n a 1
B La meta del entrenamiento es reducir el error del modelo minimizando el coste.
1057
¿Qué pasos básicos sigue un método iterativo de entrenamiento? A) Elegir θ óptima sin datos B) Iniciar θ al azar, calcular coste, actualizar θ repetidamente hasta converger C) Ordenar X y terminar D) Eliminar variables con baja varianza
B Se parte de θ inicial y se actualiza iterativamente minimizando el coste hasta converger.
1058
¿Qué analogía describe el descenso de gradiente? A) Subir una montaña con pasos aleatorios B) Una canica descendiendo por la pendiente más inclinada de una superficie de coste C) Un péndulo oscilando sin fricción D) Una brújula apuntando al norte
B El gradiente indica la dirección de máxima disminución del coste, como la pendiente más pronunciada.
1059
En descenso de gradiente, ¿cómo se actualiza θ? A) Independientemente por coordenadas, en tiempos distintos B) Simultáneamente para todos los pesos en cada iteración C) Solo el parámetro con mayor valor D) Solo el intercepto
B Las actualizaciones de todos los componentes de θ se aplican a la vez por estabilidad y corrección.
1060
¿Qué criterio de convergencia se propone? A) Cuando el coste aumenta B) Cuando ε < 10^-3 C) Cuando θ = 0 D) Cuando n = m
B Un umbral pequeño como epsilon menor que 10^-3 indica que los cambios son despreciables.
1061
¿Qué puede ocurrir si la tasa de aprendizaje α es demasiado alta? A) Converge más rápido siempre B) Diverge o oscila sin llegar al mínimo C) No afecta D) Garantiza mínimos globales
B Un α grande puede provocar saltos que impiden la convergencia.
1062
¿Qué ocurre si la tasa de aprendizaje α es demasiado baja? A) Diverge B) Avanza muy lento hacia el mínimo C) Salta a un mínimo global D) Reduce n automáticamente
B Un α pequeño ralentiza el entrenamiento y puede requerir muchas iteraciones.
1063
¿Qué conjunto de valores es razonable para probar α? A) [100, 200, 300] B) [0.1, 0.11, 0.12] C) [0.001, 0.003, 0.01, 0.03, ..., 1] con incrementos por factor 3 D) [1.5, 2.5, 3.5]
C Probar α en una escala logarítmica (factor ~3) cubre órdenes de magnitud eficientemente.
1064
¿Qué recomendación práctica se hace al elegir α? A) Fijarlo y no medir el coste B) Vigilar la función de coste y ajustar α si es necesario C) Usar siempre α = 1 D) Elegir α al azar en cada iteración
B Monitorizar el coste permite detectar divergencia o lentitud y ajustar α.
1065
¿Qué problema puede aparecer durante la optimización? A) Exceso de datos B) Convergencia a valores subóptimos (mínimos locales) C) Imposibilidad de calcular el gradiente D) Coste siempre cero
B El entrenamiento puede atascarse en mínimos locales o puntos subóptimos.
1066
¿Cuál de las siguientes estrategias ayuda frente a mínimos locales? A) Reducir el tamaño de Y B) Inicializar el entrenamiento varias veces y añadir inercia (momentum) o variar α C) Eliminar el término de sesgo D) Usar una sola iteración
B Múltiples inicializaciones, momentum y α adaptable ayudan a escapar de valles subóptimos y estabilizar.
1067
¿Qué representa la matriz X en un problema de regresión? A) Los parámetros del modelo B) Las etiquetas verdaderas C) Los ejemplos y sus características organizados en m x n D) El historial de costes
C X contiene las características de los m ejemplos en n columnas.
1068
¿Para qué se usa el vector θ una vez entrenado? A) Para generar nuevas características B) Para predecir Y en nuevos datos X C) Para calcular m y n D) Para normalizar X
B θ define la hipótesis del modelo y permite realizar predicciones en datos no vistos.
1069
¿Cuál de las siguientes es una tarea de clasificación supervisada? A) Clasificación de frutos por tipo B) Predicción de distancia recorrida C) Estimación de temperatura D) Cálculo de una media
A La clasificación de frutos asigna etiquetas de clase a partir de características.
1070
¿Cuál de estas es una etapa añadida en el algoritmo de regresión lineal multivariable respecto al iterativo básico? A) Eliminar Y B) Escoger una tasa de aprendizaje α y actualizarla si es necesario C) Fijar θ a cero y no actualizar D) Ignorar el coste
B Se selecciona α antes de iniciar y puede ajustarse durante el entrenamiento.
1071
¿Qué decisión de modelado es pertinente para la variable “precio” en tasación? A) Convertirlo a etiquetas categóricas B) Definir si está en euros, miles de euros y si incluye decimales C) Obligar a valores binarios D) Usar siempre rangos fijos
B La escala y unidad del objetivo influyen en el aprendizaje y la interpretación.
1072
¿Qué tipo de variables pueden requerir “one-hot encoding”? A) Continuas B) Cardinales C) Cualitativas nominales como localización o tipo D) Binarias
C Las categorías sin orden natural suelen codificarse con vectores one-hot.
1073
En el ejemplo de viviendas, ¿qué variables podrían ser “parámetros computados complejos”? A) Año de construcción y número de habitaciones B) Distancia al centro y servicios cercanos C) Precio y superficie D) Garaje y piscina
B Distancia y servicios requieren cálculos adicionales y agregaciones más complejas.
1074
¿Qué describe mejor el propósito de la función de coste J(θ)? A) Aumentar la varianza del modelo B) Medir el error total para guiar la optimización de θ C) Cambiar el tamaño de X D) Ordenar características por importancia
B J(θ) cuantifica el desempeño del modelo y es el objetivo a minimizar.
1075
¿Por qué conviene normalizar las características (X) antes de entrenar una regresión lineal multivariable? A) Para reducir el número de ejemplos B) Porque diferentes rangos dificultan encontrar la dirección de avance del entrenamiento C) Para eliminar el término de sesgo D) Para evitar usar validación
B Si cada característica tiene un rango distinto, el descenso de gradiente avanza de forma desbalanceada y le cuesta encontrar la mejor dirección.
1076
¿Qué objetivo persigue la normalización de las características? A) Hacer que todas las variables sean binarias B) Equilibrar el aprendizaje por dimensión llevando las características a un rango común C) Aumentar el coste del modelo D) Asegurar mínimos globales
B Al llevar las características a escalas comparables (por ejemplo, media ≈ 0), cada peso se ajusta con una magnitud de paso similar.
1077
¿Cuál de estos métodos es válido para normalizar características? A) Ordenar los valores de menor a mayor B) Z-score usando media y desviación típica C) Codificar todas como one-hot D) Restar el mínimo sin dividir
B El z-score transforma x a (x − media) / desviación típica, logrando media ≈ 0 y varianza estandarizada.
1078
¿Qué columna no debemos normalizar en un modelo lineal con intercepto explícito? A) x0 = 1 B) La de mayor varianza C) La etiqueta Y D) La que tiene valores faltantes
A x0 es el término constante que permite el intercepto; normalizarlo rompería su función.
1079
n un dataset de precios y características, ¿qué efecto tiene normalizar X pero dejar Y en su escala original? A) Permite mantener la interpretación del objetivo en unidades reales B) Impide usar descenso de gradiente C) Obliga a quitar el intercepto D) Rompe la función de coste
A Normalizar X estabiliza el entrenamiento y mantener Y en su escala conserva la interpretación de los errores y predicciones.
1080
¿En qué momento del flujo de entrenamiento debe aplicarse la normalización? A) Después de evaluar en test B) Antes de iniciar los pesos y de empezar a optimizar C) Sólo al finalizar el entrenamiento D) Nunca con descenso de gradiente
B Se normaliza antes de elegir la tasa de aprendizaje, inicializar θ y comenzar las iteraciones.
1081
¿Qué problema ilustra el sobreajuste (overfitting)? A) El modelo falla en entrenamiento y acierta en test B) El modelo memoriza el entrenamiento pero no generaliza bien a nuevos casos C) El modelo no aprende ninguna relación D) El modelo necesita más características para entrenar
B Con alta varianza, el modelo ajusta demasiado al conjunto visto y empeora al predecir casos nuevos.
1082
¿Qué caracteriza al infraajuste (underfitting) o alta desviación (bias)? A) Excelente desempeño en validación B) Ajuste subóptimo que falla incluso en entrenamiento C) Dependencia excesiva del conjunto de validación D) Variabilidad extrema entre pliegues
B Con alta desviación, el modelo es demasiado simple o mal especificado y no captura la relación de los datos.
1083
¿Qué estrategia ayuda a reducir la desviación (bias)? A) Usar menos características B) Regularizar más C) Obtener más ejemplos y/o más características relevantes D) Disminuir la tasa de aprendizaje
C Aumentar la capacidad informativa (datos y features) puede mejorar el ajuste del modelo básico.
1084
¿Qué estrategia ayuda a reducir la varianza (overfitting)? A) Añadir más términos polinómicos B) Usar menos características o aplicar regularización C) No usar validación D) Aumentar indefinidamente la tasa de aprendizaje
B Reducir complejidad o penalizar pesos con regularización mejora la generalización.
1085
¿Qué indica la recomendación m ≈ n x 10^2? A) Usar 10^2 características por ejemplo B) Tener aproximadamente 100 veces más ejemplos que características C) Dividir el dataset en 100 pliegues D) Entrenar durante 100 épocas
B Una regla práctica es contar con suficiente m respecto a n para mejorar la generalización y la estimación.
1086
¿Qué añade la regularización a la función de coste? A) Un término que reduce el coste base B) Un término de penalización sobre θ, ponderado por lambda C) Un factor que elimina el intercepto D) Un término que normaliza Y
B Se penalizan magnitudes de los pesos para desalentar valores extremos y mejorar generalización.
1087
¿Qué pesos no deben regularizarse en regresión lineal regularizada? A) Todos los pesos por igual B) Sólo los correspondientes a variables categóricas C) Todos excepto el intercepto θ0 D) Ninguno
C θ0 no se regulariza para no sesgar el nivel base de la predicción.
1088
¿Qué efecto puede tener elegir una lambda demasiado grande? A) Sobreajuste severo B) Alto sesgo: el modelo se vuelve demasiado simple C) Entrenamiento más inestable D) No afecta al modelo
B Penalizaciones excesivas encogen los pesos en exceso, aumentando la desviación (bias).
1089
¿Qué efecto puede tener elegir una lambda demasiado pequeña? A) Varianza alta y riesgo de sobreajuste B) Imposibilidad de converger C) Eliminación del intercepto D) Escala incorrecta de Y
A Si la penalización es débil, el modelo puede ajustarse demasiado al entrenamiento.
1090
¿Cómo se integra la regularización en el descenso de gradiente? A) Se ignora durante las derivadas B) Se añaden términos de penalización en la derivada para actualizar θ C) Se actualiza sólo θ0 D) Se sustituye el coste por la precisión
B El gradiente incluye el término de regularización para cada θj (excepto θ0) en cada actualización.
1091
¿Qué es un hiperparámetro en este contexto? A) Un peso aprendido automáticamente B) Un parámetro que fijamos antes del entrenamiento, como lambda C) El tamaño del dataset D) Una característica categórica
B Lambda (y otros como la tasa de aprendizaje) se establecen previamente y no se aprenden directamente de los datos.
1092
¿Cómo se debe elegir la lambda óptima? A) Midiendo el coste en el conjunto de entrenamiento B) Probando valores y escogiendo el que minimiza el coste en validación C) Usando siempre lambda = 1 D) Calculándola como la media de X
B La selección de hiperparámetros se hace en el subset de validación para evitar sesgos.
1093
¿Por qué es importante evaluar siempre en un subset nuevo (no usado)? A) Para aumentar el tamaño de entrenamiento B) Para estimar la capacidad de generalización y evitar confundir memorizar con aprender C) Para mejorar la precisión en entrenamiento D) Para evitar normalizar
B La evaluación en datos no vistos estima el rendimiento real del modelo.
1094
¿Qué particiones son razonables para train/validation/test? A) 90/10/0 B) 60/20/20, 70/15/15 o 50/25/25 C) 10/10/80 D) 33/33/33 siempre
B Son ratios orientativos que equilibran entrenamiento, selección de hiperparámetros y evaluación final.
1095
¿Qué problemas pueden surgir al dividir el dataset? A) Falta de etiquetas en test B) Pocos datos y desbalance entre clases C) Demasiadas características numéricas D) Normalización excesiva
B Con pocos datos o clases desbalanceadas, las particiones pueden no ser representativas.
1096
¿Cuándo es especialmente útil la validación cruzada (k-fold)? A) Cuando hay demasiados datos B) Cuando no tenemos suficientes datos para separar bien train/val/test C) Cuando sólo hay variables categóricas D) Cuando no usamos regularización
B CV permite reutilizar los datos de entrenamiento para estimar el desempeño promediando sobre pliegues.
1097
En k-fold con k = 5, ¿qué se hace en cada iteración? A) Se entrena en un pliegue y se valida en los cuatro restantes B) Se entrena en cuatro pliegues y se valida en el pliegue restante C) Se valida en todos y no se entrena D) Se usa test como validación
B En cada iteración se rota el pliegue de validación, promediando los resultados al final.
1098
¿Cuál es el flujo correcto para entrenar una regresión lineal regularizada con validación? A) Entrenar una vez y evaluar en entrenamiento B) Para cada lambda, entrenar en entrenamiento, elegir la mejor por validación y evaluar el ganador en test C) Elegir lambda por test y luego reentrenar D) Elegir lambda al azar
B La selección se hace con validación; el test se reserva para la evaluación final una sola vez.
1099
¿Qué pasos clave incluye un algoritmo de entrenamiento con normalización y regularización? A) Normalizar Y, eliminar θ0, entrenar sin validación B) Normalizar X, elegir tasa de aprendizaje, probar varias lambda y seleccionar por validación C) No normalizar, usar una sola lambda fija, evaluar en entrenamiento D) Elegir lambda por precisión en entrenamiento
B Normalizar X estabiliza el descenso; se exploran lambdas y se elige con base en coste de validación.
1100
¿Qué variaciones pueden darse al aplicar el modelo en nuevos casos? A) Ninguna, si entrenó bien B) Pocos ejemplos, falta de características o aleatoriedad elevada C) Sólo cambios en la tasa de aprendizaje D) Únicamente cambio de escala en Y
B La distribución real puede diferir del entrenamiento por cantidad de datos, variables disponibles o ruido.
1101
En clasificación supervisada, ¿qué tarea resolvemos típicamente? A) Estimar un valor continuo sin clases B) Agrupar datos sin etiquetas C) Asignar cada ejemplo a una clase conocida entre varias posibles D) Generar datos sintéticos
C La clasificación asigna ejemplos a clases previamente definidas usando datos etiquetados.
1102
En un filtro de correo, clasificar “spam” vs “no spam” es un ejemplo de: A) Regresión B) Clustering C) Clasificación binaria D) Reducción de dimensionalidad
C Hay dos clases mutuamente excluyentes: spam y no spam.
1103
¿Qué característica es relevante para detectar spam en emails? A) Temperatura exterior B) Emisor en libreta de direcciones o no C) Día de la semana de preferencia personal D) Longitud de la firma digital siempre
B La fiabilidad del emisor, asunto y contenido son señales útiles para clasificación de spam.
1104
¿Qué es un árbol de decisión en ML? A) Un grafo cíclico que modela dependencias B) Un árbol invertido con nodos que dividen datos y hojas que asignan resultados C) Una red neuronal profunda D) Un algoritmo probabilístico bayesiano
B Divide el espacio de características mediante reglas hasta llegar a hojas con predicciones.
1105
En árboles de decisión, ¿qué representa el nodo raíz? A) La última decisión B) El conjunto de test C) La población completa antes de dividir D) El hiperparámetro más importante
C Desde el nodo raíz se parte para dividir recursivamente el dataset.
1106
En árboles de decisión, ¿qué es el “splitting”? A) Combinar subnodos B) Dividir un nodo en dos o más subnodos según un atributo C) Eliminar hojas D) Calcular la media de Y
B Es la operación de particionar los datos en un nodo usando una característica.
1107
¿Qué es una “hoja” en un árbol de decisión? A) Un nodo intermedio con varias salidas B) Un nodo terminal que representa una predicción final C) Un nodo raíz alternativo D) Un atributo categórico
B En una hoja ya no se divide más y se asigna una clase (o valor).
1108
¿Qué mide el índice Gini en árboles de decisión? A) La varianza de los atributos B) La probabilidad de clasificación incorrecta en un nodo (impureza) C) La correlación lineal con la clase D) La entropía exacta para cualquier partición
B Gini es una medida de impureza usada en splits binarios.
1109
¿Qué es la ganancia de información en árboles? A) El número de características usadas B) La diferencia de precisión antes y después C) La reducción de entropía del padre menos la suma de entropías de los hijos D) La ganancia de varianza
C Mide cuánto reduce la incertidumbre un split.
1110
¿Qué tipo de variables pueden usar los árboles de decisión? A) Sólo continuas B) Sólo categóricas C) Categóricas y numéricas discretas/continuas D) Sólo binarias
C Los árboles manejan ambos tipos con poca preparación de datos.
1111
¿Cuál es una ventaja clave de los árboles de decisión? A) Requieren estandarización estricta B) Son muy difíciles de interpretar C) Seleccionan automáticamente variables relevantes D) Sólo capturan relaciones lineales
C Priorizan atributos con mayor poder de separación al dividir.
1112
¿Cuál es una desventaja típica de los árboles de decisión? A) Siempre obtienen la mayor precisión B) Producen particiones “rectangulares” y pueden perder información en variables continuas C) No pueden usar variables categóricas D) No sufren sobreajuste
B Las divisiones por umbrales generan regiones ortogonales y pueden sobreajustar.
1113
¿Por qué los árboles de decisión tienen alta varianza? A) Por usar demasiados datos B) Porque pequeñas variaciones en los datos generan árboles distintos C) Por usar regularización fuerte D) Por limitar la profundidad
B Son inestables ante cambios leves, lo que aumenta la varianza del modelo.
1114
¿Qué efecto tiene establecer un número mínimo de ejemplos para dividir un nodo? A) Favorece sobreajuste B) No afecta C) Ayuda a prevenir sobreajuste limitando divisiones con pocos datos D) Elimina la necesidad de validación
C Evita crear ramas poco representativas.
1115
¿Cómo ajustar “mínimos por hoja” con clases desbalanceadas? A) Usar valores altos siempre B) Usar valores bajos para no eliminar casos minoritarios C) Ignorar el desbalance D) Eliminar la clase minoritaria
B Valores bajos permiten que la clase minoritaria aparezca en hojas específicas.
1116
¿Para qué sirve limitar la profundidad máxima del árbol? A) Aumentar varianza B) Prevenir sobreajuste controlando la complejidad C) Acelerar inferencia únicamente D) Evitar variables categóricas
B Frena el crecimiento excesivo del árbol, reduciendo complejidad.
1117
En árboles, ¿qué significa limitar el número máximo de atributos a considerar por split? A) Usar todos siempre B) Seleccionar aleatoriamente un subconjunto (p. ej., 30–40%) para reducir sobreajuste C) Eliminar atributos correlacionados D) Ordenar atributos por nombre
B Aleatorizar atributos por nodo aumenta diversidad y reduce varianza.
1118
¿Qué es la poda (“pruning”) de un árbol de decisión? A) Añadir ramas profundas B) Unificar subnodos y eliminar ramas de baja importancia para evitar sobreajuste C) Duplicar nodos con más datos D) Hacer splits con todos los atributos
B Se simplifica el árbol empezando por hojas y comprobando la pérdida de precisión.
1119
¿Cuándo suelen superar los modelos lineales a los árboles de decisión? A) Cuando la relación entre variables es aproximadamente lineal B) Cuando hay interacción compleja no lineal C) Cuando sólo hay variables categóricas D) Cuando hay poco ruido
A En relaciones lineales, la regresión lineal/logística suele ser más precisa.
1120
¿Qué es el “bootstrapping” en ensambles con árboles? A) Usar un único árbol muy profundo B) Crear múltiples subsets con reemplazamiento, entrenar un árbol por subset y promediar/moda C) Hacer pruning extremo D) Usar una sola característica
B Bagging reduce varianza combinando modelos entrenados en muestras bootstrap.
1121
¿Qué es Random Forest? A) Un único árbol optimizado B) Un ensamble de árboles donde cada árbol usa un subset aleatorio de características (tamaño ~raíz del total) C) Una red neuronal D) Un método de boosting
B Diversifica árboles usando bagging y selección aleatoria de atributos por nodo.
1122
¿Cómo funciona AdaBoost con árboles débiles? A) Entrena todos a la vez sin pesos B) Reentrena dando más peso a ejemplos mal clasificados y combina todos los modelos C) Elimina ejemplos difíciles D) Usa sólo hojas puras
B Focaliza el aprendizaje en errores previos para mejorar el clasificador fuerte.
1123
¿Cuál es el flujo correcto para entrenar un árbol de decisión con validación? A) Entrenar hasta máxima profundidad y evaluar en entrenamiento B) Dividir en train/val/test, crecer el árbol, podar con validación y evaluar en test C) Elegir hiperparámetros con el conjunto de test D) No usar poda
B La validación guía el tamaño del árbol y el test estima generalización.
1124
¿Qué define la regresión logística en clasificación binaria? A) Una línea que predice valores continuos B) Una función que mapea características a probabilidades y decide 0/1 con una sigmoide C) Un agrupamiento de puntos D) Un árbol probabilístico
B Usa una función logística para convertir la combinación lineal en probabilidad de clase.
1125
En clasificación multiclase con regresión logística, ¿qué estrategia se describe? A) Entrenar un único modelo para todas las clases sin adaptación B) One-vs-rest: entrenar un modelo por clase vs el resto C) Clustering previo obligatorio D) Árboles binarios
B Se entrena un clasificador binario por clase y se comparan salidas.
1126
En la regresión logística multiclase descrita, ¿cómo se elige la clase final? A) La de menor probabilidad B) La de mayor valor pre-activado (antes de la función logística) C) La primera clase alfabética D) La media de todas
B Se comparan los valores lineales por modelo y se toma el mayor.
1127
¿Cuál es el objetivo de la función sigmoide en regresión logística? A) Hacer la función no derivable B) Transformar la predicción a 0 o 1 de forma continua y derivable C) Normalizar X D) Aumentar el número de clases
B La sigmoide mapea a [0,1] y permite optimización por gradiente.
1128
En la función de coste de la logística, ¿qué ocurre cuando yi = 1? A) Se ignora el primer término B) Se pondera el primer término y no el segundo C) Se minimiza la entropía de los hijos D) Se maximiza Gini
B El término activo depende del valor de la etiqueta para penalizar predicciones incorrectas.
1129
¿Por qué regularizar la función de coste en clasificación? A) Para aumentar la impureza B) Para penalizar pesos extremos y mejorar generalización C) Para eliminar el intercepto D) Para forzar separabilidad lineal
B La regularización controla la complejidad y reduce sobreajuste.
1130
¿Qué pasos incluye el entrenamiento de regresión logística regularizada? A) No normalizar, entrenar una vez y evaluar en test B) Normalizar X, explorar varias lambda en train, elegir por validación y evaluar en test C) Elegir lambda por test y reentrenar D) Omitir el conjunto de validación
B Se usa validación para seleccionar hiperparámetros antes de evaluar en test.
1131
¿Qué define una SVM (Support Vector Machine) en clasificación? A) Minimizar el error cuadrático exclusivamente B) Maximizar el margen entre clases C) Crear árboles de gran profundidad D) Usar sólo variables categóricas
B SVM busca el hiperplano con mayor margen para separar clases.
1132
¿Cuándo es útil SVM según el tamaño de datos? A) n grande y m enorme B) n pequeño y m intermedio C) n y m muy grandes exclusivamente D) Sólo con datos textuales
B SVM es práctica cuando hay pocas características y un número moderado de ejemplos.
1133
¿Qué es el “kernel trick” en SVM? A) Reducir m mediante muestreo B) Transformar X a un espacio nuevo F usando funciones de similitud con “landmarks” C) Ordenar ejemplos por distancia euclídea D) Eliminar variables correlacionadas
B Los kernels generan características basadas en similitud para lograr separabilidad lineal en F.
1134
En SVM con kernels, ¿qué representan los “landmarks”? A) Pesos del modelo B) Puntos de referencia en el espacio original que definen regiones de clase C) Hiperparámetros de regularización D) Variables de salida
B Sirven como centros para medir similitud y construir las nuevas características.
1135
¿Cuál NO es un kernel común mencionado para SVM? A) Lineal B) Gaussiano C) Polinómico D) K-means
D Se citan lineal, gaussiano, polinómico, string, chi-cuadrado e intersección de histogramas.
1136
En el kernel gaussiano para SVM, ¿qué parámetro controla la “anchura” de la similitud? A) C B) sigma (desviación típica) C) lambda D) alfa
B sigma controla cómo decae la similitud con la distancia al landmark.
1137
En el kernel gaussiano descrito, se indica la nota: A) Normalizar siempre las características previas B) No normalizar C) Normalizar sólo Y D) Estandarizar únicamente las etiquetas
B Se advierte “Nota: no normalizar” en el contexto del kernel gaussiano.
1138
Según la descripción, ¿qué etiquetas usa SVM para maximizar el margen? A) 0 y 1 B) -1 y 1 C) 0 y 2 D) -2 y 2
B Se usan etiquetas -1 y 1 para definir la separación y el margen.
1139
En SVM, ¿qué relación existe entre C y lambda? A) C = lambda B) C = 1/lambda C) C = lambda^2 D) No hay relación
B Se toma C como el inverso de la regularización lambda.
1140
¿Qué efecto se indica para el parámetro C en SVM? A) A mayor C, menor desviación y mayor sobreajuste B) A mayor C, mayor desviación y menor sobreajuste C) A menor C, menor desviación y mayor sobreajuste D) C no afecta al sesgo-varianza
B Se afirma que C controla el sesgo-varianza: mayor C → mayor desviación (bias), menor sobreajuste (varianza).
1141
¿Qué efecto se indica para sigma^2 en el kernel gaussiano de SVM? A) A mayor sigma^2, menor desviación y mayor sobreajuste B) A mayor sigma^2, mayor desviación y menor sobreajuste C) sigma^2 no afecta D) A menor sigma^2, mayor desviación y menor sobreajuste
B Un sigma^2 grande suaviza el modelo (más bias) y reduce el riesgo de sobreajuste.
1142
¿Cuál es el flujo de entrenamiento para SVM con kernel? A) Elegir C por test y entrenar una sola vez B) Escoger kernel, transformar a F, entrenar probando varias lambda/C en train, seleccionar por validación y evaluar en test C) No usar validación con kernels D) Siempre usar kernel lineal
B La selección de hiperparámetros se hace con validación y el test se reserva para evaluación final.
1143
¿Qué diferencia principal existe entre evaluación y validación de modelos? A) Evaluación mide precisión, validación mide costo computacional B) Evaluación mide desempeño general, validación mide desempeño según nuestras necesidades específicas C) Evaluación usa métricas visuales, validación usa métricas numéricas D) Evaluación se aplica a test, validación sólo a train
B La evaluación calcula métricas de rendimiento del modelo, mientras que la validación valora si el modelo funciona bien para el caso de uso real (como evitar sobreajuste).
1144
¿Por qué es insuficiente usar una sola métrica para evaluar un modelo? A) Porque pueden dar errores de compilación B) Porque todas las métricas son relativas C) Porque cada métrica refleja solo una parte del comportamiento del modelo D) Porque ninguna métrica es derivable
C Las métricas evalúan aspectos diferentes (precisión, sensibilidad, error, etc.), por lo que deben combinarse para una visión completa.
1145
¿Qué representa el coeficiente de correlación (r) en evaluación de modelos? A) El porcentaje de error cuadrático del modelo B) La relación lineal entre dos variables C) El número de outliers detectados D) La media de residuos
B r mide la intensidad y dirección de la relación lineal entre variables (valores entre -1 y 1).
1146
¿Qué indica un coeficiente de determinación R² = 0.9? A) Que el modelo comete un 90% de errores B) Que hay un 90% de sobreajuste C) Que el 90% de la variabilidad de Y se explica por X D) Que el modelo predice siempre con un 90% de precisión
C R² refleja la proporción de la varianza en Y explicada por las características X.
1147
¿Qué métrica de error penaliza más los errores extremos? A) MAE B) MSE C) RMSE D) Correlación r
B El error cuadrático medio (MSE) eleva los errores al cuadrado, amplificando el impacto de los más grandes.
1148
¿Qué ventaja tiene RMSE sobre MSE? A) No requiere etiquetas B) Tiene misma escala que Y, facilitando la interpretación C) Funciona sólo con variables categóricas D) Siempre produce valores mayores que el coste
B RMSE está en la misma escala que la variable objetivo, facilitando la lectura directa del error medio.
1149
¿Qué mide la sensibilidad de un modelo de clasificación? A) Su capacidad para ignorar ruido B) Su capacidad para detectar verdaderos positivos C) Su capacidad para predecir valores continuos D) Su capacidad para crear modelos complejos
B La sensibilidad indica cuántos verdaderos positivos se detectan correctamente.
1150
¿Qué mide la especificidad de un modelo? A) La cantidad de datos usados B) La capacidad para evitar falsos negativos C) La capacidad de detectar verdaderos negativos (evitar falsos positivos) D) La precisión del coste
C La especificidad mide cómo de bien identifica el modelo los negativos correctos.
1151
En un modelo de clasificación de células cancerígenas, ¿cuál métrica debe considerarse cuidadosamente según el caso? A) MAE B) Sensibilidad vs especificidad C) RMSE D) Pearson
B En diagnósticos médicos, puede que interese más minimizar falsos negativos (sensibilidad) o falsos positivos (especificidad), según el impacto.
1152
¿Qué herramienta gráfica ayuda a analizar la confusión entre clases en clasificación? A) Matriz de confusión B) Diagrama de dispersión C) Histograma de residuos D) Correlación cruzada
A La matriz muestra los aciertos y errores por clase, identificando si el modelo confunde etiquetas.
1153
¿Qué indica el F1-score en modelos de clasificación? A) El coste total del modelo B) Una media armónica entre precisión y sensibilidad C) La precisión exacta en validación D) La probabilidad de error absoluto
B F1-score balancea la precisión y el recall, ofreciendo una medida robusta del rendimiento clasificador.
1154
¿Qué evalúa la curva ROC en clasificación binaria? A) El número de características necesarias B) El desempeño independiente del umbral de decisión C) La calidad del clustering D) El coste del modelo sobre el test
B La curva ROC muestra el rendimiento para distintos umbrales de decisión, útil para elegir el punto óptimo.
1155
¿Qué significa AUC cuando usamos una curva ROC? A) Área en clusters B) Valor del parámetro de regularización C) Área bajo la curva, indicando la capacidad de separación del modelo D) Altura universal de coste
C El AUC mide qué tan bien el modelo separa clases; un AUC cercano a 1 indica excelente rendimiento.
1156
¿Qué pretende simular una red neuronal artificial? A) Un sistema de almacenamiento de datos B) Una estructura neuronal biológica C) Una red informática descentralizada D) Un algoritmo de búsqueda
B Las RRNN están inspiradas en el cerebro humano, imitando la conexión entre neuronas.
1157
¿Cuál es la función del "back-propagating" en el entrenamiento de una RRNN? A) Eliminar nodos inútiles B) Calcular el error en la última capa y actualizar los pesos hacia atrás C) Activar funciones no lineales D) Seleccionar el mejor conjunto de datos
B El backpropagation ajusta los pesos usando el gradiente del error, capa por capa.
1158
¿Qué representa una función de activación en una neurona artificial? A) El tiempo de procesamiento B) El coste del modelo C) La salida de la neurona según su entrada D) El tipo de aprendizaje aplicado
C La función de activación determina si una neurona “dispara” o no, según la suma ponderada de sus entradas.
1159
¿Qué estructura tiene un perceptrón simple? A) Varias capas ocultas y múltiples nodos B) Una sola capa con una sola neurona C) Una red sin retroalimentación D) Un sistema de agrupamiento
B Es el modelo más básico de RRNN, diseñado para tareas de clasificación lineal.
1160
¿Cuál es la principal diferencia entre aprendizaje supervisado y no supervisado? A) En el supervisado no se usan datos B) En el no supervisado no hay resultados conocidos previamente C) En ambos casos se entrenan redes neuronales profundas D) El supervisado no usa funciones de activación
B El aprendizaje no supervisado no cuenta con etiquetas o resultados previos para guiar el modelo.
1161
¿Cuál de las siguientes es una aplicación típica del aprendizaje no supervisado? A) Predecir ventas del próximo trimestre B) Clasificar imágenes médicas etiquetadas C) Agrupar usuarios con características similares D) Entrenar un bot conversacional
C La agrupación (clustering) detecta patrones en los datos sin etiquetado previo.
1162
¿Qué define el centroide en un algoritmo de K-means? A) El coste total de entrenamiento B) El punto más cercano al origen C) El centro geométrico de un clúster D) El nodo más profundo de la red
C El centroide representa el promedio de todas las muestras asignadas a un clúster.
1163
¿Qué significa la “regla del codo” en K-means? A) La elección del punto donde añadir otro clúster B) El momento en que el modelo alcanza precisión total C) El número de clústeres donde el coste empieza a decrecer lentamente D) El ángulo entre centroides
C Se identifica el “codo” de la curva coste/nº de clústeres, donde añadir más clústeres ya no mejora mucho el modelo.
1164
¿Por qué se inicializa varias veces el algoritmo K-means? A) Para reducir el tiempo de entrenamiento B) Para evitar caer en mínimos locales C) Para ajustar la regularización D) Para comprobar la precisión de cada clúster
B Múltiples inicializaciones permiten comparar modelos y elegir el más óptimo.
1165
¿Qué mide el “coste” en un algoritmo de agrupación? A) El número de nodos en cada capa B) El error cuadrático del modelo C) La suma de distancias de cada ejemplo a su centroide D) La complejidad del modelo
C Al no tener una métrica de precisión, se usa el coste como medida comparativa entre modelos.
1166
¿Qué caracteriza al aprendizaje semi-supervisado? A) Utiliza datos completamente etiquetados B) No utiliza ningún tipo de etiqueta C) Usa pocos datos etiquetados junto a muchos no etiquetados D) Entrena sin datos
C Se aprovechan los datos con etiquetas para guiar el entrenamiento sobre los no etiquetados, equilibrando supervisión y libertad.
1167
¿En qué tipo de problemas se suele aplicar el aprendizaje semi-supervisado? A) Procesos industriales sin datos históricos B) Casos donde obtener etiquetas es costoso o escaso C) Entrenamiento de modelos generativos D) Codificación de funciones matemáticas
B Cuando etiquetar todos los datos es difícil (por tiempo, coste o acceso), este enfoque maximiza el valor de la información limitada
1168
¿Qué define una anomalía en aprendizaje semi-supervisado? A) Un dato que no cumple la media B) Un valor fuera del intervalo de confianza C) Un ejemplo que se aleja de los patrones normales D) Un ejemplo con errores sintácticos
C Las anomalías se detectan como desviaciones significativas frente a la distribución típica de los datos normales.
1169
¿Qué tipo de distribución suele modelarse para detectar anomalías? A) Binomial B) Poisson C) Gaussiana (normal) D) Uniforme
C Se usa la distribución gaussiana para representar el comportamiento normal, donde se comparan probabilidades para detectar lo anómalo.
1170
¿Qué parámetro define la probabilidad mínima aceptable para considerar un ejemplo anómalo? A) μ (media) B) Σ (covarianza) C) E (umbral) D) α (nivel de significancia)
C E representa el corte probabilístico bajo el cual los ejemplos se consideran fuera de lo normal.
1171
¿Qué objetivo tienen los filtros colaborativos? A) Clasificar productos por precio B) Determinar la mejor hora para publicar contenido C) Recomendar contenido personalizado según gustos similares D) Generar contenido automático
C Identifican patrones en preferencias para sugerir contenido a usuarios con gustos afines.
1172
¿Cuál de las siguientes matrices indica si un usuario ha valorado un contenido? A) X B) Θ C) Y D) R
D R marca con 1 los contenidos valorados, y con 0 los que aún no tienen valoración por parte del usuario.
1173
¿Qué tipo de modelo se usa para predecir la valoración de un usuario sobre un contenido? A) Modelo de clustering jerárquico B) Regresión colaborativa C) Red neuronal recurrente D) Sistema bayesiano supervisado
B Se utiliza un modelo de regresión que combina características del contenido y del usuario para estimar puntuaciones.
1174
¿Qué representan los conceptos de genotipo y fenotipo en algoritmos genéticos? A) Datos de entrada y salida de un modelo lineal B) Error y precisión de un algoritmo C) Estructura interna y resultado externo del modelo D) Entrenamiento y validación de un dataset
C El genotipo define las características internas (como los parámetros), mientras que el fenotipo representa el comportamiento observado.
1175
¿Qué rol juega la “mutación” en el proceso evolutivo de los algoritmos genéticos? A) Elimina características redundantes B) Introduce variabilidad para mejorar la adaptación C) Duplica modelos exitosos D) Estabiliza los resultados
B La mutación permite explorar nuevas combinaciones que podrían mejorar el rendimiento en generaciones futuras.
1176
¿Qué representa la ingeniería de características dentro del desarrollo de sistemas de ML? A) El entrenamiento del modelo B) La limpieza de datos C) La extracción, transformación y creación de variables útiles D) La predicción sobre datos nuevos
C La ingeniería de características se encarga de convertir datos en bruto en variables significativas para el modelo.
1177
¿Cuál es uno de los errores más comunes al plantear un sistema de ML? A) Utilizar datos normalizados B) No considerar la integración futura de datos C) Recoger demasiadas características D) Entrenar con datos históricos
B Es clave asegurar que los datos usados ahora puedan mantenerse actualizados y disponibles en producción.
1178
¿Qué implica aplicar el método científico al desarrollo de modelos ML? A) Ignorar la validación B) Ajustar el modelo a los datos sin hipótesis C) Proponer hipótesis, entrenar, evaluar y decidir D) Reutilizar modelos existentes sin modificación
C Se parte de una hipótesis que se prueba con experimentos, para luego confirmar o refutar y seguir ajustando.
1179
¿Qué problema se resuelve con el Análisis de Componentes Principales (PCA)? A) Falta de datos etiquetados B) Demasiada varianza C) Alta dimensionalidad del dataset D) Ausencia de clases en clasificación
C El PCA reduce el número de variables conservando la mayor cantidad posible de información relevante.
1180
¿Cuál de las siguientes afirmaciones es correcta sobre los outliers? A) Son siempre útiles para mejorar modelos B) Representan datos duplicados C) Pueden distorsionar el entrenamiento si no se tratan adecuadamente D) Son errores generados por el algoritmo
C Los outliers pueden alterar métricas y funciones de coste, por lo que deben analizarse cuidadosamente.
1181
¿Qué representa la matriz de covarianza en PCA? A) El peso total del modelo B) Las relaciones lineales entre características C) La predicción del modelo D) La media de las etiquetas
B La matriz de covarianza revela cómo varían juntas las características del dataset, base para extraer componentes principales.
1182
¿Cuál es la ventaja de usar entrenamiento mini-batch frente a batch y estocástico? A) Permite resultados más aleatorios B) Reduce la necesidad de normalización C) Ofrece buena convergencia y eficiencia computacional D) Se utiliza solo con redes neuronales
C El mini-batch combina la eficiencia del batch con la agilidad del entrenamiento estocástico, optimizando el rendimiento.
1183
¿Qué define el descenso por gradiente en ML? A) Un algoritmo de agrupación B) Una función de activación C) Un método para optimizar los parámetros del modelo D) Una métrica de evaluación
C El descenso por gradiente ajusta los parámetros minimizando una función de coste.
1184
¿Qué puede provocar un modelo con demasiadas características irrelevantes? A) Menor riesgo de sobreajuste B) Alta capacidad explicativa C) Mayor complejidad sin mejora del desempeño D) Reducción automática de variables
C Características irrelevantes generan ruido, dificultan el entrenamiento y pueden empeorar el rendimiento.
1185
¿Qué ventaja tiene usar ensamblajes en sistemas de ML? A) Disminuyen el tiempo de entrenamiento B) El modelo se vuelve más interpretable C) Mejoran la precisión y reducen el sobreajuste D) Garantizan clasificación perfecta
C Al combinar varios modelos se puede reducir la varianza y lograr mejores predicciones.
1186
¿Cuál de los siguientes métodos de ensamblaje se basa en el "bootstrapping"? A) Boosting B) Stacking C) Bagging D) Clustering
C Bagging genera subconjuntos de datos con reemplazo para entrenar múltiples modelos.
1187
¿Qué diferencia tiene el Random Forest frente al Bagging tradicional? A) No usa árboles de decisión B) Utiliza subconjuntos de características aleatorios en cada modelo C) No realiza votaciones D) Predice valores en tiempo real
B Random Forest introduce aleatoriedad en las características, aumentando la diversidad del ensamblaje.
1188
¿Qué caracteriza al método “Stacking”? A) Usa modelos idénticos B) Aplica transformación PCA antes del ensamblaje C) Emplea un modelo final que aprende a combinar las predicciones de otros D) Solo sirve para clasificación binaria
C Stacking entrena un “meta-modelo” para combinar las salidas de varios modelos base.
1189
¿Qué indica un RMSE bajo? A) Mala generalización B) Error medio pequeño en la escala original de la variable C) Que el modelo está sobreajustado D) Que no hay relación entre X e Y
B RMSE evalúa el error en la misma escala que Y, así que cuanto más bajo, mejor desempeño.
1190
¿Qué métrica se usa para evaluar clasificación binaria considerando sensibilidad y precisión? A) MAE B) F1-score C) R² D) RMSE
B F1-score es la media armónica entre precision y recall, útil cuando hay desbalance de clases.
1191
¿Qué muestra una curva ROC? A) Los errores cuadráticos del modelo B) La evolución del coste por número de características C) La relación entre TPR y FPR para distintos umbrales D) La distribución de outliers
C La curva ROC permite analizar el rendimiento del modelo independientemente del umbral de decisión.
1192
¿Qué representa el AUC? A) El número de errores absolutos B) La probabilidad de que el modelo ordene correctamente dos ejemplos al azar C) El coste total de entrenamiento D) El número de características seleccionadas
B El área bajo la curva (AUC) mide la capacidad del modelo de separar clases.
1193
¿Qué se recomienda si el modelo muestra alta desviación (bias)? A) Usar menos características B) Reducir el tamaño del dataset C) Aplicar regularización fuerte D) Obtener más datos o un modelo más complejo
D Cuando hay underfitting, se sugiere aumentar capacidad o información del modelo.
1194
¿Cuál es el objetivo de monitorizar errores manualmente en un modelo? A) Validar la arquitectura del hardware B) Elegir un tipo de regularización C) Detectar patrones o características comunes que podrían mejorar el modelo D) Comparar algoritmos automáticamente
C Analizar errores ayuda a descubrir limitaciones del modelo y posibles mejoras en las features.
1195
¿Qué métrica mide la proporción de varianza de Y explicada por X? A) RMSE B) MAE C) R² D) F1-score
C El coeficiente de determinación R² refleja la capacidad explicativa del modelo.
1196
¿En qué casos se recomienda más sensibilidad que precisión? A) Análisis de marketing digital B) Predicción meteorológica C) Diagnóstico médico D) Clasificación de películas por género
C En salud, es más crítico detectar todos los positivos, incluso si hay más falsos positivos.
1197
Un sistema de recomendación de películas representa cada película como un vector. Calcula la similitud del coseno entre la película que acabas de ver, "Matrix" (Vector A), y otras dos películas: "Blade Runner" (Vector B) y "La Sirenita" (Vector C). Obtiene los siguientes resultados: Similitud del coseno (A, B) = 0.85 Similitud del coseno (A, C) = -0.1 ¿Qué puedes concluir de estos resultados? a) "Blade Runner" es más popular que "La Sirenita". b) Los vectores de "Matrix" y "Blade Runner" apuntan en direcciones muy parecidas, indicando alta similitud temática. c) El vector de "La Sirenita" es mucho más corto que el de "Matrix". d) El sistema cometió un error, la similitud no puede ser negativa.
B
1198
Estás construyendo un chatbot que debe detectar si la pregunta de un usuario es una variante de "¿Cuál es el horario de la tienda?". Tu modelo convierte las siguientes frases en vectores y calcula su similitud del coseno con la pregunta original. "¿A qué hora abren?" "¿Venden zapatos?" "Quiero saber el horario de la tienda, por favor" ¿Qué frase obtendría probablemente el valor más alto de similitud del coseno y por qué? a) La frase 2, porque es la más corta y fácil de procesar. b) La frase 3, porque es la más larga y contiene más información. c) Las frases 1 y 3, porque ambas comparten la misma intención semántica que la pregunta original, independientemente de su longitud o palabras exactas. d) La frase 1, porque usa la palabra "hora" que está relacionada con "horario".
C
1199
Un ingeniero de Machine Learning en Google Cloud está usando Vertex AI Matching Engine para un sistema de búsqueda de imágenes. Sube dos imágenes: una foto de un perro pequeño en alta resolución (Vector A) y la misma foto del mismo perro, pero en baja resolución y con un brillo diferente (Vector B). ¿Qué esperarías del cálculo de la similitud del coseno entre los vectores de estas dos imágenes? a) Un valor cercano a 0, porque los valores de los píxeles son muy diferentes debido a la resolución y el brillo. b) Un valor cercano a 1, porque aunque los atributos superficiales (brillo, resolución) cambien, el contenido semántico (un perro) es el mismo, por lo que los vectores apuntarán en una dirección muy similar. c) Un valor negativo, porque el modelo las identificará como imágenes de calidades opuestas. d) Es imposible predecirlo, ya que la similitud del coseno solo funciona con texto.
B
1200
Un sitio de e-commerce usa un algoritmo Bandit para decidir qué banner promocional mostrar en su página de inicio: "Envío Gratis", "20% de Descuento" o "Compra uno y llévate otro". El objetivo es maximizar los clics. ¿Cuál es el principal equilibrio o "trade-off" que el algoritmo Bandit debe gestionar? a) El coste de computación en la nube frente a la velocidad de respuesta para el usuario. b) Mostrar el banner que históricamente ha funcionado mejor (explotación) frente a probar los otros banners para ver si alguno podría funcionar aún mejor (exploración). c) La calidad visual del banner frente al texto de la oferta. d) El número de banners disponibles frente a la cantidad de usuarios que visitan la web.
B
1201
Estás usando una estrategia Bandit para optimizar el color de un botón de "Comprar" en tu app. Después de las primeras 100 interacciones, los resultados son: Botón Azul: 10 clics Botón Verde: 15 clics Botón Rojo: 4 clics Llega el usuario número 101. ¿Qué es lo más probable que haga el algoritmo? a) Mostrará siempre el botón Verde a partir de ahora, ya que es el claro ganador. b) Mostrará el botón Rojo, porque es el que menos datos tiene y necesita explorar más. c) Mostrará el botón Verde con una alta probabilidad, pero dejará una pequeña probabilidad para mostrar el Azul o el Rojo. d) Mostrará un color al azar, ya que 100 interacciones no son suficientes para decidir.
C
1202
Un algoritmo Bandit lleva un año optimizando dos versiones de la página de pago de una tienda online (Versión A y Versión B). Ha procesado millones de transacciones y tiene una confianza estadística muy alta en que la Versión A genera un 5% más de conversiones que la Versión B. ¿Cómo esperas que sea el comportamiento del algoritmo en este punto? a) Mostrará la Versión A el 50% de las veces y la Versión B el otro 50% para mantenerse actualizado. b) Aumentará la tasa de exploración para ver si las preferencias del usuario han cambiado. c) Se dedicará casi exclusivamente a la explotación, mostrando la Versión A a la gran mayoría de los usuarios (ej. 99.9% de las veces). d) El algoritmo se detendrá y le pedirá a un ingeniero que elija una versión manualmente.
C
1203
Un modelo de Machine Learning ha sido entrenado para analizar el sentimiento de críticas de películas. ¿Qué representa un único punto (un vector) en su espacio vectorial? a) El idioma inglés completo. b) Una crítica de película individual, convertida a un formato numérico donde las críticas con sentimientos similares están agrupadas. c) El algoritmo de Machine Learning que se utilizó. d) La puntuación final de la crítica (ej. 8 sobre 10).
B
1204
Estás entrenando un modelo para clasificar correos electrónicos como "Spam" o "No Spam". Justo al principio del entrenamiento, con los parámetros del modelo todavía aleatorios, ¿cómo esperarías que estuvieran distribuidos los puntos de "Spam" y "No Spam" en el espacio vectorial? a) Perfectamente organizados en dos grupos distintos y separados. b) Formando una única línea recta. c) Mezclados entre sí, sin un patrón claro o separación visible. d) Todos los puntos de "Spam" estarían en el centro del mapa (coordenada 0,0).
C
1205
Tu modelo para clasificar "Spam" y "No Spam" ya está completamente entrenado. ¿Qué es lo principal que ha aprendido a hacer el modelo en su espacio vectorial gracias al ajuste de sus parámetros? a) Memorizar cada correo electrónico de entrenamiento uno por uno. b) Crear un mapa bien organizado y trazar una frontera de decisión (decision boundary) que separe la región del "Spam" de la región del "No Spam". c) Borrar los correos que no son claramente ni una cosa ni la otra. d) Convertir todos los correos en un único punto que representa el correo promedio.
B
1206
Cual es supervisado y cual es no supervisado ? 1) CLASIFICACION 2) CLUSTERIZACION
1- clasificacion = SUPERVISADO 2- clusterizacion = NO SUPERVISADO