Compute Flashcards

(27 cards)

1
Q

O que é o AWS Lambda?

A

Serviço de computação serverless que executa código em resposta a eventos (triggers), sem necessidade de provisionar ou gerenciar servidores. Escala automaticamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quais são os principais casos de uso do AWS Lambda para Engenharia de Dados?

A

1) ETL: transformar e carregar dados entre serviços; 2) Processamento em streaming: consumir eventos do Kinesis ou DynamoDB Streams em tempo real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Como o AWS Lambda pode acessar arquivos grandes de forma compartilhada?

A

Integrando com o Amazon EFS (Elastic File System). O EFS permite que múltiplas invocações simultâneas do Lambda leiam e escrevam no mesmo sistema de arquivos, ideal para grandes bibliotecas e dados compartilhados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qual é o limite de tempo de execução de uma função Lambda?

A

Até 15 minutos por invocação. Para processamentos mais longos, deve-se usar AWS Batch, AWS Glue ou Step Functions.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é o AWS SAM (Serverless Application Model)?

A

Framework open-source da AWS que simplifica o desenvolvimento e o deploy de aplicações serverless, permitindo definir funções Lambda, APIs e tabelas DynamoDB com menos código em um arquivo YAML.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qual é a relação entre AWS SAM e AWS CloudFormation?

A

O SAM é uma transformação (macro) do CloudFormation. O arquivo YAML do SAM é convertido automaticamente em um template CloudFormation completo durante o deploy, usando a transformação AWS::Serverless.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que o AWS SAM CLI permite fazer localmente?

A

Testar e depurar funções Lambda, simular endpoints do API Gateway e interagir com DynamoDB localmente, antes de fazer o deploy na AWS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é o AWS Batch?

A

Serviço gerenciado para executar jobs de batch computing usando imagens Docker em instâncias EC2, incluindo Spot Instances. O AWS Batch provisiona e desaloca os recursos automaticamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Por que o AWS Batch é considerado serverless?

A

Porque o usuário não gerencia os servidores: o AWS Batch provisiona as instâncias EC2 automaticamente quando há jobs na fila e as desaloca ao final. Você paga apenas pelo tempo de uso do EC2.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como os jobs do AWS Batch podem ser disparados?

A

Por Amazon CloudWatch Events (ex: agendamento ou eventos de outros serviços) ou pelo AWS Step Functions como parte de um workflow orquestrado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qual a diferença fundamental entre AWS Batch e AWS Glue?

A

O AWS Glue é especializado em ETL usando Apache Spark com catálogo de dados integrado. O AWS Batch é de propósito geral: executa qualquer workload que tenha uma imagem Docker, não limitado a ETL.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quando devo escolher AWS Batch em vez do AWS Glue?

A

Quando o job não é ETL com Spark, quando você precisa de um ambiente customizado via Docker, quando tem workloads científicos, de renderização ou qualquer processamento batch que não seja transformação de dados com Spark.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qual tipo de instância EC2 o AWS Batch suporta para reduzir custos?

A

Spot Instances, que podem oferecer até 90% de desconto em relação às instâncias On-Demand, sendo ideais para jobs tolerantes a interrupções.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qual a diferença entre AWS Lambda e AWS Batch para processamento de dados?

A

Lambda é ideal para jobs curtos (até 15 min), event-driven e sem estado; Batch é ideal para jobs longos, pesados computacionalmente, executados como containers Docker em EC2.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

O que é o Amazon EC2?

A

Elastic Compute Cloud: serviço que permite provisionar servidores virtuais (instâncias) na AWS sob demanda, com controle total sobre CPU, memória, armazenamento e rede.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Para que serve a família de instâncias M e T no EC2?

A

Uso Geral: equilíbrio entre CPU, memória e rede. T é ideal para cargas intermitentes (t3.micro); M para cargas empresariais estáveis (m6i). Usadas em servidores de app e bancos pequenos/médios.

17
Q

Quando usar instâncias EC2 da família R ou X?

A

Workloads com alto consumo de memória: grandes bancos de dados, Spark/Hadoop em memória, SAP HANA e análises em tempo real. Ex: r6i, x2idn.

18
Q

Qual família EC2 usar para Machine Learning e Deep Learning?

A

Família P (GPUs NVIDIA para treino de ML), Família Inf (chips Inferentia para inferência) e Família Trn (chips Trainium para treino distribuído).

19
Q

Qual a diferença entre EBS e Instance Store no EC2?

A

EBS é armazenamento persistente (sobrevive ao stop/start), ideal para bancos de dados. Instance Store é efêmero (dados perdidos ao parar), mas tem altíssimo desempenho para buffers e caches temporários.

20
Q

O que são Spot Instances e quando usá-las em Engenharia de Dados?

A

Instâncias com desconto de até 90% usando capacidade ociosa da AWS, mas podem ser interrompidas. Ideais para jobs tolerantes a falhas como AWS Batch e clusters EMR temporários.

21
Q

Qual modelo de preço EC2 usar para workloads previsíveis de longo prazo?

A

Reserved Instances (1 ou 3 anos) com desconto de até 72%. Ideal para servidores de produção com uso constante e previsível.

22
Q

Como o EC2 aparece no serviço AWS DMS?

A

O DMS exige a criação de uma Replication Instance (instância EC2) para executar o processo de migração de bancos de dados entre a origem e o destino.

23
Q

Como o AWS Batch usa o EC2?

A

O Batch provisiona e desaloca instâncias EC2 automaticamente (incluindo Spot) para executar jobs em containers Docker, sem que o usuário precise gerenciar os servidores.

24
Q

O que é Auto Scaling no EC2?

A

Recurso que aumenta ou diminui automaticamente o número de instâncias EC2 com base em métricas de uso (CPU, memória, etc), garantindo disponibilidade e redução de custo.

25
Qual família EC2 usar para processamento de big data com alto IOPS?
Família I (ex: i4i): armazenamento NVMe SSD de baixíssima latência, ideal para bancos NoSQL, bancos transacionais e processamento de dados em tempo real.
26
Quando usar EC2 diretamente em vez de um serviço gerenciado?
Quando nenhum serviço gerenciado atende (software customizado), quando precisa de controle total do SO, para lift-and-shift de aplicações on-premise ou para workloads com containers customizados via Batch.
27
O que é o AWS EMR?
Elastic MapReduce - Hadoop gerenciado que roda em instâncias EC2 - Inclui spark, HBase, Prestro, Flink, Hive, etc - EMR usa S3 como armazenamento “por baixo do capô” - Permite usar notebooks - Permite maior controle sobre as configurações do cluster - Master node (manages the cluster), Core node (hosts HDFS), Task node (são os workers) - EMR on EKS: permite submeter jobs spark para cluster EMR criado no kubernetes (EKS) EMR Serverless faz com que o gerenciamento do cluster fique como responsabilidade da AWS. Você não precisa estimar quantos workers serão necessários, por exemplo