Database Flashcards

Question

O que é o DynamoDB Streams?

Answer 1

É uma lista ordenada de alterações (create/update/delete) feitas em uma tabela, que pode acionar serviços como Lambda ou enviar dados para Kinesis.

Answer 2

Recurso que define uma data/hora de expiração para registros, que são automaticamente excluídos após esse momento.

Answer 3

Armazenar os arquivos grandes no S3 e guardar no DynamoDB apenas o metadado com a localização (por exemplo, o path no S3).

Answer 4

Controle de acesso com IAM, integração com VPC Endpoints e Point-in-Time Recovery (PITR) para restauração dos dados.

Answer 5

Versão do DynamoDB que roda localmente na máquina do desenvolvedor para desenvolvimento e testes.

Answer 6

Por meio do AWS Database Migration Service (DMS), que permite migrar dados de diversas fontes para o DynamoDB.

Answer 7

Não. No modo On-Demand a AWS gerencia automaticamente a capacidade. Os cálculos de RCU e WCU são necessários apenas no modo Provisionado.

Answer 8

Os dados são divididos em partições por uma função de hashing aplicada à Partition Key, e a capacidade de WCU/RCU é distribuída entre essas partições.

Answer 9

"É um serviço gerenciado de banco de dados relacional da AWS que facilita configurar, operar e escalar bancos como MySQL, PostgreSQL, SQL Server e outros na nuvem, cuidando de tarefas como backup, patching e alta disponibilidade para você." [aws.amazon](https://aws.amazon.com/rds/)

Answer 10

"Quando você precisa processar volumes muito grandes de dados em cenários típicos de big data ou data lake, em que soluções como data warehouses ou data lakes são mais adequadas, pois bancos relacionais não escalam tão bem para esse tipo de workload." [techtarget](https://www.techtarget.com/searchaws/definition/Amazon-Relational-Database-Service-RDS)

Answer 11

"Significa que as transações no banco seguem as propriedades de Atomicidade, Consistência, Isolamento e Durabilidade, garantindo integridade dos dados mesmo em cenários de concorrência e falhas, o que é importante para sistemas transacionais como aplicações financeiras e de e-commerce." [techtarget](https://www.techtarget.com/searchaws/definition/Amazon-Relational-Database-Service-RDS)

Answer 12

"Servem para controlar concorrência nas transações: locks de leitura permitem que várias sessões leiam ao mesmo tempo, enquanto locks exclusivos bloqueiam escrita/leitura conflitante, evitando que duas transações modifiquem a mesma linha ou tabela ao mesmo tempo e garantindo consistência." [techtarget](https://www.techtarget.com/searchaws/definition/Amazon-Relational-Database-Service-RDS)

Answer 13

"Usar o comando EXPLAIN em consultas SQL para entender o plano de execução, identificar se há varredura completa de tabela (full scan) e verificar se índices existentes estão sendo usados ou se é necessário criar novos índices para melhorar a performance." [techtarget](https://www.techtarget.com/searchaws/definition/Amazon-Relational-Database-Service-RDS)

Answer 14

"Atualizar estatísticas internas sobre distribuição dos dados nas tabelas, ajudando o otimizador de consultas a escolher planos mais eficientes, o que impacta diretamente o tempo de resposta das consultas." [techtarget](https://www.techtarget.com/searchaws/definition/Amazon-Relational-Database-Service-RDS)

Answer 15

"Porque uma varredura completa lê todas as linhas da tabela, consumindo muito I/O e CPU, o que aumenta a latência da consulta e pode afetar outras queries; normalmente índices bem planejados permitem filtrar os dados sem escanear tudo." [techtarget](https://www.techtarget.com/searchaws/definition/Amazon-Relational-Database-Service-RDS)

Answer 16

"É um mecanismo de banco de dados relacional compatível com MySQL e PostgreSQL, oferecido como parte do RDS, mas com armazenamento distribuído próprio e otimizações de performance, projetado para ser mais rápido e altamente disponível." [amazonaws](https://www.amazonaws.cn/en/rds/aurora/)

Answer 17

"Aurora oferece compatibilidade com MySQL e PostgreSQL, permitindo que aplicações que usam esses bancos migrem com poucas mudanças de código ou de drivers." [aws.amazon](https://aws.amazon.com/rds/)

Answer 18

"O Aurora usa um armazenamento distribuído e replicado automaticamente em múltiplas AZs, com otimizações de log e I/O, o que normalmente resulta em maior throughput e menor latência em comparação com MySQL ou PostgreSQL rodando no RDS padrão." [en.wikipedia](https://en.wikipedia.org/wiki/Amazon_Aurora)

Answer 19

"Em muitos cenários o Aurora tende a ser mais caro por unidade de recurso (por exemplo, instância e armazenamento), porém entrega mais performance e disponibilidade; a justificativa de custo vem do ganho de throughput e redução de tarefas operacionais, apesar de o preço de Aurora ser em geral superior ao RDS comum." [amazonaws](https://www.amazonaws.cn/en/rds/aurora/)

Answer 20

"Quando você precisa de alta performance, baixa latência e alta disponibilidade com replicação automática entre AZs e potencial para muitos leitores (read replicas), por exemplo em sistemas de alta carga de leitura/escrita como aplicações SaaS ou e-commerce global." [en.wikipedia](https://en.wikipedia.org/wiki/Amazon_Aurora)

Answer 21

"É um serviço de banco de dados de documentos gerenciado pela AWS, compatível com APIs do MongoDB, projetado para workloads que usam documentos JSON e precisam de escalabilidade, alta disponibilidade e backups automáticos sem gerenciar infraestrutura MongoDB manualmente." [aws.amazon](https://aws.amazon.com/rds/)

Answer 22

"Quando você quer um serviço gerenciado, com patching, backups, recuperação automática e alta disponibilidade prontos, reduzindo esforço operacional, e precisa de compatibilidade com drivers e ferramentas MongoDB para aplicações baseadas em documentos JSON." [aws.amazon](https://aws.amazon.com/rds/)

Answer 23

"É um banco de dados key-value em memória, totalmente gerenciado e compatível com a API do Redis, mas com foco em durabilidade de dados e alta disponibilidade, atuando como banco de dados primário, não apenas como cache." [aws.amazon](https://aws.amazon.com/rds/)

Answer 24

"Quando você precisa de latência extremamente baixa de leitura/gravação na memória, mas não pode perder dados em caso de falhas, ou seja, precisa de um banco transacional em memória com replicação e persistência forte, em vez de um cache que pode ser reconstruído." [aws.amazon](https://aws.amazon.com/rds/)

Answer 25

"É um serviço gerenciado de banco de dados NoSQL compatível com Cassandra, em modelo serverless, que permite usar a linguagem CQL sem gerenciar clusters, nós, patches e replicação, com alta disponibilidade global e escalabilidade automática." [aws.amazon](https://aws.amazon.com/rds/)

Answer 26

"Em workloads com alta taxa de escrita/leitura distribuída globalmente, esquema de dados em colunas largas, necessidade de baixa latência e modelo de chave-partição típico do Cassandra, como telemetria, logs de aplicações e dados de IoT em grande escala." [aws.amazon](https://aws.amazon.com/rds/)

Answer 27

"É um serviço de banco de dados de grafos totalmente gerenciado que suporta modelos de grafos como Property Graph e RDF, otimizado para consultas de relações complexas entre entidades, usando linguagens como Gremlin e SPARQL." [aws.amazon](https://aws.amazon.com/rds/)

Answer 28

"Quando a principal necessidade é navegar e consultar relações e conexões complexas, como grafos de redes sociais, recomendação, detecção de fraudes e grafos de conhecimento, onde consultas em múltiplos joins seriam complexas e lentas em um banco relacional tradicional." [aws.amazon](https://aws.amazon.com/rds/)

Answer 29

"É um banco de dados de séries temporais gerenciado e serverless da AWS, projetado para armazenar e analisar trilhões de eventos por dia com baixa latência, otimizando dados baseados em tempo como métricas de IoT, monitoramento de aplicações e dados de operações." [youtube](https://www.youtube.com/watch?v=IsmhOkimHyI)

Answer 30

Amazon Redshift é um Data Warehouse **gerenciado completamente pela AWS** especializado em Big Data analytics. É um banco **colunar** (armazena dados por colunas, não por linhas) otimizado para **OLAP** (Online Analytical Processing). Faz **compressão automática** dos dados (economiza até 75% do espaço), oferece **alta durabilidade** (99.999999999%) e **escalabilidade** horizontal com clusters de nodes líderes e computacionais. **Quando usar**: Análises complexas em petabytes de dados estruturados.

Answer 31

Redshift Spectrum permite executar **queries SQL diretamente em dados no S3** (estruturados ou não estruturados) **sem precisar carregar no cluster Redshift**. Funciona criando tabelas externas (EXTERNAL TABLES) que apontam para arquivos S3. Usa o **mesmo SQL do Redshift** e escala automaticamente com milhares de nodes Spectrum. **Vantagem vs EMR**: Sem necessidade de gerenciar clusters, paga só pelo scan. **Cenário**: Dados históricos frios no S3 com análises ad-hoc.

Answer 32

Redshift distribui linhas entre os nodes do cluster para otimizar performance:\n- **KEY**: Todas as linhas com a mesma chave vão para o **mesmo node** (ideal para JOINs frequentes na mesma chave)\n- **EVEN (Round Robin)**: **Distribuição uniforme/circular** (bom para cargas iniciais uniformes)\n- **ALL**: **Replica a linha em TODOS os nodes** (rápido para lookups, mas consome mais espaço)\n**Escolha KEY** para colunas de filtro/JOIN frequentes.

Answer 33

**COPY** é o comando mais eficiente para carregar **grandes volumes de dados** do S3, EMR, DynamoDB para Redshift. Sintaxe: `COPY minha_tabela FROM 's3://meu-bucket/' CREDENTIALS 'aws_iam_role=arn:aws:...' FORMAT AS CSV;`. Suporta **paralelismo automático** dividindo arquivos grandes. **Dica**: Use **Enhanced VPC Routing** para COPY seguro via VPC, não internet pública.

Answer 34

**UNLOAD** exporta dados do Redshift para **múltiplos arquivos no S3** em paralelo: `UNLOAD ('SELECT * FROM vendas') TO 's3://meu-bucket/export/' CREDENTIALS '...';`. **Gera arquivos particionados** automaticamente. **Use para**: Backup, compartilhar dados com outros serviços AWS, ou quando precisa de dados no S3 para outros tools (Athena, EMR).

Answer 35

**Enhanced VPC Routing** força todo tráfego entre Redshift e S3 a passar **pela VPC privada** ao invés da internet pública. **Ativa por cluster**. **Segurança**: Dados nunca saem da AWS network. **Performance**: Latência menor. **Obrigatório** para compliance (ex: PCI-DSS, HIPAA).

Answer 36

**Auto-copy** monitora automaticamente uma pasta S3 e **carrega novos arquivos no Redshift assim que chegam**, sem intervenção manual. Configura uma **manifesta de arquivos** que o Redshift verifica periodicamente. **Perfeito para**: Data lakes com append contínuo (logs, sensores IoT).

Answer 37

**Zero-ETL** permite **envio automático e em tempo real** de dados do Aurora (OLTP) para Redshift (OLAP) **sem pipelines ETL**. Dados são replicados continuamente. **Ideal para**: Operational analytics onde precisa misturar dados transacionais com data warehouse.

Answer 38

**Streaming Ingestion** ingere dados **em tempo real** diretamente do **Amazon Kinesis Data Streams** ou **MSK (Managed Streaming for Kafka)** para Redshift. **Micro-batches** de 1 minuto. **Use para**: Streaming analytics, logs em tempo real, IoT.

Answer 39

**DBLINK** permite conectar o Redshift a **instâncias PostgreSQL** externas e executar queries federadas: `SELECT * FROM dblink('host=meu-postgres port=5432 dbname=prod', 'SELECT * FROM usuarios')`. **Use para**: Migração gradual ou queries híbridas.

Answer 40

**WLM** gerencia **filas de queries** com **prioridades e quotas**. Cada fila tem % de CPU e memória alocados. **Short Query Acceleration (SQA)** prioriza queries rápidas (<500ms). **Configuração**: Principal queue (superuser), User groups, Query queues. **Evita starvation** de queries importantes.

Answer 41

**VACUUM** **reorganiza tabelas** e **recupera espaço** de linhas deletadas/updated (Redshift não faz DELETE físico). Tipos: VACUUM DELETE (só deletados), VACUUM FULL (reorganiza tudo), VACUUM SORT (reordena). **Execute após**: DELETE/UPDATE massivo ou COPY incremental.

Answer 42

1. **Elastic Resize**: ±30% nodes (rápido, minutos)\n2. **Classic Resize**: Qualquer número nodes (horas)\n3. **Snapshot/Restore**: Backup → novo cluster maior (independente)\n**RA3 nodes**: Separa compute/storage, resize só compute.

Answer 43

**RA3 (Redshift Managed Storage)** separa **compute** (nodes dc2/ra3) de **storage** (RMS). **Escala storage independentemente** até 16PB por cluster. **Auto-gerencia backups**. **Mais econômico** que DC2 para cargas variáveis.

Answer 44

**Serverless** elimina provisionamento manual. AWS gerencia **escala automática**. Cobra por **RPU (Redshift Processing Units)** por segundo + GB armazenado. **Base RPU**: 8-512 RPUs. **Ideal para**: Workloads imprevisíveis, PoCs, dev/test.

Answer 45

**Materialized Views** **armazenam fisicamente** resultado de queries complexas para acelerar acessos repetidos. `CREATE MATERIALIZED VIEW mv_vendas AS SELECT ... WITH AUTO REFRESH YES;`. **AWS atualiza automaticamente** quando dados base mudam. **Economiza 100x tempo** em queries repetitivas.

Answer 46

**Data Sharing** permite **compartilhar tabelas/views entre clusters Redshift** (leitura-only) **sem cópia/duplicação**. Um cluster produtor, múltiplos consumidores. **Cenário**: Cluster analytics pesado + clusters BI/reporting leves.

Answer 47

**Lambda UDF** executa **funções AWS Lambda dentro de SQL**: `CREATE FUNCTION minha_udf(texto) RETURNS int STABLE LAMBDA 'minha-lambda'; SELECT minha_udf(nome) FROM usuarios;`. **Extende SQL** com ML, APIs externas, processamento customizado.

Answer 48

**Federated Queries** executa SQL do Redshift **diretamente em RDS, Aurora, MySQL** sem mover dados: `SELECT * FROM mysql_dev.rds_tabela WHERE ...`. **Push-down predicates** para performance. **Ideal para**: Data mesh, queries federadas multi-serviço.

Answer 49

**System Tables/Views** monitoram **performance, uso, queries**: STL_QUERY (queries executadas), STV_TBL_PERM (uso storage), SVL_QLOG (query logs). **Essencial para**: Troubleshooting, capacity planning, identificar queries lentas.

Answer 50

Permite limitar uso do Athena e usuários

Database Flashcards

(75 cards)