Big Data Flashcards

(50 cards)

1
Q

O que é Big Data?

A

Conjunto de dados tão grandes e complexos que não podem ser tratados por métodos tradicionais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quais os 5 V’s do Big Data?

A

Volume, Velocidade, Variedade, Veracidade e Valor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que é Volume em Big Data?

A

Grande quantidade de dados gerados continuamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O que é Velocidade em Big Data?

A

Rapidez com que os dados são gerados, processados e analisados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é Variedade em Big Data?

A

Diferentes formatos de dados: estruturados, semiestruturados e não estruturados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é Veracidade em Big Data?

A

Confiabilidade e qualidade dos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é Valor em Big Data?

A

Capacidade de extrair insights relevantes para o negócio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é Data Lake?

A

Repositório que armazena dados em seu formato bruto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que é Data Warehouse?

A

Armazenamento estruturado de dados para análises.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Diferença entre Data Lake e Data Warehouse?

A

Data Lake é flexível e armazena dados crus; DW é estruturado e analítico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é ingestão de dados?

A

Processo de coletar e importar dados de diversas fontes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é ingestão batch?

A

Importação de dados em blocos periódicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que é ingestão em streaming?

A

Coleta contínua e em tempo real dos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Ferramentas de ingestão de dados?

A

Apache NiFi, Apache Kafka, AWS Glue, Flume.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

O que é transformação de dados?

A

Processamento para ajustar os dados ao modelo desejado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O que é pipeline de dados?

A

Sequência de etapas de ingestão, transformação e carga.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

O que é ETL?

A

Extração, Transformação e Carga de dados em sistemas de destino.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

O que é ELT?

A

Extração, Carga e posterior Transformação no destino.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Diferença entre ETL e ELT?

A

ETL transforma antes de carregar; ELT transforma após o carregamento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

O que é orquestração de dados?

A

Coordenação de tarefas automatizadas em pipelines, ex: Apache Airflow.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

O que é Apache Hadoop?

A

Framework open-source para armazenamento e processamento distribuído de dados massivos.

22
Q

Quais os principais módulos do Hadoop?

A

HDFS, MapReduce, YARN e Hadoop Common.

23
Q

O que é HDFS?

A

Sistema de arquivos distribuído do Hadoop.

24
Q

O que é MapReduce?

A

Modelo de programação para processamento paralelo de grandes volumes de dados.

25
O que é YARN?
Gerenciador de recursos do Hadoop.
26
O que é o HBase?
Banco de dados NoSQL distribuído baseado no HDFS.
27
O que é o Hive?
Ferramenta que permite consultas SQL-like sobre dados Hadoop.
28
O que é Pig?
Linguagem de scripts de alto nível para análise de dados no Hadoop.
29
Vantagem do Hadoop?
Escalabilidade horizontal e tolerância a falhas.
30
O Hadoop é adequado para dados em tempo real?
Não, é melhor para processamento em batch.
31
O que é Apache Spark?
Framework de processamento de dados distribuído em memória.
32
Qual a vantagem do Spark sobre Hadoop MapReduce?
Muito mais rápido, pois processa em memória.
33
O que é RDD (Resilient Distributed Dataset)?
Estrutura de dados imutável e distribuída do Spark.
34
O que é Spark SQL?
Módulo para consultas SQL em dados estruturados.
35
O que é Spark Streaming?
Módulo para processamento de dados em tempo real.
36
O que é MLlib?
Biblioteca de aprendizado de máquina do Spark.
37
O que é GraphX?
API do Spark para análise de grafos.
38
Spark suporta quais linguagens?
Scala, Java, Python e R.
39
Spark roda em quais ambientes?
Local, cluster, Hadoop, Kubernetes, Mesos.
40
Spark pode usar HDFS como fonte de dados?
Sim, além de S3, Cassandra, Kafka, etc.
41
O que é Apache Kafka?
Plataforma de streaming distribuído para publicação e subscrição de dados em tempo real.
42
O que é NoSQL?
Conjunto de bancos de dados não relacionais, como MongoDB, Cassandra e Couchbase.
43
Quando usar banco NoSQL?
Para dados semi ou não estruturados, com alta escalabilidade e flexibilidade.
44
O que é MongoDB?
Banco NoSQL orientado a documentos.
45
O que é Cassandra?
Banco de dados NoSQL distribuído altamente escalável.
46
O que é Delta Lake?
Camada de armazenamento ACID para lakes, usada com Apache Spark.
47
O que é Apache Flink?
Motor para processamento de dados em tempo real e batch.
48
O que é OLTP?
Processamento de transações online, voltado para sistemas operacionais.
49
O que é OLAP?
Processamento analítico online, voltado para análise multidimensional.
50
O que é DataOps?
Conjunto de práticas para integração contínua e entrega contínua de dados.