Big Data Flashcards by Talles Duarte

O que é Big Data?

Conjunto de dados tão grandes e complexos que não podem ser tratados por métodos tradicionais.

How well did you know this?

Not at all

Perfectly

Quais os 5 V’s do Big Data?

Volume, Velocidade, Variedade, Veracidade e Valor.

How well did you know this?

Not at all

Perfectly

O que é Volume em Big Data?

Grande quantidade de dados gerados continuamente.

How well did you know this?

Not at all

Perfectly

O que é Velocidade em Big Data?

Rapidez com que os dados são gerados, processados e analisados.

How well did you know this?

Not at all

Perfectly

O que é Variedade em Big Data?

Diferentes formatos de dados: estruturados, semiestruturados e não estruturados.

How well did you know this?

Not at all

Perfectly

O que é Veracidade em Big Data?

Confiabilidade e qualidade dos dados.

How well did you know this?

Not at all

Perfectly

O que é Valor em Big Data?

Capacidade de extrair insights relevantes para o negócio.

How well did you know this?

Not at all

Perfectly

O que é Data Lake?

Repositório que armazena dados em seu formato bruto.

How well did you know this?

Not at all

Perfectly

O que é Data Warehouse?

Armazenamento estruturado de dados para análises.

How well did you know this?

Not at all

Perfectly

Diferença entre Data Lake e Data Warehouse?

Data Lake é flexível e armazena dados crus; DW é estruturado e analítico.

How well did you know this?

Not at all

Perfectly

O que é ingestão de dados?

Processo de coletar e importar dados de diversas fontes.

How well did you know this?

Not at all

Perfectly

O que é ingestão batch?

Importação de dados em blocos periódicos.

How well did you know this?

Not at all

Perfectly

O que é ingestão em streaming?

Coleta contínua e em tempo real dos dados.

How well did you know this?

Not at all

Perfectly

Ferramentas de ingestão de dados?

Apache NiFi, Apache Kafka, AWS Glue, Flume.

How well did you know this?

Not at all

Perfectly

O que é transformação de dados?

Processamento para ajustar os dados ao modelo desejado.

How well did you know this?

Not at all

Perfectly

O que é pipeline de dados?

Sequência de etapas de ingestão, transformação e carga.

How well did you know this?

Not at all

Perfectly

O que é ETL?

Extração, Transformação e Carga de dados em sistemas de destino.

How well did you know this?

Not at all

Perfectly

O que é ELT?

Extração, Carga e posterior Transformação no destino.

How well did you know this?

Not at all

Perfectly

Diferença entre ETL e ELT?

ETL transforma antes de carregar; ELT transforma após o carregamento.

How well did you know this?

Not at all

Perfectly

O que é orquestração de dados?

Coordenação de tarefas automatizadas em pipelines, ex: Apache Airflow.

How well did you know this?

Not at all

Perfectly

O que é Apache Hadoop?

Study These Flashcards

Framework open-source para armazenamento e processamento distribuído de dados massivos.

Quais os principais módulos do Hadoop?

Study These Flashcards

HDFS, MapReduce, YARN e Hadoop Common.

O que é HDFS?

Study These Flashcards

Sistema de arquivos distribuído do Hadoop.

O que é MapReduce?

Study These Flashcards

Modelo de programação para processamento paralelo de grandes volumes de dados.

O que é YARN?

Gerenciador de recursos do Hadoop.

O que é o HBase?

Banco de dados NoSQL distribuído baseado no HDFS.

O que é o Hive?

Ferramenta que permite consultas SQL-like sobre dados Hadoop.

O que é Pig?

Linguagem de scripts de alto nível para análise de dados no Hadoop.

Vantagem do Hadoop?

Escalabilidade horizontal e tolerância a falhas.

O Hadoop é adequado para dados em tempo real?

Não, é melhor para processamento em batch.

O que é Apache Spark?

Framework de processamento de dados distribuído em memória.

Qual a vantagem do Spark sobre Hadoop MapReduce?

Muito mais rápido, pois processa em memória.

O que é RDD (Resilient Distributed Dataset)?

Estrutura de dados imutável e distribuída do Spark.

O que é Spark SQL?

Módulo para consultas SQL em dados estruturados.

O que é Spark Streaming?

Módulo para processamento de dados em tempo real.

O que é MLlib?

Biblioteca de aprendizado de máquina do Spark.

O que é GraphX?

API do Spark para análise de grafos.

Spark suporta quais linguagens?

Scala, Java, Python e R.

Spark roda em quais ambientes?

Local, cluster, Hadoop, Kubernetes, Mesos.

Spark pode usar HDFS como fonte de dados?

Sim, além de S3, Cassandra, Kafka, etc.

O que é Apache Kafka?

Plataforma de streaming distribuído para publicação e subscrição de dados em tempo real.

O que é NoSQL?

Conjunto de bancos de dados não relacionais, como MongoDB, Cassandra e Couchbase.

Quando usar banco NoSQL?

Para dados semi ou não estruturados, com alta escalabilidade e flexibilidade.

O que é MongoDB?

Banco NoSQL orientado a documentos.

O que é Cassandra?

Banco de dados NoSQL distribuído altamente escalável.

O que é Delta Lake?

Camada de armazenamento ACID para lakes, usada com Apache Spark.

O que é Apache Flink?

Motor para processamento de dados em tempo real e batch.

O que é OLTP?

Processamento de transações online, voltado para sistemas operacionais.

O que é OLAP?

Processamento analítico online, voltado para análise multidimensional.

O que é DataOps?

Conjunto de práticas para integração contínua e entrega contínua de dados.

Big Data Flashcards

(50 cards)