O que é Big Data?
Conjunto de dados tão grandes e complexos que não podem ser tratados por métodos tradicionais.
Quais os 5 V’s do Big Data?
Volume, Velocidade, Variedade, Veracidade e Valor.
O que é Volume em Big Data?
Grande quantidade de dados gerados continuamente.
O que é Velocidade em Big Data?
Rapidez com que os dados são gerados, processados e analisados.
O que é Variedade em Big Data?
Diferentes formatos de dados: estruturados, semiestruturados e não estruturados.
O que é Veracidade em Big Data?
Confiabilidade e qualidade dos dados.
O que é Valor em Big Data?
Capacidade de extrair insights relevantes para o negócio.
O que é Data Lake?
Repositório que armazena dados em seu formato bruto.
O que é Data Warehouse?
Armazenamento estruturado de dados para análises.
Diferença entre Data Lake e Data Warehouse?
Data Lake é flexível e armazena dados crus; DW é estruturado e analítico.
O que é ingestão de dados?
Processo de coletar e importar dados de diversas fontes.
O que é ingestão batch?
Importação de dados em blocos periódicos.
O que é ingestão em streaming?
Coleta contínua e em tempo real dos dados.
Ferramentas de ingestão de dados?
Apache NiFi, Apache Kafka, AWS Glue, Flume.
O que é transformação de dados?
Processamento para ajustar os dados ao modelo desejado.
O que é pipeline de dados?
Sequência de etapas de ingestão, transformação e carga.
O que é ETL?
Extração, Transformação e Carga de dados em sistemas de destino.
O que é ELT?
Extração, Carga e posterior Transformação no destino.
Diferença entre ETL e ELT?
ETL transforma antes de carregar; ELT transforma após o carregamento.
O que é orquestração de dados?
Coordenação de tarefas automatizadas em pipelines, ex: Apache Airflow.
O que é Apache Hadoop?
Framework open-source para armazenamento e processamento distribuído de dados massivos.
Quais os principais módulos do Hadoop?
HDFS, MapReduce, YARN e Hadoop Common.
O que é HDFS?
Sistema de arquivos distribuído do Hadoop.
O que é MapReduce?
Modelo de programação para processamento paralelo de grandes volumes de dados.