Dados Flashcards

Question

O que é o esquema ACID de bancos de dados relacionais?

Answer 1

*Atomicidade: * As transações são indivisíveis. *Consistência: * As regras de integridade devem ser respeitadas. *Isolamento: * Transações em paralelo não interferem umas nas outras. *Durabilidade: * As transações devem persistir em um banco de dados.

Answer 2

* Teorema de Brewer. * É impossível que o armazenamento de dados distribuído forneça simultaneamente mais de duas das três garantias seguintes: * Consistência: * Os clientes veem os mesmos dados em um instante de tempo. * Os dados gravados em um nó devem ser distribuídos para outro nó para que a transação seja finalizada. * Disponibilidade (availability): * Cada pedido recebe uma resposta (sem erro). * Partição tolerante a falhas: * O cluster deve continuar a funcionar mesmo de ocorrer uma ou mais falhas de comunicação entre os nós no sistema.

Answer 3

*BASE (Basically Available, Soft State with Eventual Consistency). * Valoriza a disponibilidade sobre a consistência. * Basically Available: * Operações de escrita e leitura estão disponíveis, mas sem consistência automática. * Soft State: * O estado dos dados não é garantido sem consistência. * Eventual Consistency: * Alterações em um banco dados não são propagadas de forma imediata.

Answer 4

* Chave-Valor: * Redis, DynamoDB, Riak, Tokyo Cabinet/Tyrant, Voldemort, Memcached, Scalaris, Amazon SimpleDB e Oracle BDB. * Documentos: * MongoDB, Elasticsearch, Azure Cosmos DB, DocumentDB, CouchDB, CouchBase, RavenDB, OrientDB, IBM Cloudant, CrateDB, BaseX e Lotus Notes. * Graph: * Neo4j, Neptune, HyperGraphDB, Infinite Graph, JanusGraph, InfoGrid, Titan e FlockDB. * Colunar: * Cassandra, HBASE, Bigtable e Hypertable.

Answer 5

*Armazenam, mapeiam e procuram relacionamentos entre nós por meios de arestas. *Nós são elementos de dados. *Arestas são relacionamentos.

Answer 6

* Dados de redes sociais. * Detecção de fraudes. * Logística (ex.: Waze).

Answer 7

Linguagem específica para percorrer grafos com padrão Blueprint.

Answer 8

Sim, apesar de ser NoSQL.

Answer 9

Cypher query language

Answer 10

* MATCH: * Faz pesquisa e retorna nós e relacionamentos. * Segue o padrão: * (um nó)-[relacionado]->(com outro nó) * CREATE: * Cria nós e relacionamentos. * SET: * Muda as propriedades. * RETURN: * Retorna as consultas feitas com o match. * DELETE: * Apaga nós e relacionamentos. * DETACH DELETE: * Apaga um nó e seus relacionamentos. * REMOVE: * Remove propriedades.

Answer 11

Cria dois usuários, com nome e id. Cria dois módulos de sistema. Cria relacionamentos de tipos de acesso que cada usuário tem para cada módulo do sistema.

Answer 12

retorna todos os relacionamento entre usuário e módulo do sistema.

Answer 13

*Armazena os dados como uma coleção de colunas conhecida como família. Podem ter supercolunas e outras subcolunas (como se fosse uma mesclagem de células no Excel). * Linhas não precisam ter as mesmas colunas. *Cada coluna é tratada (consultada, lida, agregada) separadamente.

Answer 14

* BI. * Analytics. * Processamento de Big Data.

Answer 15

Banco de dados NoSQL orientado a colunas, open-source, criado pelo Facebook. * Usa pares de chave-valor e tabelas. * As linhas de uma tabela (ou família de colunas) pode conter uma quantidade variável de colunas. * Usa a Cassandra Query Language (CQL). * O shell para usar a CQL é o cqlsh.

Answer 16

Sim, chamados de Keyspace. Para criar: CREATE KEYSPACE nome

Answer 17

CREATE TYPE address( street text city text zip text phone map. );

Answer 18

Sim. SELECT JSON

Answer 19

Consiste em uma tabela com duas colunas: chave (hash) e valor. *O valor pode ser um número, um texto, uma imagem, um documento. *Utiliza uma tabela hash com chaves únicas apontando para cada valor * É schema-less.

Answer 20

* Acelerar a performance de aplicativos com cache. * Armazenar dados pessoais de usuários. * Gerenciar sessões em jogos on-line. * Dicionários e coleções.

Answer 21

o conceito de consistência é aplicável apenas às operações em uma única chave, já que essas operações são a obtenção, a gravação ou a exclusão em uma única chave

Answer 22

O Redis e o Amazon DynamoDB

Answer 23

*Armazenar e consultar documentos semi-estruturados (JSON, BSON, XML, HTML etc.) *Cada documento é uma linha ou registro da base. * São armazenados do formato chave-valor DENTRO DE CADA DOCUMENTO. *Não existe esquema. *Não existe informação sobre um documento fora do documento.

Answer 24

* Aplicativos mobile. * E-Commerce. * Internet das Coisas - SmartTV, Geladeira Smart. * Analytics em tempo real - com dados vindos da internet. * Blogs e CMS.

Answer 25

Sim, especialmente no MongoDB

Answer 26

Sim, a nível de documento.

Answer 27

Banco de dados NoSQL orientado a documentos, open-source, escrito em C++. * Usa o formato JSON-like BSON. * Consultas ad hoc: * Permite expressões regulares, recuperação de documentos, de partes de documentos e de amostras randômicas. * Replicação: * São criadas bases de dados réplica e uma primária. (sistema mestre - primária, escravo - réplicas) * A primária é responsável pela escrita e as réplicas são de leituras. * Se a primária falhar, uma réplica assume o posto. * Indexação: * Permite indexação de documentos e de campos de documentos dos mais variados tipos.

Answer 28

A base de dados é um container físico que armazena as coleções. As coleções são conjuntos de documentos. Os documentos são conjuntos de pares chave-valor com esquema dinâmico.

Answer 29

Aplicativo que coleta informações sobre comandos executados.

Answer 30

* show dbs - lista todos os bancos de dados. * use [nome-do-banco] - selecionar um banco de dados, ex.: use admin. * db - verifica qual o banco de dados em uso no momento. * db.dropdatabase() - apaga um banco de dados.

Answer 31

* show collections - Mostra as collections. * createcollection() - Cria uma collection, exemplo: db.createcollection("minhacolecao"). * db.posts.insertOne(object) – Cria uma collection posts com o objeto object. * db.nome_da_colecao.find().pretty() – Mostra todos os dados de uma coleção, ex.: db.system.users.find().pretty(). * db.posts.find( {category: "News"} ) – Mostra os documentos da coleção com a categoria News. * db.nome_da_colecao.insert() - Insere dados numa coleção, ex.: db.minhacolecao.insert( { "_id" : 0, "site" : "terminal root", "url" : "terminalroot.com.br", "content" : "sobre mongodb" } ). * db.nome_da_colecao.update( ) - Atualiza(update) dados em um documento, ex.: db.minhacolecao.update({'content’: mongodb'},{set:{'content':'mongodb para concursos’}}). * db.nome_da_colecao.drop() - Deleta uma coleção, ex.: db.minhacolecao.drop(). * db.dados.remove({"mail": "james@brown.org"}) - Remove um documento com a chave mail igual a james@brown.org. * db.collection.createIndex(. ) – Cria índices em coleções. db.collection.createIndex * ({:(1|-1)});

Answer 32

Data warehouses, data lakes e data marts são diferentes soluções de armazenamento em nuvem. * Um data warehouse armazena dados em um formato estruturado. Ele é um repositório central de dados pré-processados para análise e business intelligence. * Um data mart é um data warehouse que atende às necessidades de uma unidade de negócios específica, como o departamento de finanças, marketing ou vendas da empresa. * Um data lake é um repositório central para dados brutos e dados não estruturados. Você pode armazenar os dados primeiro e processá-los mais tarde.

Answer 33

Data Warehouse

Answer 34

Data Warehouse

Answer 35

Um data lakehouse é uma arquitetura aberta e nova de gerenciamento de dados que incorpora a flexibilidade, a economia e a escalabilidade de um data lake com o gerenciamento de dados e os recursos de transações ACID de um data warehouse. Um data lakehouse permite um único repositório para todos os seus dados (estruturados, semiestruturados e não estruturados), ao mesmo tempo que permite os melhores recursos de aprendizado de máquina, business intelligence e streaming. Os data lakehouses geralmente começam como data lakes contendo todos os tipos de dados; os dados são então convertidos para o formato Delta Lake (uma camada de armazenamento de código aberto que traz confiabilidade aos data lakes). Os Delta Lakes permitem processos transacionais ACID de data warehouses tradicionais em data lakes. Data lakehouse apresentam armazenamento flexível de baixo custo e a sua arquitetura reforça o esquema e a integridade dos dados, facilitando a implementação de mecanismos robustos de segurança e governança de dados.

Answer 36

Data lakehouses podem ser complexos para construir do zero e não é uma tecnologia tão madura quanto as demais. Um data warehouse é uma boa escolha para empresas que buscam uma solução de dados estruturada e madura que se concentre em casos de uso de business intelligence e análise de dados. No entanto, os data lakes são adequados para organizações que buscam uma solução flexível, de baixo custo e de big data para impulsionar cargas de trabalho de aprendizado de máquina e ciência de dados em dados não estruturados. Suponha que as abordagens de data warehouse e data lake não estejam atendendo às demandas de dados da sua empresa ou que você queira combinar os benefícios do DW com os benenfícios do Data Lake. Nesse caso, um data lakehouse é a escolha indicada.

Answer 37

Vector stores (ou "armazéns de vetores") são sistemas ou bancos de dados especializados em armazenar, gerenciar e realizar buscas eficientes sobre vetores (ou embeddings), que são representações numéricas de dados em um espaço vetorial de alta dimensão. Esses vetores são comumente gerados a partir de dados não estruturados, como textos, imagens, sons, etc., e são utilizados para capturar informações semânticas ou características latentes dos dados. Os vetores são normalmente gerados por modelos de aprendizado de máquina, como redes neurais, que transformam dados complexos em vetores numéricos contínuos de uma forma que preserva as relações semânticas. Isso significa que dados semelhantes são representados por vetores que estão próximos uns dos outros no espaço vetorial. Casos de uso: 1 - Busca semântica (Semantic Search): Exemplo: Um usuário pode buscar por "melhores maneiras de economizar energia" e o sistema pode retornar artigos sobre "estratégias de redução de consumo elétrico", mesmo sem coincidência exata de palavras. 2 - Recomendação de Conteúdo: recomenda conteúdos similares 3 - Agrupamento e Classificação (Clustering): Vetores podem ser usados para agrupar dados semelhantes em clusters. Esse método é útil em análises de grandes volumes de dados não estruturados, como em análise de sentimentos, agrupamento de notícias semelhantes, ou categorização automática de produtos. 4 - Análise de Similaridade de Imagens: busca de imagens semelhantes 5 - Chatbots e Assistentes Virtuais: Embeddings de texto são amplamente usados em chatbots para garantir que as respostas estejam semanticamente relacionadas às consultas dos usuários, mesmo quando a formulação da pergunta não é idêntica. 6 - Detecção de Fraudes: Exemplo: Uma transação bancária que gera um vetor muito distante dos vetores de transações normais pode ser marcada como suspeita. 7 - Processamento de Linguagem Natural (NLP): Em várias aplicações de NLP, como tradução automática, sumarização de textos e análise de sentimentos, os embeddings são fundamentais para representar os textos de forma a capturar contextos e relações semânticas.

Answer 38

Não. Ela é flexível e personalizável.

Answer 39

Framework de código aberto que permite o armazenamento distribuído e processamento paralelo de grandes conjuntos de dados (BigData).

Answer 40

* Capacidade de armazenar e processar grandes quantidades de qualquer tipo de dado, e rapidamente. * Poder computacional. * Tolerância a falhas. * Replicação tripla de dados. * Flexibilidade. * Não precisa de pré-processamento dos dados. * Custo baixo. * Open source. * Escalabilidade. * Escrito em Java.

Answer 41

* NameNode: Mestre * Responsável por gerenciar onde cada arquivo está armazenado e controlar o acesso. * Recomenda-se o backup dos dados do NameNode, pois em caso de perda, todos os dados do cluster são perdidos. * Para minimizar as falhas, pode-se ter uma réplica, o Secondary DataNode. * DataNode: Escravo * Responsável pela leitura e gravação dos arquivos, além de executar operações de criação, exclusão e replicação de acordo com as instruções recebidas pelo NameNode. * Como os dados são replicados (3x), não necessitam de backup de dados.

Answer 42

Hadoop Distrirbuted File System: sistema de armazenamento de dados distribuído e tolerante a falhas. * componente principal do Hadoop * os administradores não precisam definir esquemas antecipadamente.

Answer 43

O Hadoop MapReduce é um mecanismo de execução do Apache Hadoop que processa grandes quantidades de dados de forma distribuída. Na etapa Map, os dados são divididos entre tarefas de processamento paralelo. Na etapa Reduce, os dados divididos pela etapa Map são agregados.

Answer 44

O HCatalog é um sistema de gerenciamento de metadados para Hadoop. Ele fornece uma tabela abstrata que facilita o compartilhamento de dados entre diferentes ferramentas do ecossistema Hadoop, como Hive, Pig e MapReduce.

Answer 45

O Apache Hive é um software de data warehouse de código aberto projetado para ler, gravar e gerenciar grandes conjuntos de dados extraídos do Apache Hadoop Distributed File System (HDFS). Utiliza a Hive Query Language (Hive SQL).

Answer 46

Componente do Hadoop que gerencia recursos e agenda trabalhos.

Answer 47

O Apache Pig é uma biblioteca Apache de código aberto que é executada sobre o Hadoop, fornecendo uma linguagem de scripts que você pode usar para transformar grandes conjuntos de dados sem precisar gravar códigos complexos em uma linguagem de computação de nível inferior, como Java. A biblioteca usa comandos SQL semelhantes a comandos escritos em uma linguagem chamada Pig Latin e converte esses comandos em tarefas.

Answer 48

O Apache HBase é um banco de dados NoSql de alta performance baseado no projeto Hadoop, orientado a coluna, open source e escrito em Java.

Answer 49

Framework para computação distribuída e para processamento de dados em larga escala. Código aberto. Escrito em Scala. Oferece paralelismo de dados e tolerância a falhas. Não possui sistema de armazenamento próprio (pode usar o HDFS do Hadoop por exemplo).

Answer 50

Processamento em memória (mais rápido), Provê API de alto nível em Java, Scala, Python e R (hadoop só trablha em Java)

Answer 51

Spark Core é o módulo principal (base para o processamento de dados em paralelo). Spark SQL para processamento de dados estruturados, usando SQL. MLlib para Aprendizado de Máquina. GraphX para processamento de grafos. Spark Streaming para processamento em tempo real. SparkR para processar dados com R. PySpark para processar dados com Python. Panda API em Spark para trabalhos com Pandas. BlinkDB para consultas em SQL com amostragem.

Answer 52

* Driver Program: Aplicação principal. * Cluster Manager: Administra as máquinas nos clusters. * Workers: Executam as tarefas enviadas pelo Driver Program. O programa escrito pelo usuário é conhecido como Driver Program, esse programa é submetido ao Cluster Manager que gera o plano de execução e delega o processamento aos demais nós de processamento conhecidos como Worker Nodes. Para executar programas com o Apache Spark é imperativo que todos os nós consigam trocar informações através da gravação de arquivos em sistemas de arquivos distribuídos (DFS), tais como HDFS ou S3, por exemplo.

Answer 53

RDD (Resilient Distributed Dataset) é uma estrutura de dados fundamental do Apache Spark que permite o processamento de dados de forma distribuída e paralela. São imutáveis (somente leitura). Seguem o conceito de lineage: toda vez que uma transforção é feita sobre um RDD, um novo RDD é criado, mantendo assim a versão anterior intacta. Apenas operações de transformação criam novos RDDs (como map(function) e filter(function). Operações de ação não criam novos RDDs (como count, take, collect, etc). Resilient: Tolerantes a falhas. Distributed: Armazenados na memória por todo o cluster. Datasets: Conjuntos de dados provenientes das fontes

Answer 54

Transformação: * map(function) -> cria um novo RDD processando a função em cada registro do RDD. * filter(function) -> cria um novo RDD incluindo ou excluindo cada elemento de acordo com um função booleana. * flatMap: Similar ao map, mas cada elemento pode ser mapeado para múltiplos elementos (ou nenhum). * groupByKey: Agrupa os elementos do RDD (chave, valor) com base nas chaves. * reduceByKey: Combina os valores de cada chave usando uma função de redução. Exemplo: rdd.reduceByKey((x, y) => x + y) somaria os valores com a mesma chave. Ações: * count() -> retorna o número de elementos. * take(n) -> retorna um array com os primeiros n elementos. * collect() -> retorna um array com todos os elementos. * saveAsTextFile(file) -> salva o RDD no arquivo. * reduce: Combina os elementos do RDD usando uma função de redução. Exemplo: rdd.reduce((x, y) => x + y) soma todos os elementos do RDD. * foreach: Aplica uma função a cada elemento do RDD sem retornar um resultado ao driver. Exemplo: rdd.foreach(x => println(x)) imprime cada elemento.

Answer 55

Hadoop MapReduce é capaz de trabalhar com conjuntos de dados muito maiores do que o Spark.

Answer 56

Não, ele deve ser usado apenas para batch.

Answer 57

particionar os arquivos em blocos de 64 MB e replicar os blocos em três cópias no modo cluster e uma cópia no modo local, alocando os mesmos em servidores diferentes. Particionamento em blocos de 64 MB: Essa é uma característica padrão do HDFS, que divide os arquivos em blocos menores para facilitar a distribuição e o paralelismo. Replica em três cópias no modo cluster: Essa é a chave para a tolerância a falhas. Ao replicar cada bloco em três nós diferentes do cluster, o sistema garante que, mesmo que um ou dois nós falhem, os dados ainda estarão disponíveis nas outras réplicas. Uma cópia no modo local: A cópia local pode melhorar o desempenho de leitura, mas não é essencial para a tolerância a falhas.

Answer 58

É uma metodologia de gestão de projetos de mineração de dados, não proprietário (gratuito), agnóstica (não prescreve tecnologia), flexível, adaptável, cíclica, iterativa e incremental.

Answer 59

1) Compreensão do négocio Compreender os objetivos e requisitos do projeto de DM. Entender o contexto do negócio. Identificar os especialistas da organização. Levantar as necessidades e expectativas. Levantar hardware e software. Inventariar as bases de dados. 2) Compreeensão dos dados Entender os dados. Avaliar a qualidade dos dados. Avaliar o volume de dados. 3) Preparação dos dados Selecionar os dados para análise. Limpar os dados. Formatar os dados. Transformar os dados. Construir novos dados. Enriquecimento de dados. 4) Modelagem Escolher e aplicar as técnicas de mineração de dados. 5) Avaliação Avaliar o modelo de mineração produzido quanto a: Qualidade. Precisão. Relevância. 6) Desenvolvimento Implantar o processo de mineração de dados em produção. Incorporar o DM ao processo de negócio. Desenvolver novas estratégias de negócio.

Dados Flashcards

(94 cards)