O que são metadados?
Dados que descrevem outros dados. Podem estar inclusos no código ou fora deles. São flexíveis e ajudam a indexar os dados.
O que é o Dublin Core?
Esquema de metadados criado pela Dublin Core Metadata Initiative (DCMI). Tem como carcterísticas:
Simplicidade, Interoperabilidade Semântica, Consenso Internacional, Extensibilidade e Modularidade.
Quais são os 15 elementos do Dublin core?
Title, Creator, Subject, Description,
Publisher, Other Contributors, Date, Resource Type, Format, Identifier, Source, Language, Relation, Coverage, Rights
O que é o OAI-PMH?
Open Archives Initiative Protocol for
Metadata Harvesting:
* Protocolo desenvolvido para facilitar a coleta e intercâmbio de
metadados entre repositórios de informações
* Modelo cliente-servidor:
* Provedores de dados (data providers) expõem metadados
* Provedores de serviços (service providers) coletam metadados
* Utiliza XML para a representação dos metadados
* Compatível com Dublin Core
O processo de busca automática, coleta de dados e construção de índices é conhecido como?
Harvesting.
Quais as classificações dos metadados?
Metadados descritivos
* Detalham um recurso digital para localização, identificação ou
compreensão
* Exemplos: título, autor e assunto
Metadados estruturais
* Explicitam a estrutura interna do arquivo digital e as relações hierárquicas
de partes integrantes de recursos entre si
* Exemplos: ordem e lugar na hierarquia
Metadados administrativos
* Fornecem informações que apoiam a gestão do ciclo de vida (criação,
seleção, descrição etc.) dos recursos informacionais.
Subdividem em:
O que é Normalização de dados?
Trazer todos os dados numéricos para a mesma escala (entre zero e um).
Fórmula min-máx:
X’ = (X - Xmin)/(Xmax - Xmin)
O que é padronização?
Uso do z-score para obter uma variável aleatória com média 0 e desvio padrão 1 (distribuição normal).
Fórmula:
Z = (X - média)/desvio padrão
O que é discretização?
-> Discretização de Largura Igual (Equal-width Discretization):
* Divide o intervalo de valores da variável em k intervalos de largura
igual.
* Não garante que cada intervalo terá o mesmo número de observações.
-> Discretização de Frequência Igual (Equal-frequency Discretization):
* Também conhecida como discretização por quantis.
* Divide os dados em k intervalos de forma que cada intervalo contenha
aproximadamente o mesmo número de observações.
* Útil para criar intervalos balanceados.
-> Discretização Binária (Binary Discretization):
* Transforma uma variável contínua em uma variável categórica com
duas categorias.
* Comum para problemas de classificação binária ou transformação de
um problema de regressão em um problema de classificação.
ex.: função logística
-> Discretização por Entropia (Entropy-based Discretization):
* Utiliza a entropia para dividir a variável em intervalos que maximizam a
homogeneidade de classes dentro de cada intervalo.
* Frequentemente usada em algoritmos de árvore de decisão.
-> Discretização por Clustering:
* Utiliza algoritmos de clustering, como K-Means, para agrupar dados em
intervalos.
* Os clusters formam os intervalos discretos.
* Não garante que os intervalos tenham o mesmo número de
observações.
-> Discretização por Intervalos de Probabilidade (Probability Intervals
Discretization):
* Baseia-se na distribuição de probabilidade dos dados.
* Cria intervalos com base em percentis, mas não gararnte distrituições iguais.
Qual nova área de conhecimento foi criada no Guia DAMA-DMBOKv2?
Integração de dados e interoperabilidade.
Os elementos ambientais básicos definem cada área de conhecimento ou função da Gestão de Dados presentes no guia DAMA-DMBOK. São considerados alguns destes elementos:
Metas e princípios; atividades; e, papéis e responsabilidades.
Os tipos de modelos operacionais de governança de dados discutidos no DAMA-DMBOK2 são
centralizado, replicado e federado.
Para a governança de dados, a administração de dados é a área responsável pela qualidade e pelo ciclo de vida dos dados dentro de uma organização. Certo ou errado?
Certo.
Descreva as principais técnicas em qualidade de dados:
1 - Data Profiling
2 - Matching
3 - Deduplicação
4 - Data Cleansing
5 - Enriquecimento de dados
1 - Data Profiling
* Análise de dados usada para inspecionar dados e assegurar a qualidade.
* Gera uma série de estatísticas para análise:
* Contagem de nulls.
* Valor máximo e mínimo.
* Distribuição de frequência.
* Tipo de dados e formato.
* Avalia:
* Análise entre colunas de dados (sobreposições e duplicações).
* Dependência entre valores.
* Relacionamentos de chaves.
* Qualidade de dados e de metadados
2 - Matching
* É a avaliação se mais de um registro de uma base representa a
mesma entidade do mundo real.
* Utilizado para avaliar a duplicação de dados.
* Pode ser feito por algoritmos determinísticos ou estatísticos.
3 - Deduplicação
* Eliminação de cópias duplicadas de dados.
* Os dados repetidos são resumidos a apenas uma cópia, a qual é
referenciada diversas vezes.
4 - Data Cleansing
* Técnica de tratamento e limpeza de dados.
* Etapas:
* Auditoria de dados.
* Especificação do fluxo de trabalho.
* Execução do fluxo.
* Pós-processamento e controle.
5 - Enriquecimento de dados
* É o processo de melhorar a qualidade de uma base de dados por
meio da inserção de dados de outra fonte de informação.
* Correção, atualização, higienização e reorganização de registros
defasados ou ausentes.
Qual é o método de suavização de dados,
que minimiza os efeitos causados pelos dados ruidosos?
dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em
seguida, substituí-los por um valor geral, ou genérico, calculado para cada compartimento específico.
Quais são as etapas do processo de preparação de dados?
Como dividir seu conjunto de dados: Treino, teste e validação?
Geralmente, separamos a maior parte do conjunto de dados para treino, e uma parte menor para teste e validação. O tamanho destas últimas deve ser significativo, pelo menos 10% do conjunto de dados total. As proporções variam caso a caso, mas na dúvida, podemos adotar a seguinte proporção:
70% dos dados para treino
15% dos dados para teste
15% dos dados para validação
Os dados de treino servem para treinar o modelo. No caso, o modelo irá aprender a partir desses dados e eles têm que estar separados da validação e teste, para evitar overfitting.
Os dados de teste, servem para calcularmos o desempenho do modelo, acurácia e etc. É com esse conjunto que saberemos se o modelo realmente está aprendendo ou não alguma coisa com o conjunto de dados e o usaremos como métrica para avaliar o modelo.
Já os dados de validação são para teste de hiperparâmetros ou outros modelos. Se você quiser, pode usar o conjunto de teste e validação como o mesmo conjunto, é uma forma de abordar. Em redes neurais, por exemplo, podemos usar o conjunto de validação para testar número de neurônios da camada escondida, função ativação, e outros hiperparâmetros.
O que são as seguintes técnicas de amostragem?
Probabilística:
1 - Aleatórira (casual) simples
2 - Sistemática
3 - Estratificada
4 - Por conglomerados
Não probabilística:
5 - A esmo
6 - Intecional (por julgamento)
7 - Por cotas
9 - Bola de neve
Ao contrário da não probabilística, a probabilistica tem acesso a toda a população, e é feita através de um sorteio não viciado.
Probabilística:
1 - Aleatórira (casual) simples: feita por sorteio não viciado.
2 - Sistemática: escolhe-se aleatoriamente o primeiro, e depois segue de tantos em tantos. Ex.: pegar um a cada 100 de toda a população.
3 - Estratificada: estratifica a amostra de acordo com grupos de características similares e faz um sorteio dentro desses grupos.
4 - Por conglomerados: parecido com a estratificada, mas os grupos são escolhidos de forma mais arbitrária.
Não probabilística:
5 - A esmo: indivíduos escolhidos ao acaso.
6 - Intecional (por julgamento): indivíduos escolhidos intencionalmente, por se pensar que compoem um grupo representativo da população.
7 - Por cotas: sorteio feito dentre grupos definidos.
9 - Bola de neve: pede aos ecolhidos ao acaso que indiquem outros escolhidos.
Quando ocorre o tratamento de um ou mais dados, é gerada a informação, a
qual constitui conhecimento quando aplicada em determinado contexto. Certo ou errado?
Certo.
Os termos CÉU e AZUL, quando utilizados separadamente, representam
dados, enquanto a expressão CÉU É AZUL representa uma informação. Certo ou errado?
Certo.
Diferencie os tipos de dados estruturados, semi-estruturados e não estruturados.
Caracterize os seguintes tipos de arquivo:
Cite características de bancos de dados NoSQL.
*Not Only SQL.
*Bancos de dados distribuídos não relacionais.
* Trabalham com Big Data.
*Não possuem modelo de dados fixo.
*Não são orientados a objeto.
*Aceitam SQL.
* Trabalham com dados não estruturados e
semiestruturados, primariamente. (mas aceitam dados estruturados tbm)
*Aceitam diversos tipos de modelo de dados, incluindo schema-less.
*Dados distribuídos globalmente.
* É mais flexível e rápido.
* Escalabilidade horizontal.
* Não tem operação ACID
* Não tem normalização
* Não tem imunidade a SQL injection