Machine Learning Flashcards

Question 1

Q

O que é o Amazon SageMaker e como ele funciona?

Answer

A

O que é: É um serviço totalmente gerenciado da AWS criado para que desenvolvedores e cientistas de dados possam construir, treinar e implantar modelos de Machine Learning (ML) em produção [web:41].
Como funciona: Ele oferece um ambiente integrado (SageMaker Studio) que provisiona sob demanda toda a infraestrutura computacional (instâncias EC2) necessária. Você usa notebooks Jupyter para escrever o código, acessa algoritmos prontos e gerencia todo o ciclo de vida do modelo [web:41].
Quando usar: Quando sua equipe precisa focar no desenvolvimento de inteligência artificial e modelos preditivos sem perder tempo gerenciando servidores, escalabilidade ou complexidade de infraestrutura [web:41].
Exemplo de uso: Um engenheiro de dados prepara os dados no S3 e um cientista usa o SageMaker para treinar um modelo de recomendação de produtos, implantando-o como uma API em tempo real no final.
Vantagens vs Desvantagens (Comparado a rodar ML no EC2 puro):
- Vantagem: Reduz drasticamente o tempo de desenvolvimento, pois abstrai a infraestrutura e oferece dezenas de ferramentas nativas para MLOps [web:41].
- Desvantagem: Pode gerar custos maiores se os notebooks e instâncias de treinamento não forem desligados corretamente, possuindo um modelo de cobrança com valor agregado sobre a infraestrutura base.

Question 2

Q

O que é o SageMaker Feature Store e como ele funciona?

Answer

A

O que é: É um repositório centralizado, projetado especificamente para armazenar, atualizar, recuperar e compartilhar ‘features’ de Machine Learning [web:36][web:39]. (Nota: ‘Feature’ é uma propriedade/variável individual extraída dos dados brutos e usada para treinar um modelo).
Como funciona: Ele armazena as features em grupos de forma dupla. Possui um ‘Offline Store’ (baseado no S3) para armazenar todo o histórico de dados e permitir o treinamento de modelos, e um ‘Online Store’ em memória para servir as features em tempo real com baixíssima latência (milissegundos) durante a predição [web:42].
Quando usar: Quando você quer garantir que as mesmas variáveis usadas para treinar o modelo sejam as mesmas usadas em produção, ou quando quer reutilizar variáveis entre diferentes equipes de ML [web:39][web:45].
Exemplo de uso: Você processa o histórico de compras de usuários. O Feature Store salva o histórico completo no S3 para treinar o modelo amanhã, e salva as 3 últimas compras no Online Store para que o modelo sugira uma música ou produto em tempo real quando o usuário abrir o app [web:45].
Vantagens vs Desvantagens (Comparado a usar o S3/Glue tradicionais):
- Vantagem: Resolve o problema do ‘training-serving skew’ (inconsistência entre os dados de treino e os de produção), entregando variáveis em tempo real de forma que os data lakes tradicionais não conseguem [web:42].
- Desvantagem: Adiciona complexidade e custo à arquitetura de dados; não é justificável para modelos preditivos simples que rodam apenas em lotes (batch) semanais.

Question 3

Q

O que é o SageMaker ML Lineage Tracking e como ele funciona?

Answer

A

O que é: É um recurso de rastreamento de linhagem que mantém um histórico visual e em metadados de todas as etapas de um fluxo de Machine Learning [web:37].
Como funciona: Ele trabalha em segundo plano rastreando automaticamente entidades e criando conexões (grafos) entre os dados brutos, os jobs de processamento, os códigos de treinamento e o modelo final implantado [web:37][web:40].
Quando usar: Indispensável quando você precisa de governança, auditoria de modelos, ou quando quer reproduzir experimentos passados para entender como um modelo foi gerado [web:37][web:40].
Exemplo de uso: Um auditor quer saber como o modelo de ‘aprovação de crédito’ em produção foi treinado. O Lineage Tracking mostra exatamente a versão do dataset no S3, o script utilizado e os hiperparâmetros que geraram aquele modelo [web:37].
Vantagens vs Desvantagens (Comparado a Logs manuais no CloudWatch):
- Vantagem: Cria relações lógicas e visuais automaticamente, o que seria quase impossível ou muito trabalhoso de mapear apenas lendo arquivos de log de texto.
- Desvantagem: O escopo é estritamente voltado para fluxos de Machine Learning no SageMaker. Para rastrear a linhagem de processos de dados puramente analíticos, usa-se outras ferramentas (como o AWS Glue ou ferramentas de terceiros).

Question 4

Q

O que é o SageMaker Data Wrangler e como ele funciona?

Answer

A

O que é: É uma ferramenta de preparação de dados (ETL) e engenharia de features focada no universo de Machine Learning, que oferece uma interface visual [web:41].
Como funciona: Você conecta a fontes de dados (S3, Athena, Redshift) e usa uma interface de arrastar-e-soltar para aplicar mais de 300 transformações integradas (como tratar dados ausentes, converter textos em categorias numéricas ou normalizar colunas), exportando depois o fluxo como código Python automatizado [web:41].
Quando usar: Quando o cientista ou o engenheiro de dados precisam limpar, preparar e visualizar dados rapidamente para treinar um modelo sem precisar escrever centenas de linhas de código PySpark ou Pandas [web:41].
Exemplo de uso: Você importa um arquivo CSV bruto, clica em uma opção visual para preencher automaticamente as idades que estão em branco na tabela com a média matemática, e exporta esse passo para o seu pipeline do SageMaker.
Vantagens vs Desvantagens (Comparado ao AWS Glue DataBrew):
- Vantagem: Tem integração direta e profunda com todo o ciclo de ML do SageMaker, permitindo exportar o dado limpo direto para o SageMaker Feature Store ou Pipelines [web:41].
- Desvantagem: É altamente focado em ML. Para limpeza e análise de dados em cenários de Business Intelligence (BI) para analistas de negócios, o AWS Glue DataBrew é a ferramenta mais generalista recomendada.

Machine Learning Flashcards

(4 cards)