S3 Flashcards

Question

Какие минимальные сроки хранения для разных классов?

Answer 1

standart - нет standart-IA, onezone-IA - 30 дней glacier instant, flexible - 90 дней glacier deep - 180 дней Intelligent-Tiering — нет минимального срока

Answer 2

Деньги спишутся за мин период

Answer 3

Версионирование в S3 позволяет хранить несколько версий одного объекта и защищает от случайных удалений и перезаписей. При **перезаписи объекта** создаётся новая версия. При **удалении объекта** создаётся **delete marker**, который делает объект невидимым при обычном `GET` и `LIST`. Чтобы восстановить объект, достаточно удалить delete marker. Минус версионирования — рост стоимости хранения, поэтому обычно настраивают **Lifecycle Policies** для удаления или архивирования старых версий.

Answer 4

1) CRR (cross-region replication) - позволяет реплицировать данные между регионами 2) SRR (same-region replication) - реплицирует данные в одном регионе Репликация проходит асинхронно и требует включённого **versioning**

Answer 5

CRR используется для защиты от отказа региона и географического DR. SRR используется для compliance, защиты от логических ошибок и разделения данных внутри региона. В SRR можно применять **другие политики доступа, lifecycle и Object Lock**, а также **отключить репликацию delete marker**, что позволяет защитить реплику от случайных удалений или ransomware.

Answer 6

**Delete marker** — это специальная версия объекта, которая создаётся при удалении объекта в versioned-бакете. Он делает объект невидимым для обычных операций чтения и листинга, но физически данные остаются. **Delete marker может реплицироваться**, но это настраивается отдельно в правилах репликации (delete marker replication).

Answer 7

Без версионирования невозможно надёжно определить, какие именно изменения и в каком порядке нужно реплицировать.

Answer 8

S3 Transfer Acceleration — это технология, которая ускоряет передачу данных в S3 и из S3 за счет использования глобальной сети Amazon CloudFront. Данные остаются в бакете, но пользователи загружают или скачивают их через ближайшие Edge Locations, что уменьшает задержки и увеличивает скорость.

Answer 9

Да, это платная опция. Стоимость взымается за каждый переданный Gb

Answer 10

Да, большое количество маленьких файлов снижает производительность, так как требует больше put операций и запросов, а также создание большего числа объектов. S3 ориентирован на работу с большими файлами.

Answer 11

1) Объединение малых файлов в файл побольше (parquet, orc) 2) Использование batch-записи (например, Spark coalesce/repartition) 3) Компакция данных (periodic compaction jobs)

Answer 12

В S3 нет встроенного физического партицирования. «Партиции» реализуются **через ключи объектов и префиксы**. Движки вроде Athena, Glue или Spark используют префиксы для чтения только нужных данных, что эмулирует партицирование и ускоряет обработку.

Answer 13

`s3://my-bucket/reports/2026/01/report.csv` - **Bucket:** `my-bucket` - **Key:** `reports/2026/01/report.csv` - **VersionId:** `null` или `abcd1234` (если включён versioning) 💡 В S3 “папки” — это **часть ключа**. То есть `reports/2026/01/` — это **префикс**, который просто выглядит как директория.

Answer 14

1) Использовать s3 select, который позволяет читать только нужные строки из файлов 2) Запросы через Athena - инструменты позволяют делать sql-запросы на прямую к данным в S3, как hive и hdfs. S3 Select хорошо для небольших выборок, Athena — для аналитики на больших объёмах.

Answer 15

S3 поддерживает **очень высокую нагрузку** (миллионы операций в секунду на бакет), но для **старых рекомендаций**: - **До 2018 года:** не более 3500 PUT/COPY/POST/DELETE и 5500 GET/HEAD на **префикс** - **Сейчас:** S3 масштабируется автоматически, но для экстремально высоких нагрузок всё равно полезно использовать **разделение префиксов** или **рандомизацию ключей**, чтобы избежать «hot prefix».

Answer 16

1) IAM Policies - настройки, которые позволяют контролировать права и доступ для отдельных пользователей и групп пользователей 2) Bucket Policies - политики, которые настраиваются на уровне бакета 3) VPC Endpoint - приватный канал, который позволяет получать данные не через интернет, а через AWS сеть 4) Presigned URL - возможность предоставить временный доступ к данным 5) ACL - устаревший контроль доступа

Answer 17

1) SSE-S3 - ключи S3. Просто, удобно и бесплатно 2) SSE-KMS - позволяет самим контролировать и управлять ключами (платно) 3) SSE-C - максимальный контроль, но и вся ответственность на нас. Если потеряем, то не сможем получить данные 4) Ну и шифрование на уровне передачи данных по сети

Answer 18

Это набор из четырех флагов, который полностью блокирует публичный доступ к данным, вне зависимости от политик.

Answer 19

1) raw - сырые данные, источник истины. (json, csv, xml) 2) staging - уровень подготовки данных к аналитике. Очистка, обогащение, валидация, подготовка 3) curated - данные подготовленные к аналитике (parquet, orc)

Answer 20

1) Athena - позволяет производить запросы sql на прямую в s3 2) Glue - инструмент для работы с метаданными в s3 3) EMR (elastic map reduce) - отдельный кластер для работы с данными, подходит, если у нас сложная логика и athena не хватает. 4) **Redshift Spectrum** - athena на стеройдах (имеет возможность делать join)

Answer 21

1) Lambda (s3 triggers) 2) Kinesis Data Firehose (потоковая служба доставки, позволяет быстро доставлять большие по объему потоки данных в real-time)

Answer 22

- **Snowball** — когда слишком много данных для интернета (offline) - **DataSync** — автоматическая синхронизация через сеть (online, incremental) - **Storage Gateway** — гибридное решение для постепенной интеграции on-prem → cloud

Answer 23

1) Access logs - мониторинг доступа к данным 2) CloudTrail - мониторинг API вызовов, кто что сделал 3) Cost Explorer - позволяет отследить расходы 4) Storage lens - мониторинг использования s3 для оптимизации хранения и снижения стоимости 5) CloudWatch metrics - метрики производительности, которые позволяют устанавливать алерты и оповещения

Answer 24

1) Хранение (per Gb) 2) Операции (put, get, list) 3) Перемещение данных 4) Аналитика, безопасность и репликация

Answer 25

1) Выбор правильного класса хранения 2) Настройка lifecycle policies 3) Объединение мелких файлов 4) Мониторинг и исправление узких мест

Answer 26

Объединение мелких файлов в более крупные объекты (Parquet/ORC/Avro) уменьшает количество операций GET/PUT, ускоряет аналитические запросы (Athena/Spark) и снижает стоимость хранения и обработки.

Answer 27

1) Включить версионирование на всех бакетах 2) Настроить CRR-репликацию 3) Настроить LifeCycle policie 4) Периодически проверять восстановление 5) Настроить автоматический мониторинг и уведомление при сбое

Answer 28

- **Snowball** — для единовременной массовой загрузки (10 TB и больше) - **DataSync** — для регулярного переноса и синхронизации новых данных - **Storage Gateway** — для постепенной загрузки и гибридного доступа с локальной стороны

Answer 29

Используем Cost Explorer и S3 Storage Lens, чтобы определить бакеты и объёмы, вызвавшие рост расходов. Проверяем CloudTrail и Access Logs на частые операции или дублирующиеся объекты. Исправляем узкие места через оптимизацию Storage Class, lifecycle policies, исправление скриптов.

Answer 30

Определяем требования: надёжность, безопасность, частота доступа, объёмы, формат данных Структура хранения: raw → staging → curated (с префиксами для партиций) Безопасность и управление: versioning, lifecycle policies, шифрование, CRR/SRR, IAM/Bucket Policies Мониторинг и алерты: CloudWatch, Storage Lens, Cost Explorer Оптимизация для аналитики: форматы Parquet/ORC, партиции по времени, объединение мелких файлов

S3 Flashcards

(54 cards)