Apache Iceberg Flashcards

Question 1

Q

Что такое Apache Iceberg?

Answer

A

Apache Iceberg** — это табличный формат для аналитических данных больших объёмов, предназначенный для работы с объектными хранилищами (S3, ADLS, GCS) и HDFS.
Он обеспечивает ACID-транзакции, версионирование и схему таблицы, делая работу с большими таблицами похожей на работу с реляционными базами данных.

Question 2

Q

Какая главная идетя Apache Iceberg?

Answer

A

Главная идея Iceberg — позволить обрабатывать и управлять большими аналитическими таблицами с ACID-транзакциями, версионированием и безопасными схемами, даже если данные лежат в объектном хранилище.

Question 3

Q

На замену чему пришел Apache Iceberg?

Answer

A

Iceberg пришёл на смену классической экосистеме Hive/Parquet, которая плохо справлялась с ACID-транзакциями, изменением схем и управлением историей данных в больших таблицах на объектных хранилищах.

Question 4

Q

Что дает Apache Iceberg?

Answer

A

1) ACID - поддержку транзакций
2) Возможность менять схему таблицы
3) Версионирование данных при помощи снапшотов
4) Партицирование - дает возможность абстрактно партицировать вне зависимости отструктуры папок
5) Predicate Pushdown - перенос where к источнику, что позволяет читать только нужные данные, фильтруя ненужные

Question 5

Q

Когда использовать Iceberg?

Answer

A

Если таблица большая, меняется, нужны транзакции и версионирование.

Apache Iceberg Flashcards

(5 cards)