Apache Iceberg Flashcards

(5 cards)

1
Q

Что такое Apache Iceberg?

A

Apache Iceberg** — это табличный формат для аналитических данных больших объёмов, предназначенный для работы с объектными хранилищами (S3, ADLS, GCS) и HDFS.
Он обеспечивает ACID-транзакции, версионирование и схему таблицы, делая работу с большими таблицами похожей на работу с реляционными базами данных.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Какая главная идетя Apache Iceberg?

A

Главная идея Iceberg — позволить обрабатывать и управлять большими аналитическими таблицами с ACID-транзакциями, версионированием и безопасными схемами, даже если данные лежат в объектном хранилище.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

На замену чему пришел Apache Iceberg?

A

Iceberg пришёл на смену классической экосистеме Hive/Parquet, которая плохо справлялась с ACID-транзакциями, изменением схем и управлением историей данных в больших таблицах на объектных хранилищах.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Что дает Apache Iceberg?

A

1) ACID - поддержку транзакций
2) Возможность менять схему таблицы
3) Версионирование данных при помощи снапшотов
4) Партицирование - дает возможность абстрактно партицировать вне зависимости отструктуры папок
5) Predicate Pushdown - перенос where к источнику, что позволяет читать только нужные данные, фильтруя ненужные

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Когда использовать Iceberg?

A

Если таблица большая, меняется, нужны транзакции и версионирование.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly