GreenPlum Flashcards

Question

!!

Answer 1

1) Полное 2) Частичное 3) Копирование на другой сервер при условии совместимости версий

Answer 2

Это таблицы greenplum, с которыми greenplum может работать, но сами они расположены в другом физическом месте. Работа с данными проходит на лету. Плюсы: отсутствует нагрузка на память, но имеет не высокую производительность, нагрузку на сеть и зависимость от источников. Типы таблиц: Readable, Writable

Answer 3

1) Не нужно дублировать данные - работаешь с ними там, где хранятся 2) Интеграция с Big data архитектурой (hadoop, s3) 3) Параллельная обработка 4) Удобное подключение таблиц, через pxf

Answer 4

1) pxf 2) http 3) s3 4) jdbc

Answer 5

1) Расположить pxf и datanode на одних узлах, чтобы снизить нагрузку на сеть 2) Тюнинг pxf 3) Параллелизм 4) Колоночные форматы (orc/parquet) 5) Кэширование

Answer 6

1) На источнике установить pxf 2) Отредактировать конфиги для подключения pxf между узлами 3) Создание внешней таблицы в greenplum через pxf

Answer 7

Возможность сжимать данные, тем самым снижать нагрузку на I/O WITH (appendonly=true, compresstype=zstd, compresslevel=5) Рекомендуется применять для архивных или редко обновляемых таблиц.

Answer 8

gp_toolkit - набор таблиц и представлений, которые позволяют мониторить производительность. Explain и Analyze Explain - для анализа плана выполнения.

Answer 9

1. cost - оценка затрат планировщика 2. rows/width - количество строк и их размеры 3. join type - тип join: nested - для малых данных hash - для больших данных merge - для отсортированных данных 4. Использование индекса 5. Data motion - показывает движение данных между сегментами кластера (надо минимизировать )

Answer 10

1) Просто с помощью COPY,: COPY table_name FROM '/path/data.csv' WITH (FORMAT csv, HEADER true); (не использует параллельную загрузку, самый простой способ) 2) gpdist - оптимальный способ для больших объемов 3) gpload - утилита обертка для gpdist, подходит для автоматизации процесса 4) pxf - доступ к другим источникам без загрузки (внешние таблицы)

Answer 11

Это процесс разбиения данных на шарды для параллельной обработки. Существует три способа: 1) Round-robin (карусель) - простое распределение между сегментами. Если есть 6 частей: (1,4), (2,5), (3,6) 2) Hash. Разбиение по hash значениям. Если неправильно подобрать ключ распределения, то может случиться несбалансированная нагрузка некоторых сегментов. 3) Random. Рандомное распределение используется редко, в основном для тестов.

Answer 12

gpstate - состояние GreenPlum gp_distribution_policy - вьюха, с помощью которой можно следить за политикой распределения gpconfig -s - конфиги GreenPlum gpversion - версия

Answer 13

gpcheckspace А также можно воспользоваться системными таблицами, которые находятся в gp_toolkit

Answer 14

(Greenplum Streaming Server)— инструмент для потоковой загрузки данных из Kafka в Greenplum. GPSS подписывается на топик Kafka и записывает данные в таблицы GPDB. При правильной конфигурации может поддерживать exactly-once семантику.

Answer 15

Инструмент визуального построения ETL/ELT - пайплайнов. Может быть заменой либо дополнением GPSS. Преобразует, фильтрует и агрегирует данные. Преимущества: 1) Простая визуализация 2) Возможность контролировать поток 3) Мониторинг и механизмы повтора (retry-механизмы)

Answer 16

1) NiFi - GUI, гибкость, поддержка различных источников, но тяжеловесен, требует много RAM. 2) GPSS - нативный коннектор, быстрый, но не столь гибкий и универсальный как nifi

Answer 17

1) Правильно настроить размер batch-ей 2) Использовать сжатие 3) Использовать партицирование 4) Мониторить поток данных и исходя из этого предпринимать дальнейшие действия

Answer 18

CREATE TABLE mart.clients_dim WITH (appendonly=true, orientation=column) AS SELECT id AS client_id, first_name, last_name, email, phone, registration_date, status FROM data.clients;

Answer 19

Это колонка или набор колонок, по которым строки таблицы хранятся в отсортированном порядке на диске. ``` CREATE TABLE sales ( id serial, customer_id int, amount numeric, sale_date date ) DISTRIBUTED BY (customer_id) SORTKEY (sale_date); ```

Answer 20

Это технология, которая собирает статистику по таблице. Это нужно для того, чтобы оптимизатор более точно понимал консистентность таблицы для выбора более оптимального плана выполнения

Answer 21

Readable - только на чтение Writable - позволяет не только читать, но и записывать данные в внешние таблицы

Answer 22

1) ODS 2) DDS 3) Data mart

Answer 23

При создании табилцы в click нужно использовать ENGINE = PostgreSQL('gp_host:5432', 'gp_db', 'clients', 'gp_user', 'gp_pass');

Answer 24

1) Redistributed motion Если используется join либо group by не по ключу распределения. 2) Broadcast motion Если используется маленькая таблицы, которая не реплицирована. 3) Gathering motion Если есть сортировка без limit, limit без распределенного ключа, результат возвращается поьзователю (самый дорогой вид motion)

Answer 25

Ок, **максимально короткая шпаргалка** 👇 --- Greenplum: типы таблиц Heap (обычные) * **DEFAULT** * Row-store, MVCC * `UPDATE / DELETE` — ✅ * VACUUM нужен * ❌ слабая компрессия 👉 Маленькие, часто обновляемые --- AO Row ```sql WITH (appendonly=true, orientation=row) ``` * Append-only * UPDATE = delete + insert * VACUUM не нужен * Средняя компрессия 👉 Большие, insert-heavy --- AO Column ```sql WITH (appendonly=true, orientation=column) ``` * Column-store * Максимальная компрессия * Лучшее для `SELECT` * UPDATE дорогой 👉 DWH / аналитика --- ⚡ Коротко выбрать * **Частые UPDATE** → Heap * **Много INSERT** → AO Row * **Аналитика / агрегации** → AO Column

GreenPlum Flashcards

(49 cards)