4.4 HBase. Масштабируемая колоночная база данных Flashcards

Question

Server flush

Answer 1

Memstore имеет ограниченное системным параметром значение (объем памяти). И есть threshold — отсечка (задаётся системным параметром), после которой нужно производить сброс того, что хранится на Memstore на HDFS. Если один из MemStore текущего региона переполняется, производится операция записи всех MemStore региона на HDFS в виде HFile. Эта операция называется flush . Данные из Memstore записываются в HFile и попадает на HDFS. В каждом HFile, вместе с данными, сохраняется идентификатор операции которой эти данные были записаны. Этот идентификатор присваивается в момент попадания операции в WAL. Это позволяет определить какие данные попали в HDFS.

Answer 2

Клиент при подключении к HBase считывает служебную информацию из таблицы .META, — там хранится информация о том, какие RegionServer есть и за какие таблицы и регионы эти сервера отвечают. Поэтому, при необходимости формирования новой записи, клиенту не составляет труда определить куда нужно обратиться для обработки этой записи. Определившись с регионом, выполняется операция Put — при этом операция записи логгируется в WAL регион-сервера, а данные попадают в MemStores, которые отвечают за семейства колонок текущего региона. Как только данные появились в MemStore, происходит отправка пакета подтверждающего что данные успешно записаны в таблицу и эта запись доступна для чтения для всех клиентов системы.

Answer 3

Так как при переполнении одного из MemStore региона, происходит синхронный сброс всех Memstore этого региона на HDFS в виде HFiles, то не заполненные MemStore формируют, как бы, не укомплектованные файлы малого размера, тогда как полный MemStore формирует полноценный файл. Накопление неполных HFiles порождает "проблему Мелких файлов на HDFS". При интенсивной работе HBase у нас будет появляться все больше и больше мелких файлов. Это влияет на скорость получения информации из HFile — скорость падает. Для решения этой проблемы родилась идея Compaction. Compaction — это объединение небольших HFile в HFile большого размера. Они разделяются на два вида

Answer 4

Minor compaction — запускается автоматически, работает в фоновом режиме и объединяет мелкие HFile. Имеет низкий приоритет по сравнению с другими операциями. HFile являются отсортированными по ключу, каждому Memstore соответствуют собственные HFile. Для того, чтобы слить два HFile, которые соответствуют одному и тому же Memstore используется алгоритм сортировки слиянием.

Answer 5

По сравнению с Minor compaction не просто объединяет мелкие файлы большие, но и производит удаление записей, которые были помечены на удаление меткой tombstone. Имеет высокий приоритет и может существенно замедлить работу кластера. Эту операцию рекомендуется выполнять при невысокой нагрузке на кластер. Например, по ночам или на выходных.

Answer 6

Compaction — механизм слияния данных в HBase, при котором HFile сливаются в один файл большего размера. Minor Compaction: * Происходят постоянно автоматически в фоне * Почти не снижают производительность * Не удаляют записи, только сливают несколько маленьких HFile в один большего размера Major Compaction: * Запускаются вручную или по расписанию * Значительное снижение производительности * Записи с tombstone удаляются физически Обе операции, кроме вышеперечисленного, еще и способствуют объединению данных. Грубо говоря, если данные физически хранятся на разных машинах (HFiles за разный промежуток времени сохранены на разных серверах), то при объединении данных, они будут скомпонованы локально в одном месте, что, при чтении данных способствует сокращению межсетевых операций.

Answer 7

Region split — это стратегия разделения таблиц на регионы, для повышения производительности работы вашей базы данных. У нас есть таблица, которая состоит из одного региона. Мы начинаем добавлять в нее данные. Один первоначальный регион обслуживает Region server. С накоплением данных, превышающих системный параметр hbase.hregion.max.filesize, происходит Region split. Наш Region server понимает, что он обслуживает регион размера большего,чем должен. Поэтому он берет у этого региона начальные и конечные значения ключей, находит условную середину и разделят его на два региона. В этом случае Region server обслуживает два региона одной и той же таблицы. При ребалансировке второй регион может быть переназначен HMaster'ом на другой Region server. Надо помнить, что обслуживание региона на новом Region server не будет максимально эффективным пока не произойдет Compaction.

Answer 8

Recovery — восстановление после сбоев. Оно происходит в два этапа: 1) Если наступает момент, когда какой-то из RegionServer перестает отправлять на Zookeeper пакет со своим состоянием, Zookeeper дает сигнал Мастерноде (HBase), что данный сервер вышел из строя. Тогда HMaster принимает решение делегировать управление операциями над данными за которые отвечал отключившийся сервер, другому ReginServer. Все данные, которые сохранены в HDFS доступны всем нодам, поэтому нет необходимости выполнять дополнительные операции по перегону данных и прочего. Вместе с данными новому серверу доступен и журнал событий WAL старого RegionServer (он тоже хранится на HDFS). 2) Вторым этапом производится восстановление данных, которые хранились в MemStores и не успели попасть в HFiles и сохранится в HDFS физически. Для этого новый RegionServer анализирует WAL и воспроизводит операции (Put, Delete...), в свои MemStores с последующей записью в HFiles. После выполнения всех операций Memstore восстанавливается до состояния, которое предшествовало падению Region server. После наполнения Memstore всеми операциями (которые были в WAL), происходит принудительный спрос содержания Memstore в виде HFIle на HDFS.

Answer 9

1) Нет типов данных (только массив байт) 2) Колоночная структура (ColumnFamily хранятся и обрабатываются независимо) 3) При разрастании Region производится его разделение (split) 4) Гибкие параметры хранения для ColumnFamily (количество версий, сжатие, TTL) 5) Служебная таблица .META с данными о топологии кластера. Расположение таблицы хранится в Zookeeper 6) Данные надежно хранятся на HDFS, что позволяет проводить переназначение регионов и восстановление после сбоев

Answer 10

RowKey: * Первичный ключ и ключ сортировки * Алгоритм формирования обычно выбирается один раз при заведении таблицы * RowKey должен быть равномерным * При неправильном выборе RowKey может возникнуть ”Hot Region” – регион, нагрузка на который на порядок выше чем на другие регионы * Очень сложно поменять RowKey в таблице с сотнями терабайт данных (по факту требуется перезаливка всех данных)

4.4 HBase. Масштабируемая колоночная база данных Flashcards

(34 cards)