(ЗАО "Водород") Гибридный data-pipeline для E-commerce (batch + streaming) Flashcards

Question 1

Q

Было несколько направлений (отделов) в компании?

Answer

A

Инженерия, инфраструктура, аналитика

Question 2

Q

Расскажи про твой проект в ЗАО «Водород».

Answer

A

Я работал над гибридным data-pipeline, который объединял batch и streaming обработку данных. Основная цель проекта — интеграция данных из разных источников в DWH и предоставление real-time дашбордов для аналитиков и мониторинга пользовательских действий. Первые шесть месяцев я проходил стажировку, где изучал внутренние процессы, изучал архитектуру пайплайнов и помогал с простыми задачами по ETL и поддержке потоков. После этого я участвовал в разработке и поддержке как batch, так и streaming пайплайнов, включая обработку данных в Greenplum и Spark/PySpark, а также интеграцию данных в Data Lake и real-time дашборды.

Question 3

Q

Какие технологии использовались в проекте?

Answer

A

Основные технологии, с которыми я работал: Apache Kafka для потоковой передачи данных, PySpark для обработки больших данных, Greenplum как DWH, HDFS для хранения Data Lake, а также Airflow для оркестрации ETL-процессов. Кроме того, я имел опыт администрирования Hadoop-кластеров и исправление ошибок в различных компонентах.
Часто приходилось разбираться в чужом коде, документации и уже на базе этого переделывать, оптимизировать. Иногда приходилось легаси переписывать.

Question 4

Q

Какой был размер команды?

Answer

A

В проекте был 1 тимлид, около 5 data engineer’ов и 3 аналитика. Я первые полгода был стажёром, потом работал как инженер данных в общей команде.

Question 5

Q

Какие задачи выполнял самостоятельно, а какие с помощью?

Answer

A

Самостоятельно я выполнял более локальные задачи: доработки ETL, простые трансформации, SQL-агрегации, исправление багов, мониторинг пайплайнов.
Более сложные задачи и архитектурные вопросы решались совместно со старшими коллегами.

Question 6

Q

Откуда интегрировались данные?

Answer

A

Данные интегрировались из продуктовых e-commerce систем: event-данные поступали через Kafka, транзакционные данные — из OLTP-баз batch-процессами, а также использовались логи и справочники. Все данные сначала попадали в Data Lake, после чего обрабатывались и загружались в Greenplum для аналитики и real-time мониторинга.

Question 7

Q

А что за базовые реал-time метрики?

Answer

A

Под базовые real-time метрики мы понимали показатели активности пользователей и транзакций: просмотры страниц, клики, добавления в корзину, оформление заказов, а также ключевые показатели конверсии и успешности транзакций. Эти метрики рассчитывались потоковыми пайплайнами и отображались на дашбордах для оперативного мониторинга.

Question 8

Q

Как ты мониторил данные?

Answer

A

Для мониторинга пайплайнов я использовал Airflow для batch-процессов — проверял статус DAG’ов и логи задач, а для streaming-пайплайнов — Kafka UI и Spark UI, чтобы следить за задержками и количеством обработанных событий. Также я обращал внимание на алерты и сверял результаты с аналитиками для проверки корректности данных.

Question 9

Q

С помощью чего реализовывалась интеграция?

Answer

A

Интеграция данных в проекте реализовывалась через Kafka для потоковых событий и batch ETL-процессы на PySpark и SQL для транзакционных данных. Все данные сначала попадали в HDFS Data Lake, после чего обрабатывались и загружались в Greenplum для аналитики и real-time дашбордов.

(ЗАО "Водород") Гибридный data-pipeline для E-commerce (batch + streaming) Flashcards

(9 cards)