(ЗАО "Водород") Гибридный data-pipeline для E-commerce (batch + streaming) Flashcards

(9 cards)

1
Q

Было несколько направлений (отделов) в компании?

A

Инженерия, инфраструктура, аналитика

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

Расскажи про твой проект в ЗАО «Водород».

A

Я работал над гибридным data-pipeline, который объединял batch и streaming обработку данных. Основная цель проекта — интеграция данных из разных источников в DWH и предоставление real-time дашбордов для аналитиков и мониторинга пользовательских действий. Первые шесть месяцев я проходил стажировку, где изучал внутренние процессы, изучал архитектуру пайплайнов и помогал с простыми задачами по ETL и поддержке потоков. После этого я участвовал в разработке и поддержке как batch, так и streaming пайплайнов, включая обработку данных в Greenplum и Spark/PySpark, а также интеграцию данных в Data Lake и real-time дашборды.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Какие технологии использовались в проекте?

A

Основные технологии, с которыми я работал: Apache Kafka для потоковой передачи данных, PySpark для обработки больших данных, Greenplum как DWH, HDFS для хранения Data Lake, а также Airflow для оркестрации ETL-процессов. Кроме того, я имел опыт администрирования Hadoop-кластеров и исправление ошибок в различных компонентах.
Часто приходилось разбираться в чужом коде, документации и уже на базе этого переделывать, оптимизировать. Иногда приходилось легаси переписывать.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Какой был размер команды?

A

В проекте был 1 тимлид, около 5 data engineer’ов и 3 аналитика. Я первые полгода был стажёром, потом работал как инженер данных в общей команде.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Какие задачи выполнял самостоятельно, а какие с помощью?

A

Самостоятельно я выполнял более локальные задачи: доработки ETL, простые трансформации, SQL-агрегации, исправление багов, мониторинг пайплайнов.
Более сложные задачи и архитектурные вопросы решались совместно со старшими коллегами.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Откуда интегрировались данные?

A

Данные интегрировались из продуктовых e-commerce систем: event-данные поступали через Kafka, транзакционные данные — из OLTP-баз batch-процессами, а также использовались логи и справочники. Все данные сначала попадали в Data Lake, после чего обрабатывались и загружались в Greenplum для аналитики и real-time мониторинга.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

А что за базовые реал-time метрики?

A

Под базовые real-time метрики мы понимали показатели активности пользователей и транзакций: просмотры страниц, клики, добавления в корзину, оформление заказов, а также ключевые показатели конверсии и успешности транзакций. Эти метрики рассчитывались потоковыми пайплайнами и отображались на дашбордах для оперативного мониторинга.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Как ты мониторил данные?

A

Для мониторинга пайплайнов я использовал Airflow для batch-процессов — проверял статус DAG’ов и логи задач, а для streaming-пайплайнов — Kafka UI и Spark UI, чтобы следить за задержками и количеством обработанных событий. Также я обращал внимание на алерты и сверял результаты с аналитиками для проверки корректности данных.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

С помощью чего реализовывалась интеграция?

A

Интеграция данных в проекте реализовывалась через Kafka для потоковых событий и batch ETL-процессы на PySpark и SQL для транзакционных данных. Все данные сначала попадали в HDFS Data Lake, после чего обрабатывались и загружались в Greenplum для аналитики и real-time дашбордов.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly