Data Engineer

локо-банк · Москва · 2 июн.

Зарплата не указанаoffice

Обязанности:

Разработка и поддержка ETL-пайплайнов на PySpark (обработка данных в Data Lake: Trino+Iceberg, HDFS);
Проектирование и написание DAG в Apache Airflow;
Загрузка сырых данных и слоя DDS в Iceberg;
Построение финальных витрин данных в PostgreSQL (денормализация, агрегации);
Написание и оптимизация сложных SQL-запросов (в т.ч. оконные функции, CTE);
Поддержка контроля качества данных: реализация проверок и алертов в пайплайнах;
Оптимизация производительности: батчинг, партиционирование Iceberg, настройка Spark;
Взаимодействие с аналитиками BI для корректного построения источников данных под Qlik и Power BI;
Мониторинг пайплайнов (SLA-контроль, логи, ретраи, обработка сбоев).

Требования:

Стек технологий (обязательно к работе):
Python, PySpark, Apache Airflow, Trino, Apache Iceberg, HDFS, PostgreSQL, Scrum;
Опыт коммерческой разработки на Python от 2 лет (именно для data-инженерии, не веб);
Опыт работы с PySpark от 1 года (чтение/запись в Hive/Iceberg, трансформации, оптимизация);
Опыт написания DAG в Apache Airflow ;
Хорошее понимание Iceberg (схема эволюции, time travel, MERGE, партиционирование) в связке с Trino;
Продвинутый SQL (оконные функции, CTE, объединения, подзапросы) на PostgreSQL-подобных диалектах;
Опыт проектирования витрин в PostgreSQL (денормализация, агрегации, SCD Type 2);
Понимание контроля качества данных;
Опыт оптимизации ETL-пайплайнов (работа с большими объёмами, избегание дрейфа схемы, настройка Spark);
Понимание работы распределённых систем (принципы MapReduce, shuffle, партиционирование);
Готовность взаимодействовать с BI-разработчиками: понимание Qlik и Power BI.

Условия: