x5 · 13 июн.
Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
Настраивать хранение и доступность данных в DWH
Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной
PySpark{2,3} / Spark SQL
Hadoop / Hive / Trino / S3 / clickhouse / postgres/ greenplum
Airflow
Python3
Docker, YARN / k8s
pytest