H
HireSeeker
яндекс

Бэкенд-разработчик в команду DWH в Финтех

яндекс · 2 июн.

Зарплата не указана

Мы создаём масштабную и безопасную аналитическую платформу для работы с большими данными. Нам нужен бэкенд-разработчик, который поможет создавать DWH и приведёт нас к состоянию real time data.

Разработка, масштабирование и миграция дата-платформы

Вам предстоит проектировать и развивать платформу на базе S3, Greenplum, Trino, Apache Airflow, Apache Spark, Yandex Cloud, готовить её к кратному росту объёмов данных, обеспечивать миграцию с Greenplum на Trino/S3 для снижения затрат и ускорения доступа к данным.

Интеграция источников и управление загрузкой данных

Вы будете строить процессы выгрузки из реляционных СУБД, NoSQL, файловых хранилищ и Kafka, реализовывать стратегии загрузки (полную или инкрементальную с CDC, пакетную или потоковую обработку), работать со снепшотами, инкрементами, аудит-таблицами и CDC.

Обеспечение надёжности и эффективности платформы

Вы будете обеспечивать отказоустойчивость, безопасность, производительность и масштабируемость сервисов и дата-пайплайнов в режиме 24/7, оптимизировать стоимость обработки данных и использования ресурсов, развёртывать инфраструктуру и проводить её мониторинг через CI/CD-пайплайны, сокращать объём ручных операций, создавать новые интеграции.

Наблюдаемость, контроль качества и развитие инструментов

Предстоит создавать observability-платформу для DWH, которая поможет обеспечить мониторинг статусов сборки, качество данных, анализ Data lineage, логирование. Вы будете заниматься версионированием данных, тестировать пайплайны, развивать внутренние фреймворки и low-code-решения для загрузки и трансформации данных.

Безопасность и организация разработки

Нужно будет обеспечить автоматическую выдачу и контроль прав доступа к инфраструктуре и данным, проводить аудит действий пользователей, создавать изолированные среды разработки, тестирования и предпрода с автоматизированным тестированием, выстраивать среду безопасной разработки и повышать надёжность решений.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Занимались коммерческой бэкенд-разработкой от четырёх лет
* Разрабатывали высоконагруженные stateful-системы

* Работали с чем-то из перечисленного: реляционными СУБД (PostgreSQL, Oracle), NoSQL СУБД (MongoDB), MPP-системами (Greenplum), S3-совместимыми хранилищами
* Проектировали схемы данных, занимались партиционированием, шардированием, создавали эффективные индексы
* Работали с Kafka или его аналогами
* Разрабатывали пайплайны в Apache Airflow
* Знаете, как выполнять распределённую обработку на Apache Spark: Spark SQL, DataFrame
* Умеете работать с данными через Trino
* Понимаете принципы CDC (Change Data Capture) и работали с соответствующими инструментами или реализовывали CDC-паттерны собственными средствами