Описание проекта:
- Развитие и сопровождение системы CDP (Customer Data Platform) в рамках бизнес-критичной инфраструктуры. Объединение данных из 20+ источников в единую «Карточку клиента» с обеспечением доступности 99.95% и SLA API 99.9% при задержке до 300 мс. Система включает профили в реальном времени (NRT) и оффлайн-профили (T-1), работает под высокими нагрузками (до 5000 RPS) и требует строгого соответствия требованиям НФТ и ДИБ.
Чем предстоит заниматься:
- Проектировать и разрабатывать пакетные и потоковые интеграции (Kafka, REST, GraphQL) с обработкой инкрементов и полных загрузок;
- Реализовывать потоки Customer Profile Online: обработка, дедупликация (Redis), обогащение и доставка событий через Kafka и REST;
- Настраивать потоки Customer Profile Offline: расчёт инкрементов (Airflow), создание витрин (ClickHouse) и реплик для аналитики/ML;
- Внедрять DQ-проверки в интеграционном слое: валидация до загрузки, карантин данных, алертинг;
- Разрабатывать и поддерживать реестр источников и GraphQL-инжекторы, вести журналы запросов;
- Автоматически обогащать профиль данными с маркировкой источников и вести полную историю изменений (SCD);
- Обеспечивать слой доставки: потоковая публикация в Kafka, REST API (до 300 мс, 5000 RPS) и батч-выгрузки;
- Поддерживать НФТ: масштабирование (K8s), бэкапы (S3/Ceph), мониторинг и логирование (Prometheus/Grafana/ELK);
- Организовывать CI/CD: линтинг, тесты, код-ревью с ИИ, ИБ-проверки и деплой через Helm и ArgoCD.
Наши ожидания:
- 3+ года опыта в роли Data Engineer, из них 1–2 года в продакшене с потоковой обработкой;
- Java: уверенное владение для потоковой обработки, REST API и интеграционных сервисов;
- Python: опыт разработки и эксплуатации Airflow (DAG, операторы, сенсоры) в продакшене;
- SQL: глубокое знание, оптимизация запросов, опыт работы с PostgreSQL и ClickHouse;
- Kafka: опыт работы с producers/consumers, настройка топиков, семантика доставки, Avro/Protobuf, партиционирование;
- Стриминг на Java: опыт построения пайплайнов на Kafka Streams и/или Flink;
- Консолидация данных: разрешение конфликтов, дедупликация, SCD Type 2, работа с мастер-данными;
- Redis: опыт использования для кэширования и дедупликации в онлайн-потоках;
- API: разработка REST API на Java, знакомство с GraphQL;
- CI/CD: Git, код-ревью, юнит- и интеграционные тесты; знание Helm и ArgoCD будет плюсом;
- Data Quality: понимание дисциплины, опыт реализации DQ-фреймворков (Great Expectations, Soda) и DQaaS.
Мы предлагаем:
- Работу среди профессионалов финансового рынка;
- Насыщенную корпоративную жизнь;
- Возможность карьерного роста и профессионального развития;
- Стабильный конкурентный доход;
- Оформление согласно ТК РФ;
- Комфортный офис в центре (м. Проспект Мира);
- График работы 5/2 с 9:30 до 18:00, удаленный формат работы;
- ДМС, корпоративные скидки и предложения для сотрудников.