Разработчик бэкенда в группу потоковой обработки данных рекламной сети

яндекс · 20 июн.

↑ Вакансия с автоподнятием

Зарплата не указана

Наша команда разрабатывает платформу потоковой обработки данных рекламной сети Яндекса. Она основана на BigRT и YTsaurus. Мы доставляем данные с задержкой меньше минуты с гарантией exactly-once, обрабатываем 2 млн событий или 5 ГБ в секунду c точностью, которой доверяют. Это необходимо, чтобы выдерживать постоянно растущую нагрузку, быть отказоустойчивыми и повышать качество и скорость обработки данных.

Перед нами стоят технические вызовы:
* Усовершенствовать API доступа к данным
* Сделать добавление новых данных простым и удобным
* Доказать, что можно заменить ClickHouse на YTsaurus dynamic tables для наших задач
* Стать более надёжными и улучшить производительность

Разработка GRPC API

Заменяем текущий HTTP API, упрощая его и расширяя.

Поддержка асинхронного API

В настоящий момент рассматриваем возможность реализации очереди задач на близких нам технологиях. В результате поддержим API для формирования отчётов через очередь.

Упрощение добавления новых данных

Нужно, чтобы добавление нового лога, поля или колонки происходило просто и предсказуемо и не приводило к поломке. Инструменты должны быть удобными.

Обеспечение надёжности и производительности

Система должна незаметно для пользователя переживать отсутствие ДЦ, успевать обрабатывать накопленный лаг в случае аварий — и всё это несмотря на усложнение архитектуры, внедрение фич и новых данных.

* Хотите писать на C++
* Знаете классические алгоритмы и структуры данных
* Знакомы с Linux

* Готовы руководить небольшой группой разработчиков
* Писали код с использованием асинхронной парадигмы
* Умеете программировать на Python
* Разрабатывали сетевые приложения
* Имеете опыт в потоковой обработке данных