
яндекс · 20 июн.
↑ Вакансия с автоподнятиемНаша команда разрабатывает платформу потоковой обработки данных рекламной сети Яндекса. Она основана на BigRT и YTsaurus. Мы доставляем данные с задержкой меньше минуты с гарантией exactly-once, обрабатываем 2 млн событий или 5 ГБ в секунду c точностью, которой доверяют. Это необходимо, чтобы выдерживать постоянно растущую нагрузку, быть отказоустойчивыми и повышать качество и скорость обработки данных.
Перед нами стоят технические вызовы:
* Усовершенствовать API доступа к данным
* Сделать добавление новых данных простым и удобным
* Доказать, что можно заменить ClickHouse на YTsaurus dynamic tables для наших задач
* Стать более надёжными и улучшить производительность
Разработка GRPC API
Заменяем текущий HTTP API, упрощая его и расширяя.
Поддержка асинхронного API
В настоящий момент рассматриваем возможность реализации очереди задач на близких нам технологиях. В результате поддержим API для формирования отчётов через очередь.
Упрощение добавления новых данных
Нужно, чтобы добавление нового лога, поля или колонки происходило просто и предсказуемо и не приводило к поломке. Инструменты должны быть удобными.
Обеспечение надёжности и производительности
Система должна незаметно для пользователя переживать отсутствие ДЦ, успевать обрабатывать накопленный лаг в случае аварий — и всё это несмотря на усложнение архитектуры, внедрение фич и новых данных.
* Хотите писать на C++
* Знаете классические алгоритмы и структуры данных
* Знакомы с Linux
* Готовы руководить небольшой группой разработчиков
* Писали код с использованием асинхронной парадигмы
* Умеете программировать на Python
* Разрабатывали сетевые приложения
* Имеете опыт в потоковой обработке данных