
яндекс · 14 апр.
Мы команда, которая индексирует интернет и превращает разрозненные страницы в структурированную товарную базу, состоящую из десятков миллиардов документов, в условиях десятков тысяч обновлений в секунду.
Вы будете заниматься разработкой ключевых компонентов системы, связанных с краулингом, хранением и обработкой данных.
Индексация и краулинг
Вы будете реализовывать стратегии планирования и приоритизации обхода интернета: разрабатывать модули потоковой обработки данных, писать продакшен-код на C++ для высоконагруженных сервисов, интегрировать внешние B2B-источники данных.
Хранение и обработка данных
Предстоит развивать пайплайны хранения и обработки данных на базе YTsaurus: работать с данными масштаба десятков миллиардов записей и терабайтами данных, обеспечивать консистентность и актуальность данных, доставлять данные в поисковые продукты.
Интеграция алгоритмов и ML
Нужно будет внедрять ML-модели в продакшен-пайплайны: участвовать в разработке и оптимизации алгоритмов обработки данных, оптимизировать потребляемые ресурсы.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
* Разрабатывали высоконагруженные сервисы и работали с большими данными
* Уверенно владеете C++
* Понимаете сетевые взаимодействия
* Умеете писать надёжный и производительный код
* Разрабатывали краулеры или поисковые системы
* Интегрировали ML-модели в продакшен
* Понимаете алгоритмы ранжирования и обработки данных
* Знаете классические ML и NLP или хотите их изучить