Разработчик С++ в команду индексации еком

яндекс · 14 апр.

Зарплата не указана

Мы команда, которая индексирует интернет и превращает разрозненные страницы в структурированную товарную базу, состоящую из десятков миллиардов документов, в условиях десятков тысяч обновлений в секунду.

Вы будете заниматься разработкой ключевых компонентов системы, связанных с краулингом, хранением и обработкой данных.

Индексация и краулинг

Вы будете реализовывать стратегии планирования и приоритизации обхода интернета: разрабатывать модули потоковой обработки данных, писать продакшен-код на C++ для высоконагруженных сервисов, интегрировать внешние B2B-источники данных.

Хранение и обработка данных

Предстоит развивать пайплайны хранения и обработки данных на базе YTsaurus: работать с данными масштаба десятков миллиардов записей и терабайтами данных, обеспечивать консистентность и актуальность данных, доставлять данные в поисковые продукты.

Интеграция алгоритмов и ML

Нужно будет внедрять ML-модели в продакшен-пайплайны: участвовать в разработке и оптимизации алгоритмов обработки данных, оптимизировать потребляемые ресурсы.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Разрабатывали высоконагруженные сервисы и работали с большими данными
* Уверенно владеете C++
* Понимаете сетевые взаимодействия
* Умеете писать надёжный и производительный код

* Разрабатывали краулеры или поисковые системы
* Интегрировали ML-модели в продакшен
* Понимаете алгоритмы ранжирования и обработки данных
* Знаете классические ML и NLP или хотите их изучить