
яндекс · 3 дня назад
↑ Вакансия с автоподнятиемНаша команда исследует и разрабатывает ML-модели персонализации для рекомендательных сервисов. Мы делаем трансформеры поверх пользовательской истории, они являются важной частью рекламных технологий и рекомендаций в Маркете.
В последнее время область рекомендательных систем становится всё ближе к NLP: при обучении мы разделяем стадии претрейна и SFT, видим похожие законы масштабирования моделей и обучаемся на сотнях GPU. Но есть и важные отличия: в сервисах динамически меняется множество рекомендуемых сущностей, а мощность этого множества может достигать порядка 10^9. Помимо этого, каждое пользовательское событие несёт в себе гораздо больше информации, чем один текстовый токен.
Наша цель — объединить лучшее из двух миров — RecSys и NLP — и улучшить конкретные продукты нашими технологиями.
Наша R&D-команда разрабатывает передовые рекомендательные технологии, которые используются в масштабах всего Яндекса. Мы ищем сильного ML-инженера, который будет исследовать новые подходы в рекомендациях и доводить их до продуктового состояния. Если вы хорошо знаете DL, ориентируетесь в современном RecSys или NLP и внедряли нейросети в продакшен — ждём вас!
Претрейн или обучение восстановлению логирующей политики
В любом зрелом сервисе уже работает достаточно качественная рекомендательная система, так что на первом этапе модель должна научиться хорошо повторять существующие рекомендации. Для этого мы экспериментируем с данными, архитектурой, лоссами и другими аспектами.
SFT
После претрейна модель обучается на пользовательском фидбэке, чтобы ранжировать релевантных кандидатов и выбирать среди них наилучшие. Среди открытых вопросов в этой области: каков предел качества модели в конкретной постановке задачи, как выглядят законы масштабирования в разных доменах и какие дальнейшие пути улучшения стоит исследовать.
Адаптация моделей для продакшена
Важный челлендж для нас — заставить модели работать в рантайме под высокой нагрузкой в десятки тысяч RPS. Мы активно исследуем архитектурные оптимизации и используем специализированные фреймворки для инференса, а иногда даже пишем свои cuda-кернелы на Triton.
Возможность развития вширь
Как R&D-команда, мы не ограничены одним продуктом или одной технологией. При желании можно погрузиться в разные сервисы или попробовать другие подходы в рекомендациях.
Больше об ML в Яндексе — в канале Yandex for ML
* Хотите заниматься прикладными ML-исследованиями
* Хорошо знаете основы современного Deep Learning
* Умеете превращать научные статьи в код: реализовывали SOTA-методы и алгоритмы
* Имеете опыт внедрения нейросетей в продакшен
* Следите за трендами в RecSys, NLP или CV и регулярно читаете статьи
* Занимались спортивным программированием, участвовали в ML-соревнованиях или хакатонах