Data Scientist, Моделей пользовательского поведения

ozon · Москва · 22 июн.

Зарплата не указана

Привет! Мы — команда моделей пользовательского поведения в Поиске маркетплейса. Строим ML- и DL-модели на стыке NLP и RecSys, которые опираются на историю взаимодействия пользователя с маркетплейсом и применяются в задачах персонализации: персонализация товарной выдачи, персональные поисковые подсказки и другие поверхности. Мы ведём полный цикл разработки: от обработки сырых логов и построения признаков до обучения, валидации и деплоя моделей в высоконагруженный продакшн. Работаем с данными десятков миллионов пользователей и отвечаем за реальные продуктовые метрики.

Задачи команды

Моделирование интересов пользователя на основе последовательностей его поведения: запросы, применённые фильтры, клики, покупки и т.д.
Построение архитектур персонализации (в т.ч. мультимодальных подходов): обучение пользовательских и товарных представлений, их оценка и применение в различных задачах персонализации.
Полный инженерный цикл: пайплайны обработки логов на больших данных, обучение моделей, их деплой и онлайн-инференс под нагрузкой с жёсткими требованиями к latency.

Наш стек

Deep Learning: Python, PyTorch и HF-экосистема, lightning.
Big Data: Hadoop, PySpark.
Деплой и инференс: сервинг моделей в высоконагруженном рантайме (TensorRT и др.).

Вы будете

Вести ключевые технические направления команды: от постановки задачи и выбора архитектуры до вывода модели в продакшн и подтверждения эффекта на A/B.
Проектировать и улучшать модели пользовательских представлений и архитектуры персонализации, решать различные исследовательские вопросы.
Развивать пайплайны подготовки данных, оптимизации обучения и инференса.
Работать в связке с продуктовыми командами, аналитиками и инфраструктурой, переводя продуктовые гипотезы в ML-задачи и измеримый результат.

Нам важно

Сильный опыт в DL, понимание NLP и LLM и/или RecSys (рекомендации, ранжирование, поиск, sequential-модели).
Уверенное владение Python и PyTorch, способность самостоятельно довести модель от прототипа до продакшн-решения.
Практический опыт работы с большими данными (PySpark, экосистема Hadoop) и построения production-пайплайнов.
Умение декомпозировать задачи, принимать архитектурные решения и отвечать за результат экспериментов.

Будет плюсом

Опыт построения sequential-моделей пользовательского поведения или обучения языковых моделей в продакшне.
Опыт работы с высоконагруженным инференсом DL-моделей.
Опыт с многоэтапными архитектурами ранжирования (retrieval → pre-ranking → ranking → re-ranking).
Публикации, выступления на конференциях.