H
HireSeeker
ozon

Data Scientist, Моделей пользовательского поведения

ozon · Москва · 22 июн.

Зарплата не указана

Привет! Мы — команда моделей пользовательского поведения в Поиске маркетплейса. Строим ML- и DL-модели на стыке NLP и RecSys, которые опираются на историю взаимодействия пользователя с маркетплейсом и применяются в задачах персонализации: персонализация товарной выдачи, персональные поисковые подсказки и другие поверхности. Мы ведём полный цикл разработки: от обработки сырых логов и построения признаков до обучения, валидации и деплоя моделей в высоконагруженный продакшн. Работаем с данными десятков миллионов пользователей и отвечаем за реальные продуктовые метрики.

Задачи команды

  • Моделирование интересов пользователя на основе последовательностей его поведения: запросы, применённые фильтры, клики, покупки и т.д.

  • Построение архитектур персонализации (в т.ч. мультимодальных подходов): обучение пользовательских и товарных представлений, их оценка и применение в различных задачах персонализации.

  • Полный инженерный цикл: пайплайны обработки логов на больших данных, обучение моделей, их деплой и онлайн-инференс под нагрузкой с жёсткими требованиями к latency.

Наш стек

  • Deep Learning: Python, PyTorch и HF-экосистема, lightning.

  • Big Data: Hadoop, PySpark.

  • Деплой и инференс: сервинг моделей в высоконагруженном рантайме (TensorRT и др.).

Вы будете

  • Вести ключевые технические направления команды: от постановки задачи и выбора архитектуры до вывода модели в продакшн и подтверждения эффекта на A/B.

  • Проектировать и улучшать модели пользовательских представлений и архитектуры персонализации, решать различные исследовательские вопросы.

  • Развивать пайплайны подготовки данных, оптимизации обучения и инференса.

  • Работать в связке с продуктовыми командами, аналитиками и инфраструктурой, переводя продуктовые гипотезы в ML-задачи и измеримый результат.

Нам важно

  • Сильный опыт в DL, понимание NLP и LLM и/или RecSys (рекомендации, ранжирование, поиск, sequential-модели).

  • Уверенное владение Python и PyTorch, способность самостоятельно довести модель от прототипа до продакшн-решения.

  • Практический опыт работы с большими данными (PySpark, экосистема Hadoop) и построения production-пайплайнов.

  • Умение декомпозировать задачи, принимать архитектурные решения и отвечать за результат экспериментов.

Будет плюсом

  • Опыт построения sequential-моделей пользовательского поведения или обучения языковых моделей в продакшне.

  • Опыт работы с высоконагруженным инференсом DL-моделей.

  • Опыт с многоэтапными архитектурами ранжирования (retrieval → pre-ranking → ranking → re-ranking).

  • Публикации, выступления на конференциях.