NLP Engineer (Reinforcement Learning)

сбер · Россия · 20 июн.

300k–600k ₽remote

Привет! Это GigaChat Reasoning — команда, которая даёт модели суперсилу размышлять. Мы придумываем среды, тренируем через online RL, ускоряем обучение и доводим решения до продакшна.

Улучшение GigaChat Reasoning: полный цикл обучения от холодного старта до вывода модели продакшн. Добавление новых доменов, создание датасетов и функций оценки ответов.

Развитие агентских навыков и tool calling с помощью Online RL: создание сред для обучения LLM, обучение и тестирование моделей.

Улучшение продукта Deep Research

На эти роли мы ищем талантливого NLP Engineer со знанием и опытом в Reinforcement Learning. Для всех этих экспериментов у нас есть кластер с большим числом A/H 100'ых.

улучшать качество работы GigaChat Reasoning на русском и английском языках
ускорять пайплайн обучения: профилирование узких мест, эффективный сэмплинг
тестировать новые Loss-функции и подходы к обучению
помогать выводить в прод всё, что мы обучим
постоянно держаться up-to-date со свежими статьями.
опыт в online RL и хорошие теоретические знания
уверенное владение Python, PyTorch
знание базовых алгоритмов и математики
знания в DL, опыт обучения простых и больших моделей
опыт обучения моделей для продакшена
понимание текущего состояния эволюции больших LLM'ов
будет плюсом наличие публикаций.
ежегодный пересмотр зарплаты, годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
ипотека выгоднее до 7% для каждого сотрудника
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.

Эта вакансия также есть на:Другие площадки ↗