Старший LLM-разработчик в команду рассуждений Alice AI LLM

яндекс · 26 мая

Зарплата не указана

Наша команда улучшает способности к рассуждениям семейства моделей Alice AI LLM. Мы стремимся к новой масштабной цели: создать единую модель, объединяющую сильные стороны рассуждений, использование внешних функций и поисковые возможности наших сервисов вместе. Мы также хотим перейти от сложных математических и научных задач к улучшению качества ответов на повседневные запросы пользователей. Для этого мы экспериментируем с алгоритмами RLVR и RLHF, с многостадийным алайнментом, комбинируем генеративные и rule‑based reward‑модели в единой системе для обучения модели, способной решать широкий спектр задач.

Развитие базовых reasoning-способностей Alice AI LLM

Ближайшая цель нашей команды — научиться эффективнее масштабировать RLVR- и RLHF-обучение reasoning-моделей для B2C‑задач широкого круга пользователей. Вас ждут эксперименты по улучшению общих свойств модели (полезность, логичность, структура) за счёт повышения качества цепочек рассуждений и усиления различных паттернов (backtracking, верификация) на задачах разной тематики.

Объединение сигналов в общей модели

Важную роль в reasoning‑моделях играют качественно новые схемы обучения для объединения знаний из разных областей. Мы стремимся создать новые этапы алайнмента и системы наград, которые позволят совместить сигналы на математических и научных задачах вместе с креативными, одновременно повысив качество рассуждений в каждой области по сравнению с независимым обучением. Вам предстоит проводить исследования с новыми reward‑моделями, этапами и дистилляцией в рамках единой модели.

Эксперименты с RL-алгоритмами

Вам предстоит пробовать новые SOTA подходы и находить в них те, которые приносят пользу реальному продукту: экспериментировать с различными on‑policy и асинхронными RL‑алгоритмами, а также тестировать новые методы стабилизации обучения Dense‑ и MoE‑архитектур.

Больше об ML в Яндексе — в канале Yandex for ML

* Отлично разбираетесь в NLP и классическом ML
* Умеете программировать на Python
* Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт