ML-разработчик в команду базового алайнмента Alice AI LLM

яндекс · 26 мая

Зарплата не указана

Наша команда занимается стадией алайнмента Alice AI LLM. Мы превращаем LLM, обученную предсказывать следующий токен в документах из интернета, в диалогового агента, способного выполнить широкий спектр запросов пользователя.

Обучение следованию инструкциям пользователя (supervised finetuning, SFT)

Чтобы превратить предобученную LLM в диалогового агента, нужно собирать множество демонстраций желаемого поведения модели на разнообразных задачах. Какие именно задачи важнее, насколько сложными могут быть демонстрации, каких навыков модели не хватает для решения конкретной задачи и как модель может выучить этот навык на стадии алайнмента? Это примеры вопросов, на которые мы ищем ответы с помощью ML-экспериментов.

Обучение модели на предпочтения пользователей (RLHF)

После стадии SFT качество ответов одной модели даже на одном запросе может очень сильно различаться. Мы собираем разметку об относительном качестве ответов модели и учим её генерировать ответ лучшего качества, на которое она способна. На данном этапе применяются такие алгоритмы, как DPO и PPO, также мы экспериментируем с другими способами RLHF.

Обучение модели оценки качества ответов (reward modeling)

Разметка качества ответов людьми — очень дорогой и небыстрый процесс, а некоторые алгоритмы RLHF (PPO) требуют разметки в реальном времени. Для этого мы развиваем свою линейку реворд-моделей, которые могут быстро и достаточно близко к человеку оценить качество ответа модели.

Разработка новых навыков и борьба со слабыми местами модели

Мы постоянно ищем примеры задач, с которыми наши модели справляются ещё недостаточно хорошо. Улучшение качества на таких срезах иногда требует изменений на всех стадиях обучения.

Больше об ML в Яндексе — в канале Yandex for ML

* Отлично знаете классические ML и NLP
* Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
* Не боитесь работать с данными и SQL