
яндекс · 2 июн.
Наша команда развивает Alice AI LLM — технологию, которая лежит в основе разных продуктов Яндекса. Главный из этих продуктов — чат с Алисой.
Мы фокусируемся на вычислительных сценариях: задачах, где модель должна писать код,
рассуждать и пользоваться техническими инструментами — интерпретатором, поиском и другими.
Наша цель — научить Алису решать сложные технические запросы пользователей и грамотно подключать нужные инструменты в нужный момент.
Почему у нас классно:
* Alice AI — быстрорастущий проект, у нас можно проявить себя, поработать с опытными ML-специалистами.
* Можно гонять самые современные модельки Яндекса на мощных GPU-кластерах.
* Можно воспроизводить исследования из самых свежих статей и придумывать что-то новое.
* Мы учимся решать задачи, которые пока никто не умеет решать. Оценка агентских способностей моделей сейчас активно развивается во всём мире, и здесь много пространства для собственных идей.
* Данные, которые вы собираете, и бенчмарки, которые вы строите, напрямую влияют на качество модели: по ним команда разработки принимает решения, а лучшие срезы данных уходят в обучение.
* Наша работа напрямую влияет на то, как современные ML-технологии становятся доступными широкому кругу пользователей.
* Нам помогает команда экспертных AI-тренеров, специализирующихся на сложных технических срезах: программировании, математике, инженерных задачах.
Создание технических бенчмарков
Одна из главных задач — придумывать и строить сложные бенчмарки, на которых можно честно сравнивать модели между собой. Вам предстоит формулировать критерии оценки для задач с кодом и техническими рассуждениями, экспериментировать с разными подходами (от автоматических проверок до LLM-as-a-judge и экспертной разметки) и создавать стабильные метрики, по которым команда разработки сможет улучшать модель.
Оценка агентских способностей
Современные модели всё чаще решают задачи не в один проход, а через цепочки вызовов инструментов: запускают код, ищут информацию, работают с файлами. Вам предстоит придумывать, как измерять, насколько хорошо модель сама выбирает инструменты, корректно ими пользуется и доводит задачу до результата.
Сбор данных для роста качества
Хорошие данные — это очень важно. Вам предстоит работать с разными источниками: проектировать синтетические пайплайны генерации задач, ставить технические задания экспертным AI-тренерам по сложным техническим срезам, запускать краудсорсинговые разметки с системой контроля качества. Важная часть работы — формулировать критерии эталонных решений и следить за их соблюдением.
Больше об аналитике в Яндексе — в канале Yandex for Analytics
* Уверенно владеете SQL и Python
* Любите и умеете анализировать данные, строили эффективные процессы их обработки
* Знаете теорию вероятностей и математическую статистику
* Самостоятельны и готовы браться за новые задачи, для которых нет готового решения
* Интересуетесь развитием LLM и хотели бы погрузиться в эту тему
* Понимаете, как устроены агентские системы, или участвовали в их построении
* Работали с метриками в NLP
* Свободно читаете на английском