LLM-аналитик в Эйчартех

яндекс · Москва · 10 июн.

Зарплата не указана

Эйчартех Яндекса создаёт и поддерживает экосистему внутренних сервисов для ежедневной работы десятков тысяч сотрудников. Мы строим не только классические ML-решения, но и AI-продукты, которые меняют внутренние процессы компании: автоматизируем поддержку сотрудников, суммаризируем встречи, помогаем оценивать кандидатов на интервью, разрабатываем AI-ассистента. Каждый из этих продуктов работает на основе LLM — и каждый должен приносить измеримую пользу бизнесу.

Ищем специалиста, который умеет думать не только о технологиях, но и о бизнес-результатах: находить, где AI реально сэкономит время и деньги, измерять эффект и итеративно улучшать продукт.

Оценка качества LLM-продуктов

Вам предстоит создавать метрики качества для каждого продукта с учётом их специфики, выстраивать и поддерживать Evaluation Harness, внедрять LLM-as-a-judge: проектировать судей под конкретные задачи, заниматься их калибровкой и контролем смещений. Также нужно будет собирать ground truth датасета и контролировать его качество.

Промпт-инжиниринг и эксперименты

Вы будете участвовать в разработке и итерации промптов для продуктовых задач: генерации, классификации, извлечения информации, суммаризации. Предстоит формировать гипотезы о причинах деградаций и проверять их через эксперименты.

Аналитика и влияние на результат

Нужно будет находить места, где больше всего ручной работы и где AI принесёт максимальную пользу. В ваши задачи войдёт диагностика просадок метрик: поиск причин и локализация проблем. Вы будете внедрять лучшие практики в Evaluation Harness. Важно глубоко понимать бизнес-метрики и эффект от внедрения LLM.

Больше об ML в Яндексе — в канале Yandex for ML

* Имеете более трёх лет коммерческого опыта работы с ML-решениями, не менее года — с LLM/RAG
* Работали с OpenAI API, Hugging Face или их аналогами
* Пишете код на Python
* Умеете работать с данными и строить аналитику
* Способны измерять и улучшать качество LLM-продуктов

* Работали с evaluation-фреймворками: LM Evaluation Harness, OpenAI Evals, HELM или аналогами
* Делали тонкую настройку сложных RAG-пайплайнов
* Участвовали в разработке диалоговых сервисов или AI-агентов

Эта вакансия также есть на:hh.ru ↗