Аналитик-разработчик в команду оценки качества Нейро

яндекс · 2 дня назад

↑ Вакансия с автоподнятием

Зарплата не указана

Поиск с Алисой — это не просто выдача ссылок: он создаёт подробные, структурированные ответы с разделами, картинками и видео. Но как понять, что качество этих ответов хорошее?

Можно, например, применить классический подход — проанализировать поведение пользователей. Однако современный интернет стал настолько сложным, что часто одних онлайн-метрик недостаточно. Поэтому мы подходим к задаче комплексно: дополнительно строим офлайн-приборы, которые позволяют перед экспериментами заранее отвечать на конкретные вопросы. Стали ли ответы лучше? Как часто в них встречаются серьёзные ошибки? Соответствуют ли они запросам?

Вы будете не просто анализировать данные, а создавать правила и метрики, которые станут «детектором качества» для ответов.

К чему мы стремимся

* Сделать поиск нового поколения

Не просто выдачу ссылок, а интеллектуального помощника, способного решать задачи пользователя на месте, без необходимости переходить куда-либо.

* Отвечать не только на русском

Мы запускаемся в новых регионах, где нас ждут вызовы, связанные с языковыми и региональными особенностями.

* Давать развёрнутые ответы

Наша цель — ответы, в которых текст, видео и картинки работают вместе. Мы делаем информацию живой, чтобы она запоминалась с первого взгляда.

* Не врать!

Никаких домыслов или «креативных» интерпретаций. Мы строго следим, чтобы ответы опирались на проверенные данные, а каждое утверждение подкреплялось надёжными источниками. Мы учим модели не фантазировать, а опираться на факты — даже если это сложнее.

У нас классно, потому что:

* Мы работаем над Поиском с Алисой — продуктом Яндекса на основе LLM — и ориентированы прежде всего на результат в продакшене.

* Наши задачи тесно связаны и с дизайном самого продукта, и с ML.

* Мы даём возможность развивать технические, коммуникативные и менеджерские навыки.

* Ваша работа прямо повлияет на то, каким станет Поиск с Алисой через полгода.

* Мы делаем уникальные по сложности, масштабу и архитектуре краудсорс-проекты.

* Мы слаженная команда аналитиков и ML-инженеров качества.

Придание чёткой формы продуктовым требованиям

Наша ключевая задача — формализовать изначально абстрактные требования продуктовой команды в набор ясных правил и принципов. Эти критерии позволяют нам объективно определять, является ли ответ модели хорошим (подходящим для продукта) или плохим (ошибкой в продукте), и обосновывать решение. Сначала мы разрабатываем эти правила сами, анализируя примеры и обобщая наблюдения в инструкции, а затем обучаем им AI-тренеров и асессоров, чтобы увидеть улучшения в ответах модели в новых версиях.

Создание комплексных проектов по разметке данных (краудсорсинг и LLM)

Для обучения современных моделей нужно очень много размеченных данных высокого качества. Мы создаём проекты для такой разметки, привлекая людей через Yandex Crowd или используя LLM: собираем задание (от инструкции до интерфейса), находим исполнителей и обучаем их. Каждая новая задача требует понимания взаимосвязей системы, выстраивания сложной архитектуры и изобретения новых комбинаций стандартных подходов к разметке.

Повышение качества, оптимизация и экономия ресурсов

Мы регулярно следим за метриками качества получаемых разметок и ищем точки роста. Для этого строим детализированные дашборды, настраиваем пайплайны подготовки данных, экспериментируем со схемами разметки и анализируем характеристики запросов/ответов (тематика, структура и т. д.). Наша задача не просто помогать продукту становиться лучше, а делать это при заданных ограничениях времени или бюджета.

* Умеете писать на Python и SQL
* Знаете математическую статистику и теорию вероятностей
* Любите работать с данными и умеете извлекать из них практический результат
* Умеете взаимодействовать с командой, ясно излагать мысли, понимать и убеждать коллег
* Готовы разбираться в том, как и почему должен работать продукт

* Работали с Толокой или другими краудсорс-платформами
* Писали инструкции и самостоятельно запускали проекты по разметке данных