
яндекс · 28 мая
Наша команда занимается аналитикой качества Alice AI VLM. Мы оцениваем качество модели, ищем точки роста, а также создаём и улучшаем данные для её обучения.
Мы работаем над созданием агентной системы, которая повысит качество ответов Алисы и на сложных запросах пользователей, и на опенсорсных бенчмарках. Для этого мы хотим научить нашу модель рассуждать перед ответом, а также вызывать тулы при необходимости.
Исследование опенсорсных и создание собственных бенчмарков
Вы будете анализировать, применимы ли бенчмарки для агентных VLM (GTA, ToolVQA, TIR-BENCH) к нашим продуктовым сценариям, и выявлять пробелы в покрытии. Разрабатывать собственные бенчмарки, отражающие реальные пользовательские запросы к Алисе, с фокусом на multi-image-сценариях, цепочках рассуждений и вызовах тулов в условиях, приближенных к продакшену.
Декомпозиция проблем и поиск точек роста
Вы станете детально разбирать ошибки модели на сложных запросах: строить таксономию типов ошибок (визуальное восприятие, логика рассуждений, выбор и применение тулов, форматирование ответа) и измерять вклад каждого класса в общее качество. Это необходимо, чтобы приоритизировать направления улучшения.
Создание пайплайнов генерации данных
Вам предстоит разрабатывать масштабируемые пайплайны создания обучающих данных для reasoning- и tool-use-сценариев: генерация траекторий рассуждений, разметка через judge-модели и с участием экспертов, фильтрация по качеству и сложности.
Больше об аналитике в Яндексе — в канале Yandex for Analytics
* Занимались аналитикой больше года
* Уверенно владеете Python и SQL для глубокого анализа данных
* Активно применяете генеративные модели в работе и/или повседневной жизни
* Участвовали в разработке judge-моделей или в организации разметки с привлечением асессоров и экспертов
* Читаете профессиональную литературу на английском языке
* Знакомы с основами машинного обучения и компьютерного зрения