
яндекс · 2 дня назад
↑ Вакансия с автоподнятиемНаша команда аналитики помогает развивать Нейро — сервис на базе больших языковых моделей, который в перспективе заменит привычный всем поиск в интернете. Для развития продуктов, основанных на LLM, ключевым фактором успеха становится качественная разметка входных данных для обучения этих моделей. Наша команда помогает собирать эти данные и аккуратно проводить грань между плохим и хорошим ответом. Ежедневно мы собираем огромные массивы данных вида «запрос — ответ», пропускаем их через людей и алгоритмы, а на выходе получаем итоговую разметку. Наша цель — анализировать и улучшать этот процесс, делая его быстрее, дешевле и качественнее.
Снижение стоимости разметок и увеличение их количества
Другое направление работы — снижение стоимости разметок и увеличение их количества. Сейчас на человеческие разметки компания тратит очень большие деньги. Нужно искать способы, которые без ухудшения результирующего качества дадут нам возможность собирать больше разнообразных данных, что позволит прокачать продукт до более высокого уровня.
Промтизация
Третьим направлением, которое активно развивается с 2024 года, является промтизация — один из ключевых фокусов всего Яндекса, способный стать настоящим геймченджером в развитии поисковых алгоритмов и обучении языковых моделей.
Сокращение «серой зоны»
Когда люди делают какие-либо утверждения, то всего лишь небольшую часть из них можно однозначно охарактеризовать как правдивые или ошибочные. Для остальных эта характеристика условна и во многих случаях зависит от контекста. Наша задача как аналитиков подтверждённости состоит в том, чтобы снижать эту неопределённость, сводя её к набору правил. Мы далеко продвинулись в сокращении «серой зоны» в разделении на хорошо/плохо. Теперь планируем идти глубже в различные специализированные тематики (например, юриспруденция или налоги), сокращая количество галлюцинаций и фактических ошибок в них.
* Умеете писать на Python и SQL
* Знаете математическую статистику и теорию вероятностей
* Умеете работать в команде, ясно излагать мысли, понимать и убеждать коллег
* Самостоятельны и готовы браться за новые задачи, для которых нет готового решения
* Работали с Яндекс Заданиями, Толокой или любыми другими краудсорсинг-платформами
* Писали инструкции и самостоятельно запускали проекты по разметке данных