Разработчик С++ базовых технологий генеративного ответа Поиска (Нейро)

яндекс · Санкт-Петербург · 8 июн.

Зарплата не указанаoffice

Инференс тяжёлых языковых генеративных моделей на GPU-ускорителях

Сердце LLM-based-продуктов — это, конечно, непосредственное вычисление LLM-моделей. Вас ждёт решение задач аллокации различных компонентов с LLM-моделями, настройка их взаимодействия, релизных процессов, подбор различных параметров для оптимизации.

Разработка бэкенда генеративного ответа

Бэкенд поискового генеративного ответа — сложный многокомпонентный продукт. Важно не только вычислить что-то с помощью LLM-модели, но и:
* приносить данные на вход модели;
* правильно сохранять результаты для отдачи их пользователям;
* настраивать взаимодействие с фронтендом (стриминг, например);
* обеспечивать продуктовым и ML-командам возможность проводить эксперименты и улучшать продукт.

Всё вместе порождает немало содержательных и сложных задач. Работа в бэкенде поисковых LLM открывает много технических вызовов, менее привычных в продуктах, которые не работают с LLM-моделями. Ведь вычисления, длящиеся не сотни миллисекунд, а многие секунды, требуют пересмотра устоявшихся подходов.

Разработка внутренних инструментов для ML-прототипирования

Наша команда также участвует в разработке внутреннего сервиса, с помощью которого ML-команды могут создавать и проверять прототипы генеративных ответов, а затем прозрачно портировать их в рантайм. Инструмент технологически сложный и активно развивается. Необходима разработка различных компонент этого сервиса, а также настройка приёмочного процесса.

* Разбираетесь в базовых алгоритмах и структурах данных
* Хорошо знаете С++
* Знакомы с паттернами и идиомами построения программного обеспечения
* Умеете писать надёжный и читабельный многопоточный код

Эта вакансия также есть на:hh.ru ↗