ML-разработчик в команду ускорения инференса

яндекс · 26 мая

Зарплата не указана

Alice AI LLM всё глубже проникает в сервисы компании и решает самые разнообразные задачи, принося пользу людям. Каждое внедрение ставит перед разработчиками уникальные вызовы, связанные с качеством и скоростью работы ML-моделей. Но для каждого запуска неизменно одно: инференс моделей в production стоит очень дорого. В зависимости от аудитории и нагрузки в сервисе может понадобиться от десятков до тысяч самых современных GPU. Оптимизация даже десятков процентов ресурсов на таких объёмах уже представляет значимую ценность.

Подробнее про общую схему ускорения инференса, а также про методы можно прочитать в посте на Хабре «Ускорение инференса LLM».

Мы ищем инженера-исследователя с опытом чтения и реализации статей, готового экспериментировать и внедрять методы ускорения инференса для современных и быстро меняющихся архитектур LLM.

Непрерывный разбор статей из ресёрча

В первую очередь предстоит глубоко ознакомиться с серией статей по теме (более 20 публикаций), систематизировать их и зафиксировать самые перспективные.

Применение методов для Alice AI LLM

Необходимо провести множество итераций экспериментов по проверке гипотез для Alice AI LLM, чтобы перейти к генерации и реализации новых подходов. Также нужно будет подтвердить практическую применимость методов: замерить качество и ускорение.

Разработка универсальных инструментов

И наконец, предстоит создать общее решение, которое будут переиспользовать ML-инженеры во всём Яндексе.

Больше об ML в Яндексе — в канале Yandex for ML

* Работали с современными LLM и понимаете, как устроена их архитектура
* Пишете на Python, имеете опыт разработки на Torch
* Глубоко разбираетесь в NLP
* Знакомы с пайплайном инференса генеративных моделей, знаете такие оптимизации, как KV-кеширование
* Понимаете, как изменяются вычисления при изменении batch_size
* Разбираетесь в пользовательских требованиях к API моделей: RPS, latency per token/sample, GPU VRAM, SM utilization

* Уверенно владеете C++ и знакомы с программированием на CUDA