
яндекс · 26 мая
Alice AI LLM всё глубже проникает в сервисы компании и решает самые разнообразные задачи, принося пользу людям. Каждое внедрение ставит перед разработчиками уникальные вызовы, связанные с качеством и скоростью работы ML-моделей. Но для каждого запуска неизменно одно: инференс моделей в production стоит очень дорого. В зависимости от аудитории и нагрузки в сервисе может понадобиться от десятков до тысяч самых современных GPU. Оптимизация даже десятков процентов ресурсов на таких объёмах уже представляет значимую ценность.
Подробнее про общую схему ускорения инференса, а также про методы можно прочитать в посте на Хабре «Ускорение инференса LLM».
Мы ищем инженера-исследователя с опытом чтения и реализации статей, готового экспериментировать и внедрять методы ускорения инференса для современных и быстро меняющихся архитектур LLM.
Непрерывный разбор статей из ресёрча
В первую очередь предстоит глубоко ознакомиться с серией статей по теме (более 20 публикаций), систематизировать их и зафиксировать самые перспективные.
Применение методов для Alice AI LLM
Необходимо провести множество итераций экспериментов по проверке гипотез для Alice AI LLM, чтобы перейти к генерации и реализации новых подходов. Также нужно будет подтвердить практическую применимость методов: замерить качество и ускорение.
Разработка универсальных инструментов
И наконец, предстоит создать общее решение, которое будут переиспользовать ML-инженеры во всём Яндексе.
Больше об ML в Яндексе — в канале Yandex for ML
* Работали с современными LLM и понимаете, как устроена их архитектура
* Пишете на Python, имеете опыт разработки на Torch
* Глубоко разбираетесь в NLP
* Знакомы с пайплайном инференса генеративных моделей, знаете такие оптимизации, как KV-кеширование
* Понимаете, как изменяются вычисления при изменении batch_size
* Разбираетесь в пользовательских требованиях к API моделей: RPS, latency per token/sample, GPU VRAM, SM utilization
* Уверенно владеете C++ и знакомы с программированием на CUDA