Бэкенд-разработчик в команду голосовых технологий

яндекс · 18 июн.

↑ Вакансия с автоподнятием

Зарплата не указана

Мы разрабатываем высоконагруженные сервисы распознавания (ASR) и синтеза речи (TTS), работающие в Алисе, Браузере, Переводчике и других продуктах Яндекса, которыми ежедневно пользуются миллионы людей.

Наша команда отвечает за бэкенд-инфраструктуру этих технологий: от проектирования и разработки gRPC-сервисов до оптимизации инференса современных нейросетевых моделей.

Сейчас голосовые технологии переживают бурное развитие: по нескольким секундам вашего голоса можно синтезировать любую фразу или даже заставить модель спеть песню в вашем стиле. За этими возможностями — всё более сложные модели, зачастую объединённые в каскады с нетривиальной логикой инференса. Это ставит перед нами новые вызовы: как сохранить высокую производительность, масштабируемость и стабильность, когда требования к задержкам измеряются в миллисекундах, а нагрузка — в тысячах запросов в секунду.

Внедрение новых моделей синтеза и распознавания речи

Вам предстоит тесно работать с ML-командами, понимать архитектуру новых моделей (TTS, ASR), проектировать эффективные схемы инференса и адаптировать наши сервисы под их особенности — с учётом жёстких требований к latency, throughput и стабильности.

Разработка высоконагруженных gRPC-сервисов с нуля

Вы будете писать производительный, тестируемый и отказоустойчивый код на C++ для новых функций и сервисов, которые потом попадут в Алису, Поиск, Переводчик и другие продукты.

Оптимизация инференса нейросетей

Вы будете исследовать и внедрять современные движки инференса (vLLM, SGLang, TensorRT-LLM), экспериментировать с батчингом, квантованием и кешированием — всем, что помогает ускорить модели без потери качества.

Повышение надёжности сервисов

Вам предстоит участвовать в полном цикле разработки — от проектирования и тестирования до деплоя и поддержки. Важная часть нашей работы — улучшение мониторинга, добавление метрик и логов, а также автоматизация процессов релиза.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Уверенно владеете C++, желательно C++17 и выше
* Разрабатывали высоконагруженные бэкенд-сервисы: умеете проектировать системы с предсказуемым latency, стабильным throughput, а также находить и устранять утечки памяти и деградацию производительности под нагрузкой
* Имеете базовые знания в области ML и знакомы с PyTorch — наша команда не обучает модели, но важно понимать, как устроен инференс, и иногда уметь читать ML-код

* Знакомы с современными фреймворками для инференса LLM-моделей: SGLang, vLLM, TensorRT-LLM
* Работали с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton