H
HireSeeker
яндекс

Руководитель команды CUDA-инференса в Автономный транспорт

яндекс · 11 апр.

Зарплата не указана

Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены и планирования, которые работают непосредственно на бортовом железе автомобиля. ML-команды отвечают за обучение и качество моделей. Наша задача — обеспечить эффективное выполнение моделей на целевых платформах с минимальной потерей точности.

Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура профилирования, экспериментов и performance-аналитики. Фокус направления — то, как именно выполняются вычисления на GPU и других ускорителях, и достижение измеримого ускорения в end-to-end сценариях. Роль предполагает руководство направлением низкоуровневой оптимизации инференса, формирование технического вектора команды и участие в ключевых performance-решениях.

Руководство командой CUDA-оптимизации инференса

People management, формирование технических планов и приоритетов, контроль исполнения проектов и ответственность за достижение измеримых результатов по latency, throughput и эффективности использования памяти на целевом железе.

Проектирование и оптимизация вычислительных ядер

Разработка и оптимизация CUDA-kernel и fusion операций для ключевых блоков моделей (matmul, conv, attention и др.), снижая memory traffic и launch overhead. Стремление к устойчивому ускорению в end-to-end сценариях.

Работа с архитектурой GPU

Эффективное использование memory hierarchy, layout данных, tiling-подходы, tensor cores и механизмы повышения occupancy. Системный анализ bottleneck с помощью Nsight и других профилировщиков и формирование вариантов оптимизаций с учётом ограничений железа.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Имеете сильный опыт CUDA performance engineering
* Работали с kernel для matmul/conv/attention
* Хорошо знаете C++
* Понимаете memory hierarchy GPU и cost model вычислительных операций
* Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
* Способны на техническое лидерство или управление командой
* Умеете аргументировать performance-решения и работать в кросс-командной среде

* Работали с CUTLASS / Triton / кастомными inference-движками
* Оптимизировали модели под конкретные GPU-архитектуры
* Работали с quantization / mixed precision
* Строили roofline-модели или latency/bandwidth-оценки
* Знаете о fusion-подходах и graph-level оптимизациях