
яндекс · 3 июн.
❣️ ML-разработчик в команду инфраструктуры претрейна Alice AI LLM
Мы занимаемся претрейном Alice AI LLM (ранее — YandexGPT) уже 5 лет.
За это время наша команда:
• Обучила большую часть языковых моделей, которые используются в Яндексе
• Разработала фреймворк для распределённого обучения больших языковых моделей
• Разработала технологию YaFSDP, которая ускоряет обучение моделей с 70 млрд параметров на 20–50%
• Разработала фреймворк YCCL, который даёт кратный прирост по скорости коммуникаций в наших обучениях
• Сэкономила тысячи GPU на инференсе моделей за счёт оптимизаций и помощи другим командам
Мы ищем опытных инфраструктурных и DL-инженеров для работы в команде инфраструктуры претрейна YandexGPT.
Какие задачи вас ждут:
• Оптимизация обучений в контексте RL
В современных открытых решениях использование GPU не превышает 10%, что крайне неэффективно. Вам предстоит ускорить обучение в этой схеме.
• Построение более эффективных схем коммуникаций
Комбинация YaFSDP + YCCL + FP8 позволяет обучать модели, имеющие сотни миллиардов параметров, с максимальной производительностью. Но для больших моделей требуются более сложные схемы: Pipeline Parallelism, продвинутый Expert Parallelism, Context Parallelism.
• Выполнение низкоуровневых оптимизаций
Мы стремимся к тому, чтобы тензорные ядра были нагружены по максимуму. Вы будете проводить нетривиальные оптимизации на низком уровне с написанием кода на Triton, CUDA или CuTe DSL.
Мы ждём, что вы:
• Работали с современными LLM, понимаете их архитектуру
• Пишете на Python, имеете опыт разработки на Torch
• Знакомы с процессом обучения DL-моделей, умеете выполнять оптимизации
• Понимаете основы распределённого обучения; знаете, почему FSDP лучше DDP, как используется FP8 в обучении и что лучше: TP или EP
Почему у нас хорошо:
Нам важно здоровье сотрудников, поэтому в крупных офисах у нас есть спортзалы — с тренажёрами, инвентарём и душевыми. Это не все бонусы — полный список тут.
📩 Откликайтесь на вакансию на нашем сайте
#aliceai #ML #LLM #python #torch #triton #CUDA #гибрид