RL-инженер в команду локомоции человекоподобных роботов

яндекс · 11 нояб.

Зарплата не указана

Решение задачи локомоции — один из ключевых вызовов в современной робототехнике. Мы создаём и обучаем модели, которые учат роботов ходить, сохранять равновесие и выполнять сложные двигательные действия в рамках симуляции и в реальном мире.

Вы будете работать с RL-агентами в Isaac Lab и MuJoCo, разрабатывать физические сцены: от лестниц до пересечённой местности, адаптировать современные подходы вроде Residual RL и Diffusion Policy под реальные задачи движения.

Задача — научить робота двигаться естественно, устойчиво и безопасно.

Обучение RL-агентов локомоции

Вам предстоит создавать и обучать политики ходьбы, балансировки и сложных двигательных скиллов в Isaac Lab и MuJoCo.

Исследование и применение современных методов RL

Вы будете адаптировать под задачи локомоции разные идеи из научных статей: от Residual RL до transformer-control.

Создание и усложнение симуляционных сред

Нужно будет проектировать физические сцены, на которых роботы будут учиться двигаться: лестницы, неровные поверхности, препятствия.

Анализ и улучшение поведения агентов

Предстоит разрабатывать метрики, валидировать reward-функции, искать неочевидные зависимости и точки роста в поведении моделей.

Внедрение разработок на реальных роботах

Вы будете переносить обученные политики на реальные платформы и наблюдать, как ваши модели начинают двигаться в физическом мире.

Больше об ML в Яндексе — в канале Yandex for ML

* Обучали модели RL и внедряли решения в продакшен или исследовательские пайплайны
* Уверенно программируете на Python и работаете с PyTorch
* Понимаете кинематику и динамику роботов
* Разбираетесь в современных RL-подходах PPO, SAC, TD3 и т. д.
* Умеете формулировать гипотезы и выстраивать эксперименты для их проверки
* Читаете и внедряете идеи из научных статей с ICRA, CoRL, NeurIPS, RSS и других
* Имеете опыт работы с Isaac Lab, Isaac Gym и MuJoCo

* Знаете C++ или CUDA, имеете опыт симуляции физики и оптимизации вычислений
* Понимаете подходы Early Experience и Diffusion Policy