H
HireSeeker
яндекс

SRE в команду AI Studio Yandex Cloud

яндекс · 29 апр.

Зарплата не указана



Команда ML делает продукты, которые упрощают использование машинного обучения и большие языковые модели даже людям, далёким от программирования. Наши сервисы для синтеза и распознавания речи помогают сотням бизнесов по всему миру, а инструменты дают возможность специалистам по data science обучать нейросетевые модели на десятках терабайт данных и сотнях GPU. Мы ищем людей, которые помогут развивать всё это, решать возникающие проблемы (куда ж без них), людей, для которых наши сервисы станут своими.

Поддерживать и развивать инфраструктуру наших сервисов

Вам предстоит автоматизировать текущие и формировать новые инфраструктурные подходы и практики, выстраивать observability сервисов и помогать продуктовым командам с их внедрением. Вы будете ретроспективно развивать инфраструктуру и поддерживать стабильность сервисов по мере роста количества пользователей, функциональности и нагрузки. Пример такой задачи — автоматизация развёртывания ML-моделей.

Исследовать отказы и устранять их причины

Вы будете наблюдать за работой высоконагруженных сервисов и устранять неполадки. Пример такой задачи — анализ роста количества отказов или времени ответа сервиса YandexGPT.

Разрабатывать новые сервисы по мере необходимости

Нужно будет заниматься разработкой — например, создать универсальный прокси-сервер для запуска внутренних сервисов в Yandex Cloud с минимальными усилиями.

* Разрабатывали и, главное, эксплуатировали высоконагруженные веб-сервисы (разработка — дело нехитрое, с этим мы и сами справляемся, пережить наплыв пользователей — вот задача)
* Знаете Go или Java, готовы писать и на том, и на другом
* Испытываете непреодолимое желание всё починить, измерить и усовершенствовать

* Работали с Terraform
* Применяли Envoy и разрабатывали плагины для него
* Развёртывали сервисы в Kubernetes
* Имеете сертификат Yandex Cloud Certified Engineer Associate или другие сертификаты от Yandex Cloud