H
HireSeeker
яндекс

Разработчик в проект SRE GPT

яндекс · 9 июн.

Зарплата не указана

Ищем опытного разработчика для развития проекта SRE GPT — интеллектуальной системы, которая оперативно выявляет аномалии в работе сервисов, прогнозирует потенциальные инциденты и помогает определять корневые причины сбоев.

SRE GPT автоматически находит проблемы, определяя сервис или компонент с неполадкой, анализирует корневые причины сбоев с помощью инструментов observability (метрик, алертов, логов), самостоятельно восстанавливает работоспособность систем и передаёт сложные случаи соответствующим специалистам.

SRE GPT — это мультиагентная система с RAG-архитектурой. Она интегрирована с корпоративной инфраструктурой через MCP-серверы, в том числе с IDP, системами мониторинга и базой знаний.

Больше о нашей работе — в видео «Антология технологий Яндекс Такси. Надёжность сервиса», докладе «Инструменты надёжности Такси», роликах «Как строится надёжность Яндекс Такси» на русском и на английском.

Узнайте про разработку Городских сервисов Яндекса на dev.go.yandex.

Интеллектуальные агенты

Вы будете создавать AI‑системы для анализа проблем и автоматизации рутинных задач, проектировать архитектуру интеллектуальных агентов и обеспечивать их взаимодействие с существующими системами.

Исследование технологий

Вам предстоит экспериментировать с новейшими языковыми моделями (LLM) и фреймворками для агентских систем, изучать инновационные подходы к поиску информации и логическим выводам, а также внедрять результаты исследований, чтобы ускорить и повысить качество устранения инцидентов.

Надёжность систем

Вы будете разрабатывать инструменты автоматизации, чтобы сделать системы более интеллектуальными и отказоустойчивыми, работать с черновиками постмортемов и участвовать в создании решений для предиктивной аналитики.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Интересуетесь отказоустойчивостью, observability и AI-инструментами в SRE
* Пишете или готовы писать на Go или Python
* Понимаете архитектуру распределённых систем
* Умеете анализировать сложные технические задачи и предлагать решения

* Уверенно владеете навыками траблшутинга — от сбора симптомов до устранения корневой причины и профилактики повторных сбоев
* Хотите повышать надёжность продукта, которым ежедневно пользуются миллионы людей