
яндекс · 9 июн.
Ищем опытного разработчика для развития проекта SRE GPT — интеллектуальной системы, которая оперативно выявляет аномалии в работе сервисов, прогнозирует потенциальные инциденты и помогает определять корневые причины сбоев.
SRE GPT автоматически находит проблемы, определяя сервис или компонент с неполадкой, анализирует корневые причины сбоев с помощью инструментов observability (метрик, алертов, логов), самостоятельно восстанавливает работоспособность систем и передаёт сложные случаи соответствующим специалистам.
SRE GPT — это мультиагентная система с RAG-архитектурой. Она интегрирована с корпоративной инфраструктурой через MCP-серверы, в том числе с IDP, системами мониторинга и базой знаний.
Больше о нашей работе — в видео «Антология технологий Яндекс Такси. Надёжность сервиса», докладе «Инструменты надёжности Такси», роликах «Как строится надёжность Яндекс Такси» на русском и на английском.
Узнайте про разработку Городских сервисов Яндекса на dev.go.yandex.
Интеллектуальные агенты
Вы будете создавать AI‑системы для анализа проблем и автоматизации рутинных задач, проектировать архитектуру интеллектуальных агентов и обеспечивать их взаимодействие с существующими системами.
Исследование технологий
Вам предстоит экспериментировать с новейшими языковыми моделями (LLM) и фреймворками для агентских систем, изучать инновационные подходы к поиску информации и логическим выводам, а также внедрять результаты исследований, чтобы ускорить и повысить качество устранения инцидентов.
Надёжность систем
Вы будете разрабатывать инструменты автоматизации, чтобы сделать системы более интеллектуальными и отказоустойчивыми, работать с черновиками постмортемов и участвовать в создании решений для предиктивной аналитики.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
* Интересуетесь отказоустойчивостью, observability и AI-инструментами в SRE
* Пишете или готовы писать на Go или Python
* Понимаете архитектуру распределённых систем
* Умеете анализировать сложные технические задачи и предлагать решения
* Уверенно владеете навыками траблшутинга — от сбора симптомов до устранения корневой причины и профилактики повторных сбоев
* Хотите повышать надёжность продукта, которым ежедневно пользуются миллионы людей