
яндекс · 3 июн.
Яндекс 360 — это Диск, Почта, Документы, Календарь, Телемост, Заметки и другие сервисы с общей многомиллионной аудиторией. Мы делаем продукты для пользователей и для организаций, постоянно повышаем качество и производительность и при этом успеваем экспериментировать с новыми технологиями, чтобы делать наши приложения ещё более удобными и полезными.
Мы ищем опытного руководителя команды SRE для управления группой дисковых сервисов Яндекс 360. Ваша задача — обеспечить высокую надёжность и доступность наших дисковых сервисов, выстроить эффективные процессы и помочь команде расти профессионально.
Управление командой
Вам предстоит руководить командой из семи SRE-инженеров: ставить задачи, распределять нагрузку, контролировать сроки и качество работы. Вы будете проводить регулярные встречи 1–1, оценивать эффективность сотрудников и формировать планы их развития, создавать продуктивную рабочую атмосферу и разрешать конфликтные ситуации.
Разработка стратегии надёжности
Вам нужно будет формировать и внедрять стратегию SRE для дисковых сервисов Яндекс 360, оптимизировать процессы мониторинга, реагирования на инциденты и пост инцидентного анализа. Вы будете внедрять практики DevOps/SRE, согласовывать подходы и решения с другими командами (разработки, эксплуатации, безопасности).
Техническая работа
Вы будете участвовать в проектировании архитектуры сервисов с фокусом на надёжность, масштабируемость и отказоустойчивость, анализировать метрики надёжности и устранять узкие места. Также предстоит участвовать в дежурствах и координировать устранение критических инцидентов, оценивать и внедрять технологии, повышающие надёжность сервисов.
Планирование и отчётность
Вам нужно будет готовить отчёты о надёжности сервисов и эффективности команды, планировать ресурсы команды на среднесрочную перспективу.
Больше о разработке в Яндексе — в канале Yandex for Developers
* Работали в роли SRE- или DevOpsинженера от трёх-четырёх лет
* Руководили командой инженеров не менее двух лет
* Глубоко понимаете принципы SRE: SLI/SLO/SLA, бюджет ошибок, автоматизацию, мониторинг, управление инцидентами
* Владеете навыками проектирования отказоустойчивых и масштабируемых систем
* Уверенно работаете с Linux, сетевыми протоколами и инфраструктурой
* Имеете практический опыт работы с контейнеризацией и оркестрацией (Docker, Kubernetes), системами мониторинга и алертинга (Prometheus, Grafana, Zabbix и т. д.), инструментами автоматизации (Ansible, Terraform и т. п.), базами данных (SQL и NoSQL)
* Обладаете сильными коммуникативными навыками: можете чётко донести мысль до коллег и партнёров, вести переговоры и договариваться
* Работали с облачными платформами (Yandex Cloud, AWS, GCP, Azure)
* Участвовали в построении disaster-recovery-решений и проведении chaos engineering
* Выступали с докладами на технических конференциях или писали статьи на профильные темы
* Знакомы с микросервисной архитектурой и сервисными сетками (Istio, Linkerd)
* Имеете сертификаты по Kubernetes (CKA), AWS/GCP или другим релевантным технологиям