Управление инцидентами (L2/L3), эскалация и оперативное решение проблем;
Анализ логов и метрик (ELK, Zabbix и др.);
Поддержка сервисов и участие в разборе инцидентов в продакшене;
Сопровождение релизов, контроль изменений;
Работа с PostgreSQL (диагностика, анализ данных, SQL-запросы);
Настройка мониторинга, определение критичных метрик и алертов;
Контроль и участие в формировании SLI / SLO;
Взаимодействие с разработчиками при поиске причин инцидентов;
Проведение постмортем‑анализа и улучшение стабильности систем;
Ведение задач в Jira, документации в Confluence.
Будет плюсом
Опыт настройки и администрирования Zabbix;
Опыт работы с Elasticsearch / ELK‑стеком (настройка индексов, алертов, дашбордов);
Опыт работы с Kubernetes (на уровне понимания);
Опыт работы с Helm / Terraform (на уровне понимания);
Опыт в финтехе или высоконагруженных системах.
Требования:
Опыт работы в роли SRE / Production Support / L2-L3 Engineer от 2 лет;
Понимание принципов SLI / SLO и incident management;
Опыт работы с мониторингом (Zabbix, Prometheus или аналогичные системы);
Уверенная работа с реляционными БД (PostgreSQL);
Опыт работы с облаками (AWS / Yandex Cloud / Selectel).
Условия:
Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования;
Полностью удаленная работа или офис в Москве;
Среда для твоего неизбежного развития — сложные и интересные задачи, регулярные тренинги и вебинары, доступ к бесплатным корпоративным библиотекам Альпины, МИФа и бизнес-изданий, скидки на курсы иностранных языков;
Возможности для разнообразного досуга — скидки на услуги туристических агентств, продукты питания, рестораны и бары, магазины и салоны красоты.