
сбер. it · Москва · 8 часов назад
Мы ищем опытного SRE-инженера для поддержки и развития распределённой облачной инфраструктуры на базе OpenStack-подобной экосистемы в собственном Linux-дистрибутиве (RPM-based).
Вам предстоит отвечать за эксплуатационную надёжность платформы, автоматизацию, наблюдаемость, процессы релизов и расследование инцидентов в production-среде.
эксплуатация и развитие production-инфраструктуры облачной платформы (control plane + compute/network/storage)
проектирование и сопровождение SLO/SLI, участие в управлении инцидентами (incident response), postmortem (RCA)
автоматизация операционных задач (деплой, обновления, миграции, аудит конфигураций)
разработка и сопровождение инфраструктурных инструментов (скрипты, сервисы, операторы, утилиты)
диагностика сложных проблем в Linux/сетях/хранилищах/виртуализации, снижение MTTR
поддержка observability: метрики, логи, трассировки, алерты, дешборды.
работа с CI/CD и процессами релизов: тестирование, канареечные выкладки, rollback, контроль версий.
отличное знание Linux (на уровне эксплуатации и диагностики): systemd, journalctl, cgroups, namespaces, сетевой стек (iptables/nftables, routing, MTU, TCP/UDP), файловые системы
контейнеризация: Docker и/или Podman, работа с registry, networking, volumes.
виртуализация: QEMU/KVM, понимание взаимодействия через libvirt (CLI/API), сетевые bridge/overlay.
опыт работы с CI/CD (Git, GitLab CI или аналоги), автоматизация релизов.
опыт работы с конфигурационным управлением (Ansible или аналог).
базовый опыт работы с системами сборки и публикации пакетов RPM (rpmbuild/mock/koji или аналоги).
опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов.
Будет плюсом:
практический опыт эксплуатации OpenStack (или его компонентов/аналогов)
опыт работы с Ceph (или другими распределёнными хранилищами).
навыки работы с Prometheus/Grafana/Alertmanager (или аналогичным стеком)
опыт построения централизованных логов (Loki/ELK/OpenSearch).
понимание сервисных архитектур: REST/RPC, message-bus подход (RabbitMQ/Kafka)
опыт hardening, базовый security mindset (TLS, секреты, политики доступа)
опыт поддержки собственного Linux-дистрибутива и внутренних репозиториев.
работа с крупной модульной облачной инфраструктурой и реальными production-задачами
возможность влиять на архитектуру эксплуатации, релизный процесс и надёжность платформы
технически сложные задачи на стыке Linux, виртуализации, сетей и распределённых систем.
годовой бонус и ежегодный пересмотр зарплаты
статус аккредитованной ИТ-компании со всеми преимуществами
расширенный ДМС с первого дня и льготное страхование для семьи
корпоративный университет Сбера, внутренняя образовательная платформа, участие в IT-конференциях
льготная ипотека в Сбере, подписка СберПрайм+, скидки от партнеров и сервисов группы компаний.