H
HireSeeker
цугам

DevOps-инженер

цугам · Москва · 10 часов назад

Зарплата не указанаoffice
Открыть на hh.ru
В нашей компании открыта позиция ведущего DevOps Engineer / Platform Engineer (ML Infrastructure) в лабораторию интеллектуальных систем службы научно-технических разработок и инноваций. Мы ищем DevOps-инженера, который поможет нам трансформировать текущую инфраструктуру из набора поддерживаемых вручную сервисов в отказоустойчивую автоматизированную платформу. Сейчас у нас есть рабочий набор инструментов (GitLab, ClearML, CVAT), но наша цель — избавиться от рутины, внедрить лучшие практики (S3, SSO, Kubernetes) и выстроить строгий, но удобный CI/CD для команды разработки и ML-инженеров.

Чем предстоит заниматься:
  • Контейнеризация и отказоустойчивость: Перевод внутренних сервисов в Kubernetes, настройка механизмов High Availability (HA), самовосстановления и грамотного масштабирования.
  • Управление доступами (IAM): Внедрение Identity Provider (IdP) / Single Sign-On (SSO) для полной автоматизации процессов онбординга и офбординга сотрудников (чтобы забыть о ручном заведении пользователей в каждом сервисе).
  • Инфраструктура хранения: Проектирование и реализация миграции данных всех сервисов на единое S3-совместимое хранилище (ключевой проект для упрощения бэкапов и повышения надежности).
  • Развитие CI/CD (GitLab):
    ◦ Внедрение обязательных проверок качества кода: линтинг и форматирование (PEP8, black, isort, ruff), статический анализ (mypy).
    ◦ Настройка автобилдов десктопных приложений.
    ◦ Интеграция запуска unit-тестов для новых ML-моделей.
    ◦ Внедрение архитектурного контроля (например, через pre-commit хуки или кастомные шаги в CI), чтобы коммиты с нарушением заданных архитектурных правил отклонялись автоматически.
  • Администрирование и поддержка: Обеспечение стабильной работы текущего стека (GitLab, Wiki, Planka, ClearML, CVAT), включая траблшутинг (например, устранение ошибок и битых ссылок в ClearML) и аудит процессов резервного копирования.
  • Процессы: Помощь во внедрении и первоначальной настройке Jira для упорядочивания рабочих процессов команды.
Нам важно:
  • Опыт работы с Kubernetes: уверенные знания архитектуры K8s, опыт контейнеризации сервисов, настройки High Availability (HA), автомасштабирования и механизмов самовосстановления приложений.
  • Глубокое понимание CI/CD: опыт построения и оптимизации пайплайнов в GitLab CI/CD, автоматизации сборки (включая десктопные приложения) и тестирования.
  • Автоматизация качества кода (QA/Linting): опыт интеграции в CI/CD инструментов статического анализа, линтинга и форматирования кода (пакеты Ruff, Black, Mypy, Isort).
  • Управление инфраструктурой хранения данных: практический опыт проектирования, миграции и администрирования S3-совместимых хранилищ, настройки систем резервного копирования и обеспечения отказоустойчивости данных.

Будет плюсом:

  • Опыт в роли MLOps / ML Infrastructure: понимание специфики жизненного цикла ML-моделей и опыт администрирования специализированного AI/ML стека (ClearML, CVAT). ◦ Навыки траблшутинга ML-платформ: умение разбираться в ошибках логирования, интеграции данных и разрыва связей/ссылок внутри инфраструктуры машинного обучения.
  • Базовые знания Python: способность читать код инфраструктурных скриптов, тестов и конфигураций линтеров для эффективного взаимодействия с командой разработки и ML-инженерами.
  • Опыт работы с IAM / Безопасностью: понимание принципов управления доступами, практический опыт внедрения решений Identity Provider (IdP) и протоколов Single Sign-On (SSO)
  • Опыт работы с удаленными стендами: внедрение и настройка удаленного стенда на базе одноплатных компьютеров для проверки корректности прошивок.
Условия:
  • График работы 5/2;
  • Испытательный срок - 3 месяца;
  • Официальное трудоустройство, «белая» заработная плата, социальный пакет по ТК РФ;
  • Зарплатный проект ВТБ, Сбер;
  • Корпоративная программа ДМС (включая стоматологию);
  • Обеспечение питания
  • Профессиональный и дружный коллектив