Разработчик бэкенда в команду HW Management & Monitoring (DCIM)

яндекс · 5 дней назад

Зарплата не указана

Data Center Infrastructure Management (DCIM) — технологии и сервисы для управления серверной инфраструктурой Яндекса. DCIM — это не абстрактный бэкенд, а продукт, которым ежедневно пользуются сотни инженеров и операционных команд для принятия ключевых решений.
Инфраструктура Яндекса — одна из самых крупных в стране и мире. Пять дата-центров, эксабайты данных, 150 тысяч серверов — всё это требует точного управления.

Команда HW Management & Monitoring создаёт и развивает критически важные технологии и сервисы для управления серверной инфраструктурой. Мы делаем всё, чтобы управление тысячами серверов — от настройки и мониторинга до диагностики — было полностью автоматизированным, надёжным и не требовало рутинного участия человека.

Ваша цель — проектировать и реализовывать ключевые компоненты систем, которые обеспечивают бесперебойную работу всего парка оборудования. Вы будете влиять на то, как тысячи разработчиков Яндекса взаимодействуют с фундаментом наших продуктов.

Наша команда — это сообщество неравнодушных топ-профессионалов, где работают специалисты, которые генерируют решения, которых не придумал ещё никто. Мы мыслим на несколько лет вперёд, имея трёхлетний тактический план, но при этом быстро адаптируемся под изменения.

Вместе мы создаём уникальные технологии мирового уровня, которые обеспечивают работу абсолютно всех сервисов Яндекса. У нас можно многому научиться, глубоко погружаясь в каждую техническую задачу. Мы ценим открытость, ответственность за результат и готовность разбираться в сложных системах.

Подписывайтесь на [телеграм-канал Yandex Infrastructure](https://t.me/+PZIYnlkjFeNmMjE6), чтобы узнать больше о том, как мы делаем внутреннюю инфраструктуру Яндекса

Редизайн платформы удалённой настройки и тестирования серверов

Вам предстоит исследовать возможность внедрения Temporal для распределённого выполнения длительных сценариев, провести миграцию с MongoDB на реляционную СУБД и переосмыслить взаимодействие с сопряжёнными системами, чтобы сделать обмен данными о состоянии серверов более формализованным и надёжным.

Разработка системы управления доступом на BMC серверов

Вы будете создавать отказоустойчивый и безопасный сервис для хранения и ротации ключей и паролей, которые обеспечивают доступ к управляющим контроллерам серверов через изолированную сеть.

Создание сервиса диагностики аппаратного состояния серверов

Ваша задача — разработать централизованную систему, которая на основе показаний датчиков, логов ядра и данных диагностических утилит будет принимать статистически обоснованные решения о необходимости замены комплектующих.

Разработка детектора thermal throttling

Вам нужно придумать и реализовать внешний механизм детекции ситуаций, когда процессор из-за перегрева снижает частоту, что негативно сказывается на работе прикладного ПО.

Создание ЦУПа дата-центра

Вам предстоит построить систему для отображения текущего состояния дата-центра, управления эскалацией инцидентов и координации работы инженеров оперативного обслуживания.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Работали с реляционными — например, PostgreSQL — и нереляционными СУБД
* Проектировали и разрабатывали сложные бэкенд-сервисы
* Уверенно владеете Python и пишете надёжный, высокопроизводительный код
* Понимаете принципы построения распределённых систем
* Готовы нести ответственность за продукт в целом, а не только за написанный код
* Системно мыслите и умеете глубоко погружаться в сложные доменные области

* Работали с большими объёмами данных и структурировали их
* Хорошо знаете устройство ядра Linux
* Интересуетесь hardware и инфраструктурными задачами
* Знакомы с концепциями автоматизации и оркестрации инфраструктуры
* Понимаете принципы работы BMC (Baseboard Management Controller)