Разработчик в группу событийного мониторинга

яндекс · 6 дней назад

↑ Вакансия с автоподнятием

Зарплата не указана

Наша группа является частью Observability Platform в Яндексе. Мы помогаем разработчикам Яндекса разворачивать сервисы в облаке, а облаку — оставаться стабильным и удобным. В наши задачи входит развитие компонентов инфраструктуры внутреннего и внешнего облака:

* системы событийного мониторинга, которая позволяет формировать верхнеуровневое (агрегированное) состояние сервиса на основании входных данных о его здоровье из разных источников (а это десятки миллионов уникальных событий) по правилам, заданным пользователем. Если случится аварийная ситуация, система сообщит о ней дежурному в Telegram или по телефону. Если тот не откликнется, система позвонит запасному дежурному или руководителю команды;
* шлюза уведомлений, который позволяет другим системам задать шаблон и через единый API отправлять как простые уведомления в SMS, мессенджерах и по телефону, так и более сложные последовательности уведомлений («Напиши, а если не ответили в течение 10 минут, позвони»). Сервисы Яндекса отправляют через наш шлюз сотни тысяч уведомлений в день, и нагрузка постоянно растёт.

Мы уделяем особое внимание удобству и простоте решений, которые помогают экономить время наших коллег. Ищем разработчиков с опытом создания высоконагруженных масштабируемых систем, чтобы вместе строить, оптимизировать и развивать наши сервисы.

Наш стек:
* код в основном на Go, немного на C++20 и Python 3;
* инфраструктура — YDB, MongoDB, Kubernetes, OpenSearch, Terraform.

Подписывайтесь на телеграм-канал Inside Yandex Cloud , чтобы узнать больше про нашу команду и технологии!

Проектировать архитектуру и разрабатывать продуктовые фичи

Вам предстоит разрабатывать сложные сценарии отправки уведомлений для различных пользовательских кейсов, улучшать UX и закрывать фич-реквесты наших пользователей.

Разрабатывать общую платформу

Задача включает адаптацию существующей функциональности для запуска в Yandex Cloud с доступом для внешних пользователей, а также для создания единой observability platform для других сотрудников компании.

Масштабировать системы в соответствии с ростом нагрузок

Стабильный рост нагрузки порядка 20% в год требует проводить регулярные работы по масштабированию: поиск узких мест, RnD возможных вариантов решения, реализация горизонтального масштабирования.

* Пишете на Go или хотите его выучить
* Знаете классические алгоритмы и структуры данных
* Можете разобраться в чужом коде

* Работали с системами мониторинга
* Знаете C++ или Python

Смотрите другие вакансии направления Yandex Cloud Observability Platform по ссылке.