
яндекс · 22 нояб.
Наша команда разрабатывает внутреннюю платформу управления данными Logos. С её помощью ML-инженеры, дата-инженеры и аналитики Яндекса строят ETL-пайплайны обработки данных, хранилища данных для аналитики и отчётности, собирают датасеты для машинного обучения и обучают модели. Под управлением нашей платформы находится около 10 тысяч регулярных процессов, которые каждый день обрабатывают десятки и сотни петабайт данных. Среди наших пользователей — Реклама, Маркет, Кинопоиск, Музыка, Плюс и многие другие сервисы Яндекса.
Мы помогаем нашим пользователям сосредоточиться на содержимом обрабатываемых данных и извлекать из них пользу, а инфраструктуру, оркестрацию пайплайнов и надёжность их работы берём на себя. Ищем коллегу, который будет помогать нам развивать платформу, используя всю мощь систем хранения и обработки данных Яндекса.
Подробнее о нас можно узнать из статей и видео:
* Как мы тестируем дата-пайплайны в рекламе Яндекса (видео тут)
* Опыт построения DMP в рекламе Яндекса
* Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить всё меньше
Разработка ETL-фреймворка
Наши пользователи создают свои конвейеры обработки данных на Python с помощью фреймворка, который мы разрабатываем. Вам предстоит расширять его возможности, делать его более гибким и открывать новые сценарии применения. Одновременно с этим вас ждут задачи по упрощению базовых сценариев и сокращению объёма бойлерплейт-кода, который должны писать пользователи, чтобы снизить трудозатраты на разработку и поддержку процессов обработки данных.
Развитие платформы обработки данных
Среди наших пользователей такие крупные сервисы Яндекса, как Реклама, Маркет, Плюс, Фантех. Все они используют общую инфраструктуру Яндекса, при этом данные и процессы каждого сервиса обладают своими особенностями. Наша задача — снизить стоимость и сократить время внедрения общих решений, а также распространять лучшие практики, сохраняя при этом максимальную гибкость, чтобы учесть особенности каждого сервиса. Вы сможете поучаствовать в разработке общих инструментов для управления данными, например data-quality-инструментов, поработать над поддержкой различных систем хранения и обработки данных в рамках дата-платформы.
Повышение надёжности сервиса
Под управлением нашей платформы находятся десятки петабайт данных и тысячи процессов, принадлежащих десяткам команд более чем дюжины различных сервисов. На таких масштабах пользователям необходимы инструменты, которые позволяют тестировать их конвейеры в рамках CI/CD и обеспечивать бесперебойную работу процессов в продакшне. В ваши задачи будут входить разработка средств мониторинга проблем в продакшне и реагирования на них, внедрение лучших практик Яндекса по обеспечению надёжности высоконагруженных сервисов, чтобы наши пользователи могли самостоятельно обслуживать свои конвейеры.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
* Отлично знаете Python
* Знаете базовые принципы и паттерны проектирования ПО
* Стремитесь писать код, который легко читать и поддерживать
* Работали с реляционными и нереляционными базами данных и понимаете их устройство
* Писали на С++ и Golang
* Разрабатывали и поддерживали библиотеки на Python
* Понимаете, как устроены отказоустойчивые распределённые системы
* Занимались обработкой больших данных, работали с хранилищами данных DWH
* Знакомы с ETL-фреймворками Airflow, Luigi, Dagster и другими