Разработчик формата хранения данных в динамических таблицах YTsaurus

яндекс · 27 февр.

Зарплата не указана

YTsaurus — программный продукт для построения больших озёр данных, причём данные могут обрабатываться в разных парадигмах: и MapReduce (фоновая обработка), и NewSQL (в реальном времени). В YTsaurus собственный слой хранения данных и собственные реализации форматов хранения — эффективные на реальных данных и объёмах Яндекса.

Вам предстоит заниматься слоем хранения данных и адаптировать его под задачи быстрой аналитики.

Иерархический формат данных

Одна из важных задач — разработать формат сжатия для иерархических данных, который позволит и эффективно читать большими диапазонами, и быстро собирать один конкретный документ или его часть.

Подобная задача требует как работы с различными механизмами сжатия, так и низкоуровневой инженерной проработки на уровне процессора и доступа к памяти. Вам потребуются и SIMD-инструкции, и адаптация кода под иерархию памяти на процессоре. Мы ожидаем, что вы любите алгоритмы и эффективное программирование на С++!

Формат исторических данных для задачи аналитики

В динамических таблицах (так мы называем NewSQL-компоненту YTsaurus) традиционно используется формат данных, заточенный под обработку транзакций. История в таких данных хранится вместе с временными метками, что позволяет обеспечить уровень изоляции snapshot isolation. Такие данные избыточны в задачах аналитики: для них лучше подходят более простые форматы. Вам предстоит найти компромисс и адаптировать хранение истории в динтаблицах так, чтобы приспособить их к транзакционно-аналитическим задачам.

Аналитические индексы

В аналитике применяются свои индексы: SMA, star-tree. Вам нужно будет добавить их в форматы данных, реализовать построение и использование в запросах. Эта задача потребует погружаться в весь цикл обработки SQL-запроса.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

* Умеете программировать на C++
* Знаете и продолжаете узнавать новые алгоритмы
* Любите погружаться в особенности работы железа
* Хотите строить надёжный сервис для пользователей

* Работали с низкоуровневыми оптимизациями: подгоняли алгоритм под иерархию памяти и конвейер процессора
* Разбираетесь в алгоритмах сжатия, особенно быстрого
* Знакомы с общими принципами построения СУБД и обработки SQL-запросов