Разработчик бэкенда в команду инфраструктуры рекомендательных систем

яндекс · 18 июн.

↑ Вакансия с автоподнятием

Зарплата не указана

Реклама — один из самых высоконагруженных сервисов Яндекса, который выдерживает до 700K RPS и оперирует миллиардами объявлений.

Мы занимаемся подготовкой, обработкой и доставкой данных под показывающий рантайм, а также быстрым сбором статистики: расчётом нейросетевых моделей, генерацией баннеров, построением умных индексов k-NN. Наши системы обрабатывают десятки гигабайт сжатых данных в секунду и оперируют стейтом в сотни терабайт.

Некоторое время назад мы совершили квантовый скачок, когда перевезли ключевые компоненты с парадигмы MapReduce в стриминговую обработку данных.

Наши доклады с конференций:

* Эффективное обновление состояний в базе данных из сервисов потоковой обработки
* Как реклама Яндекса генерирует с помощью GPT-нейросетей заголовки для трёх миллиардов объявлений

Что вы получите, если придёте к нам:

* Узнаете, как правильно настраивать динтаблицы YTSaurus, чтобы удерживать любую нагрузку
* Научитесь писать многопоточный код на C++ и узнаете, чем отличаются файберы от тредов
* Поймете, как сменой аллокатора ускорить систему на 30% — или замедлить
* Разберетесь, как строить действительно exactly-once-системы

Быстрые рекламные данные

Для бизнеса крайне важно, чтобы любое событие — будь то изменение цены товара или клик пользователя — как можно быстрее было учтено в финальном ранжировании. Наша задача состоит в том, чтобы снижать эти задержки до минут и секунд. Мы уже сделали быстрые профили всех основных рекламных сущностей. Теперь занимаемся инкрементальным обновлением всех рекламных баз и индексов.

Real-Time Machine Learning

Помимо простой доставки обновлённых профилей до рантайма, особняком стоит задача дообучения нейросетевых моделей на свежих данных. Мы делаем первые шаги к переносу построения датасетов из MapReduce в RT. Нам необходимо построить систему, которая способна с минутной задержкой обрабатывать более 10 ГБ/с входных данных, осуществляя оконный join сразу нескольких логов. Для этого мы активно развиваем собственный фреймворк потоковой обработки данных.

Единая база Яндекс Рекламы

База с рекламными данными должна одновременно обладать свойствами, которые на первый взгляд выглядят конфликтующими: способность хранить десятки ТБ данных, обеспечивать высоконагруженный синхронный доступ и поддерживать регулярные массовые асинхронные неблокирующие модификации. Поэтому мы развиваем собственную реляционную базу поверх динамических таблиц YTSaurus.

* Имеете опыт разработки на C++ или желаете этому научиться

* Знакомы с YTSaurus, Hadoop, Spark, Flink, Kafka