
яндекс · 18 июн.
↑ Вакансия с автоподнятиемРеклама — один из самых высоконагруженных сервисов Яндекса, который выдерживает до 700K RPS и оперирует миллиардами объявлений.
Мы занимаемся подготовкой, обработкой и доставкой данных под показывающий рантайм, а также быстрым сбором статистики: расчётом нейросетевых моделей, генерацией баннеров, построением умных индексов k-NN. Наши системы обрабатывают десятки гигабайт сжатых данных в секунду и оперируют стейтом в сотни терабайт.
Некоторое время назад мы совершили квантовый скачок, когда перевезли ключевые компоненты с парадигмы MapReduce в стриминговую обработку данных.
Наши доклады с конференций:
* Эффективное обновление состояний в базе данных из сервисов потоковой обработки
* Как реклама Яндекса генерирует с помощью GPT-нейросетей заголовки для трёх миллиардов объявлений
Что вы получите, если придёте к нам:
* Узнаете, как правильно настраивать динтаблицы YTSaurus, чтобы удерживать любую нагрузку
* Научитесь писать многопоточный код на C++ и узнаете, чем отличаются файберы от тредов
* Поймете, как сменой аллокатора ускорить систему на 30% — или замедлить
* Разберетесь, как строить действительно exactly-once-системы
Быстрые рекламные данные
Для бизнеса крайне важно, чтобы любое событие — будь то изменение цены товара или клик пользователя — как можно быстрее было учтено в финальном ранжировании. Наша задача состоит в том, чтобы снижать эти задержки до минут и секунд. Мы уже сделали быстрые профили всех основных рекламных сущностей. Теперь занимаемся инкрементальным обновлением всех рекламных баз и индексов.
Real-Time Machine Learning
Помимо простой доставки обновлённых профилей до рантайма, особняком стоит задача дообучения нейросетевых моделей на свежих данных. Мы делаем первые шаги к переносу построения датасетов из MapReduce в RT. Нам необходимо построить систему, которая способна с минутной задержкой обрабатывать более 10 ГБ/с входных данных, осуществляя оконный join сразу нескольких логов. Для этого мы активно развиваем собственный фреймворк потоковой обработки данных.
Единая база Яндекс Рекламы
База с рекламными данными должна одновременно обладать свойствами, которые на первый взгляд выглядят конфликтующими: способность хранить десятки ТБ данных, обеспечивать высоконагруженный синхронный доступ и поддерживать регулярные массовые асинхронные неблокирующие модификации. Поэтому мы развиваем собственную реляционную базу поверх динамических таблиц YTSaurus.
* Имеете опыт разработки на C++ или желаете этому научиться
* Знакомы с YTSaurus, Hadoop, Spark, Flink, Kafka