
яндекс · 30 мая
Когда пользователь ищет ресторан в Поиске, строит маршрут в Картах или вызывает такси до клиники — он видит данные Справочника. Это единая платформа с информацией о миллионах организаций по всему миру. Реальный мир постоянно меняется: кафе закрываются, офисы переезжают, телефоны устаревают. Данные об этом приходят к нам из тысяч источников — от пользователей, партнёров, владельцев бизнесов, с сайтов, из панорам. У каждого источника бывают проблемы: партнёры могут отставать по актуальности, пользователи — ошибаться или намеренно портить информацию о конкурентах. Задача команды инфраструктуры — быстро собирать из этого единую, точную и актуальную картину.
Мы усиливаем команду ядра Справочника. Команда отвечает за весь путь данных: от получения сигнала до публикации на Картах. Под капотом: C++, Python, YTsaurus (MapReduce), SQL, LLM, классификаторы и большие объёмы данных — миллионы организаций, миллиарды сигналов.
LLM/VLM для модерации пользовательских правок
Не все изменения, которые приходят в систему от пользователей, полезные и корректные — кто-то ошибается, кто-то может намеренно портить карточки конкурентов или предоставлять недостоверную информацию. Мы учим модели отличать вредоносные правки от полезных.
Контроль качества источников данных
Мы собираем данные из десятков тысяч различных источников. Некоторые источники приносят хорошие и актуальные данные, а некоторые нет. Перед нами стоят задачи как определения качества самих источников, так и приносимых ими правок.
Агентская система диагностики проблем
Когда данные не публикуются или публикуются неправильно, поиск причины занимает много времени: десятки этапов обработки, тысячи источников, миллионы записей. Мы строим систему, которая сама анализирует ситуацию и предлагает решения.
Масштабирование на новые регионы
Каждая страна — это другой язык, другие источники, другая специфика данных. Мы адаптируем Справочник так, чтобы он работал везде.
Больше об ML в Яндексе — в канале Yandex for ML
* Хорошо владеете Python и SQL
* Знаете классические алгоритмы и структуры данных
* Имеете опыт в машинном обучении, хорошо понимаете базовую математику, теорию вероятностей и статистику
* Аналитически мыслите, способны формализовывать и декомпозировать задачи, строить гипотезы, устанавливать взаимосвязи и делать аргументированные выводы
* Работали с MapReduce-системами
* Умеете работать с LLM/VLM и агентскими системами
* Знакомы с C++