
ozon · Москва · 14 июн.
Привет! Это команда разработки ERP и учётных систем. Мы управляем финансами клиентов, миллионами договоров с контрагентами и зарплатами тысяч сотрудников через ЭДО.
Сейчас мы ищем Senior ML-инженера в команду разработки ML-инструментов.
Мы создаём ядро интеллектуальной обработки документов — систему, которая автоматизирует работу с сотнями типов документов на разных языках. Ежедневно десятки тысяч контрагентов предоставляют пакеты документов. Наша задача — не просто их распознать, а построить интеллектуальный пайплайн, который автоматически извлекает, структурирует и проверяет достоверность и принадлежность данных, интегрируя результат в бизнес-процессы.
У нас активно развиваются llm/vllm в применимости к документам:
Cовременные OCR системы на базе Qwen, PaddleOCR и т.п.
LLM модели для анализа и саммаризации документов.
Агентские системы для автоматизации роутинга потока документов.
Вы будете
Определять архитектуру и разрабатывать end-to-end ML пайплайны для обработки документов: от приёма сырого изображения до валидированного структурированного вывода.
Проводить research, выбирать и дообучать state-of-the-art модели для задач CV и NLP: детекция и классификация документов, OCR (печатный/рукописный текст, таблицы), Key Information Extraction (KIE), верификация подлинности и т.п.
Оптимизировать модели для production (квантизация, дистилляция, работа с Triton/OpenVINO) и обеспечивать их масштабируемость и надёжность в высоконагруженной системе.
Проводить A/B-тесты новых алгоритмов, анализировать их влияние на бизнес-метрики (качество, скорость, стоимость).
Заниматься не только обучением моделей, но и внедрением их в production.
Интегрировать решения с ML-платформой и инфраструктурой Ozon.
Быть наставником для других участников команды, делиться экспертизой, проводить обзоры архитектурных решений и методологий.
Наш стек
Язык и данные: Python, PostgreSQL, Redis.
CV/NLP: PyTorch, OpenCV, семейство моделей Qwen, LayoutLM, Donut e.t.c.
ML-рантайм и оптимизация: NVIDIA Triton, TensorRT, ONNX, OpenVINO.
MLOps: Airflow, платформа запуска и трекинга экспериментов (MLFlow/ClearML-like).
Инфраструктура: Kubernetes, Docker.
Нам важно
Глубокое экспертное понимание state-of-the-art подходов в Computer Vision.
Способность аргументированно выбирать архитектуры для решения задач бизнеса.
Опыт работы с задачами: OCR (распознавание текста), детекции объектов, сегментации изображений.
Практический опыт внедрения CV-моделей в production: от research и прототипирования до оптимизации, развёртывания в high-load среде, настройки мониторинга.
Готовность и интерес к решению не только CV-задач, но и смежных ML-проблем.
Будет плюсом
Опыт дообучения моделей с использованием адаптеров (LoRA, PEFT и др.).
Опыт работы с задачами few-shot/zero-shot обучения в CV.
Знание методов генерации и использования синтетических данных для обучения.
Мы предлагаем
Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce.
Свободу действий в принятии решений.
Достойный уровень заработной платы.
Прекрасную команду, которой мы гордимся.
Возможность развиваться вместе с нашим бизнесом.