H
HireSeeker
ozon

Senior ML инженер (CV, OCR, NLP), Группа разработки ML-инструментов

ozon · Москва · 14 июн.

Зарплата не указана

Привет! Это команда разработки ERP и учётных систем. Мы управляем финансами клиентов, миллионами договоров с контрагентами и зарплатами тысяч сотрудников через ЭДО.

Сейчас мы ищем Senior ML-инженера в команду разработки ML-инструментов.

Мы создаём ядро интеллектуальной обработки документов — систему, которая автоматизирует работу с сотнями типов документов на разных языках. Ежедневно десятки тысяч контрагентов предоставляют пакеты документов. Наша задача — не просто их распознать, а построить интеллектуальный пайплайн, который автоматически извлекает, структурирует и проверяет достоверность и принадлежность данных, интегрируя результат в бизнес-процессы.

У нас активно развиваются llm/vllm в применимости к документам:

  • Cовременные OCR системы на базе Qwen, PaddleOCR и т.п.

  • LLM модели для анализа и саммаризации документов.

  • Агентские системы для автоматизации роутинга потока документов.

Вы будете

  • Определять архитектуру и разрабатывать end-to-end ML пайплайны для обработки документов: от приёма сырого изображения до валидированного структурированного вывода.

  • Проводить research, выбирать и дообучать state-of-the-art модели для задач CV и NLP: детекция и классификация документов, OCR (печатный/рукописный текст, таблицы), Key Information Extraction (KIE), верификация подлинности и т.п.

  • Оптимизировать модели для production (квантизация, дистилляция, работа с Triton/OpenVINO) и обеспечивать их масштабируемость и надёжность в высоконагруженной системе.

  • Проводить A/B-тесты новых алгоритмов, анализировать их влияние на бизнес-метрики (качество, скорость, стоимость).

  • Заниматься не только обучением моделей, но и внедрением их в production.

  • Интегрировать решения с ML-платформой и инфраструктурой Ozon.

  • Быть наставником для других участников команды, делиться экспертизой, проводить обзоры архитектурных решений и методологий.

Наш стек

  • Язык и данные: Python, PostgreSQL, Redis.

  • CV/NLP: PyTorch, OpenCV, семейство моделей Qwen, LayoutLM, Donut e.t.c.

  • ML-рантайм и оптимизация: NVIDIA Triton, TensorRT, ONNX, OpenVINO.

  • MLOps: Airflow, платформа запуска и трекинга экспериментов (MLFlow/ClearML-like).

  • Инфраструктура: Kubernetes, Docker.

Нам важно

  • Глубокое экспертное понимание state-of-the-art подходов в Computer Vision.

  • Способность аргументированно выбирать архитектуры для решения задач бизнеса.

  • Опыт работы с задачами: OCR (распознавание текста), детекции объектов, сегментации изображений.

  • Практический опыт внедрения CV-моделей в production: от research и прототипирования до оптимизации, развёртывания в high-load среде, настройки мониторинга.

  • Готовность и интерес к решению не только CV-задач, но и смежных ML-проблем.

Будет плюсом

  • Опыт дообучения моделей с использованием адаптеров (LoRA, PEFT и др.).

  • Опыт работы с задачами few-shot/zero-shot обучения в CV.

  • Знание методов генерации и использования синтетических данных для обучения.

Мы предлагаем

  • Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce.

  • Свободу действий в принятии решений.

  • Достойный уровень заработной платы.

  • Прекрасную команду, которой мы гордимся.

  • Возможность развиваться вместе с нашим бизнесом.