
сбер · г Москва · 6 часов назад
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
Обязанности:
Основные задачи будут лежать в следующих сферах:
Инфраструктура:
RnD:
Эксперименты и метрики:
Обучение VLM на подготовленных данных.
проведение исследований релевантных intrain метрик, бенчмарков для замера качества.
Опыт построения дата пайплайнов и data quality процессов
Опыт работы в production ml команде (большие нагрузки как преимущество)
Понимание задач CV и современных подходов в больших языковых моделях
Опыт решения задач, связанных с влиянием данных на качество VLM
Практический опыт работы с VLM.
комфортный современный офис рядом с м. Кутузовская
возможность выбрать удобный график – офис/гибрид/удаленка (в РФ)
годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
ипотека для сотрудников по дисконтной прогамме
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.