ML-разработчик в команду синтеза речи

яндекс · 17 июн.

↑ Вакансия с автоподнятием

Зарплата не указана

Мы команда синтеза речи и отвечаем за качественную автоматическую озвучку голосами в продуктах Яндекса, включая Алису, перевод видео в Яндекс Браузере, виртуального рассказчика в Букмейте.
Сейчас в синтезе речи наступает эпоха перехода от low resource (даже для основных языков) к большим данным и претрейнам. Новые модели позволяют спеть известные песни другим голосом или произнести любую фразу (даже на другом языке) всего по нескольким секундам вашей записанной речи. Для масштабной работы у нас есть:
* множество DL-исследований на PyTorch;
* сотни современных видеокарт для наших экспериментов;
* мощь Толоки и асессоров для разметки данных;
* большие языковые модели Яндекса, обученные на огромных корпусах текста;
* высокопроизводительный продакшн на GPU и C++;
* активно развивающийся продукт и сильная команда.

Обучать TTS-модели для перевода видео

Качество озвучки в переводе видео существенно влияет на пользовательский опыт. Представьте, что дубляж вашего любимого сериала был бы озвучен оригинальными актерами с их выразительными интонациями. Чтобы приблизиться к такому будущему, вам предстоит обучать SOTA-модели, которые решают задачу мультиязычного zero-shot-синтеза речи, переноса интонации или эмоции, voice conversion.

Работать с данными

Вам предстоит экспериментировать с подходами к сбору данных из открытых источников, фильтрации данных и тем, как правильно использовать собранные данные для обучения голосового претрейна.

Работать с рантаймом

Перевод видео в Яндекс Браузере — сервис, которым регулярно пользуются миллионы людей, поэтому наш рантайм должен выдерживать большие нагрузки. Вы будете заниматься его ускорением: оптимизировать инференс нейросетей, писать эффективный код для бэкенда.

* Понимаете принципы машинного обучения
* Обучали нейросетевые ML-модели в индустрии или исследовали их
* Хорошо знакомы с Python

* Работали с ML в области голосовых технологий в ASR, голосовой биометрии, text-to-speech или voice conversion
* Работали с NLP или computer vision
* Знаете cuDNN, cuBLAS, CUDA, TensorRT