Перейти к содержанию

Asmo news

Авторизация  
  • записей
    5
  • комментариев
    0
  • просмотра
    844

Авторы этого блога

admin

В Google AI обучили  Translatotron — нейросеть, которая принимает на вход аудиозапись с речью и на выходе отдает аудиозапись с той же фразой, переведенной на другой язык. Translatotron может как реплицировать голос человека на входной аудиозаписи, так и использовать стандартный голос. Примеры сгенерированных аудиозаписей можно послушать на странице статьи.

Разработки по переводу из речи в речь ведутся последние несколько десятков лет. Обычно такие системы делятся на три этапа:  автоматическое распознавание речи (перевод из аудиозаписи в текст), машинный перевод (перевод текста на одном языке в текст на другом языке) и синтезирование аудиозаписи из текста. Именно таким образом работает Google Translate. 

В своей работе исследователи из Google предлагают новый подход к speech-to-speech переводу. Модель напрямую переводит из аудиозаписи в аудиозапись и основывается на одной sequence-to-sequence модели с использованием механизма внимания. Такая архитектура имеет несколько преимуществ в сравнении с трехступенчатой — более быстрый инференс модели, нет накопления ошибок между разными моделями, возможность напрямую натренировать модель реплицировать голос на входной аудиозаписи.

Архитектура Translatotron

Translatotron принимает на вход спектограммы (визуальное представление аудиоволн) аудиозаписи и на выходе генерирует спектограммы. Два компонента Translatotron обучаются отдельно:

  • vocoder (конвертирует спектограммы в аудиоволны);
  • кодировщик речи спикера (опциональный компонент, который отвечает за репликацию голоса на входной аудиозаписи)

 

image1-2.png

 

Во время обучения модель использует многозадачную целевую функцию, которая предсказывает транскрипты входной и целевой аудиозаписей одновременно с генерацией спектограмм. Однако во время инференса модели текстовые транскрипты не используются.

Сообщение добавил admin

Google AI разработали нейросеть по переводу речи с одного языка на другой

Авторизация  
admin

24 просмотра

google-AI-Submit-free-articles-directory.jpg.fbdb9c2375424316defe0e1bf3e1671a.jpg

Оценка работы модели

Исследователи для проверки работы модели использовали BLEU метрику. BLEU считалась по текстовым транскриптам, сгенерированным в системе по распознаванию речи. End-to-end подход пока уступает конвенциональному трехступенчатому по эффективности. Однако ценность работы в том, что ранее end-to-end решений в speech-to-speech задаче не было.

 

Авторизация  


0 Комментариев


Рекомендуемые комментарии

Комментариев нет

Гость
Добавить комментарий...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...

Важная информация

By using this site, you agree to our Условия использования.