Исследователи из Google AI создали алгоритм Translatotron, который переводит устную речь с одного языка на другой. При этом он не использует текстовую расшифровку, как классические алгоритмы.
Зачем нужен новый алгоритм?
Затем, что он умеет кое-что, чего не умеют предшественники. Обычно перевод устной речи строится так:
- устная фраза переводится в текст;
- текст переводится на другой язык;
- текст на другом языке переводится в устную фразу.
Поскольку исходная и конечная фразы напрямую не связаны, теряются очень важные составляющие речи: интонация и паузы. Новый алгоритм сохраняет при переводе звуковые особенности оригинала.
Как он это делает?
Translatotron работает со спектрограммами. Алгоритм состоит из трёх модулей:
- первый принимает исходную спектрограмму и формирует её версию «на другом языке»;
- второй синтезирует из полученной спектрограммы речь;
- третий при необходимости помогает имитировать оригинальный голос.
По качеству Translatotron уступает классическим решениям. Но, как говорит Google AI, он первый и пока единственный в своём роде. Раньше учёные исследовали саму возможность прямого перевода, поэтому использовали набор данных из ста слов. Translatotron обучали на полноценных языковых корпусах.