Компания Microsoft выпустила VALL-E, искусственный интеллект, который может имитировать любой человеческий голос на основе примера, длящегося всего три секунды. Голос имитируется очень точно, сохраняя тембр и эмоциональную окраску оригинала.
Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка построена на базе технологии EnCodec. В отличие от других методов преобразования текста, которые обычно синтезируют речь, манипулируя волновыми формами, разработка Microsoft, по сути, точно анализирует голос человека, разбивает эту информацию на отдельные «токены» и использует обучающие данные для отображения своих «знаний» о том, как этот голос будет звучать, если ИИ произнесет другие фразы.

VALL-E обучали в библиотеке LibriLight, которая содержит 60 000 часов английской речи более 7 000 человек.
Google продемонстрировал свой ИИ Duplex еще в 2018 году, который также может говорить почти неотличимо от человека, но в центре внимания разработки Microsoft находится не сам ИИ, а его способность имитировать различные голоса.
Источник новости IXBT.