Компания Microsoft разработала модель искусственного интеллекта (ИИ) VALL-E. Она способна точно воспроизвести голос любого человека – для этого ИИ достаточно трехсекундного образца.
Отмечается, что голос имитируется нейросетью очень достоверно, с сохранением тембра и эмоциональной окраски голоса спикера.
Преимуществом VALL-E является быстрая обучаемость. Разработчики Microsoft натренировали сеть на голосовых аудиозаписях общей длительностью более 60 000 часов, поэтому теперь для копирования голоса системе достаточно “послушать” любой голос в течение всего трех секунд.
Примеры того, как работает нейросеть, доступны на GitHub. Отличить “голос” нейросети от оригинала действительно практически невозможно.
Пользователям соцсетей разработка напомнила знаменитую сцену из второй части “Терминатора”, где робот Т-1000 сымитировал голос приемной матери главного героя.
В настоящее время технологии VALL-E нет в общем доступе, так как разработчики считают, что репликации голосов людей могут быть использованы злоумышленниками в корыстных целях.