Американские исследователи смогли создать прототип системы, который считывает беззвучную речь при помощи электродов на лице и шее, превращая ее в слышимую речь с помощью нейросети.
Это позволит создать Bluetooth-гарнитуру, через которую можно будет разговаривать по телефону, не издавая звуков. Также данная технология откроет возможность создать искусственный голосовой аппарат для людей с проблемами речи. Авторы представили разработку на конференции EMNLP 2020 и получили награду за лучшую статью.
При чтении «про себя» обычно мы не произносим слова вслух, но мозг всё равно заставляет мышцы голосового тракта двигаться, пусть и намного меньше, чем при «обычной» речи – этот процесс называется субвокализацией. Инженеры научились считывать эти мышечные сокращения различными методами — в основном при помощи электромиографии, которая регистрирует электрическую активность мышц при помощи электродов на шее и лице.
Однако существующие интерфейсы для распознавания субвокализации пока способны превращать беззвучную речь лишь в текст, поэтому американские учёные из Калифорнийского университета в Беркли решили разработать алгоритм, который мог бы «озвучивать» мышечные сокращения. Его обучили на трёх типах данных: записи слышимой речи и активности мышц как во время слышимой, так и неслышимой речи. В основе их метода лежит преобразование исходных сигналов.
В качестве метрики учёные использовали стандартную пословную вероятность ошибки — сумму изменённых, отсутствующих и лишних слов, поделённую на общую длину текста. Для простых фраз, наподобие дат и других чисел, вероятность ошибки полноценной нейросети составила 3,6, а для той, которую обучали только на слышимой речи, она составила 88,8. Для сложных фраз, вроде отрывков из книг, разница была не такой большой: 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.
Источник: Popmech