Новый удивительный искусственный интеллект Facebook способен преобразовывать речь в текст, не обучаясь транскрипции.


При обучении системы искусственного интеллекта преобразованию речи в текст необходимо использовать много пар аудио и текста. То есть мы даем ИИ звук «это кошка» и такой же транскрибируемый звук, чтобы уметь связывать каждое слово со звуком. Это идеально подходит для широко используемых языков, таких как английский или испанский, но не для языков большинства меньшинств. Однако Facebook утверждает, что нашел решение: wav2vec-U, con “U” de “Без присмотра”.

Что такое wav2vez-U? Это способ построения системы распознавания речи, которая не требует записанной пары. Он просто учится на разделении аудио и текста, что полностью устраняет необходимость в транскрибированном аудио. Для этого в системе используется GAN (антагонистическая генерирующая сеть), которая, согласно Facebook, лицом к лицу конкурирует с лучшими контролируемыми системами нескольких лет назад.

Я попытался расшифровать интервью с помощью Google Instant Transcription, и это было катастрофой, но еще не все потеряно.

Мир возможностей транскрибировать языки меньшинств

Как подробно рассказали Алексей Баевский, Вэй-Нинг Сю, Алексис Коннё и Майкл Аули в блоге Facebook AI, их метод начинается с изучение структуры речи из немаркированного аудио. Используя свою предыдущую модель, wav2vec 2.0, они разделили запись голоса на голосовые единицы, соответствующие отдельным звукам. Например, «кошка», что по-английски «кошка», имеет три звука: «/ K /», «/ AE /» и «/ T /».

Чтобы научить систему понимать слова в звуке, они использовали GAN, который, как и все GAN, состоит из генератора и дискриминатора. Генератор выбирает каждый фрагмент звука, предсказывает фонему, соответствующую звуку на каждом языке и пытается обмануть дискриминатор. Это, по сути, еще одна нейронная сеть, которая была обучена с текстовыми выходами генератора и реальным текстом из разных источников, разделенных на фонемы. Это важно: реальный текст из разных источников, а не расшифровки текста, который мы пытаемся расшифровать.

Задача дискриминатора – оценить, соответствуют ли предсказанные последовательности фонем («/ K /», «/ AE /» и «/ T /», если мы говорим о «кошке») они кажутся реалистичными. Стенограммы первых генераторов никуда не годятся, но со временем и обратной связью дискриминатора они становятся все более и более точными. И это настоящее достижение, поскольку сама система не знает, что «кот» транскрибируется как «кот», а скорее понимает, что из-за звуков, составляющих слово, его следует записать так.

Для тестирования системы Facebook использовал тесты TIMIT и Librispeech и утверждает, что “wav2vec-U является так же точно, как и современные достижения всего несколько лет назад, без использования каких-либо помеченных данных обучения. В целом, эти два теста измеряют производительность на английском языке, языке с большим корпусом устного и транскрибируемого текста. Однако система Facebook более интересен для языков меньшинств, например суахили, татарский или киргизский, набор данных которых меньше.

Это, без сомнения, большой шаг вперед, когда дело доходит до расшифровки голоса. Теперь пора посмотреть, как это реализует Facebook, если вообще это произойдет. С другой стороны, компания Цукерберга опубликовал необходимый код построить эту систему распознавания голоса. Можно найти на Github и любой может получить к нему доступ, чтобы поиграть и протестировать.

Дополнительная информация | Ты есть на Facebook

Leave a Reply

Your email address will not be published. Required fields are marked *