Нейромережа VALL-E від компанії Microsoft здатна імітувати голоси людей. Для цього штучному інтелекту потрібен голосовий зразок, що триває не більше трьох секунд. Про це повідомляє видання ArsTechnica.

VALL-E ділить зразок голосу на найдрібніші фрагменти та проводить їхнє порівняння з базою даних. Використовуючи наявну інформацію щодо звучання голосів інших людей у різних ситуаціях, штучний інтелект відтворює голос потрібної людини. Виходить надзвичайно правдоподібно та зі збереженням природних інтонацій.

Створення VALL-E базується на двох розробках корпорації Meta. Це бібліотека запису голосів 7 тис. людей Libri-light з загальним хронометражем біля 60 тис. годин та технологія стиснення аудіосигналу EnCodec

Нова нейромережа дозволить створювати  аудіоконтент на основі тексту, підкреслює розробник. Також за її допомогою можливо створювати цілковито оригінальний контент, використовуючи генератор текстів GPT-3.

Раніше ми повідомляли, що американський студент розробив програму, здатну визначити, ким було написано текст: штучним інтелектом чи людиною.

Коменти