Microsoft запустила функцію Azure AI Speech, яка дає змогу анімувати зображення та синтезувати голос, щоб легше й дешевше створювати відео. Про це компанія пише у своєму блозі.
Навіщо це?
Компанія пояснює впровадження функції тим, що традиційне створення відео потребує багато часу та коштів. Аватар, який може відтворювати текст у вигляді мовлення через голосові моделі, допоможе генерувати відеоконтент ефективніше. Користувачі зможуть користуватися Azure AI Speech для створення навчальних відео, презентацій продуктів тощо. Також функція робить синтезований голос більш природним, ніж він був до цього. Його можна застосовувати для створення віртуальних помічників, чатботів тощо.
Як працює Azure AI Speech?
Щоб створити відео, спершу текст вводять в аналізатор, потім аудіосинтезатор прогнозує акустичні характеристики промови та синтезує голос. Нейронний синтез мовлення синхронізує зображення та звук.
Microsoft пропонує дві окремі функції синтезу мовлення:
- Готовий аватар. Він може говорити різними мовами та голосами. Передплатники можуть обрати з багатьох наявних варіантів потрібний аватар і за допомогою нього створювати відео й інтерактивні програми.
- Користувацький аватар. Передплатники можуть створити персоналізовану модель для власного продукту чи бренду, та завантажити відео, на основі якого вона синтезуватиме мовлення. Можна обрати або готовий, або нейронний голос для аватара. Якщо використовувати голос і зовнішність однієї й тієї самої людини, аватар буде дуже схожий на неї.
Створення спеціального аватара доступне лише після реєстрації та для обмеженого використання. Microsoft зазначає, що розробила функцію синтезу мовлення для захисту прав суспільства, сприяння прозорій взаємодії між людиною та комп’ютером, протидії дезінформації, зокрема дипфейків.
Що вміє Azure AI Speech?
Для створення відеоаватара необхідно:
- За допомогою синтезу мовлення налаштувати голос, а в API Azure TTS 3.1 — відео. Можна вказати характер, позу цифрової моделі та формат відео.
- Додати текст, ілюстрації, анімацію та музику до кінцевого варіанта відео.
На прикладі цифрового помічника в онлайн-магазині Microsoft наводить можливості інтерактивного аватара:
- дає змогу вести діалоги кількома мовами;
- відповідає на запити клієнтів за допомогою моделі Azure Open AI Service GPT -3.5;
- отримує доступ до даних магазину, щоб відповідати на запитання про продукти, статус замовлення, програми лояльності;
- виконує бізнес-операції в режимі реального часу.