Застосунок NotebookLM від Google з вересня 2024 року отримав функцію Audio Overview. Штучний інтелект на основі документів користувачів має змогу генерувати аудіо, що виглядають як подкасти із двома ведучими. У жовтні Meta випустила «відкриту» версію NotebookLM. Як це працює розповідає The Verge.
Як ШІ генерує аудіо в NotebookLM?
Audio Overview базується на наявних функціях NotebookLM, які допомагають штучному інтелекту взаємодіяти з нотатками, стенограмами й іншими документами користувачів. У аудіоверсії ШІ-ведучі підсумовують матеріал, встановлюють зв’язки між темами й жартують.
The Verge випробував Audio Overview на своїх нотатках про винахід лампочки. Під час 10-хвилинного огляду ШІ-ведучі обговорювали, що Томас Едісон був не єдиною людиною, яка стояла за лампочкою, і що «зрештою, це історія про командну роботу й про те, як втілити мрію в життя».
«Ведучих можна сплутати з реальними подкастерами, вони навіть використовувати сучасні фрази. Було ще кілька дивацтв, штучний інтелект додав певні слова та фрази, наприклад “П-Л-Ю-С”. Або один ШІ-ведучий назвав “платину” “брязкальцем”», — ідеться в експерименті The Verge.
Для роботи з Audio Overview необхідно відкрити «Блокнот» у NotebookLM, а потім натиснути «Завантажити» на вкладці «Аудіоогляд».
Чи є якісь обмеження?
Google у своєму анонсі додає, ця функція «не є вичерпним або об’єктивним поглядом на тему, а просто відображає нотатки користувачів».
Створення аудіодискусії, схожої на подкаст, може зайняти кілька хвилин, і вона доступна лише англійською мовою. Також цей ШІ-інструмент не завжди точний.
Оновлення в генеруванні ШІ-подкастів
У жовтні стало відомо, що Meta випускає «відкриту» версію генерування подкастів у Google NotebookLM. Проєкт під назвою NotebookLlama використовує власні моделі для оброблення матеріалів і генерує дайджести текстових файлів у стилі подкастів.
Як пише видання TechCrunch, NotebookLlama створює стенограму з файлу, наприклад, у форматі PDF статті або публікації у блозі. Потім додає «драматизації» перед подачею стенограми до відкритих моделей синтезу мовлення.
Підхід до написання подкасту полягає в тому, щоб двоє ШІ-ботів обговорювали цікаву тему та писали план подкасту. Хоча озвучка таких подкастів не дуже якісна, дослідники Meta кажуть, що якість подкастів можна покращити в потужніших моделей.
«Модель перетворення тексту в мовлення має обмеження щодо того, наскільки природно це звучатиме», — пояснюють розробники.