OpenAI розробила нову ШІ-модель, що створює відео з тексту

OpenAI розробила нову ШІ-модель Sora, що створює відео з тексту. Які її переваги та недоліки?

П’ятниця, 16 Лютого, 2024

Дар'я Свистуха

OpenAI розробила нову модель штучного інтелекту під назвою Sora, що створює відео із реалістичними сценами на основі текстових інструкцій. Після оцінювання ризиків і неточностей доступ до моделі відкриють спочатку для художників, дизайнерів і режисерів, щоб отримати відгук. Про це компанія повідомила у своєму блозі.

Що може робити Sora? 

Sora може створювати відео тривалістю до хвилини, зберігаючи візуальну якість і дотримуючись текстових підказок користувача. Нова модель здатна створювати складні сцени з кількома персонажами, типами руху й точними деталями об’єкта й фону. Вона розуміє не лише текстові інструкції, але й як інші речі співіснують у фізичному світі.

Скриншот із відео, що створила Sora за підказкою: «Історичні кадри Каліфорнії під час золотої лихоманки».

За словами розробників, модель має глибше розуміння мови, що дозволяє їй точно інтерпретувати підказки й створювати персонажів, які виражають яскраві емоції. Також Sora може послідовно дотримуватися стилю відео й вигляду персонажів, генеруючи кадри для одного й того ж ролика.

Як розробляли модель? 

Sora — це дифузійна модель, що здатна генерувати цілі відео відразу або розширювати тривалість згенерованих відео. 

«Надавши моделі прогнозування багатьох кадрів одночасно, ми розв’язували складну проблему того, щоб об’єкт залишався незмінним, навіть якщо він тимчасово зникає з поля зору», — говорять розробники. 

Sora спирається на попередні дослідження моделей DALL·E та GPT. Використовувалася техніка повторного копіювання з DALL·E 3, що передбачає генерування чітких описових підписів для даних візуального навчання. Унаслідок цього Sora може точніше виконувати текстові інструкції користувача у згенерованому відео.

Скриншот відео, що створила Sora за підказкою: «Камера дивиться безпосередньо на кольорові будівлі в Бурано, Італія. Далматин дивиться у вікно будівлі на першому поверсі. Багато людей гуляють і їздять на велосипедах вулицями каналу перед будівлями». 

Які недоліки ШІ-моделі? 

У OpenAI зазначають, що нинішня модель має недоліки з точним моделюванням складної сцени та причинно-наслідковими зв’язками. Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу.

«Модель також може плутати просторові деталі промпта, наприклад, плутати ліворуч і праворуч, і може мати проблеми з точним описом подій, слідуванням певній траєкторії камери», — зазначають розробники. 

Настільки безпечна модель? 

Перш ніж зробити Sora доступною для всіх користувачів, OpenAI вживе кілька заходів безпеки.

Компанія співпрацює з експертами різних сфер щодо дезінформації, контенту, що пропагує ненависть і упередженість. Також розробляють інструменти, які допомагають виявляти оманливий контент, наприклад класифікатор виявлення, що може визначити, коли Sora створила відео. 

«Наприклад, опинившись у продукті OpenAI, наш текстовий класифікатор перевірить і відхилить текстові промпти, які порушують нашу політику використання, наприклад, насильство, сексуальний контент, ненависні зображення, схожість зі знаменитостями чи  інших», — йдеться в повідомленні. 

У OpenAI створили класифікатори зображень, щоб переконатися, що воно відповідає політиці використання, перш ніж презентувати Sora користувачеві.

«Ми залучатимемо політиків, викладачів і митців у всьому світі, щоб зрозуміти їхні проблеми та визначити позитивні випадки використання цієї нової технології», — додають розробники. 

У січні 2024 року OpenAI запустила інтернет-магазин GPT Store, який доступний для платних користувачів. У ньому можна ділитися кастомізованими версіями популярного чат-бота ChatGPT. 

відео | ШІ | Штучний інтелект