OpenAI розробила нову модель штучного інтелекту під назвою Sora, що створює відео із реалістичними сценами на основі текстових інструкцій. Після оцінювання ризиків і неточностей доступ до моделі відкриють спочатку для художників, дизайнерів і режисерів, щоб отримати відгук. Про це компанія повідомила у своєму блозі.
Що може робити Sora?
Sora може створювати відео тривалістю до хвилини, зберігаючи візуальну якість і дотримуючись текстових підказок користувача. Нова модель здатна створювати складні сцени з кількома персонажами, типами руху й точними деталями об’єкта й фону. Вона розуміє не лише текстові інструкції, але й як інші речі співіснують у фізичному світі.
За словами розробників, модель має глибше розуміння мови, що дозволяє їй точно інтерпретувати підказки й створювати персонажів, які виражають яскраві емоції. Також Sora може послідовно дотримуватися стилю відео й вигляду персонажів, генеруючи кадри для одного й того ж ролика.
Як розробляли модель?
Sora — це дифузійна модель, що здатна генерувати цілі відео відразу або розширювати тривалість згенерованих відео.
«Надавши моделі прогнозування багатьох кадрів одночасно, ми розв’язували складну проблему того, щоб об’єкт залишався незмінним, навіть якщо він тимчасово зникає з поля зору», — говорять розробники.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Sora спирається на попередні дослідження моделей DALL·E та GPT. Використовувалася техніка повторного копіювання з DALL·E 3, що передбачає генерування чітких описових підписів для даних візуального навчання. Унаслідок цього Sora може точніше виконувати текстові інструкції користувача у згенерованому відео.
Які недоліки ШІ-моделі?
У OpenAI зазначають, що нинішня модель має недоліки з точним моделюванням складної сцени та причинно-наслідковими зв’язками. Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу.
«Модель також може плутати просторові деталі промпта, наприклад, плутати ліворуч і праворуч, і може мати проблеми з точним описом подій, слідуванням певній траєкторії камери», — зазначають розробники.
Настільки безпечна модель?
Перш ніж зробити Sora доступною для всіх користувачів, OpenAI вживе кілька заходів безпеки.
Компанія співпрацює з експертами різних сфер щодо дезінформації, контенту, що пропагує ненависть і упередженість. Також розробляють інструменти, які допомагають виявляти оманливий контент, наприклад класифікатор виявлення, що може визначити, коли Sora створила відео.
«Наприклад, опинившись у продукті OpenAI, наш текстовий класифікатор перевірить і відхилить текстові промпти, які порушують нашу політику використання, наприклад, насильство, сексуальний контент, ненависні зображення, схожість зі знаменитостями чи інших», — йдеться в повідомленні.
У OpenAI створили класифікатори зображень, щоб переконатися, що воно відповідає політиці використання, перш ніж презентувати Sora користувачеві.
«Ми залучатимемо політиків, викладачів і митців у всьому світі, щоб зрозуміти їхні проблеми та визначити позитивні випадки використання цієї нової технології», — додають розробники.
У січні 2024 року OpenAI запустила інтернет-магазин GPT Store, який доступний для платних користувачів. У ньому можна ділитися кастомізованими версіями популярного чат-бота ChatGPT.