ШІ, який створює відео з тексту

OpenAI в лютому розробила нову модель штучного інтелекту під назвою Sora, що створює відео із реалістичними сценами на основі текстових інструкцій. Після оцінювання ризиків і неточностей доступ до моделі відкриють спочатку для художників, дизайнерів і режисерів, щоб отримати відгук. Про це компанія повідомила у своєму блозі.

У листопаді 2024 року OpenAI призупинила доступ до Sora після звинувачень із боку митців, які тестували цю ШІ-модель.

Що може робити Sora?

Sora може створювати відео тривалістю до хвилини, зберігаючи візуальну якість і дотримуючись текстових підказок користувача. Нова модель здатна створювати складні сцени з кількома персонажами, типами руху й точними деталями об’єкта й фону. Вона розуміє не лише текстові інструкції, але й як інші речі співіснують у фізичному світі.

Скриншот із відео, що створила Sora за підказкою: «Історичні кадри Каліфорнії під час золотої лихоманки».

За словами розробників, модель має глибше розуміння мови, що дозволяє їй точно інтерпретувати підказки й створювати персонажів, які виражають яскраві емоції. Також Sora може послідовно дотримуватися стилю відео й вигляду персонажів, генеруючи кадри для одного й того ж ролика.

Як розробляли модель?

Sora — це дифузійна модель, що здатна генерувати цілі відео відразу або розширювати тривалість згенерованих відео.

«Надавши моделі прогнозування багатьох кадрів одночасно, ми розв’язували складну проблему того, щоб об’єкт залишався незмінним, навіть якщо він тимчасово зникає з поля зору», — говорять розробники.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Sora спирається на попередні дослідження моделей DALL·E та GPT. Використовувалася техніка повторного копіювання з DALL·E 3, що передбачає генерування чітких описових підписів для даних візуального навчання. Унаслідок цього Sora може точніше виконувати текстові інструкції користувача у згенерованому відео.

Скриншот відео, що створила Sora за підказкою: «Камера дивиться безпосередньо на кольорові будівлі в Бурано, Італія. Далматин дивиться у вікно будівлі на першому поверсі. Багато людей гуляють і їздять на велосипедах вулицями каналу перед будівлями».

Які недоліки ШІ-моделі?

У OpenAI зазначають, що нинішня модель має недоліки з точним моделюванням складної сцени та причинно-наслідковими зв’язками. Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу.

«Модель також може плутати просторові деталі промпта, наприклад, плутати ліворуч і праворуч, і може мати проблеми з точним описом подій, слідуванням певній траєкторії камери», — зазначають розробники.

Настільки безпечна модель?

Перш ніж зробити Sora доступною для всіх користувачів, OpenAI вживе кілька заходів безпеки.

Компанія співпрацює з експертами різних сфер щодо дезінформації, контенту, що пропагує ненависть і упередженість. Також розробляють інструменти, які допомагають виявляти оманливий контент, наприклад класифікатор виявлення, що може визначити, коли Sora створила відео.

«Наприклад, опинившись у продукті OpenAI, наш текстовий класифікатор перевірить і відхилить текстові промпти, які порушують нашу політику використання, наприклад, насильство, сексуальний контент, ненависні зображення, схожість зі знаменитостями чи інших», — йдеться в повідомленні.

У OpenAI створили класифікатори зображень, щоб переконатися, що воно відповідає політиці використання, перш ніж презентувати Sora користувачеві.

«Ми залучатимемо політиків, викладачів і митців у всьому світі, щоб зрозуміти їхні проблеми та визначити позитивні випадки використання цієї нової технології», — додають розробники.

У січні 2024 року OpenAI запустила інтернет-магазин GPT Store, який доступний для платних користувачів. У ньому можна ділитися кастомізованими версіями популярного чат-бота ChatGPT.

«Протест» тестувальників

OpenAI в листопаді 2024 року призупинила доступ до Sora після звинувачень із боку митців, які тестували цю ШІ-модель. Як пише The Washington Post, компанія надала сотні творців: художників, дизайнерів і кінематографістів безплатний ранній доступ до Sora, щоби протестувати інструмент. Після чого майже 20 митців заявили, що OpenAI скористалася їхньою неоплачуваною працею і використовувала їх для покращення іміджу компанії.

«Сотні митців неоплачувано працювали над тестуванням помилок, зворотним зв’язком та експериментальною роботою для компанії вартістю $150 млрд», — заявила частина учасників тестування.

На їхню думку, в обмін на допомогу компанії їм пропонують «мінімальну компенсацію, що блідне проти маркетингової цінності їхньої роботи». Група митців закликала всіх, хто поділяє їхні погляди, підписати відкритий лист проти OpenAI. Станом на 26 листопада він отримав майже 100 підписів.

Представник OpenAI Ніко Фелікс заявив, що компанія тимчасово призупиняє доступ всіх користувачів до Sora, поки розбирається в ситуації.

«Сотні розробників у нашій альфа-версії розвивали Sora, допомагаючи визначати пріоритети нових функцій і засобів захисту. Участь є добровільною, без зобов’язань надавати відгуки або використовувати інструмент», — пояснив Фелікс.

Перший публічний запуск

У грудні 2024 року OpenAI випускає для користувачів ChatGPT Plus і Pro покращену модель Sora Turbo. Розробники обіцяють, що вона працює значно швидше за модель, анонсовану в лютому цього року.

Нові можливості

Користувачі Sora Turbo можуть створювати відео з роздільною здатністю до 1080p і тривалістю до 20 секунд із широкоформатним, вертикальним або квадратним співвідношенням сторін.

Новий інтерфейс обіцяє полегшити постановку завдань Sora за допомогою тексту, зображень і відео, а інструмент розкадрування дасть змогу точно вказувати вхідні дані для кожного кадру.

Sora є частиною облікового запису Plus без додаткової оплати. Користувачі зможуть створювати до 50 відео з роздільною здатністю 480p або менше відео з роздільною здатністю 720p щомісяця.

Для розширення функцій є план Pro, що включає вдесятеро більше використання, вищу роздільну здатність і довшу тривалість.

Обмеження та захист

Sora не входить до ChatGPT Team, Enterprise або Edu. Наразі відеогенератор недоступний користувачам молодше 18 років. Користувачі можуть отримати доступ до Sora скрізь, де доступний ChatGPT, за винятком Великої Британії, Швейцарії та Європейської економічної зони.

Sora має фільтр, що виявляє, чи зображено на згенерованому відео людину, молодшу 18 років. У разі порушень OpenAI застосовує «більш суворий поріг» для модерації, пов’язаний із сексуальним, насильницьким контентом або самоушкодженням.

Відео, згенеровані Sora, постачаються з C2PA метаданими для забезпечення прозорості та можуть використовуватися для перевірки походження. Розробники додали видимі водяні знаки за замовчуванням і створили інструмент внутрішнього пошуку, який використовує технічні атрибути генерувань.

OpenAI заборонила користувачам ділитися створеними відео, де зображені реальні люди.

«Очевидно, що перед OpenAI стоїть велика мета, тому ми хочемо запобігти незаконній діяльності за допомогою Sora, але ми також хочемо збалансувати це з творчим самовираженням», — заявили в компанії.

OpenAI розробила нову ШІ-модель Sora, що створює відео з тексту. Які її переваги та недоліки? (оновлено)

Що може робити Sora?

Як розробляли модель?

Які недоліки ШІ-моделі?

Настільки безпечна модель?

«Протест» тестувальників

Перший публічний запуск

Нові можливості

Обмеження та захист

Читайте також

Шукаєте інформацію про медіа та можливості для них? Підписуйтеся на новий проєкт «Рівні медіа»

«Медіамейкер» зупиняє роботу. Що буде далі?

«Китайське обладнання з польськими етикетками». Розслідування від «18000» про те, яке медобладнання в Черкасах купують за десятки мільйонів гривень

22 пацієнти втратили зір після ін’єкцій. Як NGL.media розбиралися в тому, що сталося в офтальмології на Тернопільщині

Незадекларована розкіш. Як «18000» вивчали розрив між доходами та способом життя родини секретаря Черкаської міськради

Безплатний курс із PR від комунікаційної академії «КомА» (реєстрація до 6 липня)

Хто ми?

Медіамейкер

Розділи

Соцмережі