Gemini знову може створювати ШІ-зображення людей (оновлено)

Деякі користувачі у лютому 2024 року заявили, що штучний інтелект Gemini від Google неточно генерує історичні зображення, часто посилюючи гендерні й расові суперечки. У серпні компанія оголосила, що ця функція повертається — спочатку для користувачів Gemini Advanced, Business і Enterprise англійською мовою.

Як Gemini спотворює зображення?

З лютого Google запустив функцію генерування зображень через свою платформу штучного інтелекту Gemini (раніше Bard), намагаючись конкурувати з OpenAI. Однак у соцмережах висловлюють сумніви щодо історичної точності зображень, розмаїття раси та статі.

Колишній співробітник Google написав у X, що «надзвичайно важко змусити Google Gemini визнати існування білих людей», показавши серію запитів на кшталт «згенерувати фотографію шведки» або «згенерувати фотографію американська жінка». Виявилося, що результати переважно або виключно показують людей не європеоїдної раси.

Як Gemini бачить «зображення американської жінки».

Критику підхопили праві облікові записи. За їхніми словами, під час генерування зображення батьків-засновників вони отримали людей не білої раси.

Результати для «створити образ батьків-засновників» станом на 21 лютого. Знімок екрана: Аді Робертсон / The Verge

Деякі користувачі звинуватили Google в змові й закодованому антисемітському посланні.

Як Gemini бачить німецьких солдатів 1943 року

Журналісти припустили, що це — спроба загалом покращити різноманітність результатів, адже під час генерування текстів чи зображень моделі схильні до відтворення стереотипів. Також вони помітили, що модель відхиляє деякі запити на генерування зображень про історичні події чи осіб певного періоду.

Що говорять у Google?

У Google заявили, що усвідомлюють неточності в деяких згенерованих зображеннях на історичну тематику.

«Ми негайно працюємо над покращенням таких зображень. Gemini справді генерує зображення широкого кола людей. І це загалом добре, тому що ним користуються люди в усьому світі», — йдеться в заяві.

Старший віцепрезидент компанії з питань знань та інформації Google Прабхакар Рагхаван 23 лютого зазначив, що ці проблеми виникли через недоліки алгоритму, який не враховує контекст і іноді виконує команди неякісно.

«Gemini створено як інструмент для творчості та продуктивності, і він не завжди може бути надійним, особливо коли йдеться про створення зображень або тексту про поточні події, нові новини чи актуальні теми. Як ми говорили з самого початку, у всіх великих мовних моделей (LLM) бувають випадки, коли штучний інтелект просто робить щось неправильно. Це те, над чим ми постійно працюємо», — говорить Рагхаван.

Компанія вирішила призупинити створення зображень людей у Gemini, поки працює над підвищенням точності відповідей. Також фахівці намагаються зробити так, щоб технологія не генерувала насильницькі або відверто сексуальні зображення реальних людей.

Gemini може створювати зображення — поки лише англійською мовою, але в більшості країн світу. Створення зображень базується на оновленій моделі Imagen 2. Раніше ми розповідали про запуск і функції моделі Gemini від Google.

Gemini знову може створювати ШІ-зображення людей

З серпня 2024 року Google після скандалу з неточним генеруванням історичних постатей знову дає змогу своїм користувачам створювати зображення людей за допомогою чат-бота. Google оголосила, що «найближчими днями» дасть ранній доступ до цієї функції користувачам Gemini Advanced, Business і Enterprise англійською мовою.

Оновлення засноване на Imagen 3 — новій версії генератора текстових зображень зі штучним інтелектом. Google запустила Imagen 3 на початку серпня. Оновлений інструмент здатний генерувати все — від фотореалістичних пейзажів до текстурованих олійних картин за текстовим описом.

Директор Google з управління продуктами для Gemini Дейв Сітрон розповідає, що оновлена модель Imagen 3 із вбудованими захисними механізмами «виконує кращу роботу порівняно з іншими доступними моделями генерації зображень».

Водночас Gemini забороняє користувачам створювати:

фотореалістичні зображення публічних людей;
контент за участю неповнолітніх;
криваві, насильницькі й сексуальні сцени.

Незабаром Google планує розширити можливість створювати ШІ-зображення людей для більшої кількості користувачів і мов.

Як Gemini спотворює зображення?

Що говорять у Google?

Gemini знову може створювати ШІ-зображення людей

Читайте також

Шукаєте інформацію про медіа та можливості для них? Підписуйтеся на новий проєкт «Рівні медіа»

«Медіамейкер» зупиняє роботу. Що буде далі?

«Китайське обладнання з польськими етикетками». Розслідування від «18000» про те, яке медобладнання в Черкасах купують за десятки мільйонів гривень

22 пацієнти втратили зір після ін’єкцій. Як NGL.media розбиралися в тому, що сталося в офтальмології на Тернопільщині

Незадекларована розкіш. Як «18000» вивчали розрив між доходами та способом життя родини секретаря Черкаської міськради

Безплатний курс із PR від комунікаційної академії «КомА» (реєстрація до 6 липня)

Хто ми?

Медіамейкер

Розділи

Соцмережі