Деякі користувачі у лютому 2024 року заявили, що штучний інтелект Gemini від Google неточно генерує історичні зображення, часто посилюючи гендерні й расові суперечки. У серпні компанія оголосила, що ця функція повертається — спочатку для користувачів Gemini Advanced, Business і Enterprise англійською мовою.
Як Gemini спотворює зображення?
З лютого Google запустив функцію генерування зображень через свою платформу штучного інтелекту Gemini (раніше Bard), намагаючись конкурувати з OpenAI. Однак у соцмережах висловлюють сумніви щодо історичної точності зображень, розмаїття раси та статі.
Колишній співробітник Google написав у X, що «надзвичайно важко змусити Google Gemini визнати існування білих людей», показавши серію запитів на кшталт «згенерувати фотографію шведки» або «згенерувати фотографію американська жінка». Виявилося, що результати переважно або виключно показують людей не європеоїдної раси.
Критику підхопили праві облікові записи. За їхніми словами, під час генерування зображення батьків-засновників вони отримали людей не білої раси.
Деякі користувачі звинуватили Google в змові й закодованому антисемітському посланні.
Журналісти припустили, що це — спроба загалом покращити різноманітність результатів, адже під час генерування текстів чи зображень моделі схильні до відтворення стереотипів. Також вони помітили, що модель відхиляє деякі запити на генерування зображень про історичні події чи осіб певного періоду.
Що говорять у Google?
У Google заявили, що усвідомлюють неточності в деяких згенерованих зображеннях на історичну тематику.
«Ми негайно працюємо над покращенням таких зображень. Gemini справді генерує зображення широкого кола людей. І це загалом добре, тому що ним користуються люди в усьому світі», — йдеться в заяві.
Старший віцепрезидент компанії з питань знань та інформації Google Прабхакар Рагхаван 23 лютого зазначив, що ці проблеми виникли через недоліки алгоритму, який не враховує контекст і іноді виконує команди неякісно.
«Gemini створено як інструмент для творчості та продуктивності, і він не завжди може бути надійним, особливо коли йдеться про створення зображень або тексту про поточні події, нові новини чи актуальні теми. Як ми говорили з самого початку, у всіх великих мовних моделей (LLM) бувають випадки, коли штучний інтелект просто робить щось неправильно. Це те, над чим ми постійно працюємо», — говорить Рагхаван.
Компанія вирішила призупинити створення зображень людей у Gemini, поки працює над підвищенням точності відповідей. Також фахівці намагаються зробити так, щоб технологія не генерувала насильницькі або відверто сексуальні зображення реальних людей.
Gemini може створювати зображення — поки лише англійською мовою, але в більшості країн світу. Створення зображень базується на оновленій моделі Imagen 2. Раніше ми розповідали про запуск і функції моделі Gemini від Google.
Gemini знову може створювати ШІ-зображення людей
З серпня 2024 року Google після скандалу з неточним генеруванням історичних постатей знову дає змогу своїм користувачам створювати зображення людей за допомогою чат-бота. Google оголосила, що «найближчими днями» дасть ранній доступ до цієї функції користувачам Gemini Advanced, Business і Enterprise англійською мовою.
Оновлення засноване на Imagen 3 — новій версії генератора текстових зображень зі штучним інтелектом. Google запустила Imagen 3 на початку серпня. Оновлений інструмент здатний генерувати все — від фотореалістичних пейзажів до текстурованих олійних картин за текстовим описом.
Директор Google з управління продуктами для Gemini Дейв Сітрон розповідає, що оновлена модель Imagen 3 із вбудованими захисними механізмами «виконує кращу роботу порівняно з іншими доступними моделями генерації зображень».
Водночас Gemini забороняє користувачам створювати:
- фотореалістичні зображення публічних людей;
- контент за участю неповнолітніх;
- криваві, насильницькі й сексуальні сцени.
Незабаром Google планує розширити можливість створювати ШІ-зображення людей для більшої кількості користувачів і мов.