Google Gemini: характеристики нової моделі штучного інтелекту

Компанія Google представила модель Gemini 1.0, яка є її найпотужнішою та найбільш загальною моделлю штучного інтелекту. Поступово її інтегрують у сервіси компанії, а також вона буде доступна на смартфоні Google Pixel 8 Pro. Про це компанія повідомила на своєму вебсайті.

Характеристики моделі Google Gemini

Мультимодальність

Gemini є результатом масштабних спільних зусиль команд Google, зокрема Google Research. Її від початку створили мультимодальною, тобто вона може узагальнювати та бездоганно розуміти, оперувати та поєднувати різні типи інформації, включно з текстом, кодом, аудіо, зображенням та відео. Потім модель налаштували за допомогою додаткових мультимодальних даних для більшої ефективності.

До цього часу стандартний підхід до створення мультимодальних моделей передбачав навчання окремих компонентів для різних модальностей. Тобто одна часткова модель розуміла тільки текст чи тільки відео. Потім їх поєднували, щоб імітувати якусь комплексну функцію, наприклад описувати зображення. Але таким гібридам важко здійснювати складні міркування.

Результати тестів

Від природного розуміння зображення, аудіо та відео до математичних міркувань — продуктивність Gemini Ultra перевищує результати інших моделей за 30 із 32 широко використовуваних академічних тестів, які використовуються в дослідженнях і розробленні великої мовної моделі (LLM).

З результатом у 90 % Gemini Ultra перевершує людей у тесті MMLU (розумінні мов у багатозадачному режимі), який використовує поєднання 57 предметів, зокрема математики, фізики, історії, права, медицини та етики для тестування розуміння світу та здатності розв’язувати проблеми.

Але дещо в Google перебільшили

Незабаром після презентації стало відомо, що деякі демовідео, що вражали перформансом моделі, насправді не зовсім відповідають дійсності.

«Для цілей цієї демонстрації затримку було зменшено, а дані Gemini скорочені для стислості», — йдеться в описі ролика на YouTube. Це означає, що час, який знадобився для кожної відповіді, насправді був довшим, ніж у відео.

Демонстрація також не проводилася в режимі реального часу чи голосом. На запит колумністки Bloomberg представник Google сказав, що його зробили з «кадрів нерухомого зображення з відзнятого матеріалу та підказок через текст», і вказав на сайт, який показує, як інші можуть взаємодіяти з Gemini за допомогою фотографій їхніх рук. , малюнків чи інших об’єктів. Тобто компанія пообіцяла, що модель може реагувати на навколишній світ у реальному часі, але насправді показувала їй нерухомі зображення.

Які завдання зможе виконувати Gemini

Розпізнавати та розуміти текст, зображення, аудіо та багато іншого одночасно. Завдяки цьому модель краще розуміє нюанси інформації та може відповідати на запитання про складні теми, наприклад, пояснювати міркування щодо математичних і фізичних проблем.
Розуміти, пояснювати та генерувати високоякісний код на найпопулярніших у світі мовах програмування, таких як Python, Java, C++ і Go.
Генерувати комбіновані текст і зображення чи відео.
Зчитувати, що відбувається на зображенні чи відео й пояснювати це тощо.

На яких пристроях і потужностях працюватиме модель

Gemini 1.0 навчали в масштабі оптимізованої для штучного інтелекту інфраструктури, використовуючи власну розробку — Google Tensor Processing Units (TPU) v4 і v5e.

На TPU Gemini працює значно швидше, ніж попередні, менші та менш потужні моделі. Ці спеціально розроблені прискорювачі AI були основою продуктів Google на основі AI, які обслуговують мільярди користувачів, як-от Пошук, YouTube, Gmail, Карти Google, Google Play і Android.

Разом із моделлю анонсували найпотужнішу, ефективнішу та масштабовану систему TPU на сьогодні, Cloud TPU v5p , призначену для прискорення навчання найсучасніших моделей ШІ.

У Google обіцяють, що Gemini ефективно працюватиме на будь-якому пристрої: від центрів оброблення даних до мобільних пристроїв.

Чим відрізняються версії моделі

Gemini 1.0 оптимізували у три формати:

Gemini Ultra — найбільша та найпотужніша модель для надскладних завдань. Зараз Google завершує безпекові перевірки й незабаром відкриє доступ для вибраних партнерів і експертів з безпеки та відповідальності для ранніх експериментів, перш ніж розгорнути його для розробників і корпоративних клієнтів на початку 2024 року.
Gemini Pro — найкраща модель для масштабування широкого кола завдань.
Gemini Nano — для виконання завдань на пристрої. Pixel 8 Pro — це перший смартфон, який підтримуватиме функції Gemini Nano на кшталт підсумовування диктофонних записів чи Smart Reply у Gboard для WhatsApp. Розробники Android також зможуть створювати застосунки з використанням Gemini Nano за допомогою нової системної можливості AICore.

Безпека

Для Gemini проводять найповніші оцінки безпеки з усіх моделей штучного інтелекту Google на сьогоднішній день, зокрема щодо упередженості та токсичності, кіберзлочинів, переконання та автономії. До цього підключили не лише команду Google Research, а й зовнішніх експертів і партнерів.

Щоб обмежити потенційну шкоду від згенерованого контенту, в Google створили спеціальні класифікатори безпеки, щоб ідентифікувати, маркувати та сортувати контент із насильством чи негативними стереотипами. Крім того, в компанії далі шукають розв’язання таких відомих проблем для таких моделей, як фактичність, обґрунтування, атрибуція та підтвердження.

У яких продуктах використовуватимуть Google Gemini

Bard перетворюється на Gemini

8 лютого 2024 року Google перейменував чатбот Bard на Gemini та випустив окремий застосунок для Android.

Ми вже писали, що Bard (відтепер Gemini — ред.), став доступний 40 мовами. Завдяки застосунку Gemini можна встановити помічником замість Google Assistant. Його можна завантажити на Android і після фрази користувача — «Hey Google» автоматично відкриється діалогове вікно чатбота. На iOS окремого застосунку поки що немає, але доступ до ШІ можна отримати в застосунку Google.

Нагадаємо, чат-бот від Google Bard запустили в березні 2023 року майже одночасно з Bing AI від Microsoft. У липні Bard став доступним в Україні, а восени отримав низку оновлень, зокрема, можливість користуватися даними з інших служб Google.

Також компанія відкрила платний доступ до Gemini Ultra. За словами розробників, нова версія набагато краще здатна на міркування, виконання інструкцій, кодування й творчу співпрацю.

«Наприклад, це може бути особистий репетитор, адаптований до вашого стилю навчання. Або це може бути креативний партнер, який допоможе вам спланувати контент-стратегію чи створити бізнес-план», — ідеться в повідомленні.

Gemini Ultra доступна за $20 на місяць.

Інші служби

Найближчими місяцями Gemini буде доступний у інших продуктах і службах, таких як Search, Ads, Chrome і Duet AI. Також модель експериментально впроваджують у пошук, щоби удосконалювати Search Generative Experience — згенеровані ШІ результати пошукової видачі.

API

Починаючи з 13 грудня, розробники та корпоративні клієнти можуть отримати доступ до Gemini Pro через Gemini API у Google AI Studio або Google Cloud Vertex AI .

Google AI Studio — це безкоштовний веб-інструмент розробника для створення прототипів і швидкого запуску програм за допомогою ключа API. Коли настає час для повністю керованої платформи штучного інтелекту, Vertex AI дозволяє налаштувати Gemini з повним контролем даних і перевагами додаткових функцій Google Cloud для корпоративної безпеки, безпеки, конфіденційності та керування даними та відповідності.

Gemini складе конкуренцію моделям від інших відомих розробників штучного інтелекту, зокрема GPT-4 від OpenAI, на які працює не лише преміумверсія ChatGPT, а й Bing Chat від Microsoft. Нещодавно OpenAI представила оновлену GPT-4 Turbo, яка має нижчу ціну на токени й може обробляти більше даних.

Утім, навіть попри стрімкий розвиток моделей штучного інтелекту та різноманітних корисних сервісів, до їхніх «міркувань» все ще треба ставитися обережно. Ми писали про те, як найпопулярніші чат-боти генерують дезінформацію.

Google представила нову модель штучного інтелекту Gemini (оновлено)

Характеристики моделі Google Gemini

Мультимодальність

Результати тестів

Але дещо в Google перебільшили

Які завдання зможе виконувати Gemini

На яких пристроях і потужностях працюватиме модель

Чим відрізняються версії моделі

Gemini 1.0 оптимізували у три формати:

Безпека

У яких продуктах використовуватимуть Google Gemini

Bard перетворюється на Gemini

Інші служби

API

Читайте також

Контент і його дистрибуція: про що, в яких форматах і на яких платформах регіональні медіа розповідають своїм читачам

Що можуть зробити редакції, щоби молодь читала їхні новини? Дослідження й поради від FT Strategies

Інформаційний голод. На чому розробники навчають ШІ та що буде, коли дані закінчаться

Національний конкурс розвитку та підвищення компетентності громадських організацій та медіа у сфері боротьби з корупцією (заявки до 31 травня)

Навчальна програма «Медіарій: журналістика в умовах війни» від ГО «Інтерньюз-Україна» (заявки до 19 травня)

Національний конкурс підтримки журналістів-розслідувачів від EUACI (заявки до 31 травня)

Хто ми?

Наша команда

Розділи

Соцмережі