Модель штучного інтелекту Gemini від Google: від запуску до оновлень (оновлено)

П’ятниця, 2 Травня, 2025

Дар'я Трапезнікова

Компанія Google у грудні 2023 року представила модель Gemini 1.0, яка є її найпотужнішою та найбільш загальною моделлю штучного інтелекту. Поступово її інтегрували у сервіси компанії, а також вона буде доступною на смартфоні Google Pixel 8 Pro. Протягом 2024 року ШІ-модель неодноразово оновлювалася — хронологію змін збираємо в цьому матеріалі. Характеристики моделі Google Gemini

Мультимодальність

Gemini є результатом масштабних спільних зусиль команд Google, зокрема Google Research. Її від початку створили мультимодальною, тобто вона може узагальнювати та бездоганно розуміти, оперувати та поєднувати різні типи інформації, включно з текстом, кодом, аудіо, зображенням та відео. Потім модель налаштували за допомогою додаткових мультимодальних даних для більшої ефективності. 

До цього часу стандартний підхід до створення мультимодальних моделей передбачав навчання окремих компонентів для різних модальностей. Тобто одна часткова модель розуміла тільки текст чи тільки відео. Потім їх поєднували, щоб імітувати якусь комплексну функцію, наприклад описувати зображення. Але таким гібридам важко здійснювати складні міркування. 

Результати тестів

Від природного розуміння зображення, аудіо та відео до математичних міркувань — продуктивність Gemini Ultra перевищує результати інших моделей за 30 із 32 широко використовуваних академічних тестів, які використовуються в дослідженнях і розробленні великої мовної моделі (LLM).

З результатом у 90 % Gemini Ultra перевершує людей у тесті ​​MMLU (розумінні мов у багатозадачному режимі), який використовує поєднання 57 предметів, зокрема математики, фізики, історії, права, медицини та етики для тестування розуміння світу та здатності розв’язувати проблеми.

Але дещо в Google перебільшили

Незабаром після презентації стало відомо, що деякі демовідео, що вражали перформансом моделі, насправді не зовсім відповідають дійсності.

«Для цілей цієї демонстрації затримку було зменшено, а дані Gemini скорочені для стислості», — йдеться в описі ролика на YouTube. Це означає, що час, який знадобився для кожної відповіді, насправді був довшим, ніж у відео.

Демонстрація також не проводилася в режимі реального часу чи голосом. На запит колумністки Bloomberg представник Google сказав, що його зробили з «кадрів нерухомого зображення з відзнятого матеріалу та підказок через текст», і вказав на сайт, який показує, як інші можуть взаємодіяти з Gemini за допомогою фотографій їхніх рук. , малюнків чи інших об’єктів. Тобто компанія пообіцяла, що модель може реагувати на навколишній світ у реальному часі, але насправді показувала їй нерухомі зображення.

Які завдання зможе виконувати Gemini

На яких пристроях і потужностях працюватиме модель

Gemini 1.0 навчали в масштабі оптимізованої для штучного інтелекту інфраструктури, використовуючи власну розробку — Google Tensor Processing Units (TPU) v4 і v5e. 

На TPU Gemini працює значно швидше, ніж попередні, менші та менш потужні моделі. Ці спеціально розроблені прискорювачі AI були основою продуктів Google на основі AI, які обслуговують мільярди користувачів, як-от Пошук, YouTube, Gmail, Карти Google, Google Play і Android. 

Разом із моделлю анонсували найпотужнішу, ефективнішу та масштабовану систему TPU на сьогодні, Cloud TPU v5p , призначену для прискорення навчання найсучасніших моделей ШІ. 

У Google обіцяють, що Gemini ефективно працюватиме на будь-якому пристрої: від центрів оброблення даних до мобільних пристроїв. 

Чим відрізняються версії моделі

Gemini 1.0 оптимізували у три формати:

Безпека

Для Gemini проводять найповніші оцінки безпеки з усіх моделей штучного інтелекту Google на сьогоднішній день, зокрема щодо упередженості та токсичності, кіберзлочинів, переконання та автономії. До цього підключили не лише команду Google Research, а й зовнішніх експертів і партнерів.

Щоб обмежити потенційну шкоду від згенерованого контенту, в Google створили спеціальні класифікатори безпеки, щоб ідентифікувати, маркувати та сортувати контент із насильством чи негативними стереотипами. Крім того, в компанії далі шукають розв’язання таких відомих проблем для таких моделей, як фактичність, обґрунтування, атрибуція та підтвердження.

Запуск Gemini 1.5 Flash

З 25 липня 2024 року оновлена модель Gemini 1.5 Flash стала доступною понад 40 мовами (зокрема й українською) в понад 230 країнах. Про це повідомили в офіційному блозі Google.

Розробники обіцяють швидші та якісніші відповіді, покращення аргументації та розумінні зображень: «Ми вчетверо збільшили кількість токенів Gemini до 32K. Це означає, що ви зможете вести довші діалоги й ставити Gemini складніші запитання». 

Незабаром користувачі зможуть завантажувати файли через Google Диск або безпосередньо зі свого пристрою в Gemini. Також оновлена модель надаватиме покликання на пов’язані матеріали до відповідей на запити: «Це не обмежується лише вебсайтами: якщо відповідь Gemini покликається на інформацію, знайдену за допомогою розширення Gmail, ви також побачите вбудовані покликання на відповідні електронні листи». 

Функція подвійної перевірки дає змогу Gemini перевіряти відповіді за допомогою пошуку в Google. З липня чат-бот стане доступний у Google-повідомленнях у країнах ЄС, Великої Британії та Швейцарії. 

Також розробники запускають мобільний застосунок Gemini у більшій кількості країн. І відтепер підлітки, які досягли мінімального віку для керування обліковим записом Google, зможуть користуватися Gemini. 

У яких продуктах використовуватимуть Google Gemini

Bard перетворюється на Gemini 

8 лютого 2024 року Google перейменував чатбот Bard на Gemini та випустив окремий застосунок для Android. 

Ми вже писали, що Bard (відтепер Gemini — ред.), став доступний 40 мовами. Завдяки застосунку Gemini можна встановити помічником замість Google Assistant. Його можна завантажити на Android і після фрази користувача — «Hey Google» автоматично відкриється діалогове вікно чатбота. На iOS окремого застосунку поки що немає, але доступ до ШІ можна отримати в застосунку Google.

Нагадаємо, чат-бот від Google Bard запустили в березні 2023 року майже одночасно з Bing AI від Microsoft. У липні Bard став доступним в Україні, а восени отримав низку оновлень, зокрема, можливість користуватися даними з інших служб Google.

Також компанія відкрила платний доступ до Gemini Ultra. За словами розробників, нова версія набагато краще здатна на міркування, виконання інструкцій, кодування й творчу співпрацю. 

«Наприклад, це може бути особистий репетитор, адаптований до вашого стилю навчання. Або це може бути креативний партнер, який допоможе вам спланувати контент-стратегію чи створити бізнес-план», — ідеться в повідомленні.

Gemini Ultra доступна за $20 на місяць.

Інші служби

Найближчими місяцями Gemini буде доступний у інших продуктах і службах, таких як Search, Ads, Chrome і Duet AI. Також модель експериментально впроваджують у пошук, щоби удосконалювати Search Generative Experience — згенеровані ШІ результати пошукової видачі.

API

Починаючи з 13 грудня, розробники та корпоративні клієнти можуть отримати доступ до Gemini Pro через Gemini API у Google AI Studio або Google Cloud Vertex AI .

Google AI Studio — це безкоштовний веб-інструмент розробника для створення прототипів і швидкого запуску програм за допомогою ключа API. Коли настає час для повністю керованої платформи штучного інтелекту, Vertex AI дозволяє налаштувати Gemini з повним контролем даних і перевагами додаткових функцій Google Cloud для корпоративної безпеки, безпеки, конфіденційності та керування даними та відповідності.

Gemini складе конкуренцію моделям від інших відомих розробників штучного інтелекту, зокрема GPT-4 від OpenAI, на які працює не лише преміумверсія ChatGPT, а й Bing Chat від Microsoft. Нещодавно OpenAI представила оновлену GPT-4 Turbo, яка має нижчу ціну на токени й може обробляти більше даних.

Утім, навіть попри стрімкий розвиток моделей штучного інтелекту та різноманітних корисних сервісів, до їхніх «міркувань» все ще треба ставитися обережно. Ми писали про те, як найпопулярніші чат-боти генерують дезінформацію.

Зміни для користувачів Android

Google з липня 2024 року дав змогу користувачам отримувати відповіді від Gemini без розблокування пристрою. Якщо натиснути на текстове поле, а потім ідентифікуватися відбитком пальця, то одразу з’явиться клавіатура для введення запиту. Така активація Gemini допоможе ставити «загальні питання» на кшталт яка сьогодні погода.

До цього Gemini міг керувати лише будильниками й таймерами, медіа й деякими функціями телефону, наприклад, гучністю. Тепер користувачі Android зможуть увімкнути нову опцію «Gemini на екрані блокування» на головній сторінці налаштувань. Перемикач «Відповіді Gemini на екрані блокування» доповнює наявну опцію «Google Assistant на екрані блокування». 

Як ШІ допомагатиме користувачам Gmail? 

Google із серпня 2024 року оновлює інструменти Gemini для написання листів у Gmail. Нова функція «Допоможіть мені написати» дасть змогу відшліфувати листи користувачів, наприклад, формалізувати або скоротити їх. Компанія також додала спеціальні ярлики на позначення інструментів зі штучним інтелектом, які з’являються в тексті електронних листів на Android та iOS. 

Відкривши порожню чернетку, користувач можна натиснути на ярлик «Допоможіть мені написати», щоб Gemini створив для нього чернетку тексту. Коли в чернетці з’явиться понад 12 слів, то з’явиться новий ярлик «Доопрацювати чернетку». Далі можна обрати опції: відшліфувати, формалізувати, доопрацювати або скоротити текст, або ж попросити Gemini написати нову чернетку. 

ШІ-інструмент доступний користувачам Google One AI Premium або тим, хто придбав застосунок Gemini для Google Workspace. 

Google у жовтні розширює функцію «Допоможи мені написати» й додає новий ярлик «полірування». Опція «полірування» з’явиться в чернетках імейлів, що містять понад 12 слів. У вебверсії Gmail користувачі можуть натиснути ярлик або ввести Ctrl + H, щоб ШІ допоміг допрацювати електронний лист.

Функція «Допоможи мені написати» доступна лише користувачам, які підписалися на Google One AI Premium або вбудований Gemini для Workspace. Окрім створення чернетки листа, «Допоможи мені написати» також може давати поради щодо формалізації, деталізації або скорочення повідомлення.

Gemini Live українською мовою

У листопаді 2024 року компанія Google оголосила про розширення Gemini Live на понад 40 мов, серед них і українська. Мовне розширення спочатку стане доступним на Android, а потім для iOS.

Як повідомили у блозі «Google Україна», Gemini Live підтримуватиме розмови двома мовами на одному пристрої. Для вибору мови на телефоні чи планшеті Android необхідно відкрити застосунок Google і вгорі натиснути на своє фото профілю чи ініціали. Далі:

У компанії додали, що підтримка нових мов у Gemini Live впроваджується поетапно, тому доступ до певних мов може з’явитися не одразу для всіх користувачів. 

Gemini в Spotify

Spotify в листопаді 2024 року отримав розширення Gemini. Штучний інтелект після голосових запитів може відтворювати музику, знайдену за назвами пісень, іменами виконавців, назвами альбомів, плейлистів тощо.

Оновлення вже доступне на Android, спочатку користувачам необхідно в Gemini Apps зв’язати акаунти Spotify і Google, а також увімкнути функцію Gemini Apps Activity, що може зберігати запити до штучного інтелекту до 72 годин.

Як пише The Verge, Spotify — другий застосунок не від Google, який отримав можливості Gemini. У жовтні ШІ-бот став доступний у WhatsApp.

Доступ до Gemini 2.0

У застосунку ШІ-чатбота Gemini з лютого 2025 року відкрили доступ до експериментальної моделі Gemini 2.0 Flash Thinking. Ця модель уміє розбивати запити на серію кроків для кращого обмірковування. За словами розробників, серія моделей Flash здатна до мультимодального обґрунтування великих обсягів інформації з контекстним вікном.

2.0 Flash загальнодоступна для користувачів у ШІ-продуктах від Google, незабаром у ній з’явиться створення зображень і синтез мовлення.

Також Google випустив експериментальну версію Gemini 2.0 Pro для кодування та складних підказок. Вона доступна в Google AI Studio та Vertex AI , а також у програмі Gemini для користувачів Gemini Advanced. І Gemini 2.0 Flash-Lite — найекономніша модель — відтепер у загальному доступні в Google AI Studio та Vertex AI.

Історія чату з Gemini 

З 17 лютого 2025 року Gemini може запам’ятовувати історію чату й використовувати цю інформацію для відповідей на запити користувачів.

«Це означає, що вам більше не доведеться починати з нуля або шукати попередню тему розмови. Крім того, ви можете відштовхуватися від попередніх розмов або проєктів, які ви вже розпочали», — пояснили в Google.

Користувачі самостійно контролюють, яка саме інформація зберігається — можуть її переглянути, видалити або вирішити, як довго зберігати історію чату. Також можна повністю вимкнути історію чату Gemini, перейшовши в розділ «Моя активність».

З лютого нова функція працює англійською мовою для передплатників Gemini Advanced через преміумплан Google One AI Premium Plan на вебсторінці та в мобільному застосунку Gemini. Пізніше історію чатів запустять на інших мовах, а також для клієнтів Google Workspace для бізнесу й підприємств.

Персоналізація в Gemini 

Компанія Google 13 березня запустила експериментальну модель Gemini 2.0 Flash Thinking. ШІ-модель із персоналізацією дає змогу Gemini підключатися до програм користувачів і служб Google, щоб надавати їм відповіді під їхні потреби. Про це йдеться в офіційному блозі компанії.

Gemini може адаптувати свої відповіді на основі попередніх пошукових запитів користувачів, заощаджуючи час і надаючи більш точні відповіді. Щоб під’єднатися до історії пошуку, необхідно в Gemini Apps вибрати опцію «Персоналізація».

Коли користувач уводить запит, Gemini аналізує його та визначає, чи може історія пошуку якось покращити відповідь.

Розробники наводять приклади підказок, які можна ставити Gemini з увімкненою персоналізацією:

З березня Gemini з персоналізацією запускається як експериментальна функція для передплатників Gemini та Gemini Advanced. Нині він доступний понад 45 мовами та в більшості країн світу.

Відео в режимі реального часу

Google з 24 березня розгортає нові функції штучного інтелекту для Gemini Live, які дають змогу «бачити» екран користувача або через камеру смартфона та відповідати на запитання в режимі реального часу.  Ще на початку березня компанія заявила, що ця функція доступна для передплатників Gemini Advanced як частину плану Google One AI Premium.

Інша нова функція Astra — це відео в реальному часі, що дає змогу Gemini інтерпретувати канал із камери смартфона в режимі реального часу та відповідати на запитання щодо нього.

Генерування відео в Gemini

З квітня 2025 року в Gemini Advanced текстові підказки можна перетворити на восьмисекундні анімовані кліпи. Створювати й ділитися відео можна за допомогою відеомоделі Veo 2. Функція доступна для підписників Google One AI Premium, повідомили в офіційному блозі Google.

Як зазначають розробники, Veo 2 — стрибок у створенні відео високої роздільної здатності з кінематографічним реалізмом. Veo 2 краще розуміє будову реального світу та руху людини, а тому рух персонажів плавніший, сцени реалістичні, є дрібні візуальні деталі в різних сюжетах і стилях. Можна створювати восьмисекундний відеокліп із роздільною здатністю 720p. Відео зберігається як файл MP4 в альбомному форматі 16:9.

Щоб створити відео в Gemini, потрібно описати сцену, яку ви хочете згенерувати — коротку історію, візуальну концепцію чи окрему сцену.

Редагування фото в Gemini 

Gemini у травні 2025 року отримав нові інструменти для створення й редагування зображень — тепер можна змінювати як ШІ-генеровані, так і власні фото. Сервіс розгортатиметься протягом травня у ​​більшості країн світу й отримає підтримку понад 45 мов.

За словами розробників, Gemini пропонує багатоетапний процес редагування фото —  «багатші, більш контекстуальні відповіді на запит з інтегрованим текстом і зображеннями». Можна змінювати фон зображень, об’єкти, додавати елементи тощо.

Наприклад, користувач може завантажити свою фотографію та запропонувати Gemini створити зображення того, як би він виглядав із різними кольорами волосся. Або можна попросити ШІ написати казку й додати зображення до неї.

Google | ШІ