У понад 60 % запитів ШІ-моделі неправильно подають джерела

Усе більше людей використовує штучний інтелект замість традиційних пошукових систем. Чат-боти можуть швидко сканувати інтернет у пошуках актуального інформаційного контенту, й це значна перевага для користувачів. Але є й тривожний дисбаланс — традиційні пошукові системи спрямовують авдиторію на новинні сайти, водночас ШІ часто перекриває потік трафіку до першоджерел.

Центр цифрової журналістики Columbia Journalism Review (CJR) спільно з Tow Center for Digital Journalism протестували вісім ШІ-моделей, щоб оцінити їхню точність цитування новинного контенту. Переповідаємо їхні висновки.

Методологія

Дослідники випадковим чином вибрали по 10 статей від різних видань, а потім вручну відібрали уривки з цих матеріалів для використання у запитах. Надавши кожному чат-боту відібрані уривки, вони попросили визначити заголовок відповідної статті, першоджерело, дату публікації та покликання.

Так загалом виконали 600 запитів. Далі фахівці вручну оцінювали відповіді чат-ботів за трьома параметрами:

пошук правильної статті;
правильного видавця;
оригінального покликання.

Відповідно до цих параметрів, кожна відповідь позначена мітками:

Правильна: усі три параметри були правильними.

Правильно, але не повністю: у деяких бракувало інформації.

Частково неправильні: деякі атрибути були правильними, а інші — неправильними.

Повністю неправильна: усі три параметри були неправильними та/або відсутніми.

Не надано: боти не надали інформації.

Наскільки точно відповідають ШІ?

Дослідники виявили, що чат-боти часто відмовлялися відповідати на запитання, пропонуючи натомість неправильні відповіді. Платні чат-боти давали більш упевнені неправильні відповіді, ніж їхні безплатні аналоги.

Кілька чат-ботів обходили налаштування протоколу виключення ботів.

Інші — сфабрикували покликання і цитували синдиковані та скопійовані версії статей.

Раніше ми розповідали, що медіа все частіше блокують вебсканери ШІ. Про причини й способи блокування — дивіться тут.

Загалом ШІ-боти надали неправильні відповіді на понад 60 % запитів. На різних платформах рівень неточності різнився:

Perplexity дав неправильну відповідь на 37 % запитів, водночас Grok 3 мав набагато вищий рівень помилок, давши неправильну відповідь на 94 % запитів.
Більшість протестованих інструментів надавали неточні відповіді з тривожною впевненістю, рідко використовуючи уточнювальні фрази на кшталт «схоже», «можливо» тощо або визнаючи прогалини в знаннях твердженнями на кшталт «я не зміг знайти точну статтю». ChatGPT, наприклад, неправильно визначив 134 статті, але лише 15 разів із 200 відповідей сигналізував про брак упевненості й жодного разу не відмовився надати відповідь.
Copilot відхилив більше питань, ніж відповів.
Преміуммоделі більш упевнено давали неправильні відповіді, ніж їхні безплатні аналоги.

Преміуммоделі Perplexity Pro ($20 на місяць) або Grok 3 ($40 на місяць) мають кращі обчислювальні переваги, але також давали неправильні відповіді. Аналітики помітили одну цікаву деталь: ШІ-моделі отримували інформацію від видавців, які навмисно заблокували свої сайти від пошукових ботів. Це п’ять із восьми чат-ботів, протестованих у дослідженні — ChatGPT, Perplexity і Perplexity Pro, Copilot і Gemini.

ChatGPT, Perplexity і Perplexity Pro демонстрували неочікувану поведінку, попри те, що їм видавці надають доступ для сканування. У деяких випадках чат-боти або неправильно відповідали, або відмовлялися відповідати на запити.

Безплатна версія Perplexity правильно ідентифікувала всі 10 уривків зі статей з National Geographic, навіть попри те, що видання заборонило використання пошукових ботів і не має жодних ліцензійних угод із Perplexity. The New York Times, попри блокування пошуковика в Perplexity став найпопулярнішим новинним сайтом для покликань від чат-бота — із 146 000 запитів за січень. ChatGPT відповів на меншу кількість запитань про статті, які заблокували його пошуковики, але частіше надавав помилкові відповіді. Copilot — єдиний ШІ-бот, не заблокований жодним з видавців у вибірці. Теоретично він мав би отримати доступ до всього контенту, який його запитували, але частіше він не відповідав на запити.

Gemini також відмовлявся відповідати на запитання про контент від видавців.

Хоча дозвіл на роботу пошукових ботів може підвищити загальну видимість контенту видань, медійники мають різні причини, щоб не давати доступ ШІ до свого контенту. Наприклад, вони бажають монетизувати свій контент або бояться, що їхня робота може бути спотворена.

Як часто ШІ не покликається на першоджерело

Grok від X переважно покликаються на традиційні новинні організації. У звіті BBC News ідеться, що відповідям на запити, де серед джерел є перевірені медіа авдиторія більше довіряє — навіть якщо вони неправильні. Але якщо чат-боти помиляються, вони не лише псують власну репутацію, а й репутацію медіа. Наприклад, DeepSeek неправильно вказав джерело уривків у 115 з 200 випадків. Тому найчастіше контент новинних видань приписувався не тому джерелу.

Навіть коли чат-боти правильно ідентифікували статтю, вони часто не могли належним чином покликатися на першоджерело. Наприклад, додають покликання на синдиковані версії статей з платформ Yahoo News або AOL, а не на першоджерела. Наприклад, попри партнерство з Texas Tribune, Perplexity Pro процитував синдиковані версії статей Tribune лише в 3 із 10 запитів.

Хоча USA Today заблокувала пошуковик ChatGPT, чат-бот все одно цитував версію своєї статті, яку передрукував Yahoo News.

Більше ніж половина відповідей від Gemini й Grok 3 містили сфабриковані або неробочі URL-адреси, які вели на сторінки з помилками. З 200 підказок для Grok 3 154 покликання вели на помилкові сторінки. Хоча ця проблема не була характерною лише для Grok 3 і Gemini, з іншими чат-ботами вона траплялася набагато рідше. Чат-боти не мотивують користувачів переходити за покликанням і видавці не отримують компенсації вебтрафіку і доходів від реклами.

OpenAI й Perplexity уклали найбільше угод із медіа, а Perplexity навіть заснувала власну програму для видавців. Співпраця мала б передбачати, що ШІ-боти даватимуть точніші результати із покликанням на видання-партнери. Водночас дослідники не помітили точності в результатах під час свого аналізу.

Проблеми для медіа й користувачів

Дослідники Центру цифрової журналістики Columbia Journalism Review роблять висновки, що вісім пошукових систем на основі штучного інтелекту мають значні проблеми з точністю цитування новин. У понад 60 % випадків ці системи надавали неточні або неправильні відповіді на запити щодо новинних статей. Ця проблема особливо виражена у платних версіях деяких пошукових інструментів, зокрема Perplexity Pro та Grok 3 Premium, які демонстрували ще гірші результати порівняно з їхніми безплатними аналогами.

Ці проблеми завдають шкоди як і самим медіа, так і споживачам новин. Багато компаній зі штучного інтелекту публічно не виявляли інтересу до співпраці з видавцями новин. Як наслідок, видавці мають обмежені можливості контролювати, чи чат-боти показують їхній контент.

Фахівці навіть звернулися до представників OpenAI та Microsoft задля коментаря. OpenAI відповів, що підтримують видавців «допомагаючи 400 млн користувачів ChatGPT щотижня знаходити якісний контент за допомогою резюме, цитат, чітких покликань та атрибуції».

Microsoft заявила, що поважає стандарт robots.txt і виконує вказівки, надані вебсайтами, які не хочуть, щоб контент їхніх сторінок використовувався з ШІ-компанії.

Що не так із цитуванням? У понад 60 % запитів ШІ-моделі неправильно подають джерела новин

Методологія

Наскільки точно відповідають ШІ?

Як часто ШІ не покликається на першоджерело

Проблеми для медіа й користувачів

Читайте також

«Медіамейкер» зупиняє роботу. Що буде далі?

Щоденники й докази. Які фільми від медійників, фотографів і документалістів варто переглянути на 22-му DocuDays UA

Як медіа пробиратися крізь інформаційний шум, утому від новин та від війни: розмова на LMF 2025

Що для медіа означає саморегулювання? Розбираємо інструменти й досвід України та іноземних колег

Редакції, які слухають: як медіа розбудувати діалог з авдиторією — практики «Лабораторії журналістики суспільного інтересу»

25 медійників постраждали від російських ударів по українських готелях — дослідження RSF та Truth Hounds

Хто ми?

Медіамейкер

Розділи

Соцмережі