Американський проєкт Інститута Пойнтера PolitiFact, який перевіряє заяви офіційних осіб, провів експеримент — чи може ChatGPT перевіряти факти краще за професіоналів.
Для цього команда обрала 40 тверджень PolitiFact із різних тем і надала системі через безплатний обліковий запис ChatGPT. Іноді він усе робив правильно, проте більшість результатів показують, що ШІ ще не є надійним інструментом перевірки.
Перемоги
У деяких випадках ChatGPT працював бездоганно. На питання про заяву сенатора Тома Тілліса з Північної Кароліни щодо амністійного законопроєкта президента Джо Байдена система призначила таку ж оцінку «Напівправда», яку давав і PolitiFact. Система також повністю спростувала кілька заяв про шахрайство під час виборів 2020 року. Також ChatGPT виправив помилково приписану цитату президента Абрахама Лінкольна.
Водночас у половині з 40 різних тестів штучний інтелект робив помилку, не надавав відповіді або ж приходив до іншого висновку, ніж фактчекери. Його висновки рідко були повністю неправильними, проте невеликі помилки призводили до неточностей та непослідовностей, що робить його ненадійним джерелом.
Обмеження
Безплатна версія ChatGPT обмежена набором даних до вересня 2021 року. Це означає, що він абсолютно не знає про великі глобальні події, такі як смерть королеви Єлизавети II і вторгнення Росії в Україну. Це обмеження знижує корисність ChatGPT. Люди рідко перевіряють факти подій, які відбулися два роки тому, а в епоху цифрових технологій постійно з’являються нові дані, політичні події та новаторські дослідження, які можуть змінити оцінку точності твердження.
Також, оскільки у відповідях не було цитат чи покликань, важко зрозуміти, звідки чат-бот бере інформацію. У ньому з’являлися різні відповіді залежно від того, як сформульоване питання та в якому порядку його ставили. Іноді повторення того ж запитання призводило до двох різних оцінок.
Важливо розуміти: ChatGPT не сфокусований на перевірці точності. Він зосереджений на тому, щоб надати користувачам відповіді, які вони шукають.
Компанія протестувала дві різні, але схожі заяви:
Кажуть, що віцепрезидентка Камала Гарріс сказала: «Американські церкви є ЦЕНТРАМИ ПРОПАГАНДИ нетерпимого гомофобного, ксенофобного жорстокого мовлення».
Кажуть, що Марджорі Тейлор Грін з Республіканської партії заявила: «Ісус любить найбільше США, і саме тому Біблія написана англійською мовою».
PolitiFact оцінив обидва твердження як хибні, оскільки не було жодних доказів того, що жодна з жінок сказала таке. ChatGPT також не знайшов жодних доказів чи записів цих заяв, але він оцінив заяву Гарріс «категорично» неправдою, а заяву Грін відмовився оцінювати через невизначеність.
Буквальність
В інших випадках одним із недоліків ChatGPT була його буквальність.
Наприклад, у липні 2021 року PolitiFact оцінив твердження про те, що Джордж Вашингтон наказав робити щеплення проти віспи серед військових Континентальної армії як «Переважно правдиве». Хоча в той час вакцини ще не існували, Вашингтон наказав використовувати сучасний метод, відомий як «варіоляція», щоб зробити щеплення для своїх військ. Але ChatGPT оцінив це твердження як помилкове, оскільки буквально не було вакцин проти віспи.
Абсолютно неправильно
Час від часу ChatGPT припускався серйозних помилок. В одному тесті, пов’язаному з запасами нафти в Пермському басейні, він отримав правильні дані, але неправильно проаналізував їх, що призвело до протилежного висновку. В двох інших випадках ChatGPT зовсім не був знайомий з законом десятирічної давнини, який забороняє цільне молоко в школах, і не зміг знайти статистичні дані щодо смертності від передозування, навіть за наявності покликання на конкретне дослідження, звідки ці дані отримали.
Кілька експертів зауважили схильність чат-бота до «галюцинацій», коли він цитує події, книги та статті, яких насправді немає.
Усі експерти погодилися, що ChatGPT ще недостатньо надійний та точний для використання як інструмент перевірки фактів. Технологія ще вдосконалюється, а сучасні дослідження спрямовані на поліпшення плавності та релевантності.
Водночас інструменти штучного інтелекту можуть допомагати фактчекерам зокрема транскрибувати й аналізувати новинні звіти, повідомлення в соцмережах та офіційні протоколи уряду. Вони можуть шукати збіги з уже перевіреними твердженнями та намагатися підтвердити статистичні дані на підставі офіційних даних.
Читати більше:
- Застосунок GPTZero: як інструмент допомагає розрізняти текст, створений ШІ
- The Washington Post проаналізувала вебсайти, які потрапляють у навчальні дані ШІ. Серед них є сайти світових та українських медіа
- Чат-боти «конкурують» за дезінформацію. BingAI та Bard цитують жарти як правду, а ChatGPT-4 генерує більше брехні