Власники сайтів звинувачують ШІ-компанію Anthropic в агресивному скрапінгу. Що сталося? 

Власники сайтів звинувачують ШІ-компанію Anthropic в агресивному скрапінгу. Що сталося? 

Понеділок, 29 Липня, 2024

Дар'я Свистуха

Компанію Anthropic звинуватили в агресивному збиранні даних із вебсайтів для навчання своїх ШІ-систем. Наприклад, платформа для фрилансерів Freelancer.com зафіксувала, що протягом чотирьох годин вебсканери Anthropic заходили на їхній сайт 3,5 млн разів. Про це повідомляє The Financial Times. 

У чому звинувачують Anthropic? 

Anthropic заснувала група колишніх дослідників OpenAI, які обіцяли розробити «відповідальні» ШІ-системи. Однак Метт Баррі, CEO платформи для фрилансерів Freelancer.com, звинуватив компанію у «найагресивнішому скрапінгу». За даними The Financial Times, Freelancer.com протягом чотирьох годин 3,5 млн разів відвідали вебсканери, пов’язані з Anthropic. Що приблизно вп’ятеро частіше, ніж інші ШІ-сканери. Зі слів Баррі, відвідування збільшувалися навіть після того, як Freelancer.com спробував відхилити запити на доступ, використовуючи стандартні вебпротоколи для керування пошуковими ботами. Після чого платформа вирішила повністю заблокувати трафік з інтернет-адрес Anthropic. 

«Цей кричущий скрапінг сповільнює сайт для тих, хто на ньому працює, що як наслідок впливає на наш дохід», — каже CEO платформи. 

Інші вебвидавці підтвердили, що боти Anthropic заполонили їхні сайти й ігнорують указівки припинити збір контенту. 

CEO iFixit.com Кайл Вінс повідомив, що його сайт із ремонту електроніки протягом 24 годин 1 млн разів відвідали боти Anthropic. Водночас умови надання послуг iFixit забороняють використовувати його дані для ШІ-навчання.

 «Моє перше повідомлення для Anthropic: якщо ви використовуєте контент для навчання своєї моделі, це незаконно. Друге: це неввічлива поведінка в інтернеті», — заявив Вінс.  

Що відповідає на звинувачення Anthropic? 

Anthropic заявила, що розслідує цей випадок. У компанії додали, що вони поважають видавців і прагнуть мінімізувати порушення роботи вебсайтів, щоб не бути «нав’язливими».

Вебсайти використовують файли robots.txt, щоб захиститися від ШІ-ботів, які сканують дані сайтів. Однак цей протокол покладається на добровільне дотримання правил.

«Ми поважаємо robots.txt, і наш робот відреагував на нього, коли iFixit впровадив його», — відповідають в Anthropic. 

Що відомо про співпрацю та суперечки видавців та ШІ? 

Як відзначає The Financial Times, скрапінг даних із вебсайтів не є новою практикою, але за останні два роки вона різко зросла. Це призвело до нових витрат для сайтів.

«ШІ-сканери обійшлися нам у значну суму у вигляді плати за пропускну здатність і змусили нас витратити багато часу на боротьбу зі зловживаннями. ШІ-боти діють нешанобливо щодо сайтів, які вони сканують, і це може викликати негативну реакцію проти ботів зі штучним інтелектом у цілому», — написав співзасновник сайту хостингу документів Read the Docs Ерік Хольшер. 

Дослідження News Media Alliance показало, що для навчання своїх моделей ШІ використовує новини в 5–100 разів частіше, ніж інші матеріали, доступні онлайн. 2022 року новинні видання повідомляли, що чатботи на основі штучного інтелекту, як-от ChatGPT, застосовують для навчання своїх моделей статті, захищені авторським правом. 

У жовтні 2023 року ми писали, що медіакомпанії виступають проти того, щоб моделі ШІ навчалися на їхньому контенті. The New York Times, Daily Mail, The Sun, The Guardian, The Economist, Axios, New York Times, CBS News, CNN, Deadline, E!, all Street Journal, The Washington Post і низка інших медіа заблокувала вебсканери штучного інтелекту. Альянс незалежних видавців Великої Британії теж закликав своїх членів якнайшвидше заблокувати доступ до сканування для OpenAI та Google. 

Reuters Institute у лютому 2024 року опублікував дослідження щодо найпопулярніших вебсайтів у 10 країнах, що блокують сканери штучного інтелекту. Такі компанії, як OpenAI (творець ChatGPT), і Google (Gemini), використовують сканери, щоб збирати дані з вебсайтів для навчання великих мовних моделей (LLM). Водночас блокування сайтами сканерів впливає на якість базових моделей, а також їхню здатність отримувати інформацію з інтернету. Також частка новинних вебсайтів, що заблокували OpenAI, відрізнялася залежно від країни: від 79 % у США до лише 20 % у Мексиці й Польщі. Для Google цифри коливалися від 60 % у Німеччині до 7 % у Польщі й Іспанії.

 Google у липні 2024 року стала єдиною пошуковою системою, яка може показувати результати з Reddit. Для DuckDuckGo, Bing, Mojeek та інших пошуковиків контент платформи заблокували. Reddit протидіє використанню свого контенту компаніями для навчання ШІ-моделей за допомогою Robots.txt — це текстовий файл, що надає чи блокує ботам доступ до вебсайту. Сайти з файлом robots.txt можуть зробити виняток і надати доступ боту Google — Googlebot. 

OpenAI за останні кілька років уклав низку угод із видавцями щодо ліцензування їхнього контенту для навчання своїх ШІ-моделей. Серед них — Axel Springer, Financial Times, AP, Le Monde, Prisa Media, Dotdash Meredith, News Corp, The Atlantic і Vox Media та Time. У деяких із цих угод OpenAI надала видавцям мільйони доларів і кредити в обмін на право навчати свої ШІ-моделі на їхньому контенті. OpenAI у липні 2024 року запустила тестову версію своєї пошукової системи SearchGPT. Інструмент цитуватиме контент від видавців-партнерів, із якими компанія уклала ліцензійні угоди. 

Водночас Anthropic публічно не оголошував про подібні партнерства. 

На чому розробники навчають свої моделі штучного інтелекту, ми пояснювали в окремому матеріалі. 

Anthropic | веб-сканери | чат-бот | ШІ | Штучний інтелект