Медіакомпанії блокують свій контент від ШІ-сканера Apple

Четвер, 29 Серпня, 2024

Дар'я Свистуха

Улітку 2024 року Apple надала медіа більше контролю над відбором контенту для навчання ШІ-моделей. Найбільші видавці та платформи вже відмовилися давати свої дані компанії та протидіять скрапінгу. Про це повідомляє видання WIRED.

Як працює ШІ-інструмент від Apple? 

Новий інструмент Applebot-Extended — це розширення вебскануючого бота Apple, через який власники вебсайтів забороняють Apple використовувати їхні дані для навчання ШІ.

Оригінальний Applebot, анонсований 2015 року, спочатку збирав дані для пошукових продуктів Siri та Spotlight. Однак нещодавно призначення Applebot розширилося — дані, які він збирає, можна також використовувати для навчання базових моделей штучного інтелекту.

Видавці можуть заблокувати Applebot-Extended, оновивши на своїх вебсайтах текстовий файл Robots Exclusion Protocol або robots.txt. Robots.txt дає змогу власникам вебсайтів блокувати або дозволяти ботів у кожному конкретному випадку.

Багато видавців вже таким чином заблокували ШІ-ботів від OpenAI, Anthropic та інших великих гравців на ринку ШІ.

Хто вже заблокував Applebot-Extended?

Facebook, Instagram, Craigslist, Tumblr, The New York Times, Financial Times, The Atlantic, Vox Media, мережа USA Today і материнська компанія WIRED, Condé Nast, є одними з багатьох організацій, які заблокували свої дані для штучного інтелекту Apple.

Стартап Originality AI проаналізував вибірку з 1000 вебсайтів із високим трафіком і виявив, що приблизно 7 % — переважно медіа — блокують Applebot-Extended. Цього тижня служба спостереження за ботами штучного інтелекту Dark Visitors провела власний аналіз ще однієї вибірки з 1000 вебсайтів — приблизно 6 % з них заблокували бота. У сукупності ці дослідження свідчать про те, що переважна більшість власників вебсайті або не заперечують проти практики навчання штучного інтелекту Apple, або просто не знають про можливість заблокувати Applebot-Extended.

Оскільки файл robots.txt потрібно редагувати вручну, а нових ШІ-агентів з’являється багато , може бути складно підтримувати актуальний список блокування, пише WIRED.

«Люди просто не знають, що блокувати», — каже засновник Dark Visitors Гевін Кінг. 

Dark Visitors пропонує безплатний сервіс, який автоматично оновлює файл robots.txt на сайті клієнта, і Кінг каже, що  через проблеми з авторськими правами видавці становлять значну частину його клієнтів.

Чи планує Apple укладати угоди з видавцями?

2023 року видання The New York Times повідомило, що Apple намагається укласти з ними угоду про використання штучного інтелекту. Відтоді конкуренти, такі OpenAI й Perplexity, оголосили про партнерство з різними новинними виданнями, соцмережами й іншими популярними вебсайтами.

Раніше вебсайти Condé Nast блокували сканери OpenAI. Але після того, як минулого тижня компанія оголосила про партнерство з розробницею GhatGPT, вона розблокувала ботів компанії. Водночас прессекретарка Buzzfeed Джуліана Кліфтон повідомила WIRED, що компанія блокує Applebot-Extended, адже вони не укладали угоду про партнерство.

Деякі медіа прямо говорять, що блокують ШІ-боти, оскільки не мають партнерських угод з їхніми власниками. 

«Ми блокуємо Applebot-Extended на всіх ресурсах Vox Media, як ми це робили з багатьма іншими інструментами штучного інтелекту, коли в нас немає комерційної угоди з іншою стороною», — каже старша віцепрезидентка з комунікацій Vox Media Лорен Старк.

«Команда вирішила, що зараз немає сенсу надавати Applebot-Extended доступ до нашого контенту», — каже керівник відділу комунікацій Gannett Ларк-Марі Антон.

Водночас The New York Times, що судиться з OpenAI за порушення авторських прав, критично ставиться до відмови від використання Applebot-Extended та інших подібних сервісів. Газета продовжить додавати несанкціонованих ботів до свого блокувального списку.

«Згідно із законом і власними умовами надання послуг The Times, вилучення або використання нашого контенту в комерційних цілях заборонено без нашого попереднього письмового дозволу», — говорить директор із зовнішніх зв’язків NYT Чарлі Стадтландер.

Як пише WIRED, наразі незрозуміло, чи наблизилася Apple до укладання угод з видавцями.

Чи медіа чинять опір ШІ-сканерам?

Google у липні 2024 року стала єдиною пошуковою системою, яка може показувати результати з Reddit. Для DuckDuckGo, Bing, Mojeek та інших пошуковиків контент від Reddit заблоковано. CEO Reddit Стів Хаффман закликав Microsoft, Anthropic, Perplexity та інші компанії укладати з ними угоди щодо оплати за використання контенту для скрапінгу.

Також компанію Anthropic звинуватили в агресивному збиранні даних із вебсайтів для навчання своїх ШІ-систем. Наприклад, платформа для фрилансерів Freelancer.com зафіксувала, що протягом чотирьох годин вебсканери Anthropic заходили на їхній сайт 3,5 млн разів. Це приблизно вп’ятеро частіше, ніж інші ШІ-сканери.

Reuters Institute у лютому 2024 року опублікував дослідження, що до кінця 2023 року 48 % найпоширеніших новинних вебсайтів у 10 країнах блокували сканери OpenAI, ще 24 % блокували ШІ-сканер Google.


На чому розробники навчають свої моделі штучного інтелекту читайте тут.

Apple | ШІ | Штучний інтелект