Блокування доступу ШІ до медіаконтенту набирає обертів.

Блокування доступу ШІ до медіаконтенту набирає обертів: як діють видавці та Big Tech? (оновлено)

П’ятниця, 23 Лютого, 2024

Марина Кулініч

Поки великі технологічні компанії інтегрують штучний інтелект у свої сервіси та відкривають доступ до нього все більшій кількості користувачів, розробники ШІ активно навчають моделі, які лежать у його основі, на різних наборах даних. Зокрема і тих, що перебувають у публічному доступі. Медіакомпанії з великими архівами інформації не хочуть, щоб штучний інтелект споживав їх безплатно. Розповідаємо, як розвивалося протистояння протягом останніх тижнів.

Медіа блокують вебсканери ШІ

Наприкінці вересня BBC повідомило, що ChatGPT зможе сканувати нову інформацію в інтернеті й видавати актуальні відповіді, а не використовувати лише базу даних, яку не оновлювали протягом двох років. Функція спершу буде доступна преміумкористувачам, а потім поступово — й іншим. BingAI та Google Bard, на відміну від конкурента вже давно мають доступ до інтернету.

Щоб уникнути використання їхнього контенту у відповідях і навчанні ШІ, The New York Times заблокувало вебсканер OpenAI GPTBot першим ще в серпні. З серпня 44% із 1123 новинних видань, за якими стежила система архівування з homepages.news, заборонили GPTBotб Google AI та Common Crawl сканувати їхні сайти. Таке рішення ухвалили Daily Mail, The Sun, The Guardian, The Economist і The National, ABC News, Axios, New York Times, CBS News, CNBC, CNN, Deadline, E!, all Street Journal, Washington Post і низка інших медіа.

Наприкінці вересня Medium також заборонив ШІ тренуватися на своєму контенті. Платформа наголошує, що компанії, які займаються штучним інтелектом, заробляють на чужих матеріалах і не виплачують компенсації їхнім авторам. Також тексти, створені ШІ, можуть містити хибні твердження.

Спершу Medium додавав блокування до robots.txt, проте через обмеженість його функціоналу став блокувати OpenAI на всьому сайті. Надалі платформа планує вказувати, які матеріали можна використовувати для навчання ШІ, а які — ні.

Донедавна це було доволі ризикованим рішенням, оскільки з необережності можна було заблокувати не лише вебсканери для штучного інтелекту, а й тих роботів, які сканують сайти для формування пошукових результатів у Google або Bing. Це зі свого боку могло «викинути» сайт із пошуковиків та сильно вплинути на цей сегмент трафіку, який досі є достатньо важливим для медіа. Але тепер Big Tech компанії пропонують більше безпечних рішень.

Що пропонують платформи

Бот Bing Chat із технологією OpenAI давно має доступ до інтернету й навіть надає у відповідях покликання на джерела інформації. Як повідомили у блозі Bing наприкінці вересня, якщо видавці позначають у коді контент свого сайту тегом NOCACHE, він може бути включений у відповіді Bing Chat, але лише URL-адреси, фрагменти та заголовки відображатимуться та використовуватимуться для навчання моделі. Контент під тегом NOARCHIVE не будуть включати у відповіді чи використовувати з метою навчання. Водночас у Bing обіцяють, що контент під обома тегами відображатиметься в результатах пошуку.

Google наприкінці вересня запустила  Google-Extended — інструмент, який дає змогу видавцям контролювати доступ до своїх матеріалів. Він доступний у файлі robots.txt, з його допомогою адміністратори сайтів зможуть обмежити доступ ботів, які скраплять сайти для навчання ШІ-моделей, водночас залишивши доступ до пошукового робота Google Bot. 

Нагадаємо, на початку серпня цього року Open AI дала змогу забороняти GPTbot сканувати сайт у файлі robots.txt або блокувати його IP-адресу.

Хто ще навчає моделі ШІ на чужому контенті?

Голлівудські студії матимуть право навчати моделі ШІ на основі робіт письменників, за умовами попередньої трудової угоди, яку збираються укласти після масштабних страйків. А сценаристи отримуватимуть компенсацію, якщо кіностудії застосовуватимуть штучний інтелект для написання сценаріїв.

Meta також тренувала нещодавно запущеного ШІ-асистента на чужому контенті — публічних дописах в Instagram і Facebook. Компанія запевняє, що приватні пости та листування не використовувала. Також штучний інтелект не тренувався на LinkedIn, який містить контакти та приватну інформацію користувачів.

Підкріпити блокування лобіюванням

Як повідомляє Press Gazette, Альянс незалежних видавців Великої Британії закликав своїх членів якнайшвидше заблокувати доступ до сканування для OpenAI і Google. 

Axios повідомляє, що члени  News/Media Alliance, який репрезентує понад 2000 видавців з усього світу, протягом останніх тижнів мали понад 80 зустрічі із конгресменами 25 штатів Америки, щоб обговорити захист авторських прав на медіаматеріали, які потенційно можуть використати для роботи ШІ. Раніше організація сформулювала глобальні принципи використання штучного інтелекту. 

Ми вже розглядали законодавство США, Європи та України з питань авторського права на твори штучного інтелекту

Скільки новинних вебсайтів блокують ШІ-сканери? 

Reuters Institute у лютому 2024 року опублікував дослідження щодо найпопулярніших вебсайтів у 10 країнах, що блокують сканери штучного інтелекту. Такі компанії, як OpenAI (творець ChatGPT), і Google (Gemini), використовують сканери, щоб збирати дані з вебсайтів для навчання великих мовних моделей (LLM). Водночас блокування сайтами сканерів впливає на якість базових моделей, а також їхню здатність отримувати інформацію з інтернету.

       Що показало дослідження:

Причини та способи блокування

З певних причин видавці новин можуть не захотіти, щоб їхній контент використовувався компаніями штучного інтелекту. Наприклад, The New York Times вважає, що вони мають отримувати фінансову компенсацію за використання їхнього контенту для навчання моделей ШІ. Також видання турбуються про монетизацію. Інші хочуть активно бути залученими в тестування ШІ їхніх новин. Паралельно видавці з усього світу експериментують з інструментами штучного інтелекту, деякі вже уклали угоди з OpenAI.  

Для блокування видавці можуть використовувати файл robots.txt на своєму вебсайті. Компанія OpenAI також надала інструкції щодо блокування, коли випустила свої останні вебсканери 7 серпня 2023 року. Можливість самостійно відмовитися від них також надав Google 28 вересня 2023 року.

За даними дослідників, у більшості країн принаймні деякі видавці почали блокувати сканери OpenAI, які тільки ті були випущені, водночас в Іспанії, Мексиці й Польщі видавці вжили заходів пізніше. У Мексиці й Польщі немає доказів того, що найпопулярніші вебсайти новин відреагували на запуск сканера Google. 

Протягом 2023 року жоден вебсайт не розблокував сканер OpenAI або Google AI після того, як прийняли рішення про блокування.

Над матеріалом працювали Марина Кулініч і Дар’я Трапезнікова

Bing | ChatGPT | Google | OpenAi | Медіа | ШІ | Штучний інтелект