Дослідження News Media Alliance показало, що для навчання своїх моделей ШІ використовує новини в 5–100 разів частіше, ніж інші матеріали, доступні онлайн. Про це пише The New York Times.
Що показало опитування?
2022 року новинні видання повідомляли, що чатботи на основі штучного інтелекту, як-от ChatGPT, застосовують для навчання своїх моделей статті, захищені авторським правом. Наприклад, у проаналізованому The Washington Post датасеті знайшлися навіть українські видання.
У жовтні 2023 року News Media Alliance, яка налічує понад 2200 видавців, опублікувала дослідження про те, що чатботи використовують розділи деяких медіатекстів, порушуючи авторське право. Президентка та виконавча директорка організації Даніель Коффі раніше зазначала, що технологічні компанії на кшталт Google несправедливо відшкодовують новинним виданням показ їхніх матеріалів у онлайн-сервісах. Нині вона наголошує, що ситуація загострюється.
Достеменно встановити, які дані використовує ШІ для навчання своїх моделей неможливо, тому що сервіси штучного інтелекту не повідомляють про це публічно. News Media Alliance порівняв загальнодоступну інформацію, яку, як вважають, використовували для навчання найвідоміших мовних моделей, із даними з відкритим кодом контенту. Виявилося, що ШІ використовує новини в 5–100 разів частіше, ніж інші матеріали, доступні онлайн. Зокрема, моделі інколи дослівно копіюють тексти.
Читайте також: Обійти стіну. Як ШІ може завадити видавцям заробляти на платному контенті.
Реакція видавців
Даніель Коффі зазначила, що використання чатботами матеріалів медіа демонструє, що вони цінують якісний контент, але така ситуація може стати підставою для судового позову. Нині News Media Alliance вивчає змогу колективно ліцензувати контент від видавців-учасників організації.
Керівники медіа занепокоєні тим, що штучний інтелект навчається на їхньому контенті. Деякі з них побоюються падіння трафіку своїх ресурсів, якщо сервіси ШІ стануть основним джерелом інформації. Крім того, видавці допускають ризик того, що багатьох медійників може замінити штучний інтелект.
У жовтні ми писали, що медіакомпанії виступають проти того, щоб моделі ШІ навчалися на їхньому коненті. The New York Times, Daily Mail, The Sun, The Guardian, The Economist, Axios, New York Times, CBS News, CNN, Deadline, E!, all Street Journal, Washington Post і низка інших медіа заблокувала вебсканери штучного інтелекту. Альянс незалежних видавців Великої Британії теж закликав своїх членів якнайшвидше заблокувати доступ до сканування для OpenAI та Google.
Водночас платформи дають змогу видавцям контролювати доступ до своїх матеріалів. Бот Bing Chat забороняє використовувати для навчання ШІ контент із тегом NOARCHIVE у коді. Google запустив інструмент Google-Extended, який обмежує ботам штучного інтелекту доступ до сайтів.
У вересні News Media Alliance представила своє бачення глобальних принципів ШІ.