Сайти використовують для створення великих мовних моделей, зокрема T5 від Google і LLaMA від Facebook.

The Washington Post проаналізувала вебсайти, які потрапляють у навчальні дані ШІ. Серед них є українські видання

Четвер, 20 Квітня, 2023

Вероніка Нановська

Для цього The Washington Post співпрацювало з дослідниками з Інституту штучного інтелекту Аллената. Вони класифікували вебсайти з набору даних Google C4, куди входить 15 млн унікальних доменів, використовуючи дані Similarweb. 

Всі ці сайти використовують для створення великих мовних моделей, зокрема T5 від Google і LLaMA від Facebook. Водночас OpenAI не розкриває, які саме набори даних вона використовує для навчання моделей популярного чат-бота ChatGPT.

Що показало дослідження

Аналіз показав, що у наборі даних переважали сайти з журналістики, розваг, розробки програмного забезпечення, медицини та створення контенту. Це, кажуть дослідники, пояснює, чому нова хвиля ШІ може загрожувати цим галузям. Трьома найбільшими сайтами стали:

Також у списку присутні щонайменше 27 інших сайтів, визначених урядом США як ринки піратської та контрафактної продукції, та сайти, які мають приватні копії державних баз даних реєстрації виборців. Хоча дані виборців є загальнодоступними, моделі можуть використовувати цю особисту інформацію у невідомий спосіб.

Новинні видання

«Новини та медіа» посідає третє місце серед усіх категорій. Найбільшу категорію склали промислові та бізнес-сайти. Серед них kickstarter.com — він дає змогу користувачам збирати кошти на творчі проєкти, а також patreon.com, який допомагає творцям збирати щомісячно плату за ексклюзивний контент. Наразі художники не отримують жодної компенсації чи заохочення, коли їхні роботи включають у навчальні дані ШІ, тож вони подали позови про порушення авторських прав проти генераторів зображень Stable Diffusion, MidJourney і DeviantArt.

Половина з 10 найпопулярніших сайтів, на яких навчається ШІ, були новинними виданнями. Це:

Як і художники та творці, деякі новинні організації критикували технологічні компанії за використання їхнього контенту без дозволу або компенсації.

До наборів даних входять також медіа, які посідають низькі місця за незалежною шкалою надійності NewsGuard. Серед них:

У дослідженні доведено, що чат-боти впевнено поширюють неправдиву інформацію та не завжди пропонують посилання на джерела.

Блоги та соцмережі

Набір даних містить понад півмільйона персональних блогів, написаних на WordPress, Tumblr, Blogspot і Live Journal. Платформа для публікацій medium.com була п’ятим за величиною технологічним сайтом і розмістила під своїм доменом десятки тисяч блогів. Серед них є сайт Uprooted Palestinians, де часто пишуть про «сіоністський тероризм» і «сіоністську ідеологію».

Соцмережі, такі як Facebook і Twitter, забороняють скрапінг. Тобто більшість наборів даних, які використовують для навчання ШІ, не можуть отримати до них доступ. Водночас Meta і Google не дали чіткої відповіді на питання про те, як особисту інформацію користувачів можуть використати для навчання моделей ШІвсередині компанії.

Що пропустили фільтри?

Компанії Big Tech зазвичай використовують високоякісні набори даних для точного налаштування моделей, захищаючи користувачів від небажаного контенту. Як і більшість компаній, Google ретельно фільтрує дані перед тим, як передати їх штучному інтелекту (назва C4 розшифровується як Colossal Clean Crawled Corpus). Зокрема, компанія не лише видаляє  нерозбірливі та повторювані тексти, а й використовує відкритий «Список брудних, нецензурних, непристойних та інших поганих слів». Він містить 402 терміни англійською мовою та один емодзі, який означає непристойний жест. 

Проте, як показали попередні дослідження, багато чого проходить повз фільтри. Аналіз виявив сотні прикладів порнографічних вебсайтів і понад 72 000 випадків використання свастики, одного із заборонених термінів зі списку.

Також фільтри не змогли видалити сайти, що пропагують теорії змови, включаючи ультраправий феномен QAnon і «піццагейт» — популярний фейк про те, що піцерія в окрузі Колумбія була таємним місцем для педофілів.

Хоча C4 є величезною, великі мовні моделі, ймовірно, використовують ще більші набори даних, кажуть експерти. Наприклад, навчальні дані для OpenAI GPT-3 починалися з у 40 разів більшого обсягу даних з інтернету. Навчальні дані GPT-3 також включають всю англомовну Вікіпедію і колекцію безплатних романів неопублікованих авторів,  які часто використовуються великими технологічними компаніями. У вівторок Reddit (сайт, який регулярно використовується в навчальних моделях ШІ) оголосив, що планує стягувати з компаній плату за такий доступ).

Експерти кажуть, що багато компаній не документують свої навчальні дані — навіть для внутрішнього користування — через страх знайти особисту інформацію про людей, яких можна ідентифікувати, матеріали, захищені авторським правом, та інші дані, зібрані без згоди.

Українські сайти

До набору даних також входять і українські видання. Серед них:

Також у списку присутні petcube.com — сайт з ґаджетами для власників домашніх тварин, reface.ai — застосунок, який дає змогу створювати 3D-візуалізацію з декількох 2D-зображень, компанія з розробки програмного забезпечення macpaw.com та онлайн-платформа grammarly.com. Список може бути значно більшим.

Google C4 | Similarweb | ШІ