Технологічні компанії вдаються до суперечливої тактики — для навчання своїх моделей штучного інтелекту вони використовують контент із соцмереж без відома їхніх авторів. Розслідування аналітиків Proof News показало, що компанії Anthropic, Nvidia, Apple і Salesforce використали субтитри з 173 536 YouTube-відео, взятих із понад 48 000 каналів. Вони увійшли в датасет під назвою The Pile, що не містить відеозображень, а складається з простого тексту субтитрів до відео, часто разом із перекладом.
Хто постраждав від «крадіжок» даних?
ШІ-компанії, як правило, не розголошують свої джерела навчальних даних. Але аналітики Proof News виявили, що розробники ШІ-сервісів, а саме Apple, Nvidia, Anthropic і Salesforce, використовували субтитри до тисяч YouTube-відео для навчання своїх моделей штучного інтелекту без дозволу авторів.
Набір даних від The Pile під назвою YouTube Subtitles містить транскрипції відео з освітніх і навчальних онлайн-каналів, таких як Khan Academy, Массачусетський технологічний інститут і Гарвард. Також використовували для навчання ШІ використали відео The Wall Street Journal, NPR і BBC так само як і записи популярних вечірніх шоу — The Late Show With Stephen Colbert, Last Week Tonight With John Oliver і Jimmy Kimmel Live.
Proof News також виявила, що ШІ використовує матеріали популярних ютуберів — MrBeast (289 млн підписників, два відео, взяті для навчання), Marques Brownlee (19 млн підписників, сім відео), Jacksepticeye (майже 31 млн підписників, 377 відео) і PewDiePie (111 млн підписників, 337 відео).
Proof News спробувало зв’язатися з власниками каналів, згаданих у розслідуванні. Багато з них не відповіли на запити про коментарі. Серед авторів, з якими говорили аналітики, ніхто не знав про використання їхнього контенту.
Девід Пакман, ведучий «Шоу Девіда Пакмана» — політичного каналу лівого спрямування з понад 2 млн підписників і понад 2 млрд переглядів, заявив, що із ним ніхто не домовлявся щодо використання його відео. Водночас майже 160 його відео включено до навчальної бази даних YouTube для створення субтитрів. Чотири людини працюють повний робочий день на каналі Пакмана, щодня публікують кілька відео, а також створюють подкаст, відео для TikTok і матеріали для інших платформ. За словами Пакмана, він має отримувати компенсацію за використання його даних від ШІ-компаній.
CEO стримінгового сервісу Nebula Дейв Віскус назвав крадіжкою використання їхніх відео без згоди.
Серед відео, які використовують компанії зі штучного інтелекту, є 146 відео з каналу Einstein Parrot, який має майже 150 000 підписників. Доглядальниця африканського сірого папуги Марсія назвала кумедним, що ШІ-моделі використовують голос папуги, який імітує голос людини.
Продюсери Crash Course (майже 16 млн підписників, 871 відео) і SciShow (8 млн підписників, 228 відео) розчаровані тим, що їхній ретельно продуманий освітній контент використали без їхньої згоди.
YouTube Subtitles, опубліковане 2020 року, також містить субтитри з понад 12 000 відео, які відтоді були видалені з YouTube. Принаймні в одному випадку автор видалив усю онлайн-присутність контенту, проте ця робота включена до невідомої кількості моделей штучного інтелекту.
Співзасновник EleutherAI Сід Блек написав на GitHub, що створив YouTube Subtitles за допомогою скрипта. Цей скрипт завантажує субтитри з API YouTube, так само як їх завантажує браузер користувача YouTube під час перегляду відео. Згідно з документацією на GitHub, Блек використовував 495 пошукових термінів для відбору відео, зокрема «смішні відеоблогери», «Ейнштейн», «чорний протестант», «Захисні соціальні служби», «інфовійни», «квантова хромодинаміка», «Бен Шапіро», «фрукторіанці», «рецепт торта», «лінії Наски» і «пласка земля».
Що таке The Pile?
Права на The Pile належать некомерційній організації EleutherAI. Proof News стверджує, що організація не отримувала дозволу на використання відео з YouTube для збору даних. До бази даних The Pile увійшли матеріали не тільки з YouTube, а й із публікацій Європарламенту та англомовної Вікіпедії.
Представники EleutherAI не відповіли на прохання прокоментувати висновки Proof, зокрема звинувачення у використанні контенту без дозволу. На сайті компанії зазначено, що її мета — знизити бар’єри для розроблення ШІ для тих, хто перебуває за межами Big Tech.
Набори даних The Pile переважно є доступними й відкритими в інтернеті. Apple, Nvidia та Salesforce описують у своїх дослідницьких роботах і публікаціях, як вони використовували ці набори даних для навчання ШІ. Документи також показують, що Apple використовувала The Pile для навчання свої моделі OpenELM.
Представник Anthropic в заяві, що підтверджує використання The Pile в генеративному ШІ-асистенті Anthropic Claude.
«Умови YouTube описують пряме використання його платформи, що відрізняється від використання набору даних Pile. Щодо потенційних порушень умов користування YouTube, ми змушені відправити вас до авторів Pile», — сказав він.
Salesforce також підтвердила використання Pile для створення моделі штучного інтелекту в «академічних і дослідницьких цілях». Представник Nvidia відмовився від коментарів. Представники Apple, Databricks і Bloomberg не відповіли на запити про коментарі.
Чому YouTube — «золота жила» даних?
За словами дослідників, субтитри на YouTube та інші види перетворення мови в текстові дані потенційно є «золотою жилою», оскільки вони допомагають навчити ШІ-моделі відтворювати те, як люди розмовляють і спілкуються.
2024 року газета The New York Times повідомила, що компанія Google навчала свої ШІ-моделі на відео з YouTube. У відповідь речник компанії заявив газеті, що таке використання дозволене згідно з угодами з творцями YouTube.
Розслідування NYT також виявило, що OpenAI використовувала відео з YouTube без дозволу. Представники компанії не підтвердили й не спростували висновки газети.
Про судову справу The New York Times проти OpenAI читайте в окремому матеріалі.
Керівництво OpenAI неодноразово відмовлялося публічно відповідати на питання про те, чи використовувала вона відео з YouTube для навчання своєї ШІ-моделі Sora, що створює відео з текстових підказок.
YouTube Subtitles — не перший набір даних для навчання ШІ, який викликає занепокоєння у креативних індустріях.
Автор Proof News Алекс Рейснер отримав копію Books3, ще одного набору даних Pile, і 2023 року опублікував статтю в The Atlantic. У ній він повідомив, що понад 180 000 книг, написаних Маргарет Етвуд, Майклом Полланом і Зейді Сміт, включені в датасет, імовірно, без дозволу.
Відтоді багато авторів подали до суду на компанії зі штучного інтелекту за несанкціоноване використання їхніх творів і нібито порушення авторських прав. Подібні випадки почастішали, і платформа, на якій розміщувався сайт Books3, закрила його.
The Pile видалили з офіційного сайту для завантаження, але вона все ще доступна на файлообмінних сервісах.
Як протистояти ШІ?
Ютубери відстежують несанкціоноване використання їхніх робіт, регулярно подаючи скарги щодо видалення. Дехто побоюється, що це лише питання часу, коли штучний інтелект зможе генерувати контент, схожий на їхній, якщо не створювати відверті копії.
Прессекретар Google Джек Малон у відповідь на запит зазначив, що компанія протягом багатьох років вживала «заходів для запобігання зловживанню та несанкціонованому вилученню коду». Він не відповів на запитання про використання матеріалу іншими компаніями як навчальних даних.
Раніше ми розповідали, як законодавство США, Європи та України регулює авторське право на твори штучного інтелекту. На чому розробники навчають ШІ та що буде, коли дані закінчаться, читайте тут.