Інформаційний голод. На чому розробники навчають ШІ й що буде, коли дані закінчаться

Інформаційний голод. На чому розробники навчають ШІ та що буде, коли дані закінчаться

Середа, 8 Травня, 2024

Середовище

Тартачний Олександр

Ми вже живемо в епоху ШІ. Попри всі його неточності й галюцинації, він відіграє дедалі більшу роль і залучається мало не до кожної галузі. Однак до всеохопності штучному інтелекту ще дуже далеко — щоби створювати кращі й точніші нейромережі, техкомпаніям на кшталт OpenAI, Google та Meta необхідні верифіковані дані. З’ясовуємо, чи платитимуть корпорації за інформацію, як прагнення заволодіти ресурсами конкурентів рухає інновації й коли алгоритми навчатимуться на ваших Google Doc. 

Як тренують мовні моделі та звідки беруть дані

Ще кілька років тому, коли машинне навчання й нейромережі були захопленням гіків і стартапів, нейромережі «тренували» на доволі малих базах даних. Алгоритм запам’ятовував інформацію й намагався помітити в ній закономірності під час роботи вже з реальними завданнями. Провідним напрямом був машинний зір — технологія розпізнавання об’єктів на зображеннях, що подарувала нам розумні камери й автопілот. 2020 року набір даних із 30 000 якісно промаркованих зображень вважався великим. 

Усе змінилося під час розроблення так званих великих мовних моделей (large language models, LLM), на яких працюють ШІ-асистенти на кшталт ChatGPT чи Gemini. Точність та якість їхніх відповідей напряму корелює з кількістю опрацьованих текстів. А тому компаніям у сфері штучного інтелекту потрібні великі масиви даних. 

Наприклад, на час створення GPT-2 у 2019 році було не так багато великих та якісних наборів текстових даних для тренування мовних моделей. Тому команда OpenAI вивантажила з онлайн-форуму Reddit гіперпосилання на всі повідомлення, які мали понад три лайки. Щоб натренувати GPT-3 (який став основою для першої версії ChatGPT), використали набір даних обсягом більше ніж 500 GB, в якому була вся Wikipedia, мільйони книг, тисячі вебсайтів і мільярди рядків коду на JavaScript, Python тощо. 

Провідні системи чат-ботів навчалися на цифровому тексті, що охоплює три трильйони слів, що приблизно вдвічі більше, ніж їхня кількість у Бодліанській бібліотеці Оксфордського університету, яка збирає рукописи з 1602 року.

Кейс YouTube 

Як повідомляє The New York Times, наприкінці 2021 року OpenAI вичерпала всі резервуари авторитетних англомовних текстів в інтернеті. Тому дослідники OpenAI створили інструмент розпізнавання мови під назвою Whisper. Він може транскрибувати аудіо з YouTube-відео в текст. Цей один із найточніших інструментів за своїм типом був потрібен насамперед для того, щоби отримати контент із відеохостингу. OpenAI транскрибувала більше мільйона годин відео з YouTube. До команди входив Грег Брокман, президент OpenAI, який особисто допомагав зібрати відео. Потім тексти були подані в систему під назвою GPT-4, яка вважалася однією з найпотужніших у світі моделей ШІ й лягла в основу останньої версії чат-бота ChatGPT.

То ж не дивно, що коли OpenAI оприлюднив Sora — нейромережу, що дає змогу створювати відео за текстовим запитом, з’явилася підозра, що джерелом даних знову став найпопулярніший відеохостинг. У недавньому відеоінтерв’ю з Wall Street Journal Міра Мураті з OpenAI сказала, що дані, використані для навчання Sora, надходять із загальнодоступних джерел, але вона відмовилася говорити точніше. Зокрема, чи були туди включені відео YouTube.

Натомість генеральний директор YouTube Ніл Мохан сказав Bloomberg, що якщо OpenAI навчав Sora на своїх відео, це було б «явним порушенням» умов обслуговування YouTube — відео не можна використовувати поза платформою. 

YouTube належить Alphabet Inc. — материнській компанії Google, а тому не в захваті від ідеї ділитись контентом із конкурентами. Натомість у Google також скористалися цим джерелом інформації. Мохан у тому ж інтерв’ю додав, що Google дотримується індивідуальних контрактів YouTube із творцями, перш ніж використовувати відео з платформи для навчання власної моделі ШІ Gemini.

«Багато творців мають різні види ліцензійних контрактів щодо контенту на нашій платформі. Деяка частина цього корпусу YouTube, можливо, використовується для навчання таких моделей, як Gemini», — каже він. Водночас, за його словами, Google та YouTube гарантують, що використання відео як навчальних даних для штучного інтелекту Google «відповідає будь-яким умовам обслуговування або контракту, який підписав цей автор». 

Ваш документ переглядає невідомий ШІ 

Минулого року Google розширив свої умови обслуговування. Як розповідають члени команди з питань конфіденційності компанії для NYT, однією із причин зміни було надання Google можливості використовувати загальнодоступний контент людей у ​​Google Документах, Google Таблицях і пов’язаних програмах для низки продуктів ШІ.

Достеменно невідомо чи компанія раніше навчала штучний інтелект за допомогою таких даних. У той час (до 2023 року) у політиці конфіденційності Google говорилося, що компанія може використовувати загальнодоступну інформацію лише для того, щоб «допомогти в навчанні мовних моделей Google і створити такі функції, як Google Translate».

Формулювання змінилося на «допомогти в навчанні моделей штучного інтелекту та створення продуктів і функцій, таких як Google Translate, Bard і можливості хмарного штучного інтелекту».

Переглянута політика з’явилася 1 липня, на початку довгих вихідних, які переходять у святкування Дня незалежності США.

Деякі співробітники компанії припускають, що команді спеціально сказали оприлюднити нові умови на вихідних. 

Представник Google Метт Брайант у коментарі журналістам NYT сказав, що зміни в політику конфіденційності внесли для ясності та що Google не використовувала інформацію з Google Документів або пов’язаних програм для навчання мовних моделей «без явного дозволу» від користувачів. Дозвіл стосується добровільної програми, яка дає змогу користувачам тестувати експериментальні функції.

Чи законно використовувати медіаматеріали для тренування нейромереж 

Компанії штучного інтелекту переважно не розкривають точних джерел набору даних, а кажуть, що це «загальнодоступна» інформація в інтернеті. Однак загальнодоступний не є синонімом до легального, а щодо останнього якраз і точаться баталії.

ШІ-компанії в пошуках даних могли прочісувати сайти з піратським контентом. Наприклад, є багато «загальнодоступних» книг, які розповсюдили в нелегальних бібліотеках. Те саме стосується й зображень. Фактично компанії стверджують лише, що не зламували сайти, щоб отримати доступ до даних. Але найімовірніше вони сканували все, що було в мережі. 

Натомість у компаній, що розробляють ШІ, є два основних контраргументи щодо легальності своїх дій:

  1. Матеріали, опубліковані медіакомпаніями, часто захищені авторським правом. Це означає, що використання цих матеріалів без дозволу власника авторських прав може бути незаконним. Однак існують певні винятки, як-от fair use у США, які дозволяють обмежене використання захищених авторським правом матеріалів без отримання дозволу, наприклад, для навчання або наукових досліджень. 10 років тому рішення у справі Google Книги постановило, що використання Google «текстових фрагментів» для каталогізації опублікованих творів є прийнятним добросовісним використанням, і компанії штучного інтелекту часто покликаються на перемогу Google, щоб підтвердити свій аргумент.
  1. На виході алгоритми штучного інтелекту не копіюють прямо матеріал: вони просто «вчаться» з нього так, як це може зробити людина. А навіть надто подібні на реальні зображення картинки або поява вотемарок не є ознакою плагіату. А швидше надто близько «наслідує стиль» медіаджерела саме через велику кількість подібних зображень або текстів в наборі даних.

OpenAI й Meta стверджують, що не сканують дані, захищені пейволом або паролями, а Google дає можливість адміністраторам сайтів заблокувати перегляд для їхніх пошукових роботів. Microsoft повідомив, що «використовує різноманітні джерела даних, зокрема загальнодоступну інформацію, відповідно до законів про авторське право й інтелектуальну власність».

Позиція медіамейкерів 

Частина медіа вважають, що мають отримувати компенсацію за використання їхнього контенту для навчання моделей та у видачі чатботів.

Низка медіа, зокрема ті, які незадоволені фактом навчання моделі на масиві їхніх даних, заблокували вебсканер OpenAI GPTBot. Першою це зробила The New York Times, яка згодом подала судовий позов проти техкомпанії. Загалом 635 з 1156 (54,7 %) видавців новин, опитаних архівом homepages.news, заборонили OpenAI, Google AI або некомерційній організації Common Crawl сканувати їхні сайти. 

Серед них такі видання, як Wall Street Journal, CNN, The Economist, CBS, The Guardian, The Washington Post. Відтоді жоден із вищезгаданих вебсайтів не розблокував сканер OpenAI або Google AI, а кількість медіа, які блокують, лише зростає. 

Натомість з українських медіа, які опитані архівом є «Дзеркало тижня», «Громадське», The Kyiv Independent, KyivPost, Ukrinform та «Сєгодня». Усі вони наразі дозволяють OpenAI та Google AI сканувати свої дані. 

Платформа Medium також заборонила ШІ тренуватися на своєму контенті. Спершу заборона стосувалася всіх матеріалів сайту, але згодом майданчик планує зазначати, які матеріали можна використовувати для навчання. Окрім заборони платформа не дозволяє своїм авторам використовувати ШІ для написання матеріалів у межах оплачуваної партнерської програми.

Де техкомпанії шукатимуть контент для своїх алгоритмів

Оскільки відкриті дані скінчились, то ШІ-лабораторії розглядають нові шляхи пошуку контенту. 

Перспективним для тренування генеративних нейромереж, аби ті створювали зображення й відео, є фотобанки. Наприклад, OpenAI ще із 2021 року співпрацює із Shutterstock, а із 2023 року фотобанк заявив, що надасть OpenAI «високоякісні» навчальні дані, а саме доступ до своїх бібліотек відео, зображень і музики. Shutterstock натомість матиме можливість генерувати на сайті зображення з текстових промптів OpenAI й дасть змогу клієнтам використовувати «можливості синтетичного редагування», щоби змінити будь-яке зображення в бібліотеці Shutterstock.

Генеральний директор Photobucket (одного з найбільших фотобанків у США) Тед Леонард сказав Reuters, що веде переговори з кількома технологічними компаніями про ліцензування 13 млрд фотографій і відео сервісу, які використовуватимуться для навчання генеративних моделей штучного інтелекту. 

За його словами, він обговорював ставки від 5 центів до $1 за фотографію й понад $1 за відео, причому ціни сильно відрізнялися як від покупця, так і від типів зображень, які шукають. Деякі компанії, наприклад, потребують мільярда відео — більше ніж є у фотобанку. 

Менеджери, юристи та інженери компанії Meta, якій належать Facebook та Instagram, торік обговорювали купівлю видавництва Simon & Schuster, яке зокрема видає Стівена Кінга, або ж платити по $10 за ліцензування кожної книги. Водночас, як стало відомо NYT, на зборах представники компанії також розглядали необхідність збирати захищені авторським правом дані з Інтернету, навіть якщо це загрожує судовими позовами. За їхніми словами, переговори про ліцензії з видавцями, художниками, музикантами та індустрією новин займуть надто багато часу. 

Meta також найняла підрядників в Африці, щоб робити підсумки художньої й наукової літератури. Резюме включали контент, захищений авторським правом, «оскільки ми не маємо можливості не збирати його», сказав менеджер під час однієї зустрічі. Відповідно до записів, керівництво Meta погодилося покладатись на рішення суду від 2015 року за участю Гільдії авторів проти Google (вищезгаданий кейс із Google Книги).

Вони також говорили про те, як без дозволу узагальнювали книги, есе та інші твори з інтернету. Один юрист попереджав про «етичні» занепокоєння щодо вилучення інтелектуальної власності, але, згідно із записами, його слова зустріли мовчанням. Принаймні ще двоє співробітників висловили занепокоєння щодо використання інтелектуальної власності й невиплати авторам та іншим виконавцям. 

Щодо класичних медіа, то ситуація неоднозначна. На тлі блокування доступу до контенту, OpenAI намагається налагодити співпрацю із ключовими західними медіа. Зокрема за угодами компанія отримує доступ до новинного контенту, а медіа — до технологій OpenAI, які дають змогу створювати власні плагіни й чат-боти на базі ChatGPT. Переважно в цих випадках OpenAI також платить компенсацію медіа. Такі договори є із The Associated Press, медіахолдингом Axel Springer (Politico, Bild, Welt), Le Monde та Prisa Media (видавцем El País, Cinco Días, As і El Huffpost), The Financial Times і медіаорганізацією American Journalism Project

Однак домовитися вдається не з усіма. Наприклад, The New York Times подала до суду проти Open AI. Видання стверджує, що компанія незаконно використовує й копіює захищений авторським правом контент газети для навчання своїх систем. NYT вимагає компенсації за шкоду та припинити використання їхнього контенту. Результат розгляду справи найімовірніше стане прецедентом для усталеної практики в майбутніх судах. 

Минулого місяця корпорація Microsoft (основний інвестор Open AI) відреагувала на позов про порушення авторських прав, поданий The New York Times. У клопотанні про відхилення частини позову цю претензію назвали неправдивою розповіддю про «футурологію кінця світу». Технологічний гігант заявив, що позов був недалекоглядним і схожим на програшну реакцію Голлівуду на відеомагнітофон (Наприкінці 1970-х років кіностудії подали до суду на Sony через відеомагнітофон Betamax, стверджуючи, що це дасть змогу людям незаконно копіювати фільми й телешоу. Але зрештою суди визнали, що виготовлення цих копій для особистого перегляду є добросовісним використанням згідно із законом — ред.).

Ієн Кросбі, який є провідним адвокатом The Times у справі, сказав у своїй заяві: «Microsoft не заперечує, що вона співпрацювала з OpenAI, щоб скопіювати мільйони робіт The Times без її дозволу для створення своїх інструментів. Натомість вона дивним чином порівнює LLM (великі мовні моделі) з відеомагнітофоном, хоча виробники відеомагнітофонів ніколи не стверджували, що для створення їхніх продуктів необхідно масово порушувати авторські права».

Також проти Open AI подали позови новинні сайти Raw Story й AlterNet, а також Alden Global Capital (видавець New York Daily News, Chicago Tribune та кількох інших медіа). 

Синтетичні дані

Попри вигадливі пошуки джерел нових даних, ситуація для техногігантів досить загрозлива. За даними дослідницького інституту Epoch, технічні компанії зможуть вичерпати всю доступну високоякісну інформацію в мережі до 2026 року.

Частковим розв’язуванням проблеми можуть стати «синтетичні дані» — інформація, яка створюється за допомогою комп’ютерних програм, на відміну документування подій реального світу. Основна характеристика синтетичного набору даних — бути достатньо універсальним і надійним, щоб стати корисним для навчання моделей ШІ. 

Це може допомогти, але таїть у собі нові загрози. У нейромереж існує таке поняття як «перенавченість», коли алгоритм добре розпізнає лише навчальні дані, але погано справляється з реальними завданнями, які містять дещо відмінну інформацію. До того ж нейромережа, навчена на синтетичних даних, не матиме відомостей про поточні події та ще більше посилить та повторить власні неточності, упередження та помилки.   

Читати також: Як західні медіа вдосконалюють функцію пошуку на сайті за допомогою ШІ 

Людина як орієнтир, авторство й фактчекінг. Як українські медіа, організації та держструктури використовують ШІ

авторське право | дані | навчання | розроблення | ШІ