Nvidia збирає без дозволу платформ дані для навчання ШІ

Технологічна компанія Nvidia сканувала без дозволу джерела, щоб зібрати дані для навчання своїх ШІ-продуктів. Це розповіло 404 Media show у своєму розслідуванні — автори переглянули внутрішні чати команди у Slack, електронні листи й документи. Водночас компанія стверджує, що її дії є законними.

Як і інші виробники інструментів штучного інтелекту, Nvidia потребує навчальних даних для своїх генераторів тексту, відео й аудіо, щоб «навчитися» створювати ресурси.

Читати більше: На чому розробники навчають ШІ?

Співробітники, кажуть 404 Media, використовували відеозавантажувач YouTube з відкритим вихідним кодом. Команда також використовувала інструменти для оновлення IP-адрес, щоб уникнути блокування з боку YouTube.

Які системи навчає Nvidia?

Компанія працює над проєктом Cosmos (відмінний від однойменного продукту компанії для глибокого навчання Cosmos), який ще не анонсували.

Електронні листи від керівництва проєкту співробітникам показують, що мета Cosmos — створити модель, яка забезпечуватиме роботу різних застосунків від Nvidia. Це, зокрема, генератор 3D-світу Omniverse та безпілотні автомобільні системи.

Авторське право

Колишній співробітник Nvidia на умовах анонімності розповів 404 Media про внутрішні процеси компанії. У бесіді корпоративного месенджера Slack керівники проєктів обговорили переваги використання такого контенту як голлівудські фільми, документальні фільми Discovery Channel та кадри з ігор. Крім того, електронні листи показують, що модель, над якою працювала команда Cosmos, призначена для комерційного використання.

404 Media, покликаючись на свої джерела, стверджує, що співробітники проєкту питали про потенційні юридичні проблеми, пов’язані з використанням наборів даних. Менеджери відповідали їм, що отримали дозвіл на використання цього контенту від найвищого керівництва компаній. Водночас представник Netflix повідомив 404 Media, що стримінг не має угоди з Nvidia про використання контенту, а умови використання платформи не дозволяють скрапінг (автоматичне отримання даних із вебсторінок). Правила YouTube також забороняють збирати матеріали із платформи без дозволу.

На запитання медіа про правові й етичні аспекти використання захищеного авторським правом контенту для навчання ШІ-моделі, Nvidia відповіла, що її практика «повністю відповідає букві й духу закону про авторське право». Також представник Nvidia зазначив, що будь-хто може вільно вивчати факти, ідеї, дані чи інформацію з іншого джерела для власних висловлювань і використовувати роботи із «трансформаційною метою», наприклад, для модельного навчання.

Оскільки Nvidia робить внесок у наукові дослідження і продовжує розширювати межі технології штучного інтелекту, ще невідомо, як розглядатимуться й вирішуватимуться юридичні та етичні проблеми, пов’язані із проєктом Cosmos.

Читати більше: Що кажуть закони різних країн про авторські права та штучний інтелект

Витік внутрішніх розмов, подібних до цих, є єдиним способом дізнатись, як компанії використовують дані для навчання своїх моделей, що, зокрема, приносить їм мільярди доларів.

Nvidia збирає без дозволу платформ онлайн-відео для навчання ШІ

Які системи навчає Nvidia?

Авторське право

Читайте також

Шукаєте інформацію про медіа та можливості для них? Підписуйтеся на новий проєкт «Рівні медіа»

«Медіамейкер» зупиняє роботу. Що буде далі?

«Китайське обладнання з польськими етикетками». Розслідування від «18000» про те, яке медобладнання в Черкасах купують за десятки мільйонів гривень

22 пацієнти втратили зір після ін’єкцій. Як NGL.media розбиралися в тому, що сталося в офтальмології на Тернопільщині

Незадекларована розкіш. Як «18000» вивчали розрив між доходами та способом життя родини секретаря Черкаської міськради

Безплатний курс із PR від комунікаційної академії «КомА» (реєстрація до 6 липня)

Хто ми?

Медіамейкер

Розділи

Соцмережі