От YouTube до Netflix: как техногигант «питал» свой ИИ.
В результате масштабной утечки данных компании Nvidia стало известно, что технологический гигант использовал видео с YouTube, Netflix и других платформ для обучения своих систем искусственного интеллекта. Информация была получена изданием 404 Media в ходе расследования, основанного на внутренней переписке сотрудников Nvidia в Slack, электронных письмах и документах компании.
Согласно утечке, Nvidia активно собирала видеоматериалы для разработки нескольких ключевых продуктов: генератора 3D-миров Omniverse, систем автономного вождения и технологии «цифровых людей». Несмотря на то, что некоторые сотрудники выражали обеспокоенность этичностью и легальностью таких действий, руководство компании уверяло, что получило разрешение на использование контента «с самых высоких уровней».
Основным источником данных стал YouTube, однако сотрудники Nvidia также обсуждали возможность использования контента с Netflix и GitHub. Более того, один из работников предложил включить в обучающую выборку фильмы, аргументируя это тем, что кинокартины могли бы стать отличным источником качественных данных для создания реалистичных 3D-миров и вымышленных персонажей.
Масштабы проекта впечатляют: в одном из писем вице-президент по исследованиям Nvidia Минг-Ю Лю упомянул о планах создания «фабрики видеоданных». Она должна была обрабатывать за день столько видео, сколько человек может увидеть за всю жизнь. Для этого компания хотела использовать от 20 до 30 виртуальных машин на Amazon Web Services.
В ходе обсуждений сотрудники Nvidia рассматривали различные YouTube-каналы как потенциальные источники данных. Среди них оказались не только официальные каналы крупных брендов, таких как Expedia и Architectural Digest, но и популярные техноблогеры, включая Маркеса Браунли (MKBHD).
Когда журналисты 404 Media обратились к Nvidia за комментариями по поводу легальности и этичности использования защищенного авторским правом контента для обучения ИИ, компания заявила, что их практика «полностью соответствует букве и духу закона об авторском праве».
Стоит отметить, что это не первый случай, когда Nvidia сталкивается с обвинениями в неправомерном использовании данных. В июле 2023 года компанию уже обвиняли в использовании информации, полученной сторонней фирмой путем несанкционированного скрапинга YouTube-видео.
Ладно, не доказали. Но мы работаем над этим