Как YouTube стал невольным донором для ИИ?
Расследование Proof News выявило, что Anthropic, Nvidia, Apple и Salesforce без разрешения авторов использовали субтитры из 173 536 видеороликов с более чем 48 000 каналов.
Собранная информация пополнила набор данных YouTube Subtitles, который содержит видеозаписи как с образовательных каналов, Khan Academy, MIT и Harward, так и с каналов популярных вечерних шоу, включая The Late Show With Stephen Colbert, Last Week Tonight With John Oliver и Jimmy Kimmel Live. Известные блогеры, MrBeast, Marques Brownlee, Jacksepticeye и PewDiePie, также стали жертвами массового использования контента.
Ведущий The David Pakman Show Дэвид Пакман отметил, что никто не обращался к нему с просьбой использовать видео. 160 видео Пакмана были использованы без его ведома.
Набор данных YouTube Subtitles не включает видеоизображения, а состоят из обычного текста субтитров к видео, часто вместе с переводами на языки, включая японский, немецкий и арабский. Несмотря на снятие YouTube Subtitles с официальных источников, датасет остается доступным на других платформах. Многие авторы контента, чья работа была использована, не были осведомлены о том, как их данные используются.
Компании Anthropic и Salesforce подтвердили изданию Wired, что использовали датасет для «академических и исследовательских целей» при разработке своих ИИ-моделей. Salesforce отметила, что компания считала набор данных общедоступным.
Отраслевые эксперты называют такие действия «воровством» и отмечают, что использование контента без согласия авторов недопустимо, особенно если это приводит к замене художников и создателей контента генеративным ИИ. Такие действия могут нанести ущерб творческим профессиям.
В подобных ситуациях компании часто оправдываются, ссылаясь на общественную доступность информации. Однако, как показывает практика, это не снимает этических и юридических вопросов. Представители Apple, Nvidia и других крупных компаний не предоставили комментарии по ситуации.
Специалисты отмечают, что компании конкурируют за лучшие данные, тщательно скрывая их источники. YouTube, в свою очередь, не предоставляет однозначных ответов на вопросы о допустимости использования своих данных для обучения ИИ.
Ведущий канала Professor Dave Explains Дэвид Фарина возмущен тем, что его контент был использован без согласия. Фарина подчеркивает, что, если компании получают прибыль от использования работ канала, необходимо обсудить вопрос компенсации и регулирования
Гравитация научных фактов сильнее, чем вы думаете