Неожиданные источники данных для ИИ охватывают контент от YouTube до математических форумов.
Apple представила технический документ, в котором подробно описаны модели, разработанные для обеспечения работы Apple Intelligence — ряда функций генеративного ИИ, которые вскоре будут доступны на iOS, macOS и iPadOS.
Компания опровергает обвинения в этически сомнительном подходе к обучению своих моделей, заявляя, что не использовала приватные данные пользователей, а опиралась на общедоступные и лицензированные данные. Apple подчеркивает, что набор данных для предварительного обучения состоял из лицензированных данных, общедоступных или открытых наборов данных, а также информации, собранной с помощью веб-краулера Applebot.
В июле Proof News сообщила, что Apple использовала набор данных под названием The Pile , содержащий субтитры сотен тысяч видео на YouTube, для обучения моделей, предназначенных для обработки данных на устройствах. Многие авторы видео не знали о сборе и не давали согласия на использование их контента. Apple выпустила заявление, что модели компании не будут использоваться для генеративных функций в продуктах компании.
Технический документ, раскрывающий детали моделей Apple Foundation Models (AFM), подчеркивает, что обучающие данные для AFM были получены «ответственным» способом. Набор данных включал общедоступные веб-данные, а также лицензированные данные от нераскрытых издателей. По данным The New York Times, Apple заключила многолетние контракты с издателями NBC, Condé Nast и IAC на сумму не менее $50 миллионов для использования их новостных архивов в обучении моделей.
Обучение моделей на исходном коде без разрешения вызывает разногласия среди разработчиков. Некоторые открытые кодовые базы не позволяют обучение ИИ в своих условиях использования. Apple заявляет, что проводила «фильтрацию лицензий», чтобы включать только те репозитории, которые имеют минимальные ограничения на использование, такие как лицензии MIT, ISC или Apache.
Для улучшения математических навыков моделей AFM Apple включила в набор данных математические вопросы и ответы с веб-страниц, форумов, блогов, учебных пособий и семинаров. Компания также использовала высококачественные общедоступные наборы данных, отфильтрованные для удаления чувствительной информации.
Весь набор данных для обучения моделей AFM составляет около 6,3 триллиона токенов. Для сравнения, Meta* использовала 15 триллионов токенов для обучения своей основной модели Llama 3.1 405B, релиз которой произошел на прошлой неделе. При обучении модели Apple также учитывала обратную связь от людей, а также использовала синтетические данные для тонкой настройки моделей и устранения токсичного поведения.
По заявлениям Apple, модели компании созданы для помощи пользователям в выполнении повседневных задач на устройствах Apple, опираясь на основные ценности компании и принципы ответственного ИИ на каждом этапе. Документ не содержит шокирующих откровений, что обусловлено конкурентными соображениями и рисками юридических последствий.
Некоторые компании, обучающие модели путем сканирования данных из интернета, утверждают, что их практика защищена доктриной добросовестного использования (fair use), однако этот вопрос спорный и является предметом множества судебных разбирательств. Apple отмечает, что предоставляет веб-мастерам возможность блокировать работу своего веб-краулера, но это не всегда помогает отдельным создателям контента, если их работы размещены на сайтах, которые не блокируют сбор данных.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.
Храним важное в надежном месте