Как Meta научила свою модель CM3Leon генерировать и подписывать изображения лучше всех

13:25 / 15 июля, 2023

Она легко справляется с сложными запросами и редактирует изображения по инструкциям.

Компания Meta представила новую модель искусственного интеллекта, которая может создавать изображения по текстовым описаниям и писать подписи к ним. Модель называется CM3Leon и, по утверждению разработчиков, обладает лучшим качеством генерации изображений среди существующих аналогов.

CM3Leon отличается от большинства других генераторов изображений тем, что она использует трансформеры — специальные архитектуры нейронных сетей, которые могут обрабатывать разные типы данных, такие как текст или изображения. Трансформеры позволяют модели быстрее обучаться и лучше учитывать контекст входных данных. Кроме того, CM3Leon требует в пять раз меньше вычислительных ресурсов и меньшего объема обучающих данных, чем предыдущие методы на основе трансформеров.

Для обучения CM3Leon компания Meta использовала миллионы лицензированных изображений с сайта Shutterstock. Самая мощная версия модели имеет 7 миллиардов параметров — это в два раза больше, чем у конкурирующей модели DALL-E 2 от OpenAI. Параметры определяют навыки модели по решению задачи, такой как генерация текста или изображений.

Одним из ключевых факторов успеха CM3Leon является техника под названием SFT (supervised fine-tuning), которая заключается в дополнительной настройке модели на специфических задачах. Эта техника уже применялась для обучения текстовых генераторов, таких как ChatGPT от OpenAI, но Meta предположила, что она может быть полезна и для области изображений. Действительно, SFT улучшила работу CM3Leon не только по генерации изображений, но и по написанию подписей к ним, а также по ответам на вопросы об изображениях и редактированию изображений по текстовым инструкциям (например, «измени цвет неба на ярко-синий»).

Большинство генераторов изображений испытывают трудности с «сложными» объектами и текстовыми запросами, которые содержат слишком много ограничений. Но CM3Leon справляется с этим лучше — или по крайней мере не так часто. В нескольких примерах, подобранных компанией Meta, CM3Leon создавала изображения по запросам типа «Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара», «Крупный план человеческой руки», «Енот-главный герой аниме, готовящийся к эпической битве с самурайским мечом» и «Дорожный знак в фэнтезийном стиле с текстом «1991»». Для сравнения я запустил те же запросы через DALL-E 2. Некоторые результаты были близки. Но изображения CM3Leon были в целом более соответствующими запросу и детализированными на мой взгляд, особенно знак.

CM3Leon также может понимать инструкции по редактированию существующих изображений. Например, по запросу «Создай высококачественное изображение «комнаты с раковиной и зеркалом» с бутылкой в точке (199, 130)» модель может сгенерировать что-то визуально связное и, как выражается Meta, «соответствующее контексту» — комната, раковина, зеркало, бутылка и все. DALL-E 2 совершенно не справляется с нюансами таких запросов, иногда полностью пропуская объекты, указанные в запросе.

И, конечно, в отличие от DALL-E 2, CM3Leon может выполнять различные запросы по генерации коротких или длинных подписей и ответам на вопросы о конкретном изображении. В этих областях модель показала лучшие результаты, чем даже специализированные модели для подписывания изображений (например, Flamingo, OpenFlamingo), несмотря на то, что видела меньше текста в своих обучающих данных, утверждает Meta.

Но что насчет предвзятости? Генеративные модели искусственного интеллекта, такие как DALL-E 2, были обнаружены в усилении общественных предрассудков, например, создавая изображения должностей власти — таких как «CEO» или «директор» — которые изображают в основном белых мужчин. Meta оставляет этот вопрос без ответа, говоря только, что CM3Leon «может отражать любые предрассудки, присутствующие в обучающих данных».

«По мере того, как индустрия искусственного интеллекта продолжает развиваться, генеративные модели, такие как CM3Leon, становятся все более совершенными», — пишет компания. «Хотя индустрия еще находится на ранних стадиях понимания и решения этих проблем, мы считаем, что прозрачность будет ключом к ускорению прогресса».

Это только демо-версия будущего...

Как Meta научила свою модель CM3Leon генерировать и подписывать изображения лучше всех

Патч для мозга

Подпишитесь на email рассылку