Один странный эксперимент показал, как далеко шагнули современные нейросети.
Иногда самые заметные технологические прорывы проявляются в самых неожиданных мелочах. Именно это и произошло с новой версией GPT-4o от OpenAI: на первый взгляд незначительное, но символическое достижение — искусственный интеллект наконец-то научился рисовать полностью наполненный бокал вина. Да, именно так. Звучит странно, но до недавнего времени нейросети упорно игнорировали просьбы пользователей и изображали только полупустые или вовсе пустые бокалы, даже если в запросе явно указывалось: «наполненный до краёв».
Это казалось досадной причудой, но на самом деле отражало более глубокую проблему. Ранние модели ИИ просто не могли абстрагироваться от шаблонов, заложенных в обучающих данных. А на фотографиях бокалы с вином действительно чаще всего представлены частично наполненными — таковы эстетические нормы и композиционные привычки. В итоге модели не «понимали», что вообще значит «полный» бокал, и не могли выйти за рамки увиденного.
В отличие от человека, который способен представить абстрактную идею «полноты» без реального опыта, ИИ был зажат рамками статистики. То, что GPT-4o теперь способен корректно отрисовать такую простую, но символически важную вещь — это шаг к более глубокому пониманию физических свойств, а не просто копирование паттернов из базы.
OpenAI подчёркивает, что в GPT-4o визуальная генерация наконец-то стала не приложением к языковой модели, а её встроенной частью. Как объяснил исследователь компании Габриэль Го, в этой версии текст и изображения обрабатываются вместе, а не как отдельные задачи. Модель обучалась на сочетаниях изображений и текста, взятых из интернета, и прошла так называемое «агрессивное дообучение», что дало ей гораздо большую визуальную точность и контекстную осознанность.
Результат — впечатляющий. GPT-4o теперь справляется с запросами, содержащими 10–20 различных объектов (вместо прежних 5–8), умеет правильно отображать текст на изображениях и сохраняет визуальную последовательность между кадрами. Это уже не просто игрушка для генерации картинок в стиле фэнтези — а инструмент, способный решать задачи визуальной коммуникации: от логотипов до инфографики.
И хотя бокал вина — мелочь, именно такие детали показывают, насколько сильно изменилось «мышление» ИИ. Модель начинает оперировать абстракциями, приближаясь к человеческому восприятию мира. Это не просто технологическое обновление — это сигнал о том, что машины учатся «понимать» физическую реальность, пусть пока и в своих, алгоритмических терминах.
Новая версия визуального генератора уже доступна пользователям ChatGPT в тарифах Plus, Pro, Team и даже в бесплатной версии, а вскоре появится и в вариантах для бизнеса и образования. В ближайшие недели появится доступ и через API. При этом OpenAI внедрил защитные механизмы: каждое изображение содержит метаданные C2PA, указывающие на его искусственное происхождение, а внутренние инструменты позволяют проверить, действительно ли картинка была создана моделью.
Так что, если в следующий раз вы попросите ИИ изобразить полный бокал вина — скорее всего, он наконец-то вас поймёт.