Стрим от Anthropic - отличная возможность «заглянуть в голову» машине.
Вчера, 25 февраля, Anthropic запустила на Twitch трансляцию "Claude Plays Pokémon" , где их новейшая модель Claude 3.7 Sonnet пытается пройти игру Pokémon Red 90-х годов. То, что задумывалось как технический тест возможностей ИИ, быстро превратилось в нечто большее — за процессом наблюдают сотни зрителей по всему миру.
Исследователи ИИ давно используют игры для проверки своих разработок — от Street Fighter до Pictionary. Обычно это делают больше для развлечения, чем для серьезных исследований. Но Anthropic говорит, что Pokémon Red - действительно полезное испытание на прочностью для LLM, так как игра требует построения комплексных стратегий.
Главное отличие Claude 3.7 Sonnet от предшественников — умение "рассуждать". Этой же способностью обладают o3-mini от OpenAI и R1 от DeepSeek. И разница в результатах впечатляет: предыдущая версия — Claude 3.5 Sonnet — не могла даже выйти из дома главного героя в начальном городке Паллет Таун. Она постоянно натыкалась на стены и не понимала базовых игровых механик. Новая модель с функцией рассуждения уже продвинулась намного дальше и выиграла три значка у лидеров гимнасий — серьезное достижение, демонстрирующее качественный скачок в способностях программы решать последовательные задачи и удерживать в памяти долгосрочные цели.
Хотя, конечно, модель не идеальна и всё еще оступается на многих этапах. Например, в какой-то момент Claude застрял перед простой скальной стеной и никак не мог сообразить, как ее преодолеть: раз за разом пытался пройти напролом. Это выглядело особенно комично, учитывая, что до этого ИИ успешно решал более сложные головоломки. Один из зрителей иронично заметил: "Кто победит — ИИ, на который потратили тысячи часов разработки, или одна скальная стенка?".
Игра одновременно и раздражает, и завораживает. Модель двигается медленно, как улитка, размышляя над каждым шагом — темп напоминает легендарного покемона Слоупока. Не судите строго: человек реагирует на игровые стимулы интуитивно, мгновенно принимая решения, тогда как Claude проводит мучительный анализ каждого возможного действия - в этом его суть.
Экран разделен на две части: слева показаны "мысли" машины (внутренний процесс анализа ситуации), справа — сама игра в реальном времени. Уникальная возможность понять, как работают нейросети подобного плана: какие факторы учитывают, как формулируют гипотезы и приходят к выводам.
Забавный случай произошел, когда Claude искал профессора Оука в его лаборатории. Вокруг было несколько персонажей, и он запутался, не сумев правильно идентифицировать нужного NPC среди других спрайтов. "Вижу нового персонажа ниже меня — человек с черными волосами, похоже, в белом халате, на координатах (2, 10). Это может быть профессор Оук! Пойду поговорю с ним", — "подумала" программа. После этого она подошла не к профессору, а к другому персонажу, с которым уже несколько раз общалась раньше.
Подобные ошибки показывают, что даже продвинутые современные алгоритмы страдают от проблем с долговременной памятью и контекстуальным распознаванием. Часть из примерно тысячи зрителей в чате начала возмущаться, но те, кто дольше смотрел трансляцию, успокаивали остальных: "Расслабьтесь, мы до этого входили и выходили из лаборатории Оука раз десять, прежде чем поняли, что делать дальше". Здесь, кстати, проявляется интересный социальный аспект — аудитория начинает относиться к ИИ почти как к живому существу, сопереживая его неудачам и радуясь успехам.
Здесь нельзя не вспомнить еще один эксперимент десятилетней давности — Twitch Plays Pokémon. В феврале 2014 года анонимный программист запустил необычный стрим: настроил систему, которая позволяла зрителям коллективно управлять персонажем, вводя простые команды (вверх, вниз, влево, вправо, A, B, start) в чат. Каждый предлагал свой следующий ход, создавая полный хаос: герой часто двигался случайным образом, кругами, натыкался на стены и принимал нелогичные решения. Но каким-то чудом коллективный разум всё-таки медленно продвигался по сюжету.
Да и вообще история Claude Plays Pokémon - не первый случай, когда искусственный интеллект пытается освоить мир покемонов. В октябре 2023 года инженер-программист Питер Уидден из Сиэтла опубликовал на своем YouTube-канале результаты похожего опыта. Правда, он подошел к задаче совсем иначе, чем Anthropic.
Вместо использования готовой языковой модели вроде Claude, Уидден создал специализированную систему, обучающуюся методом проб и ошибок. Такой подход называется "обучение с подкреплением": искусственный интеллект получает виртуальные "награды" за успешные действия и "наказания" за ошибки. Похоже на дрессировку животных, только в цифровом мире.
Процесс обучения был невероятно длительным — система провела в игре более 50 тысяч часов, что равносильно шести годам непрерывной игры. Сам программист, конечно, не сидел всё это время перед компьютером — процесс шел автоматически, часто на ускорении.
Удивительно, но даже после такой интенсивной тренировки ИИ демонстрировал странное поведение. Например, мог надолго "залипнуть", разглядывая простые игровые пейзажи, игнорируя основные задачи. Как будто ребенок, который вместо выполнения домашнего задания увлекся разглядыванием узоров на обоях.
Сейчас, в 2025 году, всё изменилось. Мы уже не товарищи по команде, а просто зрители, наблюдающие, как машина “пыхтит” над игрой, с которой многие из нас легко справлялись в пятилетнем возрасте. Вместо того чтобы создавать контент вместе, мы теперь просто потребляем то, что создают алгоритмы — пусть даже не слишком умело.
Собираем и анализируем опыт профессионалов ИБ