Anthropic делает успехи в картировании нейросетей и изучении их «мозга».
Понимание того, как крупные языковые модели искусственного интеллекта вроде GPT и Claude «думают» и принимают решения, может иметь решающее значение для обеспечения безопасности этих систем. До недавнего времени их внутренние процессы оставались полной загадкой даже для создателей. Однако новые исследования ученых из компаний Anthropic и OpenAI пролили свет на то, как ИИ формирует концептуальные представления и идеи в своем «мозгу».
В отличие от большинства предшественников, современные языковые модели самостоятельно вырабатывают собственное «понимание» окружающего мира, анализируя гигантские объемы текстовой, визуальной и аудио информации. Они разбивают эти данные на крошечные фрагменты — токены, а затем выстраивают невероятно сложную сеть вероятностей и связей между токенами и их группами. Этот колоссальный массив последовательностей и образует своего рода «разум» ИИ, определяющий его способность интерпретировать входные данные и генерировать ответы.
В мое команда Anthropic сообщила о прорыве в постижении внутренней работы языковых моделей. Используя специальную технику, исследователи сумели соотнести активацию определенных нейронов в модели Claude с конкретными понятиями и идеями, знакомыми человеку, на основе разреженных автоэнкодеров.
"Мы извлекли миллионы признаков из среднего слоя нейронов модели Claude 3.0 Sonnet, что позволило составить приблизительную концептуальную карту ее внутренних состояний в процессе вычислений. Это первый настолько подробный взгляд внутрь современной промышленной языковой модели", - пишет команда Anthropic.
Выяснилось, что модель формирует единые концептуальные представления независимо от того, с каким типом данных она работает - текстом, изображениями или аудио. Например, нейроны, хранящие информацию о мосте Золотые Ворота, активировались как при обработке визуальной информации о знаменитом сооружении, так и текстов о нем на разных языках. При этом концепции могут быть крайне абстрактными - от гендерных предрассудков до вопросов секретности и разработки биологического оружия.
Более того, ученым удалось визуализировать взаимосвязи между различными представлениями в «мозге» ИИ. Рядом с зоной активации нейронов, отвечающей за концепт Золотых Ворот, оказались области, связанные с такими понятиями как Алькатрас, баскетбольная команда "Уорриорз", губернатор Калифорнии Гэвин Ньюсом и землетрясение 1906 года в Сан-Франциско.
«Это показывает, что внутренняя организация алгоритмов ИИ отчасти соответствует нашим человеческим представлениям о схожести понятий. Возможно, отсюда и исходит отменная способность Claude к построению аналогий и метафор», — отмечает команда Anthropic.
Команда сообщает, что ученым удалось визуализировать концептуальные карты внутренних представлений нейросети. Более того, они могут искусственно усиливать или ослаблять активацию отдельных зон, связанных с теми или иными понятиями, чтобы корректировать поведение модели. Так, в одном эксперименте ученые стимулировали активность области, ассоциирующейся с мошенническими письмами, и это позволило модели сгенерировать подобное письмо, преодолев изначальные ограничения обучающей выборки.
Исследователи называют этот процесс своеобразной «нейрохирургией» - возможностью редактирования нежелательных моделей мышления и поведения.
Тем не менее, в Abthropic предупреждают, что работа только началась. Обнаруженные концептуальные области - лишь малая часть от всего объема знаний, усвоенного моделью в ходе обучения. Для полного картирования с помощью нынешних методов потребуются колоссальные вычислительные ресурсы, превосходящие объемы, затраченные на обучение самой модели.
Кроме того, понимание концептуальных представлений не объясняет, как именно модель их комбинирует и использует для решения задач. Ученым предстоит выяснить, какие цепочки и взаимосвязи между этими областями нейронной сети задействованы для разных типов задач. Также необходимо доказать, что выявленные концепции действительно влияют на безопасность работы ИИ и их редактирование может повысить ее.
«Нам еще многое предстоит сделать», — резюмируют специалисты, признавая, что полностью постичь мыслительные процессы коммерческих языковых моделей практически невозможно. К тому же это вряд ли успокоит скептиков, опасающихся экзистенциальных рисков, связанных с ИИ.
Тем не менее, достигнутый прогресс в интерпретации внутренних состояний ИИ является феноменальным и дает беспрецедентный взгляд на то, как нейросети познают окружающий мир. Было бы чрезвычайно интересно увидеть, насколько ментальные карты ИИ совпадают или расходятся с человеческими суждениями, если такое сравнение когда-либо станет возможным.
Компания OpenAI, создатель революционных моделей GPT и один из лидеров в области искусственного интеллекта, ведет аналогичные работы , но пока отстает от Anthropic. В начале июня команда OpenAI объявила об обнаружении около 16 миллионов участков кода, соответствующих различным концептам в GPT-4. Однако на данный момент исследователи еще не дошли до визуализации концептуальных карт или редактирования связей между представлениями.
В OpenAI также признают, что полное картирование внутренних процессов языковых моделей огромного масштаба представляет большую сложность. Для отображения всех концептов передовых языковых моделей может потребоваться масштабирование до миллиардов или триллионов нейронных паттернов.Гравитация научных фактов сильнее, чем вы думаете