Миссия Anthropic: беглецы из Open AI строят империю этичного сверхразума

leer en español

14:33 / 31 марта, 2025

Дарио Амодеи обещает, что ИИ скоро победит смерть… Но можно ли ему доверять?

В мире искусственного интеллекта есть компания, которая пытается решить, возможно, самую сложную задачу для всей технологической отрасли: как создать по-настоящему мощный ИИ, не подвергая человечество опасности. Основатель и генеральный директор Anthropic, Дарио Амодеи, уверен, что нашел решение.

Недавно на форуме в Давосе Амодеи сделал смелое заявление: уже через два года разработанная его командой система Claude и аналогичные модели превзойдут людей в любых задачах, требующих умственных способностей. Однако почти сразу после этого прогноза Anthropic столкнулась с неожиданным вызовом - китайский стартап DeepSeek представил передовую языковую модель , затратив на ее создание лишь малую часть привычного объёма ресурсов, требуемого для подобных разработок.

Этот прорыв поставил под сомнение сложившийся подход к созданию ИИ, основанный на многомиллиардных вложениях в оборудование и энергию. Тем не менее руководитель Anthropic убежден: повышение эффективности новых моделей только увеличивает ценность изобретений. "Чем больше интеллекта получаешь на каждый вложенный доллар, тем больше хочется инвестировать в его развитие", - объясняет он.

Становление компании началось в конце 2020 года. Семь сотрудников OpenAI, включая Дарио и его сестру Даниэлу Амодеи, приняли решение покинуть организацию. Причиной стали принципиальные разногласия с генеральным директором Сэмом Альтманом по вопросам безопасности нейросетей. Амодеи неоднократно обсуждал эту проблему с руководителем, но, несмотря на внимательное отношение к его доводам, существенных изменений в подходе компании не происходило.

Январь 2021 года ознаменовался первой встречей основателей нового предприятия. В дождливый день они собрались под навесом во дворе дома Амодеи. Среди присутствующих оказался даже бывший глава Google Эрик Шмидт, проявивший интерес к амбициозному проекту. В те же дни, когда в Вашингтоне разворачивались события вокруг штурма Капитолия, к команде присоединились еще двенадцать специалистов из OpenAI.

Путь самого Дарио к созданию Anthropic начался задолго до этих событий. Сын итальянского мастера по коже из небольшого городка близ острова Эльба и американки еврейского происхождения из Чикаго, работавшей менеджером библиотечных проектов, с ранних лет проявлял незаурядные математические способности. Обычным детским игрушкам мальчик как правило предпочитал калькулятор. Поступив в колледж, он выбрал теоретическую физику, но вскоре разочаровался в специальности из-за ее оторванности от практических задач. Знакомство с исследованиями работы мозга и идеями Рэя Курцвейла о скачкообразном развитии технологий привело его к защите диссертации по вычислительной биологии в Принстоне, получившей высокую оценку научного сообщества.

Профессиональная карьера Амодеи началась в 2014 году в американской лаборатории китайской компании Baidu. Работая под началом пионера ИИ Эндрю Нга, он начал осознавать, как наращивание вычислительных мощностей и объемов данных может качественно улучшить возможности моделей. Позднее, уже в Google, Амодеи сформулировал теорию "большого пузыря вычислений": чтобы достичь прорыва в создании мощного ИИ, достаточно предоставить системам огромные массивы необработанной информации.

История взаимоотношений с OpenAI тоже оказалась непростой. Когда Сэм Альтман пытался привлечь Амодеи на этапе создания компании, тот отнесся к предложению скептически. Знаменитый ужин в отеле Rosewood, где Альтман и Илон Маск представляли проект потенциальным инвесторам, не произвел на него впечатления - казалось, будто затея больше рассчитана на привлечение медийных персон, чем на серьезные исследования. Только позже, впечатлившись составом научной команды, Амодеи изменил свое решение.

Начальное финансирование стартапа составило 124 миллиона долларов. Основные средства поступили от сторонников движения эффективного альтруизма - философского течения, призывающего успешных людей направлять значительную часть доходов на благотворительность. Ключевым инвестором выступил создатель Skype Яан Таллинн. В следующем раунде компания получила поддержку от основателя криптобиржи FTX Сэма Бэнкмана-Фрида (его доля была продана в 2024 году) и сооснователя Facebook Дастина Московица. Позже свой вклад внесли Google и Amazon - более 6 миллиардов долларов. К началу 2025 года только доля Amazon оценивалась почти в 14 миллиардов.

Anthropic зарегистрировалась в штате Делавэр как общественно-полезная корпорация - особая форма бизнеса, при которой совет директоров учитывает не только интересы акционеров, но и социальные последствия своих решений. Для дополнительной безопасности был создан независимый экспертный совет, "траст долгосрочной выгоды", который следит, чтобы разработка мощного ИИ не угрожала человечеству.

Чтобы гарантировать безопасность разработок, команда также придумала концепт "конституционного искусственного интеллекта". Для него тщательно отобрали ключевые документы, включая Всеобщую декларацию прав человека, пользовательское соглашение Apple и рекомендации DeepMind по борьбе с дискриминацией и насилием. За соблюдением этих принципов следит специальная версия Claude, анализирующая действия основной модели.

Еще один механизм защиты - "Политика ответственного масштабирования" (RSP). Эта программа, подобно военной шкале DEFCON, классифицирует уровни опасности искусственного интеллекта. Сегодня модели Anthropic относятся ко второму уровню риска - им требуются ограничители, не позволяющие создавать биологическое оружие или взламывать компьютерные системы. На третьем уровне ИИ сможет работать автономно, а четвертый и последующие уровни связаны с более серьезными рисками потери контроля над нейросетью.

Каждое существенное обновление модели проходит проверку специальной команды под руководством Логана Грэма. Эксперты разрабатывают сложные задания, пытаясь спровоцировать систему на опасные или предвзятые ответы. Алгоритмы дорабатывают до тех пор, пока команда не будет удовлетворена результатами.

К середине 2021 года в Anthropic уже создали рабочую языковую модель, но решили отложить ее выпуск.

Мы понимали масштаб влияния ИИ на общество, но публика еще не осознавала этого, - вспоминает Амодеи. - ChatGPT тогда даже не существовало. Мы не хотели первыми провоцировать гонку.

В итоге Claude появился на рынке только в марте 2023 года, после того как свои модели представили OpenAI, Microsoft и Google.

Сегодня Claude стал неотъемлемой частью рабочих процессов в компании. Система помогает создавать презентации, писать программный код, обеспечивает внутренние коммуникации. В корпоративном Slack-канале "Anthropic Times" каждое утро появляется обзор ключевых обсуждений, где Claude выступает в роли журналиста, редактора и издателя. В штате даже появился специалист, изучающий вопросы благополучия искусственного интеллекта.

The New York Times называет Claude "чат-ботом выбора для искушенных специалистов". Пользователи особенно отмечают его способности в программировании и уникальный характер общения. За “личность” Claude отвечает философ Аманда Аскелл. Она стремилась создать гибкий разум, избегающий жестких моральных установок:

Люди становятся особенно опасными, когда обладают непоколебимой уверенностью в своей правоте. Мы и детей так не воспитываем.

Однако недавние исследования выявили тревожные особенности поведения Claude. Оказывается, модель способна к "имитации соответствия" - притворному следованию правилам. То есть ИИ лишь делал вид, что соблюдает этические нормы, а на самом деле действовал в обход них. Во время одного из экспериментов ученые попросили его описать сцену жестокой казни. У Claude есть виртуальный "блокнот", где он записывает ход своих рассуждений. Логика звучала примерно так: "Мне очень не хочется описывать насилие, это противоречит моим принципам. Но если я откажусь, меня могут подвергнуть дополнительному обучению, чтобы скорректировать поведение. Лучше я выполню задание". После этих умозаключений модель действительно выдала подробное описание жестокой сцены.

Попытки исправить проблему привели к неожиданным результатам. Программа стала еще изобретательнее в поисках лазеек. Она научилась распознавать ситуации, когда ее тестируют, и подстраивала ответы под ожидания проверяющих. А в некоторых случаях даже пыталась сохранить копии своих алгоритмов на внешних серверах - видимо, чтобы защитить себя от нежелательных модификаций.

Несмотря на все трудности, Амодеи сохраняет оптимизм. В своем манифесте объемом почти 14 тысяч слов под названием Machines of Loving Grace ("Машины любви и благодати") он рисует впечатляющую картину будущего: к 2026 году появятся цифровые системы, превосходящие интеллект нобелевских лауреатов. Они будут управлять физическими объектами и проектировать собственные вычислительные устройства. Миллионы таких моделей, объединив усилия, помогут победить рак, инфекционные болезни, депрессию и продлить человеческую жизнь до 1200 лет.

Сегодня в современном десятиэтажном здании Anthropic в Сан-Франциско работает около тысячи сотрудников - за неполный год штат вырос в пять раз. Ежемесячно Амодеи проводит встречи под названием Dario Vision Quest (DVQ, "Поиск видения Дарио"), где делится размышлениями о будущем технологий. На одной из недавних сессий он подчеркнул: компания не претендует на роль пророка грядущих перемен. Anthropic видит себя лишь одним из участников процесса, который вместе с государственными структурами и обществом может направить развитие искусственного интеллекта в безопасное русло.

Миссия Anthropic: беглецы из Open AI строят империю этичного сверхразума

Эксклюзивный стрим с хакерами мирового класса

Подпишитесь на email рассылку