Devin пытался стать универсальным инструментом, но переоценил свои возможности.
В марте 2024 года компания Cognition AI представила «первого автономного ИИ-программиста» под названием Devin, обещая революцию в разработке программного обеспечения. Сервис, который стал общедоступен в декабре 2024 года по цене от $500 в месяц, заявлял о возможностях создания и развертывания приложений, автоматического исправления ошибок и выполнения других сложных задач. Однако первые тесты показали, что Devin далек от выполнения таких обещаний.
По заявлению Cognition AI, Devin способен писать, запускать и тестировать код, помогать разработчикам с задачами, рецензировать pull request-ы, мигрировать код, решать проблемы на вызовах и даже заказывать еду через сервис доставки. Интерфейсом служит платформа Slack, где пользователи отправляют команды в вычислительную среду, работающую в Docker-контейнере с интеграцией API. Однако на практике реализация всех функций оказалась сложной задачей для «автономного программиста».
Видеопрезентация Cognition AI вызвала критику разработчиков, а в работе Devin вовсе были обнаружены критические уязвимости, что дополнительно подорвало доверие к продукту. Специалисты Answer.AI провели собственные испытания Devin, дав ему 20 задач. Результаты оказались разочаровывающими: только 3 задания были выполнены успешно.
Devin справился с переносом данных из базы Notion в Google Таблицы и созданием трекера для проверки исторических позиций Юпитера и Сатурна. Также Devin сумел найти информацию о разработке Discord-бота на Python. Однако на этом успехи закончились. Остальные 17 задач либо провалились, либо были выполнены с проблемами.
Сложности возникли даже при выполнении, казалось бы, простых заданий. Devin тратил дни на попытки решить невозможные задачи, вместо того чтобы остановиться и определить фундаментальные ограничения. Например, при попытке развернуть несколько приложений на платформе Railway, которая не поддерживает подобную функцию, Devin игнорировал ограничения и генерировал несуществующие решения.
Среди других недостатков — чрезмерно сложные и непрактичные решения. Неспособность предсказать, справится ли Devin с задачей, добавила проекту отрицательных оценок.
Исследователи отметили, что пользовательский интерфейс Devin был впечатляющим, но его реальная производительность оставляла желать лучшего. «Обещания автономности стали недостатком, поскольку Devin тратил время на нерешаемые задачи, игнорируя очевидные препятствия», — написали специалисты. Cognition AI не предоставила комментариев о результатах тестирования.
Разбираем кейсы, делимся опытом, учимся на чужих ошибках