Программисты, спите спокойно: ИИ провалил тест на профпригодность

leer en español

Программисты, спите спокойно: ИИ провалил тест на профпригодность

Фрилансеры против языковых моделей: OpenAI решила проверить, кто кого.

image

OpenAI проверила , как на самом деле языковые модели справляются с программированием и могут ли, как многие из нас опасаются, в скором времени заменить человека на передовой разработки. В качестве теста компания взяла 1488 заданий с платформы Upwork.

Upwork – крупнейший зарубежный сервис для фрилансеров, где заказчики находят исполнителей для самых разных задач: от программирования и дизайна до копирайтинга и виртуального ассистирования. Зарегистрировано здесь больше 20 миллионов человек со всего мира и около 5 миллионов клиентов. Платформа берет на себя роль посредника: гарантирует оплату работы, предоставляет инструменты для общения и управления проектами, а также помогает разрешать споры между заказчиками и исполнителями.

В эксперименте участвовали три продвинутые LLM: GPT-4o и o1 от OpenAI, а также Claude 3.5 Sonnet от Anthropic. Им предстояло выполнить работу, за которую фрилансеры в сумме получили больше миллиона долларов. При этом важно было не просто написать код, но и самостоятельно решать, как технически реализовать каждый проект.

Задачи сильно различались по сложности и стоимости: от простых багфиксов за 50 долларов до серьезных проектов ценой в 32 тысячи. Примерно 35% всех поручений стоили больше тысячи долларов, еще 34% оценивались в сумму от 500 до 1000 долларов. Цена соответствовала реальным выплатам, которые получили фрилансеры за свою работу.

ИИ пришлось создавать мобильные и веб-приложения, подключать API, настраивать работу с браузерами и внешними программами, а также разбираться со сложными багами. Каждое решение сначала проходило через автотесты, а потом его проверяли три опытных программиста.

Каждая LLM также примерила на себя роль технического руководителя: нужно было принимать стратегические решения по архитектуре приложений, выбирать подходы к разработке и определять приоритеты в развитии той или иной инициативы. Выборы ИИ сопоставляли с реальными решениями менеджеров, которые ранее вели эти проекты. Интересно, что подавляющее большинство задач – около 90% – касались не создания нового функционала, а исправления существующих проблем в коде.

Лучше всех проявила себя Claude 3.5 Sonnet. В ситуациях, где нужно было просто программировать, она справилась с 26,2% заданий – это принесло бы ей 208 тысяч долларов из возможных 500,8 тысяч. А когда пришлось примерить роль руководителя, ИИ достиг результата в 44,9%, что соответствует 400 тысячам долларов из миллиона возможных.

Особое внимание в исследовании уделили заданиям категории "Diamond" – самым сложным проектам, с которыми даже опытные специалисты на GitHub возились в среднем 26 дней. В процессе работы у каждого возникало множество вопросов – ветка комментариев обычно разрасталась до 50 сообщений. Конечно, Claude 3.5 и здесь показала лучший результат, хотя точный процент успешных решений в этой категории оказался значительно ниже. Чтобы получить максимально честные результаты, модели работали в изолированной среде Docker без доступа к внешним ресурсам – никаких готовых ответов.

Исследование OpenAI (оно, кстати, получило название SWE-Lancer) примечательно тем, что впервые нейросети тестировали на реальных коммерческих продуктах, которыми пользуются миллионы людей. До этого проверки проводились только на специализированных репозиториях с исходным кодом – таких задачах, которые интересны узкому кругу разработчиков.

Кстати, за время эксперимента сами модели заметно прибавили в умениях. Например, GPT-4o, которая в августе 2024 года справлялась лишь с третью заданий, в новой версии o3 смогла успешно решить уже 72%.

В OpenAI считают, что когда нейросети научатся программировать на уровне человека, это сделает качественную разработку доступнее и ускорит технологический прогресс. При этом в компании понимают риски для рынка труда, особенно для начинающих.

Несмотря на постоянное обучение, оказалось, что умные алгоритмы все еще далеки от того, чтобы заменить программистов. Даже самые продвинутые системы не справились с большинством задач: они часто допускали ошибки в сложной бизнес-логике, не могли эффективно интегрировать разные технологии и затруднялись с отладкой нетривиальных проблем. Зато методология SWE-Lancer открыла новый способ оценки ИИ через призму реальной экономики: уже можно точно сказать, какую часть работы реальных специалистов проще автоматизировать и сколько это стоит.

Ищем баги вместе! Но не те, что в продакшене...

Разбираем кейсы, делимся опытом, учимся на чужих ошибках

Зафиксируйте уязвимость своих знаний — подпишитесь!