Ценные уроки из прошлого для современного искусственного интеллекта.
В недавнем исследовании под названием «Проходит ли GPТ-4 тест Тьюринга?», опубликованном на arXiv, учёные из Калифорнийского университета в Сан-Диего провели занимательное сравнение между живыми людьми, ИИ-моделями GPT-3.5 и GPT-4, а также виртуальным собеседником ELIZA, написанным в далёком 1966 году.
В рамках своего проекта исследователи создали веб-сайт под названием turingtest.live , где они разместили онлайн-реализацию теста Тьюринга для двух участников с целью увидеть, насколько хорошо GPT-4 может убедить людей в своей человечности.
Тест Тьюринга, предложенный британским математиком Аланом Тьюрингом в 1950 году, является знаковым, но спорным критерием для оценки способности машины имитировать человеческий разговор. Согласно этому тесту, если человек, выступающий в роли судьи, не может надёжно отличить чат-бота от человека, то говорят, что чат-бот прошёл тест. Однако точные критерии для прохождения данного теста до сих пор остаются предметом дискуссий.
Эксперимент, организованный на сайте turingtest.live , включал 652 участника и 1 810 сессий, из которых было проанализировано 1 405. Удивительно, что GPT-3.5, базовая модель бесплатной версии ChatGPT, показала успех лишь в 14%, что исследователи связали с её специализированной подготовкой не представлять себя в качестве человека.
В то же время, ELIZA, разработанная почти 60 лет назад учёным-компьютерщиком Джозефом Вайценбаумом из Массачусетского технологического института, показала относительно хорошие результаты во время исследования. Она достигла показателя в 27 процентов, опередив GPT-3.5.
GPT-4, флагманская LLM-модель от OpenAI, в свою очередь, показала результат в 41%, уступив лишь реальным людям.
Исследование показало, что при оценке ответов участники опирались в первую очередь на лингвистический стиль и социально-эмоциональные характеристики, а не только на восприятие интеллекта. Такие параметры, как формальность, индивидуальность и общительность ответов, играли ключевую роль.
Авторы признают некоторые ограничения исследования, включая возможную выборочную предвзятость и отсутствие стимулов для участников. Они также указывают, что результаты могут поддерживать критику Теста Тьюринга как несовершенного метода измерения машинного интеллекта. Однако они утверждают, что тест по-прежнему актуален для оценки способности ИИ к социальному взаимодействию и обману.
В итоге, несмотря на достаточно высокие результаты, GPT-4 всё ещё не соответствует критериям успешности теста Тьюринга. Это открывает новые перспективы и вызовы в развитии ИИ, показывая, что будущее в этой области обещает быть поистине увлекательным.