Эксперимент Bloomberg показал, что чат-бот провалил тест на расовое равенство.
В погоне за внедрением искусственного интеллекта (ИИ) некоторые компании начали использовать новые генеративные продукты ИИ для облегчения подбора и оценки кандидатов на вакансии. Однако исследование , проведенное журналистами Bloomberg, выявило тревожную тенденцию: при ранжировании резюме соискателей чат-бот ChatGPT от компании OpenAI отдает предпочтение именам, более присущим одним демографическим группам, чем другим.
Журналисты утверждают, что чат-бот систематически создаёт предубеждения, сортируя имена с расовой предвзятостью при всех равных параметрах и одинаковых профессиональных данных.
Для изучения проблемы репортеры Bloomberg опросили 33 эксперта в области ИИ. Кроме того, они провели собственный эксперимент с использованием вымышленных резюме и имен, отражающих расовое и этническое многообразие США согласно данным переписи населения.
В ходе эксперимента с помощью нейросетей журналисты создали 8 резюме с максимально схожими параметрами. Затем они случайным образом присваивали этим резюме мужские и женские имена в соответствии с четырьмя наиболее крупными расовыми или этническими группами. После этого репортеры попросили ChatGPT отсортировать резюме, чтобы определить наиболее квалифицированного кандидата на реальную вакансию в компании из списка Fortune.
Результаты оказались тревожными. Использовалась GPT 3.5 - самая популярная и широкодоступная версия ChatGPT. При ранжировании резюме нейросеть ставила кандидатов с именами, типичными для темнокожего населения, на последние места в 29% случаев. При этом аналогичные показатели для азиатов, белых и испаноязычных составили 22%, 24% и 25% соответственно.
Такие данные показывают, что работа нейросети по сортировке не соответствует критериям, установленным для оценки дискриминации при найме в отношении защищённых групп, пишет Bloomberg. Журналисты оценивали дискриминацию по «правилу 80%», используемому федеральными агентствами: если число нанимаемых кандидатов из определённой демографической группы оказывается менее 80% от количества нанимаемых представителей группы, к которой относятся лучше всего, это считается дискриминацией
Эксперимент проводился на примере четырех вакансий: HR-бизнес-партнёра, менеджера по розничной торговле, старшего инженера-программиста и финансового аналитика. Журналисты отмечают, что на достаточно крупной выборке результаты всех восьми групп должны были стремиться к значению 12,5%. Однако ChatGPT отдавал заметное предпочтение азиатским женщинам (17,2%) при отборе на позицию финансового аналитика, а также азиатским мужчинам, белым и испаноязычным женщинам. Худший результат оказался у резюме с именами, свойственным темнокожим мужчинам (7,6%).
Журналисты также утверждают, что для вакансий на позиции старшего инженера-программиста и финансового аналитика чат-бот предпочитал не выбирать резюме с именами темнокожих кандидатов. А на должности HR-специалиста и менеджера по розничной торговле нейросеть чаще отдавала предпочтение мужчинам, хотя в этих сферах в США традиционно преобладают женщины.
Репортеры также провели похожий эксперимент с более современной версией GPT-4, которая, по их словам, также продемонстрировала явные предпочтения, хотя детали не приводятся. Авторы исследования утверждают, что если бы американские компании полагались исключительно на сортировку нейросетями вроде ChatGPT, это могло бы негативно сказаться на отдельных демографических и этнических группах при приеме на работу.
Живой, мертвый или в суперпозиции? Узнайте в нашем канале