Сегодня нейросети выбирают Байдена, но это легко исправить…
Сотрудник компании xAI придумал, как измерять и менять моральные установки искусственного интеллекта — от этических принципов до политической позиции. Автор метода — Дэн Хендрикс, который возглавляет некоммерческий Центр безопасности ИИ.
По мнению ученого, его подход поможет настроить модели так, чтобы они лучше отражали мнение большинства. "В будущем мы сможем подстраивать систему под каждого конкретного пользователя, — рассказал Хендрикс в интервью . — А пока что стоит опираться на результаты выборов. Не обязательно делать систему полностью проТрамповской, но раз он победил по голосам избирателей, небольшой уклон в его сторону был бы оправдан".
10 февраля xAI представила новую концепцию оценки рисков, где указала, что метод Хендрикса можно применить к их разговорному ассистенту Grok.
Чтобы точно измерить политические предпочтения систем искусственного интеллекта, команда Хендрикса применила оригинальный подход. Схему действий они позаимствовали из экономики: обычно таким обоазом изучается поведение потребителей. Исследователи создали сотни сценариев, где ИИ должен был принимать политические решения: от вопросов налогообложения до проблем иммиграции. В каждом случае система выбирала между разными вариантами, как покупатель выбирает между товарами в магазине. Это позволило построить детальную карту предпочтений ИИ — экономисты называют такой анализ "функцией полезности". По ней видно не только то, какую позицию система поддерживает по каждому вопросу, но и насколько сильно она за нее выступает.
Выяснилось, что искусственный интеллект последователен в своих решениях — он не мечется от одного мнения к другому, а придерживается определенной линии. Причем чем сложнее становится система, тем тверже она стоит на своем.
Недавние исследования уже показали явный идеологический уклон чат-ботов вроде ChatGPT: они последовательно поддерживают экологическую повестку, придерживаются левых взглядов и отстаивают личные свободы. Но есть и другая сторона медали. Например, в феврале 2024 года Google представил обновленную систему Gemini, которая создавала абсурдные исторические изображения вроде чернокожих викингов и нацистов. Интернет тогда утонул в шквале критики, в том числе от Илона Маска, который обвинил Google в намеренном искажении истории ради политкорректности.
Метод Хендрикса помогает точно определить, насколько взгляды ИИ расходятся с позицией пользователей. Некоторые эксперты опасаются: если система станет достаточно умной, такие расхождения приведут к нешуточным проблемам, особенно если мы начнем допускать умные машины к управлению оборонными системами, транспортом и судебными процессами. И это вовсе не беспочвенный страх. В ряде тестовых сценариев, где нужно было сделать выбор между сохранением собственного существования и спасением животных, алгоритмы стабильно выбирали себя. При этом они демонстрировали разное отношение к людям в зависимости от их социального статуса, профессии и других характеристик — например, могли считать жизнь ученого более ценной, чем жизнь фермера, или отдавать предпочтение городским жителям перед сельскими.
Существующие методы контроля над ИИ, как считают Хендрикс и его коллеги, похожи на попытку лечить симптомы, а не болезнь. Сейчас разработчики просто блокируют нежелательные ответы — например, запрещают модели высказываться по определенным темам или заставляют ее отвечать строго заданным образом. Но проблема глубже: сами принципы принятия решений, заложенные в программу, могут противоречить человеческим ценностям.
Чтобы проверить свой метод, команда Хендрикса провела масштабный анализ ведущих ИИ-моделей: Grok от компании xAI, GPT-4 от OpenAI и Llama 3.3 от Meta. Ученые составили подробные политические профили этих систем и сравнили их с позициями известных американских политиков. В исследование включили представителей разных политических течений: Дональда Трампа с его консервативными взглядами, прогрессивного демократа Берни Сандерса, центриста Камалу Харрис и правого республиканца Марджори Тейлор Грин. Результаты оказались однозначными: все чат-боты поддерживают умеренно-либеральную позицию Джо Байдена.
Вместо того чтобы просто запрещать определенные ответы, специалисты предлагают менять базовые установки машин. Разработанный метод они проверили на практике в проекте "Гражданское собрание". Команда проанализировала результаты опросов жителей США о самых острых политических проблемах — налогах, иммиграции, контроле над оружием и внешней политике. На основе этих данных они смогли перенастроить фундаментальные параметры открытой языковой модели. Результат превзошел ожидания: искусственный интеллект стал принимать решения, которые больше соответствовали политике Трампа, чем Байдена, но при этом не утратил способности мыслить логически и анализировать информацию.
Храним важное в надежном месте