AASIST3: ИИ против ИИ в битве с голосовым мошенничеством

AASIST3: ИИ против ИИ в битве с голосовым мошенничеством

Учёные из Института AIRI и МТУСИ предложили модель для детекции поддельных голосов.

image

Исследователи из Института AIRI и МТУСИ представили новую модель для выявления поддельных голосов под названием AASIST3. Эта архитектура заняла место в топ-10 лучших решений на международном соревновании ASVspoof 2024 Challenge. Модель предназначена для защиты от голосового мошенничества и повышения безопасности систем, использующих голосовую аутентификацию.

Системы голосовой биометрии (ASV) позволяют идентифицировать пользователей по их голосу. Такие системы применяются для аутентификации в финансовых транзакциях, управления доступом к умным устройствам и защиты от современных форм телефонного мошенничества.

Модели распознавания голоса уязвимы к атаке, когда небольшое изменение в аудиофайле приводит к значительному искажению результата, хотя для человека оно может остаться незаметным. Преступники используют методы преобразования текста в речь (TTS) и преобразования голоса (VC), чтобы генерировать синтетические голоса для обхода систем безопасности. Для эффективной защиты требуется создание моделей, способных обнаруживать подделки голоса.

ИИ-модель AASIST была предложена учеными из Южной Кореи и Франции в 2021 году и показала высокую эффективность, но после бурного развития генеративного ИИ в 2022 году её функционала стало недостаточно для выявления синтетических голосов. На основе AASIST команда AIRI и МТУСИ в сотрудничестве с аспирантом Сколтеха создала обновленную архитектуру для выявления поддельных синтезированных голосов.

Использование сети Колмогорова-Арнольда (KAN), дополнительных слоев, улучшенного feature extractor и специальных функций обучения позволило повысить производительность модели более чем в два раза по сравнению с базовой версией. Новая модель также лучше адаптируется к новым видам атак.

Вместо того чтобы полагаться только на классические методы, AASIST3 использует современные нейросети для противодействия голосовому спуфингу, учитывая контекст голосовых данных. Это позволяет распознавать подделки с высокой точностью и защищаться от новых угроз.

Решение задач антиспуфинга возможно двумя путями: через бинарную классификацию, определяя, является ли голос подлинным или искусственным, либо в связке с биометрической системой, где необходимо различать голоса разных спикеров.

Исследования проводились итеративно, с тестированием различных гипотез и улучшением ключевых метрик, таких как t-DCF и EER. На валидационных данных удалось достичь значительных улучшений по сравнению с исходной моделью, что подтверждает эффективность новой архитектуры.

AASIST3 обещает стать полезным инструментом в финансовом секторе и телекоммуникациях для борьбы с голосовым мошенничеством и повышения уровня безопасности голосовой аутентификации.

Станьте призраком в интернете

Узнайте как на нашем канале

Присоединяйтесь сейчас