Чем дороже ваш смартфон, тем больше вы подвергнуты риску кражи информации.
Исследователи разработали методику извлечения звуков из статических изображений, снятых камерами смартфонов. Движущиеся детали камеры, такие как роликовые затворы CMOS, линзы для оптической стабилизации изображения (OIS) и автофокусировки (AF), создают звуки, которые модулируются в изображениях как незаметные искажения.
В исследовательской работе учёные поясняют, что камеры смартфонов создают специальный оптико-акустический побочный канал, который не требует прямой видимости или присутствия объекта в поле зрения камеры, однако позволяет считать эту информацию с высокой точностью.
Сосредоточив внимание на ограничениях побочного канала, который опирается на «подходящий механический путь от источника звука к смартфону», исследователи извлекли и проанализировали просочившуюся акустическую информацию, по которой можно эффективно идентифицировать сразу нескольких говорящих, их пол и даже произносимые ими цифры.
Учёные полагались на машинное обучение для восстановления информации из человеческой речи, передаваемой говорящими. Исследование велось с точки зрения злоумышленника, у которого на смартфоне запущено вредоносное приложение, но нет доступа к микрофону. Тем не менее, модель угрозы предполагает, что злоумышленник может снимать видео с помощью камеры жертвы и заранее может получить образцы речи целевых людей, чтобы использовать их как часть процесса обучения.
Используя набор данных из 10 000 образцов произнесения сигнальных цифр, исследователи сильно прокачали свой алгоритм и настроили его на выполнение различных задач. Для экспериментов учёные использовали устройства Google Pixel, Samsung Galaxy и Apple iPhone.
«Наша оценка с использованием 10 смартфонов в наборе данных о произносимых цифрах показывает 80,66%, 91,28% и 99,67% точности распознавания 10 произносимых цифр, 20 говорящих и 2 представителей разного пола соответственно», — сообщили исследователи.
Исследователи считают, что камеры более низкого качества с более примитивным механизмом работы сильно ограничат потенциальную утечку информации, связанную с этим типом атаки. Также должно помочь физическое удаление смартфонов от говорящих и добавление виброизолирующих материалов между телефоном и передающей поверхностью.
Учёные также добавили: «Мы считаем, что высокая точность классификации, полученная в ходе нашего анализа, а также связанная с этим работа с использованием датчиков движения позволяют предположить, что этот оптико-акустический побочный канал может поддерживать более разнообразные вредоносные приложения за счёт включения функций восстановления речи в конвейер обработки сигналов».
Производители смартфонов могут смягчить атаку с помощью более высокой частоты срабатывания затвора, чего можно добиться как программно, так и аппаратно. Вопрос лишь в том, будут ли производители смартфонов тратить на это время, в особенности, если перенастройка частоты срабатывания затвора повлияет на общую работу камеры.
Гравитация научных фактов сильнее, чем вы думаете