Security Week 2341: стабилизация видео как средство подслушивания

Можно ли использовать смартфон для подслушивания чужих переговоров? Ответ вроде бы очевиден: включай диктофон, подкрадывайся к объекту подслушивания и записывай. Исследователи из двух американских университетов попробовали решить эту задачу максимально сложным образом, не используя встроенный микрофон, а синтезируя звук из микровибраций в видеозаписи. Подробный отчет об атаке Side Eye был недавно опубликован . Авторы работы открыли новую атаку по стороннему каналу, которая впечатляет одновременно своей красотой и полной бесполезностью.

Сторонним каналом в данном случае служит система оптической стабилизации камер, применяемая в большинстве современных смартфонов. Ее схематическое изображение вы видите выше. Такая система предполагает, что светочувствительная матрица и/или линзы в объективе выполнены на подвижной платформе и могут компенсировать дрожание камеры. Как выяснилось, она вполне может фиксировать вибрации от близлежащего источника звука и сохранять в видеоданных. Если у вас есть видео без звука, оказывается, вы можете восстановить диалог находящихся возле камеры людей. Но возможно это с большим количеством допущений, оговорок и текста мелким шрифтом.

Главное ограничение, которое удалось обойти исследователям, — это частота семплирования этих самых микровибраций от источника звука. Просто так сравнивать два соседних видеокадра и пытаться зафиксировать «дрожание» картинки не получится. Точнее, частота семплирования будет ограничена фреймрейтом видео — в лучшем случае 60 или 120 кадров в секунду. Обойти это ограничение помог известный эффект rolling shutter, с которым разработчики фото и видеокамер вообще-то пытаются бороться. Суть его в том, что информация с матрицы фотокамеры считывается построчно, и нижняя часть кадра будет зафиксирована с небольшой задержкой относительно верхней. Если анализировать небольшие смещения от вибраций не покадрово, а построчно, итоговая частота семплирования будет равна частоте кадров в видео, перемноженной на количество строк. При стандартном разрешении видеороликов 1080 строк мы получим уже не 60 или 120, а десятки тысяч семплов в секунду.

Даже такой метод позволяет реконструировать звук из видео с частотой не более чем 600 герц. Для речи это очень мало. Особенный интерес представляет то, что авторы работы опубликовали у себя на сайте реальные семплы звука, как оригинальные, так и извлеченные из микровибраций видеозаписи. В последнем случае мы получаем некое дребезжание, распознать которое на слух практически невозможно. Это заметно на приведенной выше спектрограмме: слева оригинальный звук, справа реконструированный из видео. Теряется очень много информации, но результат вполне поддается распознаванию с помощью машинного обучения.

В итоге при наиболее благоприятном сценарии почти в ста процентах случаев удалось распознать пол говорящего, в 91% случаев отличить один голос от другого, в 80% случаев правильно определить, какие были названы цифры. Да, цифры — это не свободная речь человека, но проблема даже не в этом. Наиболее благоприятный сценарий выглядит вот так:

Телефон (записывающий видео, но не звук) расположен в 10 сантиметрах от колонки, которая достаточно громко (с уровнем 85дБ SPL) воспроизводит запись голоса. Оба предмета лежат на стеклянной столешнице. Если поменять ее на деревянную, точность немного упадет. Если понизить громкость до уровня обычного разговора двух людей, точность распознавания упадет еще больше. Если отодвинуть телефон на три метра, называемые цифры удастся распознать только в 30% случаев.

Данное исследование отчасти похоже на две другие работы. В одной для подслушивания за телефонным разговором использовались встроенные в смартфон датчики ускорения — там тоже получалось труднораспознаваемое дребезжание из-за ограниченной частоты семплирования и неизбежных искажений. В другой работе для атаки на считыватель смарт-карт на видео записывалось мерцание светодиода. Там также был задействован эффект rolling shutter. Главным открытием новой атаки Side Eye стала особенность работы системы стабилизации в смартфонах: она заставляет оптический сенсор вибрировать, даже когда он этого делать не должен. Но на практике применить данный метод пока не получится.

Если удастся подложить смартфон поближе к объектам прослушки, на нем вполне можно включить запись звука. Исследователи не зря использовали динамик: он лучше передает вибрации через стол на телефон. Если поставить рядом со столом человека, распознать его речь таким же образом не получится. Видео обычно снимают с рук, а это вносит дополнительные вибрации, в которых слабый «аудиосигнал» в видеозаписи просто утонет. Но если отвлечься от всех этих трудностей, получается красиво: берем видео без звука и восстанавливаем из него речь находящихся рядом людей, даже если они не попали в кадр.

Что еще произошло:

Новая уязвимость в динамическом загрузчике GNU C Library может быть использована для локального повышения привилегий в популярных дистрибутивах Linux.

Apple выпустила обновление iOS/iPadOS 17.0.3, закрывающее еще одну критическую, активно эксплуатируемую уязвимость. Это уже 18-я уязвимость типа zero-day, закрытая в мобильной ОС Apple с начала этого года.

Серьезная проблема, которая позволяет обойти систему авторизации, обнаружена в ПО Atlassian Confluence.

В почте GMail планируют усилить борьбу со спамом. Новые ограничения в основном затронут сервисы для массовой отправки сообщений: от них потребуют дополнительной верификации, и будут блокировать рассылки, если более 0,3% получателей пометили письма как спам.

Security Week 2341: стабилизация видео как средство подслушивания

Эксклюзивный стрим с хакерами мирового класса

Лаборатория Касперского

Security Week 2341: стабилизация видео как средство подслушивания

Эксклюзивный стрим с хакерами мирового класса

Лаборатория Касперского

Подпишитесь на email рассылку