
Сторонним каналом в данном случае служит система оптической стабилизации камер, применяемая в большинстве современных смартфонов. Ее схематическое изображение вы видите выше. Такая система предполагает, что светочувствительная матрица и/или линзы в объективе выполнены на подвижной платформе и могут компенсировать дрожание камеры. Как выяснилось, она вполне может фиксировать вибрации от близлежащего источника звука и сохранять в видеоданных. Если у вас есть видео без звука, оказывается, вы можете восстановить диалог находящихся возле камеры людей. Но возможно это с большим количеством допущений, оговорок и текста мелким шрифтом.
Главное ограничение, которое удалось обойти исследователям, — это частота семплирования этих самых микровибраций от источника звука. Просто так сравнивать два соседних видеокадра и пытаться зафиксировать «дрожание» картинки не получится. Точнее, частота семплирования будет ограничена фреймрейтом видео — в лучшем случае 60 или 120 кадров в секунду. Обойти это ограничение помог известный эффект rolling shutter, с которым разработчики фото и видеокамер вообще-то пытаются бороться. Суть его в том, что информация с матрицы фотокамеры считывается построчно, и нижняя часть кадра будет зафиксирована с небольшой задержкой относительно верхней. Если анализировать небольшие смещения от вибраций не покадрово, а построчно, итоговая частота семплирования будет равна частоте кадров в видео, перемноженной на количество строк. При стандартном разрешении видеороликов 1080 строк мы получим уже не 60 или 120, а десятки тысяч семплов в секунду.

Даже такой метод позволяет реконструировать звук из видео с частотой не более чем 600 герц. Для речи это очень мало. Особенный интерес представляет то, что авторы работы опубликовали
В итоге при наиболее благоприятном сценарии почти в ста процентах случаев удалось распознать пол говорящего, в 91% случаев отличить один голос от другого, в 80% случаев правильно определить, какие были названы цифры. Да, цифры — это не свободная речь человека, но проблема даже не в этом. Наиболее благоприятный сценарий выглядит вот так:

Телефон (записывающий видео, но не звук) расположен в 10 сантиметрах от колонки, которая достаточно громко (с уровнем 85дБ SPL) воспроизводит запись голоса. Оба предмета лежат на стеклянной столешнице. Если поменять ее на деревянную, точность немного упадет. Если понизить громкость до уровня обычного разговора двух людей, точность распознавания упадет еще больше. Если отодвинуть телефон на три метра, называемые цифры удастся распознать только в 30% случаев.
Данное исследование отчасти похоже на две другие работы. В одной для подслушивания за телефонным разговором
Если удастся подложить смартфон поближе к объектам прослушки, на нем вполне можно включить запись звука. Исследователи не зря использовали динамик: он лучше передает вибрации через стол на телефон. Если поставить рядом со столом человека, распознать его речь таким же образом не получится. Видео обычно снимают с рук, а это вносит дополнительные вибрации, в которых слабый «аудиосигнал» в видеозаписи просто утонет. Но если отвлечься от всех этих трудностей, получается красиво: берем видео без звука и восстанавливаем из него речь находящихся рядом людей, даже если они не попали в кадр.
Что еще произошло:
Новая
Apple выпустила
Серьезная проблема, которая позволяет обойти систему авторизации,
В почте GMail