Эмодзи с секретом: как один символ может скрывать в себе целое сообщение

Эмодзи с секретом: как один символ может скрывать в себе целое сообщение

Код спрятан прямо на виду, но только избранные знают, как его обнаружить.

image

Программист Пол Батлер представил новый метод сокрытия данных внутри символов Unicode, включая эмодзи. В своём блоге он описал, как особенности кодировки позволяют встраивать скрытые сообщения в текст, оставаясь незаметными для большинства систем. Такой подход открывает потенциальные возможности для обхода фильтров модерации и скрытой маркировки информации.

Unicode представляет текст в виде последовательностей кодовых точек, каждая из которых соответствует определённому символу. Однако некоторые кодовые точки, например, вариантные селекторы , могут модифицировать внешний вид символа без видимого эффекта. Всего таких селекторов 256, и их сохранение в тексте гарантировано стандартом Unicode, даже если система не интерпретирует их корректно.

Используя эти особенности, Батлер предложил кодировать данные, связывая их с вариантными селекторами. Поскольку число возможных вариаций соответствует одному байту информации, этот метод позволяет спрятать любые данные в одном символе. А последовательное использование селекторов даёт возможность закодировать целые сообщения, которые не будут обнаружены при обычном просмотре текста.

Последствия такой техники вызывают опасения. Киберпреступники могут использовать скрытую кодировку для обхода автоматизированных фильтров, внедряя запрещённый контент в безобидные, на первый взгляд, сообщения. Это также усложняет выявление вредоносных данных в чатах и на форумах, поскольку все «скомпрометированные» символы выглядят как обычно.

Кроме того, метод может применяться для скрытой маркировки информации. Например, один и тот же текст можно отправлять разным пользователям с уникальными вариациями, позволяя отслеживать, кто именно слил данные в сеть. Это вызывает вопросы о конфиденциальности и защите информаторов.

Интересно, что даже передовые языковые модели не всегда способны обработать эти скрытые данные. Батлер провёл эксперименты и выяснил, что токенизаторы LLM сохраняют вариантные селекторы, но сами модели не пытаются их расшифровать. Однако при использовании интерпретатора кода некоторые модели смогли корректно определить скрытую информацию.

Для наглядной демонстрации Батлер разработал инструмент , который позволяет пользователям самостоятельно закодировать текст в эмодзи и другие символы Unicode. Визуально такие символы не отличаются от обычных, но могут содержать спрятанные данные. Инструмент доступен в открытом доступе, что может привести как к экспериментам с новым способом сокрытия информации, так и к его потенциальному злоупотреблению.

Alert! Зафиксирована утечка экспертных знаний!

Собираем и анализируем опыт профессионалов ИБ

Подключитесь к потоку конфиденциальной информации!