Эмодзи с секретом: как один символ может скрывать в себе целое сообщение

12:00 / 17 февраля, 2025

Код спрятан прямо на виду, но только избранные знают, как его обнаружить.

Программист Пол Батлер представил новый метод сокрытия данных внутри символов Unicode, включая эмодзи. В своём блоге он описал, как особенности кодировки позволяют встраивать скрытые сообщения в текст, оставаясь незаметными для большинства систем. Такой подход открывает потенциальные возможности для обхода фильтров модерации и скрытой маркировки информации.

Unicode представляет текст в виде последовательностей кодовых точек, каждая из которых соответствует определённому символу. Однако некоторые кодовые точки, например, вариантные селекторы , могут модифицировать внешний вид символа без видимого эффекта. Всего таких селекторов 256, и их сохранение в тексте гарантировано стандартом Unicode, даже если система не интерпретирует их корректно.

Используя эти особенности, Батлер предложил кодировать данные, связывая их с вариантными селекторами. Поскольку число возможных вариаций соответствует одному байту информации, этот метод позволяет спрятать любые данные в одном символе. А последовательное использование селекторов даёт возможность закодировать целые сообщения, которые не будут обнаружены при обычном просмотре текста.

Последствия такой техники вызывают опасения. Киберпреступники могут использовать скрытую кодировку для обхода автоматизированных фильтров, внедряя запрещённый контент в безобидные, на первый взгляд, сообщения. Это также усложняет выявление вредоносных данных в чатах и на форумах, поскольку все «скомпрометированные» символы выглядят как обычно.

Кроме того, метод может применяться для скрытой маркировки информации. Например, один и тот же текст можно отправлять разным пользователям с уникальными вариациями, позволяя отслеживать, кто именно слил данные в сеть. Это вызывает вопросы о конфиденциальности и защите информаторов.

Интересно, что даже передовые языковые модели не всегда способны обработать эти скрытые данные. Батлер провёл эксперименты и выяснил, что токенизаторы LLM сохраняют вариантные селекторы, но сами модели не пытаются их расшифровать. Однако при использовании интерпретатора кода некоторые модели смогли корректно определить скрытую информацию.

Для наглядной демонстрации Батлер разработал инструмент , который позволяет пользователям самостоятельно закодировать текст в эмодзи и другие символы Unicode. Визуально такие символы не отличаются от обычных, но могут содержать спрятанные данные. Инструмент доступен в открытом доступе, что может привести как к экспериментам с новым способом сокрытия информации, так и к его потенциальному злоупотреблению.

Реальные атаки. Эффективные решения. Практический опыт.

Standoff Defend* — это онлайн-полигон, где ты сможешь испытать себя. Попробуй себя в расследовании инцидентов и поборись за победу в конкурсе

Присоединяйся и участвуй

*Защищать. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887

Эмодзи с секретом: как один символ может скрывать в себе целое сообщение

Реальные атаки. Эффективные решения. Практический опыт.

Подпишитесь на email рассылку