Начнём с азов. Когда DLPсистемы были совсем молодые, с помощью них удавалось предотвращать большинство утечек информации в текстовом виде. Сюда относится неизменяемая и динамически изменяемая информация, и информация, составленная по заданному шаблону. В детектировании таких данных нам помогали такие технологии как цифровые отпечатки , текстовый классификатор и текстовые объекты соответственно.
Если у нас есть документ, который никогда не изменяется – например, долгосрочная стратегия развития компании - с него целесообразно сделать цифровой отпечаток и в случае передачи его за периметр организации DLP-система зафиксирует утечку.
Есть документы, которые постоянно изменяются, но мы точно знаем, какая лексика там присутствует – все договоры, бухгалтерская документация. Такие документы лучше всего пропустить через систему текстовой классификации и выделить категории данных, за которыми будет следить DLP.
Защищать персональные данные и финансовую информацию лучше всего с помощью анализатора шаблонов. Технология поможет выявлять в потоке данных номера кредитных карт, номера паспортов, ИНН, СНИЛС и подобные идентификаторы. Хочется отметить, что только в решении InfoWatchреализована верифицирующая функция для текстовых объектов, позволяющая снизить число ложно положительных срабатываний системы.
Применяя этот небольшой набор технологий удавалось выявить конфиденциальные данные в текстовых документах (пакет MSOffice, pdf, txt), в теле письма электронной почты, в сообщениях мессенджеров (ICQ, Skypeи т.п), а также в сканах документов, из которых предварительно извлекался текст с помощь технологии OCR .

Основным недостатком данного подхода было ограничение перечня защищаемой информации. Так, невозможно было защитить, например, видеозапись либо фотографию секретного документа.
Дальнейшее развитие технологий перехвата и анализа привело к тому, что кроме текста стало возможным защищать от утечек информацию, представленную в двоичном виде, то есть любой файл. Но об этом в следующем блог-посте серии.