Специалисты обучили модель ИИ извлекать из неструктурированных текстовых данных информацию об угрозах.
Специалист подразделения Microsoft Defender ATP Research Бхавна Соман (Bhavna Soman) представил на конференции Black Hat USA 2019, состоявшейся на этой неделе в Лас-Вегасе, систему автоматизации неструктурированных текстовых данных для анализа безопасности и сбора информации об угрозах.
С помощью технологий машинного обучения и обработки естественного языка система идентифицирует и извлекает из неструктурированного текста шаблоны, описывающие подробности о кибератаках. Система обучена распознавать известные угрозы и способна из неструктурированного текста извлекать сведения об атакующем, методах осуществления атаки, семействах вредоносного ПО.
В процессе обработки естественного языка извлечение именованного объекта используется для классификации текстовых фраз по заранее установленным категориям. Как правило, этот процесс предшествует более сложным задачам, таким как идентификация псевдонимов, связи между атакующими и их тактик, техник и процедур и т.д.
Для обучения модели искусственного интеллекта (ИИ) специалисты Microsoft Defender ATP Research использовали текстовую базу данных, состоящую более чем из 2,7 тыс. публично доступных документов, описывающих действия, поведение и инструменты различных киберпреступников. Каждый документ в БД состоял в среднем из двух тысяч токенов.
В дополнение к традиционным функциям, применяемым в процессе обработки естественного языка (словарная форма, части речи и орфография), специалисты также экспериментировали с кастомизированным вложением слов, что дало им возможность выявлять связи между двумя словами, имеющими одно и то же значение или используемыми в одном контексте.
Разработанная специалистами система придет на помощь там, где одного лишь сбора индикаторов компрометации (IoC) недостаточно. IoC наподобие IP-адресов, доменных имен и хешей файлов легко получить, но их также легко можно подделать с целью обхода обнаружения.
Сбалансированная диета для серого вещества