Что можно узнать о компании, просто изучив её сайт? Cпойлер: иногда слишком много

09:39 / 17 апреля, 2025

OSINT-инструменты для анализа корпоративных сайтов.

Информационная разведка в открытых источниках (OSINT) давно перестала быть уделом любопытных энтузиастов — сегодня это неотъемлемая часть любого аудита безопасности, конкурентного анализа или подготовки к баг‑баунти‑тестированию. В этой статье мы не будем уходить в пентест‑джунгли, а разберём пять практических направлений сбора сведений о корпоративном веб‑ресурсе и — что особенно важно — покажем на живых примерах, какие инструменты помогают автоматизировать каждую задачу.

Сразу оговоримся: сканируйте только те сайты, на которые у вас есть законное право. Все приёмы приводятся исключительно в образовательных целях.

1. Подготовка среды и небольшая памятка по легальности

Прежде чем запускать скрипты, определите цель и договоритесь о правилах с владельцем ресурса. Без явного разрешения компании даже безобидный поиск поддоменов может трактоваться как попытка несанкционированного доступа.

Создайте отдельную виртуальную машину или контейнер — так вы обезопасите рабочую ОС.
Установите набор CLI‑утилит (GoLang, Python, Git) — большинство инструментов из обзора требуют именно их.
Храните результаты в зашифрованном виде, если они содержат конфиденциальные данные.

2. Поиск поддоменов: открываем внутреннюю картину мира

Поддомены дают представление о реальной инфраструктуре компании: где расположен тестовый стенд, какой движок используется для API, есть ли забытый Jenkins в углу. Чем больше вы найдёте, тем выше шанс обнаружить уязвимые сервисы.

Куда смотреть:

Netlas: запрос вида host:*.example.com возвращает все упомянутые в поисковой базе поддомены.
Pentest‑Tools Subdomain Finder: быстрый облачный сканер, полезен, когда времени мало.
nmmapper Subdomain Finder: работает медленнее, но умеет искать редкие записи.
Subfinder: золотой стандарт среди скриптов. Пример запуска:
```
subfinder -d example.com -o subdomains.txt
```
Sublist3r: Python‑альтернатива; любит AWS‑секретку в переменных.

Лайфхак: объедините результаты разных источников, удалите дубли (sort -u) — финальный список удивит объёмом.

3. Связанные веб‑сайты: находим незаметные «филиалы»

Компания может владеть десятками доменов, которые на первый взгляд никак не связаны с брендом. Факт, что они обслуживаются теми же почтовыми или именными серверами, легко выдаёт единую инфраструктуру.

Методы поиска:

Whois‑поиск по названию организации в Netlas. Запрос: «"Example LLC" registrant».
Mail‑серверы: в Netlas задайте mx:*.example.com — покажутся домены, использующие общий MX.
NS‑серверы: аналогично ищите nsns*.example.com.
Сервис‑ID: Google Analytics, Яндекс‑Метрика, Mixpanel — подставляем ID в поиск по теле HTTP‑ответов:
```
http.body:"UA-23870775"
```
Favicon Hash: загружаем иконку компании и ищем совпадения в Netlas.

Все найденные домены имеет смысл сразу прогнать теми же Subfinder и Nuclei — цепочка открытий часто работает по принципу матрёшки.

4. «Сочная информация»: вытаскиваем контакты, кошельки и прочие секреты

Даже если страница не предполагает скачивание, в HTML‑коде могут прятаться email‑адреса, телефоны, ключи API и прочие «подарки» атакующему. Забрать их можно, не скачивая каждую страницу вручную.

Nuclei — фреймворк сканеров на Go. Подключаем набор шаблонов Juicy Info и запускаем:
```
nuclei -list subdomains.txt -t juicyinfo/ -o juicy_hits.txt
```
Расширяем поиск своими регулярками: добавьте кастомный YAML‑шаблон, чтобы выцеплять, скажем, токены Firebase или приватные IP‑адреса.

На выходе получаем отчёт, где в каждой строке: URL, тип находки и её «сочный» фрагмент. Дальше уже дело техники — подтвердить и закрыть утечку.

5. Собираем карту URL‑адресов сайта

Полный список внутренних URL — это дорожная карта тестирования: блинд‑сканеры, устаревшие API‑эндпоинты, приватные панели. Ведь URL, скрытый из навигации, ещё не значит недоступный для сервера.

Инструменты для генерации списка:

Katana — парсит HTML и JavaScript, умеет рекурсивно углубляться.
```
katana -u https://example.com -depth 3 -o urls.txt
```
Waybackurls — собирает URL‑ы из Wayback Machine за все времена.
Waymore — тот же архив, но с дополнительными источниками (Common Crawl, AlienVault OTX).
GoBuster — перебирает словарь директорий и файлов; пригодится, если сайт беден на ссылки.

Склейте результаты, удалите GET‑параметры (cut -d'?' -f1) и вновь уберите дубли. Карта готова к следующему этапу.

6. Скачивание и локальный анализ документов

Когда известны все пути, время собрать документы целиком — от старых релизов до PDF‑инструкций, которые авторы забыли спрятать.

Curl: банально, но надёжно. Можно завести однострочник:
```
cat urls.txt | grep -E '\.(pdf|docx?|xlsx?)$' | while read u; do curl -s -O "$u"; done
```
Wayback Machine Downloader — вытаскивает файлы, давно исчезнувшие с продакшена, но сохранённые архивом.

Быстрый поиск по скачанному

Файлов стало много? Используйте grep/rg/ag‑подобные утилиты:

grep -Rni --color "Confidential" ./downloads

Так обнаружите случайно залитый NDA или лог‑файл с паролями.

7. Извлечение метаданных: заглядываем «под обложку»

В каждом DOCX, JPEG или PDF хранятся строки о программах, авторах, координатах съёмки — не вытащить их — значит упустить лишний фрагмент пазла.

MetaDetective — массовый анализатор, дружит с SQLite, чтобы сортировать результаты.
ExifTool — классика для фото и видео. Команда:
```
exiftool -r -json downloads/ > metadata.json
```

Полученные JSON‑ы легко фильтровать — например, найти все документы, созданные на личном ноутбуке разработчика USER-PC.

8. Работа с PDF: текст, картинки и даже отсканированные копии

PDF‑документы — кладезь заметок, штампов и цифровых подписей. Проблема в том, что часто они представлены изображениями без текста. Здесь пригодятся:

Ocrmypdf — накладывает слой распознанного текста:
```
ocrmypdf input.pdf output_ocr.pdf
```
Pdfgrep — «grep» для PDF; ищет после OCR‑обработки.
Pdftotext — быстро выносит plain‑text без оформления.
Pdfimages — извлекает вложенные картинки; полезно, когда логотип в пределах одной страницы раскрывает название подрядчика.

Чек‑лист анализа PDF

Снять текст — pdftotext.
Прогнать поиск ключевых слов — pdfgrep "Пароль".
Вытянуть изображения — pdfimages -j file.pdf ./img.
Прогнать метаданные — exiftool file.pdf.

9. Сводная таблица инструментов

Чтобы не потеряться, держите шпаргалку под рукой:

Задача	Инструменты
Поддомены	Netlas, Pentest‑Tools, nmmapper, Subfinder, Sublist3r
Связанные сайты	Netlas (WHOIS, MX, NS, GA‑ID, Favicon)
Карта URL	Katana, Waybackurls, Waymore, GoBuster
«Сочная» инфа	Nuclei + Juicy‑Info templates
Скачивание файлов	Curl, Wayback Machine Downloader
Поиск по файлам	grep / ripgrep
Метаданные	MetaDetective, ExifTool
PDF‑анализ	Ocrmypdf, Pdfgrep, Pdftotext, Pdfimages

10. Заключение

Сбор информации — это всегда комбинация технических приёмов и здорового любопытства. Составьте план, автоматизируйте рутину, но проверяйте вывод руками: никакой скрипт не знает контекста бизнеса лучше вас. И, конечно, помните о мандатах и политике безопасности — разведка без разрешения превращается в нарушение.

Надеюсь, эта статья поможет безопасникам, исследователям и просто пытливым читателям выстроить собственную цепочку OSINT‑инструментов и заглянуть чуть глубже под обложку любого веб‑сайта.

Успехов в поиске полезной информации и — ни багов вам, ни утечек!

Реальные атаки. Эффективные решения. Практический опыт.

Standoff Defend* — это онлайн-полигон, где ты сможешь испытать себя. Попробуй себя в расследовании инцидентов и поборись за победу в конкурсе

Присоединяйся и участвуй

*Защищать. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887