Интернет кажется бесконечным и вечным, но любимая инструкция исчезает ровно в тот момент, когда Wi-Fi превращается в «точка доступа недоступна». Чтобы не остаться без нужного контента в поезде, на даче или — не дай бог — в зоне отключённого DNS, стоит заранее «упаковать» информацию локально.
Есть два принципиально разных сценария:
- Сохранить одиночную страницу — чтобы взять с собой конкретную статью, рецепт, пост или инструкцию.
- Сделать зеркало целого сайта — когда нужна полная документация, целый блог или вики со всеми вложениями и ссылками.
Сценарий № 1: «Захват залпом» одной страницы
Здесь я покажу, как «схватить» одну-единственную страницу за считаные секунды: без терминала, без Docker и без сложных настроек — чтобы нужный текст не исчез, пока поезд внезапно уедет из зоны покрытия.
Встроенные возможности браузера
Когда хватает пары кликов.
- Ctrl + S → «Веб-страница, полностью». Базовый, но работающий способ: в вашу папку падает HTML-файл и папка с ресурсами. Минус — живая интерактивность (ленивые скрипты, виджеты) частично отваливается.
- Печать в PDF. Идеально, если нужно читать на планшете; страница превращается в один файл без зависимостей.
SingleFile — кнопка «Сохранить всё в один .html»
SingleFile вклеивает HTML, CSS, JS, шрифты и картинки внутрь одного самодостаточного файла; результат открывается в любом браузере даже без интернета. Допкоманда «импортировать» позволяет бросить сразу в Pocket или Obsidian.
«Клипперы» в облаке
Evernote, Notion, OneNote, Pocket и другие сервисы умеют создавать «экстракт» — чистый текст+картинки без рекламы. Плюс — синхронизация на телефон автоматически, минус — нужно доверять облаку (и сеть всё-таки нужна хотя бы раз).
Мини-FAQ по одиночным страницам
- Как убедиться, что ссылки внутри работают? Проверьте, что их планируете открывать офлайн. В SingleFile они останутся кликабельными, но откроются только если целевая страница тоже сохранена.
- Можно ли автоматизировать? Да: у SingleFile есть CLI; скрипт принимает URL-ы из текстового файла и пачкой генерирует self-contained HTML-ы.
- Что делать с paywall? Легально — ничего. Всё, что требует авторизации, сохраняется только после входа. В остальных случаях — уважать условия использования.
Сценарий № 2: зеркалирование целого сайта
А вот если требуется утащить целый сайт со всеми ссылками, картинками и даже скриптами, понадобится тяжёлая артиллерия: краулеры и копиры, превращающие онлайн-ресурс в полноценный локальный двойник.
HTTrack — графический мастер для Windows, macOS, Linux
Открываете программу, жмёте «Новый проект», прописываете URL, глубину ссылок, ограничение по домену — и через пару коктейлей получаете локальную копию сайта в сохранённой структуре директорий. Приятный бонус — кнопка «Update existing mirror» скачивает только новые/изменённые файлы.
`wget --mirror` — универсальный «швейцарский нож» в терминале
Если вы дружите с CLI, достаточно одной команды:
wget --mirror --convert-links --adjust-extension
--page-requisites --no-parent
-P ~/offline/example https://example.com
Флаги:
--mirror
— включает рекурсивный режим и хранит таймштампы.--convert-links
— переписывает все URL-ы на относительные, чтобы браузер открывал локальные файлы.--page-requisites
— докачивает CSS, изображения, шрифты.--adjust-extension
— ставит корректные расширения (.html, .css).
Поставьте команду в cron, и зеркало будет обновляться ночью, когда канал свободен.
Браузер-движок Browsertrix — когда сайт на React/Vue
Современные SPA загружают контент «на лету», и статичные парсеры их не видят. Browsertrix запускает Chromium-контейнеры, скроллит страницы, жмёт кнопки, рендерит скрытые секции и записывает всё в формат WACZ, совместимый с Wayback Viewer. Интерфейс — веб-GUI или CLI в Docker; расписание кроллинга настраивается через YAML.
ArchiveBox — личная «Wayback Machine»
ArchiveBox (open source) получает список ссылок (HTML, JSON, браузерные закладки) и поочерёдно сохраняет:
- оригинальный HTML,
- скриншот PNG,
- PDF,
- WARC-запись,
- медиа через
youtube-dl
.
Запускается за 3 минуты: curl -L https://git.io/archivebox | bash
→ docker-compose up -d
. В комплекте — веб-интерфейс с полнотекстовым поиском и API.
Советы по производительности
- Установите ограничение скорости (`--limit-rate=200k` в
wget
), чтобы не перегружать исходный сервер. - Фильтруйте домены. В HTTrack и Browsertrix задавайте white-list, иначе притянете рекламные CDN и половину интернета.
- Следите за диском. Глубокое зеркало среднестатистического блога (5 000 страниц + изображения) легко весит 10–15 ГБ.
Юридические и этические аспекты
Авторские права действуют и офлайн. Личная копия для чтения — ок; публичное выкладывание зеркала без согласия — уже нарушение. Инструменты по умолчанию уважают robots.txt
, но параметрами можно игнорировать запреты. Делайте это осмысленно: архив ≠ пиратство.
Чек-лист «выберите свой инструмент»
Задача | Инструмент | Плюсы | Минусы |
---|---|---|---|
Статья, рецепт | Save as PDF / SingleFile | 1 файл, быстро | Нет автообновления |
Статический сайт < 500 страниц | HTTrack | GUI, фильтры, «обновить» | Не любит сложный JS |
Блог на SPA | Browsertrix | Рендерит JS, кликает, скроллит | Требует Docker, RAM ≥ 4 ГБ |
Большая коллекция ссылок | ArchiveBox | Полнотекстовый поиск, API | Нужен сервер/контейнер |
Ответы на популярные вопросы
Сколько хранить?
Зависит от «веса» архива. Часто — до первого полного диска. Используйте дедупликацию (ZFS, Btrfs) и храните архив на внешнем HDD.
Как обновлять зеркало автоматически?
Для HTTrack — опция «Синхронизировать», для wget
— cron-job: wget --mirror --timestamping ...
. ArchiveBox и Browsertrix имеют встроенные scheduler’ы.
Можно ли достать сохранённую страницу из Wayback Machine себе?
Да: в адресе копии есть кнопка Download WARC. Но проще сохранить изначально самому — не все сайты разрешают публичное архивирование.
Итоги
Одиночные страницы копируются за секунды, целые сайты — за ночь. Определитесь, чего именно хотите, и подберите инструмент по сценарию: Keynote завтра? — SingleFile.
Документация фреймворка? — HTTrack.
SPA-докеры и бесконечный скролл? — Browsertrix.
«Личная Wayback»? — ArchiveBox.
Офлайн-архивирование — это ваш персональный «план Б» на случай, когда сеть отказывается дружить, сервисы внезапно закрываются или автор убирает контент за платную стену. Сохраняя страницы и зеркала заранее, вы перестаёте зависеть от чужих дата-центров и нестабильных Wi-Fi. Выберите инструмент под задачу, выделите вечер на настройку автоматизации — и спите спокойно: нужные инструкции, документация и любимые статьи останутся под рукой, даже если Интернет решит сделать передышку.