Сохраняем сайты без интернета: пошаговые инструкции и лучшие инструменты

Сохраняем сайты без интернета: пошаговые инструкции и лучшие инструменты

Интернет кажется бесконечным и вечным, но любимая инструкция исчезает ровно в тот момент, когда Wi-Fi превращается в «точка доступа недоступна». Чтобы не остаться без нужного контента в поезде, на даче или — не дай бог — в зоне отключённого DNS, стоит заранее «упаковать» информацию локально.

Есть два принципиально разных сценария:

  1. Сохранить одиночную страницу — чтобы взять с собой конкретную статью, рецепт, пост или инструкцию.
  2. Сделать зеркало целого сайта — когда нужна полная документация, целый блог или вики со всеми вложениями и ссылками.

Сценарий № 1: «Захват залпом» одной страницы

Здесь я покажу, как «схватить» одну-единственную страницу за считаные секунды: без терминала, без Docker и без сложных настроек — чтобы нужный текст не исчез, пока поезд внезапно уедет из зоны покрытия.

Встроенные возможности браузера

Когда хватает пары кликов.

  • Ctrl + S → «Веб-страница, полностью». Базовый, но работающий способ: в вашу папку падает HTML-файл и папка с ресурсами. Минус — живая интерактивность (ленивые скрипты, виджеты) частично отваливается.
  • Печать в PDF. Идеально, если нужно читать на планшете; страница превращается в один файл без зависимостей.

SingleFile — кнопка «Сохранить всё в один .html»

SingleFile вклеивает HTML, CSS, JS, шрифты и картинки внутрь одного самодостаточного файла; результат открывается в любом браузере даже без интернета. Допкоманда «импортировать» позволяет бросить сразу в Pocket или Obsidian.

«Клипперы» в облаке

Evernote, Notion, OneNote, Pocket и другие сервисы умеют создавать «экстракт» — чистый текст+картинки без рекламы. Плюс — синхронизация на телефон автоматически, минус — нужно доверять облаку (и сеть всё-таки нужна хотя бы раз).

Мини-FAQ по одиночным страницам

  • Как убедиться, что ссылки внутри работают? Проверьте, что их планируете открывать офлайн. В SingleFile они останутся кликабельными, но откроются только если целевая страница тоже сохранена.
  • Можно ли автоматизировать? Да: у SingleFile есть CLI; скрипт принимает URL-ы из текстового файла и пачкой генерирует self-contained HTML-ы.
  • Что делать с paywall? Легально — ничего. Всё, что требует авторизации, сохраняется только после входа. В остальных случаях — уважать условия использования.

Сценарий № 2: зеркалирование целого сайта

А вот если требуется утащить целый сайт со всеми ссылками, картинками и даже скриптами, понадобится тяжёлая артиллерия: краулеры и копиры, превращающие онлайн-ресурс в полноценный локальный двойник.

HTTrack — графический мастер для Windows, macOS, Linux

Открываете программу, жмёте «Новый проект», прописываете URL, глубину ссылок, ограничение по домену — и через пару коктейлей получаете локальную копию сайта в сохранённой структуре директорий. Приятный бонус — кнопка «Update existing mirror» скачивает только новые/изменённые файлы.

`wget --mirror` — универсальный «швейцарский нож» в терминале

Если вы дружите с CLI, достаточно одной команды:

wget --mirror --convert-links --adjust-extension 
      --page-requisites --no-parent 
      -P ~/offline/example https://example.com

Флаги:

  • --mirror — включает рекурсивный режим и хранит таймштампы.
  • --convert-links — переписывает все URL-ы на относительные, чтобы браузер открывал локальные файлы.
  • --page-requisites — докачивает CSS, изображения, шрифты.
  • --adjust-extension — ставит корректные расширения (.html, .css).

Поставьте команду в cron, и зеркало будет обновляться ночью, когда канал свободен.

Браузер-движок Browsertrix — когда сайт на React/Vue

Современные SPA загружают контент «на лету», и статичные парсеры их не видят. Browsertrix запускает Chromium-контейнеры, скроллит страницы, жмёт кнопки, рендерит скрытые секции и записывает всё в формат WACZ, совместимый с Wayback Viewer. Интерфейс — веб-GUI или CLI в Docker; расписание кроллинга настраивается через YAML.

ArchiveBox — личная «Wayback Machine»

ArchiveBox (open source) получает список ссылок (HTML, JSON, браузерные закладки) и поочерёдно сохраняет:

  • оригинальный HTML,
  • скриншот PNG,
  • PDF,
  • WARC-запись,
  • медиа через youtube-dl.

Запускается за 3 минуты: curl -L https://git.io/archivebox | bashdocker-compose up -d. В комплекте — веб-интерфейс с полнотекстовым поиском и API.

Советы по производительности

  • Установите ограничение скорости (`--limit-rate=200k` в wget), чтобы не перегружать исходный сервер.
  • Фильтруйте домены. В HTTrack и Browsertrix задавайте white-list, иначе притянете рекламные CDN и половину интернета.
  • Следите за диском. Глубокое зеркало среднестатистического блога (5 000 страниц + изображения) легко весит 10–15 ГБ.

Юридические и этические аспекты

Авторские права действуют и офлайн. Личная копия для чтения — ок; публичное выкладывание зеркала без согласия — уже нарушение. Инструменты по умолчанию уважают robots.txt, но параметрами можно игнорировать запреты. Делайте это осмысленно: архив ≠ пиратство.

Чек-лист «выберите свой инструмент»

Задача Инструмент Плюсы Минусы
Статья, рецепт Save as PDF / SingleFile 1 файл, быстро Нет автообновления
Статический сайт < 500 страниц HTTrack GUI, фильтры, «обновить» Не любит сложный JS
Блог на SPA Browsertrix Рендерит JS, кликает, скроллит Требует Docker, RAM ≥ 4 ГБ
Большая коллекция ссылок ArchiveBox Полнотекстовый поиск, API Нужен сервер/контейнер

Ответы на популярные вопросы

Сколько хранить?

Зависит от «веса» архива. Часто — до первого полного диска. Используйте дедупликацию (ZFS, Btrfs) и храните архив на внешнем HDD.

Как обновлять зеркало автоматически?

Для HTTrack — опция «Синхронизировать», для wget — cron-job: wget --mirror --timestamping .... ArchiveBox и Browsertrix имеют встроенные scheduler’ы.

Можно ли достать сохранённую страницу из Wayback Machine себе?

Да: в адресе копии есть кнопка Download WARC. Но проще сохранить изначально самому — не все сайты разрешают публичное архивирование.

Итоги

Одиночные страницы копируются за секунды, целые сайты — за ночь. Определитесь, чего именно хотите, и подберите инструмент по сценарию: Keynote завтра? — SingleFile.
Документация фреймворка? — HTTrack.
SPA-докеры и бесконечный скролл? — Browsertrix.
«Личная Wayback»? — ArchiveBox.

Офлайн-архивирование — это ваш персональный «план Б» на случай, когда сеть отказывается дружить, сервисы внезапно закрываются или автор убирает контент за платную стену. Сохраняя страницы и зеркала заранее, вы перестаёте зависеть от чужих дата-центров и нестабильных Wi-Fi. Выберите инструмент под задачу, выделите вечер на настройку автоматизации — и спите спокойно: нужные инструкции, документация и любимые статьи останутся под рукой, даже если Интернет решит сделать передышку.

сайт интернет офлайн копия
Alt text
Обращаем внимание, что все материалы в этом блоге представляют личное мнение их авторов. Редакция SecurityLab.ru не несет ответственности за точность, полноту и достоверность опубликованных данных. Вся информация предоставлена «как есть» и может не соответствовать официальной позиции компании.

Присоединяйся к сообществу ИБ-специалистов

Обменивайся опытом, решай реальные задачи и прокачивай навыки вместе с экспертами на Standoff Defend*.

*Защищать. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887


Комнатный Блогер

Объясняю новую цифровую реальность