Инструменты пользователя

Инструменты сайта

Загрузка не удалась. Возможно, проблемы с правами доступа?

linux:wget

Wget: консольное скачивание

Для того, чтобы что-то откуда-то скачать, используется команда wget.
Типичное использование:

wget -P /path/to/save http://site.com/file.zip

или

wget -P /path/to/save http://site.com/page.html

Подробнее: http://proft.me/2013/08/17/spravochnik-po-komandam-wget-i-curl/
Смотри также: Linux - команда curl


Скачать сайт целиком

wget -r -k -l 7 -p -E -nc http://site.com/

После выполнения данной команды в директорию site.com будет загружена локальная копия сайта http://site.com. Чтобы открыть главную страницу сайта нужно открыть файл index.html.

Рассмотрим используемые параметры:

  • -r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.
  • -k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).
  • -p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
  • -l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.
  • -E — добавлять к загруженным файлам расширение .html.
  • -nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.

Отсюда: http://pingvinus.ru/note/wget-download-sites

WGET и авторизация

Для того, чтобы скачать что-то, что под авторизацией, необходимо использовать:

wget -p -k --post-data="u=%%USER%%&p=%%PASSWORD%%" --save-cookies=file http://site

При этом –post-data=«u=USER&p=PASSWORD» - вот тут u и p - это имена параметров из формы сайта.

linux/wget.txt · Последние изменения: 2024/06/21 09:36 (внешнее изменение)