Параметры рекурсивной загрузки
-r
--recursive
Включить рекурсивную загрузку.
-l depth
--level=depth
Максимальная глубина рекурсивной загрузки depth. По умолчанию ее значение равно 5.
--delete-after
Удалять каждую страницу (локально) после ее загрузки. Используется для сохранения новых версий часто запрашиваемых страниц на прокси. Например:
wget -r -nd --delete-after http://whatever.com/~popular/page/
Параметр -r включает загрузку по умолчанию, параметр -nd отключает создание папок.
При указанном параметре --delete-after будет игнорироваться параметр --convert-links.
-k
--convert-links
После завершения загрузки конвертировать ссылки в документе для просмотра в автономном режиме. Это касается не только видимых ссылок на другие документы, а ссылок на все внешние локальные файлы.
Каждая ссылка изменяется одним из двух способов:
*
Ссылки на файлы, загруженные Wget изменяются на соответствующие относительные ссылки.
Например: если загруженный файл /foo/doc.html, то ссылка на также загруженный файл /bar/img.gif будет выглядеть, как ../bar/img.gif. Этот способ работает, если есть видимое соотношение между папками одного и другого файла.
*
Ссылки на файлы, не загруженные Wget будут изменены на абсолютные адреса этих файлов на удаленном сервере.
Например: если загруженный файл /foo/doc.html содержит ссылку на /bar/img.gif (или на ../bar/img.gif), то ссылка в файле doc.html изменится на http://host/bar/img.gif.
Благодаря этому, возможен автономный просмотр сайта и файлов: если загружен файл, на который есть ссылка, то ссылка будет указывать на него, если нет - то ссылка будет указывать на его адрес в интернет (если такой существует). При конвертировании используются относительные ссылки, значит вы сможете переносить загруженный сайт в другую папку, не меняя его структуру.
Только после завершения загрузки Wget знает, какие файлы были загружены. Следовательно, при параметре -k конвертация произойдет только по завершении загрузки.
-K
--backup-converted
Конвертировать ссылки обратно - убирать расширение .orig. Изменяет поведение опции -N.
-m
--mirror
Включить параметры для зеркального хранения сайтов. Этот параметр равен нескольким параметрам: -r -N -l inf -nr. Для неприхотливого хранения зеркальных копий сайтов вы можете использовать данный параметр.
-p
--page-requisites
Загружать все файлы, которые нужны для отображения страниц HTML. Например: рисунки, звук, каскадные стили.
По умолчанию такие файлы не загружаются. Параметры -r и -l, указанные вместе могут помочь, но т.к. Wget не различает внешние и внутренние документы, то нет гарантии, что загрузится все требуемое.
Например, 1.html содержит тег "<IMG>", со ссылкой на 1.gif, и тег "<A>", ссылающийся на внешний документ 2.html. Страница 2.html аналогична, но ее рисунок - 2.gif и ссылается она на 3.html. Скажем, это продолжается до определенного числа.
Если будет дана команда:
wget -r -l 2 http://I<site>/1.html
то 1.html, 1.gif, 2.html, 2.gif и 3.html загрузятся. Как видим, 3.html без 3.gif, т.к. Wget просто считает число прыжков, по которым он перешел, доходит до 2 и останавливается. А при параметрах:
wget -r -l 2 -p http://I<site>/1.html
Все файлы и рисунок 3.gif страницы 3.html загрузятся. Аналогично
wget -r -l 1 -p http://I<site>/1.html
приведет к загрузке 1.html, 1.gif, 2.html и 2.gif. Чтобы загрузить одну указанную страницу HTML со всеми ее элементами, просто не указывайте -r и -l:
wget -p http://I<site>/1.html
При этом Wget будет себя вести, как при параметре -r, но будут загружены страница и ее вспомогательные файлы. Если вы хотите, чтобы вспомогательные файлы на других серверах (т.е. через абсолютные ссылки) были загружены, используйте:
wget -E -H -k -K -p http://I<site>/I<document>
И в завершении, нужно сказать, что для Wget внешняя ссылка - это URL, указанный в тегах "<A>", "<AREA>" и "<LINK>", кроме "<LINK REL="stylesheet">".
Параметры запрета/разрешения рекурсивной загрузки
-A acclist --accept acclist
-R rejlist --reject rejlist
Список имен файлов, разделенных запятыми, которые следует или не следует загружать. Разрешается задание имен файлов по маске.
-D domain-list
--domains=domain-list
Список доменов domain-list, с которых разрешено загружать файлы. Разделяется запятыми. Этот параметр не включает -H.
--exclude-domains domain-list
Список доменов, с которых не разрешено загружать файлы
--follow-ftp
Следовать по ссылкам FTP с HTML страниц. Иначе, ссылки на файлы по протоколу FTP игнорируются.
--follow-tags=list
Wget имеет встроенную таблицу тегов HTML, в которых он ищет ссылки на другие файлы. Вы можете указать дополнительные теги в разделенном запятыми списке list в этом параметре.
-G list
--ignore-tags=list
Обратно --follow-tags. Для пропуска тегов HTML при рекурсивной загрузке, укажите их в разделенном запятыми списке list.
Раньше параметр -G был лучшим для загрузки отдельных страниц с их вспомогательными файлами. Вы можете посмотреть, как это было, указав команду
wget -Ga,area -H -k -K -r http://I<site>/I<document>
Но теперь лучшим параметром для загрузки одной страницы полностью считается --page-requisites.
-H
--span-hosts
Разрешает посещать любые сервера, на которые есть ссылка.
-L
--relative
Следовать только по относительным ссылкам. При этом параметре файлы с других серверов точно не будут загружаться.
-I list
--include-directories=list
Список папок, разделенных запятыми, из которых разрешено загружать файлы. Элементы списка list могут содержать символы масок.
-X list
--exclude-directories=list
Список папок, разделенных запятыми, исключаемых для загрузки (см. Ограничение по папкам). Элементы списка list могут содержать символы масок.
-np
--no-parent
Не подниматься выше начального адреса при рекурсивной загрузке.

Последние обновления: