Параметры рекурсивной загрузки

-r
--recursive
    Включить рекурсивную загрузку.
-l depth
--level=depth
    Максимальная глубина рекурсивной загрузки depth. По умолчанию ее значение равно 5.
--delete-after
    Удалять каждую страницу (локально) после ее загрузки. Используется для сохранения новых версий часто запрашиваемых страниц на прокси. Например:

            wget -r -nd --delete-after http://whatever.com/~popular/page/


    Параметр -r включает загрузку по умолчанию, параметр -nd отключает создание папок.

    При указанном параметре --delete-after будет игнорироваться параметр --convert-links.
-k
--convert-links
    После завершения загрузки конвертировать ссылки в документе для просмотра в автономном режиме. Это касается не только видимых ссылок на другие документы, а ссылок на все внешние локальные файлы.

    Каждая ссылка изменяется одним из двух способов:

        *
            Ссылки на файлы, загруженные Wget изменяются на соответствующие относительные ссылки.

            Например: если загруженный файл /foo/doc.html, то ссылка на также загруженный файл /bar/img.gif будет выглядеть, как ../bar/img.gif. Этот способ работает, если есть видимое соотношение между папками одного и другого файла.
        *
            Ссылки на файлы, не загруженные Wget будут изменены на абсолютные адреса этих файлов на удаленном сервере.

            Например: если загруженный файл /foo/doc.html содержит ссылку на /bar/img.gif (или на ../bar/img.gif), то ссылка в файле doc.html изменится на http://host/bar/img.gif.

        Благодаря этому, возможен автономный просмотр сайта и файлов: если загружен файл, на который есть ссылка, то ссылка будет указывать на него, если нет - то ссылка будет указывать на его адрес в интернет (если такой существует). При конвертировании используются относительные ссылки, значит вы сможете переносить загруженный сайт в другую папку, не меняя его структуру.

        Только после завершения загрузки Wget знает, какие файлы были загружены. Следовательно, при параметре -k конвертация произойдет только по завершении загрузки.

-K
--backup-converted
    Конвертировать ссылки обратно - убирать расширение .orig. Изменяет поведение опции -N.
-m
--mirror
    Включить параметры для зеркального хранения сайтов. Этот параметр равен нескольким параметрам: -r -N -l inf -nr. Для неприхотливого хранения зеркальных копий сайтов вы можете использовать данный параметр.
-p
--page-requisites
    Загружать все файлы, которые нужны для отображения страниц HTML. Например: рисунки, звук, каскадные стили.

    По умолчанию такие файлы не загружаются. Параметры -r и -l, указанные вместе могут помочь, но т.к. Wget не различает внешние и внутренние документы, то нет гарантии, что загрузится все требуемое.

    Например, 1.html содержит тег "<IMG>", со ссылкой на 1.gif, и тег "<A>", ссылающийся на внешний документ 2.html. Страница 2.html аналогична, но ее рисунок - 2.gif и ссылается она на 3.html. Скажем, это продолжается до определенного числа.

    Если будет дана команда:

            wget -r -l 2 http://I<site>/1.html



    то 1.html, 1.gif, 2.html, 2.gif и 3.html загрузятся. Как видим, 3.html без 3.gif, т.к. Wget просто считает число прыжков, по которым он перешел, доходит до 2 и останавливается. А при параметрах:

            wget -r -l 2 -p http://I<site>/1.html



    Все файлы и рисунок 3.gif страницы 3.html загрузятся. Аналогично

            wget -r -l 1 -p http://I<site>/1.html



    приведет к загрузке 1.html, 1.gif, 2.html и 2.gif. Чтобы загрузить одну указанную страницу HTML со всеми ее элементами, просто не указывайте -r и -l:

            wget -p http://I<site>/1.html



    При этом Wget будет себя вести, как при параметре -r, но будут загружены страница и ее вспомогательные файлы. Если вы хотите, чтобы вспомогательные файлы на других серверах (т.е. через абсолютные ссылки) были загружены, используйте:

            wget -E -H -k -K -p http://I<site>/I<document>


    И в завершении, нужно сказать, что для Wget внешняя ссылка - это URL, указанный в тегах "<A>", "<AREA>" и "<LINK>", кроме "<LINK REL="stylesheet">".

 
Параметры запрета/разрешения рекурсивной загрузки

-A acclist --accept acclist
-R rejlist --reject rejlist
    Список имен файлов, разделенных запятыми, которые следует или не следует загружать. Разрешается задание имен файлов по маске.
-D domain-list
--domains=domain-list
    Список доменов domain-list, с которых разрешено загружать файлы. Разделяется запятыми. Этот параметр не включает -H.
--exclude-domains domain-list
    Список доменов, с которых не разрешено загружать файлы
--follow-ftp
    Следовать по ссылкам FTP с HTML страниц. Иначе, ссылки на файлы по протоколу FTP игнорируются.
--follow-tags=list
    Wget имеет встроенную таблицу тегов HTML, в которых он ищет ссылки на другие файлы. Вы можете указать дополнительные теги в разделенном запятыми списке list в этом параметре.
-G list
--ignore-tags=list
    Обратно --follow-tags. Для пропуска тегов HTML при рекурсивной загрузке, укажите их в разделенном запятыми списке list.

    Раньше параметр -G был лучшим для загрузки отдельных страниц с их вспомогательными файлами. Вы можете посмотреть, как это было, указав команду

            wget -Ga,area -H -k -K -r http://I<site>/I<document>


    Но теперь лучшим параметром для загрузки одной страницы полностью считается --page-requisites.
-H
--span-hosts
    Разрешает посещать любые сервера, на которые есть ссылка.
-L
--relative
    Следовать только по относительным ссылкам. При этом параметре файлы с других серверов точно не будут загружаться.
-I list
--include-directories=list
    Список папок, разделенных запятыми, из которых разрешено загружать файлы. Элементы списка list могут содержать символы масок.
-X list
--exclude-directories=list
    Список папок, разделенных запятыми, исключаемых для загрузки (см. Ограничение по папкам). Элементы списка list могут содержать символы масок.
-np
--no-parent
    Не подниматься выше начального адреса при рекурсивной загрузке.

plants