2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Herunterladen ALLER Ordner, Unterordner und Dateien mit Wget

Ich habe Wget verwendet und bin auf ein Problem gestoßen. Ich habe eine Website, die mehrere Ordner und Unterordner innerhalb der Website hat. Ich muss alle Inhalte in jedem Ordner und Unterordner herunterladen. Ich habe verschiedene Methoden mit Wget ausprobiert, und wenn ich die Fertigstellung überprüfe, kann ich in den Ordnern nur eine “Index”-Datei sehen. Ich kann auf die Indexdatei klicken, und sie bringt mich zu den Dateien, aber ich brauche die tatsächlichen Dateien.

hat jemand einen Befehl für Wget, den ich übersehen habe, oder gibt es ein anderes Programm, das ich verwenden könnte, um alle diese Informationen zu erhalten?

site example:

www.mysite.com/Pictures/ innerhalb der Pictures DIr gibt es mehrere Ordner…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North Amerika/Kalifornien/JoeUser.jpg

Ich brauche alle Dateien, Ordner, etc…..

Antworten (3)

38
38
38
2013-10-07 16:23:25 +0000

Ich möchte annehmen, dass Sie dies nicht versucht haben:

wget -r --no-parent http://www.mysite.com/Pictures/

oder um den Inhalt abzurufen, ohne die “index.html”-Dateien herunterzuladen:

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Referenz: Verwenden von wget, um rekursiv ein Verzeichnis mit beliebigen Dateien darin zu holen

20
20
20
2014-12-20 09:22:17 +0000

Ich verwende wget -rkpN -e robots=off http://www.example.com/

-r bedeutet rekursiv

-k bedeutet Links konvertieren. Also werden die Links auf der Webseite localhost statt example.com/bla sein

-p bedeutet, alle Webseiten-Ressourcen zu erhalten, also Bilder und Javascript-Dateien zu erhalten, damit die Webseite richtig funktioniert.

-N bedeutet, Zeitstempel abzurufen, so dass lokale Dateien übersprungen werden, wenn sie neuer sind als die Dateien auf der entfernten Website.

-e ist eine Flag-Option, die vorhanden sein muss, damit das robots=off funktioniert.

robots=off bedeutet Robots-Datei ignorieren.

Ich hatte auch -c in diesem Befehl, so dass, wenn die Verbindung unterbrochen wird, die Verbindung dort fortgesetzt wird, wo sie aufgehört hat, wenn ich den Befehl erneut ausführe. Ich dachte mir, -N würde gut zu -c passen.

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A * -pk -e robots=off www.mysite.com/ Dies lädt alle Arten von Dateien lokal herunter und verweist auf sie von der html-Datei und es ignoriert die robots-Datei