HTTP hat nicht wirklich eine Vorstellung von Verzeichnissen. Die Schrägstriche außer den ersten drei (http://example.com/
) haben keine besondere Bedeutung, außer in Bezug auf ..
in relativen URLs. Wenn der Server also nicht einem bestimmten Format folgt, gibt es keine Möglichkeit, “alle Dateien im angegebenen Verzeichnis herunterzuladen”.
Wenn Sie die ganze Seite herunterladen wollen, ist es am besten, alle Links auf der Hauptseite rekursiv zu durchlaufen. Curl kann das nicht, aber wget schon. Das funktioniert, wenn die Website nicht zu dynamisch ist (insbesondere sieht wget keine Links, die durch Javascript-Code aufgebaut sind). Beginnen Sie mit wget -r http://example.com/
, und schauen Sie unter “Recursive Retrieval Options” und “Recursive Accept/Reject Options” im wget-Handbuch nach weiteren relevanten Optionen (Rekursionstiefe, Ausschlusslisten, etc.).
Wenn die Website versucht, automatische Downloads zu blockieren, müssen Sie möglicherweise die Zeichenkette des Benutzeragenten (-U Mozilla
) ändern und robots.txt
ignorieren (erstellen Sie eine leere Datei example.com/robots.txt
und verwenden Sie die Option -nc
, damit wget nicht versucht, sie vom Server herunterzuladen).