Re: Sciaganie calej zawartosci strony www

Autor: Sniper (sniper10000_at_NO_SPAM.poczta.onet.pl)
Data: Wed 03 Sep 2003 - 12:25:24 MET DST


Użytkowniczka "monia" napisała:

> proszę o podpórki

Eeech, no dobra. Wyjątkowo mogę to zrobić.
Zakładam, że znasz adres strony i chcesz ściągnąć z niej same obrazki.
Dokumenty HTML też się ściągną, bo program dokonuje ich analizy w
poszukiwaniu linków.

Kolejność konfiguracji celowo zmieniona:

Project -> New Project

General -> Project Mode
 [*] Download for Offline Browsing

General -> Start Data Options
 [*] Use Username / Password
 Username - tu wpisujesz login, jeśli znasz
 Password - tu wpisujesz hasło, jeśli znasz

 URL: - tu podajesz adres strony, którą chcesz ściągać
 Destination Directory: - tu podajesz katalog, w którym chcesz zapisywać
ściągane dane

Filters -> File Extensions
 Proponuję dodać rozszerzenie .gif - zapobiegnie to ściąganiu bannerów

Filters -> Limits
 [*] Minimum filesize - jeżeli na stronie znajdują się miniaturki dużych
obrazków, to wpisujesz tutaj minimalną wielkość pliku, jaki ma być ściągany,
np. 10-12 KB. Dzięki temu oszczędzisz dużo czasu i niepotrzebnych śmieci.

General -> Scope
 To najważniejsza zakładka, bo od jej prawidłowych ustawień zależy, czy
ściągniesz tylko to co cię interesuje, czy również 100 tysięcy innych stron
aż do chwili, gdy komputer zawiesi się odmawiając możliwości obrobienia
takiej ilości danych. Dlatego najpierw musisz chwilę pobuszować po stronie w
przeglądarce, żeby zobaczyć jak wygląda jej struktura. Najeżdżasz kursorem
na miniaturki obrazków i patrzysz, dokąd prowadzą linki. Zawsze zaczynasz od
minimalnych ustawień, tak by program miał narzucone jak największe
ograniczenia na zakres poszukiwań.

[ ] Stay in the directory of the first URL - zaznaczasz, jeśli wszystkie
linki znajdują się w tym samym katalogu
[ ] Stay in the server of the first URL - zaznaczasz, jeśli linki prowadzą
poza obręb danego katalogu, ale są na tym samym serwerze
[*] Stay in the domain of the first URL - zaznaczasz, jeśli linki są na
wielu serwerach w tej samej domenie

[*] Follow external links - w większości przypadków trzeba będzie zaznaczyć,
bo zdjęcia zwykle są przechowywane na wielu różnych serwerach
[*] Only follow links to a certain depth [1] - zaznacz koniecznie, jeśli nie
chcesz aby program się zapętlił w nieskończoność. W większości przypadków
jeśli program zagłębi się dalej niż jeden link, wkrótce znajdzie setki
tysięcy nowych stron do ściągnięcia.
[*] Load external pictures - również bardzo ważna opcja. Program może szukać
strony tylko w jednym katalogu, ale obrazki zaciągać z dowolnych miejsc.

Z tymi wszystkimi opcjami musisz trochę poeksperymentować. Odrobina wprawy i
rezultaty są naprawdę niezłe.

--
Pozdrawiam,
Sniper


To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 11:08:14 MET DST