Re: Jeszcze jedno pytanko

Autor: Zbigniew S. Borowiec (borowiec_at_rpw.dec.com)
Data: Thu 20 Feb 1997 - 14:36:26 MET


Marek Bednarczyk wrote:
>
> Czy ostatnie "crawlowanie" po naszym serwerze nie wplynelo
> przypadkiem na nasz rachunek w NASKU'u (placimy za pakiety) ?
Niestety, na sposob rozliczania nie mam wplywu. AltaVista sciagnela mam
nadzieje wszystkie strony (do ktorych sa linki w strukturze dokumentow
na serwerze oczywiscie) i teraz co jakis czas powinna sprawdzac i
sciagac tylko te strony, ktore sie zmienily lub powstaly od ostatniej
wizyty. Problemy sa, gdy strony generuje serwer dynamicznie, gdyz wtedy
za kazdym razem sa one dla niego nowe. Jedyne rozwiazanie, co do ktorego
prawo i techniczna mozliwosc ma administrator serwera jest umieszczenie
w pliku robots.txt informacji zakazujacej indekserowi sciagania czesci
lub calego drzewa dokumentow. Wtedy za kazdym razem indekser po
sciagnieciu robots.txt (tego nie da sie ominac :) ) kontynuowal by
operacje wg zezwolenia tam umieszczonego.

Generalnie problem sprowadza sie do tego czy:
a) administrator chce by jego serwer byl przeindeksowany
b) jak czesto ma byc indeksowany - co godzine? (przesada zapcha lacza),
   czy co 4 tygodnie (ale wtedy dane sa nieaktualne)

Uwaga, ze AltaVista.digital.com zachowuje sie mniej natretnie to nie
roznice w oprogramowaniu, ale realnej sytuacji. Po pierwsze tam pelny
cykl trwa kilka tygodni, wiec przy braku mozliwosci dostepu do serwera
mozna ponowic probe powiedzmy za dwa dni, a po drugie lacze USA-Polska
jest .... wiec duza altavista zaindeksowala okolo 250 000 stron z
Polski, a jej lokalna kopia ponad 500 000 ....

Idea testu, ktory jest przeprowadzany jest po pierwsze zobaczenie jakie
zasoby sa w tej chwili do przeindeksowania - z tego powodu agresywnosc
altavista.tpnet.pl w pierwszym tygodniu, oraz zebranie tych nie
technicznych uwag od wszystkich administratorow sieci np. dotyczacych
problemow z obciazeniami laczy itp, tak by zaprojektowac uzyteczna dla
wszystkich, ale nie czyims kosztem usluge. Moze sie myle, ale moje
wrazenie jest takie, iz dwie uwagi odnosnie zachowania sie
altavista.tpnet.pl po tygodniu pracy w najbardziej agresywnym ustawieniu
indeksera na 1700 serwerow i ponad 500 000 roznych stron
przeindeksowanych nie sa duza liczba i albo potwierdzaja prawidlowosc
rozwiazan software scootera, lub swiadcza o nadzwyczajnej cierpliwosci
administratorow:)

A moze sa inne powody?

rgds/
   /zsb



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:02:52 MET DST