AltaVista i inne przeszukiwarki

Autor: Zbigniew S. Borowiec (borowiec_at_rpw.dec.com)
Data: Wed 05 Feb 1997 - 15:40:15 MET


Jako nowa w tym momencie (ale nie w polskim Internecie) osoba zacznę od
przedstawienia się.

Być może ktoś jeszcze pamięta mnie jako pracownika UCO Politechniki
Poznańskiej, mimo iż od pięciu lat pracuję w Digital Equipment Polska.
Jako osoba z firmy, która jest zamieszana w sprawę AltaVisty czuję się
"wezwany do tablicy" :) a zarazem chciałbym zasięgnąć Waszej opinii w
sprawach oczekiwań co do takiej usługi jak AltaVista.

Jeśli chodzi o problemy ogółne związane z indekserami, w październiku
zeszłego roku na jednym ze spotkań firmowych miałem przyjemność
podyskutować sam na sam przez ponad dwie godziny z jednym z "ojców"
AltaVisty. Była to naprawdę bardzo przyjemna i porywająca rozmowa, ale
dość beletrystyki.

Zadałem mu pytania, które można zsumować do następującego: AltaVista
BYŁA największym indekserem, ale teraz pojawił się między innymi HotBot,
który chwali się większą liczbą zindeksowanych stron, czy to znaczy że
oddajemy pole?

W odpowiedzi usłyszałem, że nie sztuka chwalić się większą liczbą stron
jeśli:

a) liczy się strony zduplikowane - standard serwer z nazwą i aliasem ...
b) ignoruje się plik robots.txt i ładuje się wszystko co jest na
serwerze
c) nie przejmuje się zajętym pasmem i indekser wywalcza sobie prawie
wyłączność na korzystanie z "poddanego obróbce" serwera.

Druga sprawa to fakt, iż taki serwis wymaga obsługi 24 godz na dobę z
pełnymi konsekwencjami tego faktu.

Serwis AltaVista w PaloAlto startował w 1995 roku w grudniu z
pojedyńczej maszyny z czterema (zdaje się) procesorami. Pierwsze dni to
około 300 000 zapytań, ale dodatkowe procesory trzeba było dodać już w
czwartym dniu. Obecnie jest to 10 maszyn po 10 procesorów, 6GB RAM i 40
GB dysków każda, lecz oprócz tego uruchomiono mirrory w szwecji,
Australii, a teraz kolej na Azję .... To tyle wielkich liczb.

W czasie Komputer Expo ustawiłem na targach maszynę, która wyposażona
była w "mniejszą" wersję software'u AltaVista Search. Maszyna była
połączona do Internetu poprzez Polpak-T (64Kbps). W ciągu jednego dnia
startując z http://www.tpsa.pl i http://www.nask.org.pl znalazła,
sciągnęła i zaindeksowała około 115 000 stron na około 1300 serwerach
(statystyka pokazywała około 4 strony na sekundę i około 22 000 bajty na
sekundę) przy wszystkich ograniczeniach jakie opisałem powyżej. Pytanie
o strony w Polsce zadane do altavista.digital.com dały odpowiedź, że
takich stron jest około 100 000, a więc umieszczenie indeksera lokalnie
dało dość wymierny zysk.

Następny krok, to lokalizacja takiego serwisu. Lokalizacja to nie tylko
polonizacja interfejsu, ale i polskei znaki w zapytaniu itp. problemy
jakie już widziałem, że są dyskutowane na tej liście. Napewno są jakieś
inne przemyślenia, uwagi będę za nie wdzięczny próbując z ludźmi z
AltaVisty podjąć się spełnienia waszych oczekiwań.

I na zakończenie, oprócz prób ustalenia jednak pojedyńczego standardu
kodowania stron ISO-8859-2 mimo, iż jakoś nie ma zwolenników jednak
powinno w końcu zastąpić strony przekodowywane na 6 sposobów, co
sądzicie na temat katalogowania stron na podstawie metainformacji
zawartej na stronach - patrz projekt Harvest?

Jęśli znajdziecie w tekście błędy, proszę nie zasypcie mojej skrzynki
pocztowej uwagami o ortografii i interpunkcji :) Prawdę powiedziawszy
starałem się napisać coś w miarę kompletnego, lecz nie zdążyłem tego
zweryfikować od tej strony za co głośno biję się w piersi (niestety nie
dołączyłem pliku .wav z tym dźwiękiem :) )

Zbyszek



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:02:26 MET DST